トップ :: G 物理学 :: G10 楽器;音響




【発明の名称】 音声認識を用いた機器制御方法および音声認識を用いた機器制御システム
【発明者】 【氏名】宮沢 康永

【要約】 【課題】音声コマンドにより制御可能な機器が限られた空間内に複数存在する場合、それらの機器の制御を効率よく正確に行う。

【解決手段】1つの部屋1内に存在する音声コマンドにより制御可能な複数の機器(エアコン2、TV3、音響機器4など)と、これらの機器の制御が可能であるとともにそれぞれの機器が個々に有する情報の処理が可能である機器制御手段11とを内部ネットワーク10に接続し、それぞれの機器同志またはそれぞれの機器と機器制御手段11との間で相互に情報の交換を可能とし、ユーザからの音声コマンドに対し、それぞれの機器同志またはそれぞれの機器と機器制御手段11との間で相互に情報の交換を行いながら音声認識して、当該音声コマンドによって動作すべき機器の動作制御を行う。また、機器制御手段11は外部ネットワーク12にも接続可能とし、外部からの指令を受け取って機器の制御をも可能とする。
【特許請求の範囲】
【請求項1】 音声コマンドによって動作制御可能な複数の機器が限られた空間内に存在し、これらの機器のいずれかに対し音声コマンドを与えることで、その音声コマンドの与えられた機器がその音声コマンドに応じた所定の動作制御をなす音声認識を用いた機器制御方法において、前記複数の機器と、これらの機器の制御が可能であるとともにそれぞれの機器が個々に有する情報の処理が可能である機器制御手段とをネットワークに接続し、それぞれの機器が個々に有する情報をそれぞれの機器間またはそれぞれの機器と機器制御手段間で相互に交換可能とし、ユーザの発話する音声コマンドに対し、相互に情報の交換を行いながら音声認識して、当該音声コマンドによって動作すべき機器の動作制御を行うことを特徴とする音声認識を用いた機器制御方法。
【請求項2】 前記相互に交換し合う情報は、少なくとも、それぞれの機器を識別するための機器識別情報、それぞれの機器が収集した雑音情報を含むことを特徴とする請求項1記載の音声認識を用いた機器制御方法。
【請求項3】 前記認識結果に応じた機器の動作制御を行うまでの処理として、少なくとも、前記それぞれの機器を識別するための機器識別情報を前記ネットワークを介して取得して、当該ネットワーク上に存在する機器を認知する処理と、それぞれ機器の位置関係の測定を行う処理と、それぞれの機器の位置関係に基づき、入力された音声コマンドがどの機器に対して発せられたか否かを判定するとともに、その音声コマンドに対する認識処理を行う処理と、その認識結果に基づいて当該音声コマンドにより動作すべき機器の動作制御を行う処理とが存在し、これらの各処理のうち少なくとも1つを前記機器制御手段が行うことを特徴とする請求項2記載の音声認識を用いた機器制御方法。
【請求項4】 前記音声コマンドに対する音声認識処理は、音声コマンドに重畳される雑音除去処理が含まれ、その雑音除去処理は、前記それぞれの機器が収集した雑音情報を用いて、音声コマンドに重畳する雑音の除去を行って音声認識を行うことを特徴とする請求項2または3記載の音声認識を用いた機器制御方法。
【請求項5】 前記音声コマンドに重畳する雑音は、機器の定常的な運転音や環境上に定常的に存在する定常音と、ネットワークに接続されている機器が動作することによって発する音声や音楽などの音であり、前記定常音については、それぞれの機器が定常的雑音情報として取得するとともに、取得した定常的雑音情報をそれぞれの機器と前記機器制御手段の少なくとも一方で保存し、音声認識を行う際は、その定常的雑音情報を音声コマンドから除去して音声認識を行い、前記音声や音楽などの音については、それを発する機器がリアルタイムでその音を雑音情報として取得するとともに、ネットワークに接続されている他の機器と前記機器制御手段の少なくとも一方がその雑音情報をリアルタイムで取得可能とし、音声認識を行う際は、その雑音情報を音声コマンドから除去して音声認識を行う、ことを特徴とする請求項4記載の音声認識を用いた機器制御方法。
【請求項6】 前記機器制御手段は、外部のネットワークにも接続され、外部から音声による指令を受けることで、前記複数の機器の中でその指令対象となる機器を制御可能とすることを特徴とする請求項1から5のいずれかに記載の音声認識を用いた機器制御方法。
【請求項7】 音声コマンドによって動作制御可能な複数の機器が限られた空間内に存在し、これらの機器のいずれかに対し音声コマンドを与えることで、その音声コマンドの与えられた機器がその音声コマンドに応じた所定の動作制御をなす音声認識を用いた機器制御システムおいて、前記複数の機器と、これらの機器の制御が可能であるとともにそれぞれの機器が個々に有する情報の処理が可能である機器制御手段とをネットワークに接続してなり、前記複数の機器は、その機器がもともと有する機器動作部と、この機器動作部の動作状態の設定を行うユーザ操作部と、少なくとも音声コマンドの入力機能と前記機器制御手段との情報交換機能と前記機器動作部を制御する機能とを有する機器動作制御部と、ネットワークに自己の機器を接続するためのネットワーク接続部とを有し、それぞれの機器が個々に有する情報をそれぞれの機器間またはそれぞれの機器と機器制御手段間で相互に交換可能とし、ユーザの発話する音声コマンドに対し、相互に情報の交換を行いながら音声認識して、当該音声コマンドによって動作すべき機器の動作制御を行うことを特徴とする音声認識を用いた機器制御システム。
【請求項8】 前記相互に交換し合う情報は、少なくとも、それぞれの機器を識別するための機器識別情報、それぞれの機器が収集した雑音情報を含むことを特徴とする請求項7記載の音声認識を用いた機器制御システム。
【請求項9】 前記認識結果に応じた機器の動作制御を行うまでの処理として、少なくとも、前記それぞれの機器を識別するための機器識別情報を前記ネットワークを介して取得して、当該ネットワーク上に存在する機器を認知する処理と、それぞれ機器の位置関係の測定を行う処理と、それぞれの機器の位置関係に基づき、入力された音声コマンドがどの機器に対して発せられたか否かを判定するとともに、その音声コマンドに対する認識処理を行う処理と、その認識結果に基づいて当該音声コマンドにより動作すべき機器の動作制御を行う処理とが存在し、これらの各処理のうち少なくとも1つを前記機器制御手段が行うことを特徴とする請求項8記載の音声認識を用いた機器制御システム。
【請求項10】 前記音声コマンドに対する音声認識処理は、音声コマンドに重畳される雑音除去処理が含まれ、その雑音除去処理は、前記それぞれの機器が収集した雑音情報を用いて、音声コマンドに重畳する雑音の除去を行って音声認識を行うことを特徴とする請求項8または9記載の音声認識を用いた機器制御システム。
【請求項11】 前記音声コマンドに重畳する雑音は、機器の定常的な運転音や環境上に定常的に存在する定常音と、ネットワークに接続されている機器が動作することによって発する音声や音楽などの音であり、前記定常音については、それぞれの機器が定常的雑音情報として取得するとともに、取得した定常的雑音情報をそれぞれの機器と前記機器制御手段の少なくとも一方で保存し、音声認識を行う際は、その定常的雑音情報を音声コマンドから除去して音声認識を行い、前記音声や音楽などの音については、それを発する機器がリアルタイムでその音を雑音情報として取得するとともに、ネットワークに接続されている他の機器と前記機器制御手段の少なくとも一方がその雑音情報をリアルタイムで取得可能とし、音声認識を行う際は、その雑音情報を音声コマンドから除去して音声認識を行う、ことを特徴とする請求項10記載の音声認識を用いた機器制御システム。
【請求項12】 前記機器制御手段は、外部のネットワークにも接続され、外部から音声による指令を受けることで、前記複数の機器の中でその指令対象となる機器を制御可能とすることを特徴とする請求項7から11のいずれかに記載の音声認識を用いた機器制御システム。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は、音声コマンドにより動作制御可能な機能を有する家庭電化製品などの機器が限られた空間内に複数存在し、それらの機器に対し、ユーザの発話する音声コマンドで動作制御を行わせる音声認識を用いた機器制御方法および音声認識を用いた機器制御システムに関する。
【0002】
【従来の技術】近年、半導体製品の高性能化や低価格化により、広い分野にマイクロコンピュータ(マイコンという)が使用されている。特に、家庭電化製品(家電製品という)には多くの製品にマイコンが使用され、ますます多機能・高性能化が進んでいる。
【0003】このように家電製品などにもマイコンが気軽に搭載できることから、この種の機器にも、従来ではあまり考えられなかった多様な機能を持たせることが容易になってきている。たとえば、音声認識機能や音声合成機能などがその一例であって、これら音声認識機能や音声合成機能を持たせることで、音声対話型のユーザインタフェース機能を持った機器が種々考えられてきている。これは、家電製品以外においても同様のことが言える。
【0004】
【発明が解決しようとする課題】このような音声対話型のユーザインタフェース機能を持った機器が、ある限られた空間内に複数存在している状況を考える。図5は1つの限られた空間としてのある1つの部屋1内に、音声対話型のユーザインタフェース機能を持った機器として、エアコンディショナ(エアコンという)2とテレビジョン(TVという)3とステレオなどの音響機器4が存在している様子を示すものである。
【0005】このように、1つの部屋1に、複数の音声対話型のユーザインタフェース機能を持った機器が存在する場合、ユーザがたとえばエアコン2に対して何らかの動作を行わせるための音声コマンドを与えると、エアコン2がその音声コマンドを認識し、その認識結果に応じた動作をなすが、このとき、他の機器もその音声コマンドに対して音声認識動作を行い、誤動作を行うことがある。
【0006】仮りに、ユーザの発した音声コマンドが、エアコン2だけが認識可能な内容であって、TV3や音響機器4にとっては認識可能な内容ではなくても、TV3や音響機器4もその音声コマンドを認識しようとして音声認識動作を開始する場合があり、これによって、誤った認識を行って誤動作を行うことがある。特に、ユーザの与えた音声コマンドに対して、機器側から音声によって何らかの応答を行う音声対話機能を有する機器は、ユーザの与えた音声コマンドに対して全く関係のない応答がなされるなど色々な不具合が生じがちである。
【0007】そこで本発明は、音声コマンドにより動作制御可能な機能を持つ家電製品などの機器が限られた空間内に複数存在する場合、それぞれの機器がその機器としての独立した動作を行いながらも、ユーザからの音声コマンドに対して効率よく正確に音声認識が行えるようにすることで、誤認識やそれによる誤動作を回避でき、さらに、雑音除去などを機能的に行えるようにして適切な機器制御を可能とすることを目的としている。
【0008】
【課題を解決するための手段】上述の目的を達成するために、本発明の音声認識を用いた機器制御方法は、音声コマンドによって動作制御可能な複数の機器が限られた空間内に存在し、これらの機器のいずれかに対し音声コマンドを与えることで、その音声コマンドの与えられた機器がその音声コマンドに応じた所定の動作制御をなす音声認識を用いた機器制御方法において、前記複数の機器と、これらの機器の制御が可能であるとともにそれぞれの機器が個々に有する情報の処理が可能である機器制御手段とをネットワークに接続し、それぞれの機器が個々に有する情報をそれぞれの機器間またはそれぞれの機器と機器制御手段間で相互に交換可能とし、ユーザの発話する音声コマンドに対し、相互に情報の交換を行いながら音声認識して、当該音声コマンドによって動作すべき機器の動作制御を行うようにしている。
【0009】また、本発明の音声認識を用いた機器制御システムは、音声コマンドによって動作制御可能な複数の機器が限られた空間内に存在し、これらの機器のいずれかに対し音声コマンドを与えることで、その音声コマンドの与えられた機器がその音声コマンドに応じた所定の動作制御をなす音声認識を用いた機器制御システムおいて、前記複数の機器と、これらの機器の制御が可能であるとともにそれぞれの機器が個々に有する情報の処理が可能である機器制御手段とをネットワークに接続してなり、前記複数の機器は、その機器がもともと有する機器動作部と、この機器動作部の動作状態の設定を行うユーザ操作部と、少なくとも音声コマンドの入力機能と前記機器制御手段との情報交換機能と前記機器動作部を制御する機能とを有する機器動作制御部と、ネットワークに自己の機器を接続するためのネットワーク接続部とを有し、それぞれの機器が個々に有する情報をそれぞれの機器間またはそれぞれの機器と機器制御手段間で相互に交換可能とし、ユーザの発話する音声コマンドに対し、相互に情報の交換を行いながら音声認識して、当該音声コマンドによって動作すべき機器の動作制御を行うようにしている。
【0010】これら音声認識を用いた機器制御方法の発明および音声認識を用いた機器制御システムの発明において、前記相互に交換し合う情報は、少なくとも、それぞれの機器を識別するための機器識別情報、それぞれの機器が収集した雑音情報を含むものである。
【0011】そして、前記認識結果に応じた機器の動作制御を行うまでの処理として、少なくとも、前記それぞれの機器を識別するための機器識別情報を前記ネットワークを介して取得して、当該ネットワーク上に存在する機器を認知する処理と、それぞれ機器の位置関係の測定を行う処理と、それぞれの機器の位置関係に基づき、入力された音声コマンドがどの機器に対して発せられたか否かを判定するとともに、その音声コマンドに対する認識処理を行う処理と、その認識結果に基づいて当該音声コマンドにより動作すべき機器の動作制御を行う処理とが存在し、これらの各処理のうち少なくとも1つを前記機器制御手段が行うようにしている。
【0012】ここで、前記音声コマンドに対する音声認識処理は、音声コマンドに重畳される雑音除去処理が含まれ、その雑音除去処理は、前記それぞれの機器が収集した雑音情報を用いて、音声コマンドに重畳する雑音の除去を行って音声認識を行うようにしている。
【0013】なお、前記音声コマンドに重畳する雑音は、機器の定常的な運転音や環境上に定常的に存在する定常音と、ネットワークに接続されている機器が動作することによって発する音声や音楽などの音であり、前記定常音については、それぞれの機器が定常的雑音情報として取得するとともに、取得した定常的雑音情報をそれぞれの機器と前記機器制御手段の少なくとも一方で保存し、音声認識を行う際は、その定常的雑音情報を音声コマンドから除去して音声認識を行い、前記音声や音楽などの音については、それを発する機器がリアルタイムでその音を雑音情報として取得するとともに、ネットワークに接続されている他の機器と前記機器制御手段の少なくとも一方がその雑音情報をリアルタイムで取得可能とし、音声認識を行う際は、その雑音情報を音声コマンドから除去して音声認識を行うようにする。
【0014】また、前記機器制御手段は、外部のネットワークにも接続され、外部から音声による指令を受けることで、前記複数の機器の中でその指令対象となる機器を制御可能としている。
【0015】このように本発明は、ユーザからの音声コマンドに対し、それぞれの機器同志またはそれぞれの機器と前記機器制御手段との間で相互に情報の交換を行いながら音声認識して、当該音声コマンドによって動作すべき機器の動作制御を行うようにしているので、従来のように、ユーザがある機器に対して発話した音声コマンドに対し、他の機器もその音声コマンドを認識する動作を行って、誤動作するといった不具合を未然に防止することができ、ユーザの意図した機器の動作制御を的確に行うことができる。
【0016】なお、上述したそれぞれの機器が個々に有する情報というのは、少なくとも、それぞれの機器を識別するための機器識別情報やそれぞれの機器が収集した雑音情報であり、機器識別情報によって、ネットワーク上にどのような機器が存在するかを知ることができ、機器間で音の送受信を行うなどして、その音の到達時間などから、それぞれの機器間の距離を求め、それに基づいて、それぞれの機器の位置関係を推定することができる。また、雑音情報はその雑音情報を収集した機器だけが持つのではなく、他の機器や機器制御手段もそれを共有することができるので、どの機器が音声コマンドの認識を行う場合であっても、音声コマンドに重畳した雑音情報を適切に除去した上で音声認識処理することができるので、高い認識率を得ることができる。
【0017】また、本発明が行う処理としては、少なくとも、ネットワーク上にどのような機器が存在するかを認知する処理と、それぞれ機器の位置関係の測定を行う処理と、ユーザの発話する音声コマンドがどの機器に対して発せられたか否かを判定するとともに、その音声コマンドに対する認識処理を行う処理と、その認識結果に基づいて制御対象機器の動作制御を行う処理とが存在し、これらの各処理のうち少なくとも1つを前記機器制御手段が行うようにしている。つまり、それぞれの機器の行う処理を機器制御手段が代わって行うことができるようにしているので、個々の機器の行うべき処理負担を軽減させることができる。
【0018】たとえば、これら各処理をすべて機器制御手段側で行わせることも可能であり、それによって、個々の機器が行うべき処理を大幅に軽減させることができる。このように、上述した各処理をすべて機器制御手段側が行うようにすることで、それぞれの機器が備えるべきハードウエア(本発明を実現する上で必要なハードウエア)を、最小限に留めることができ、個々の機器を安価なものとすることができる。また、機器制御手段はパーソナルコンピュータなどの高性能な情報処理機器を用いることができるので、個々の機器が有する情報処理手段に比べ、はるかに高度な情報処理能力を有し、繁雑な演算も高速処理が可能となる。
【0019】特に、音声認識機能を機器制御手段側に設けることによって、高性能な音声認識技術を搭載することも可能となり、認識可能単語の数を大幅に増やすこともでき、単語だけでなく連続音声をも高性能に認識するこも可能となる。さらに、高性能な音声合成も可能となるため、高度な対話型のユーザインタフェースが可能となり、多様な機器制御が可能となる。
【0020】また、本発明は音声コマンドに重畳される雑音除去についても考慮されている。たとえば、音声コマンドに重畳する雑音が環境上に定常的に存在する定常音(エアコンの運転音など)である場合には、予めその定常音を定常的雑音情報としてそれぞれの機器や機器制御手段で保存しておくことができるようにしている。これによって、音声コマンドに定常的雑音情報が重畳されていても、保存されている定常的雑音情報を読み出すことによって、音声コマンドからその定常的雑音情報を除去して音声認識を行うことができる。このように、定常的雑音情報が重畳された音声コマンドに対し、適切な雑音除去が行えるので、高い認識率を得ることができる。
【0021】また、前記音声コマンドに重畳する雑音がTVや音響機器の発する音声や音楽などである場合には、それを発する機器がリアルタイムでその音情報を雑音情報として取得するとともに、ネットワークに接続されている他の機器や機器制御手段もその雑音情報をネットワークを通じてリアルタイムで取得できるようにしている。
【0022】これによって、音声コマンドを認識する際は、その雑音情報を音声コマンドから除去して音声認識を行うようにする。このように、 TVや音響機器などの音が雑音として重畳された音声コマンドに対し、適切な雑音除去が行えるので、高い認識率を得ることができる。
【0023】また、機器制御手段は外部にネットワークに接続することも可能であるので、電話などを用いて外部から機器の制御も可能となり、さらに、インタネットの情報を取得して、それを機器制御に用いることも可能となるなど、機器制御のバリエーションを豊富なものとすることができる。
【0024】
【発明の実施の形態】以下、本発明の実施の形態について説明する。なお、この実施の形態で説明する内容は、本発明の音声認識を用いた機器制御方法および音声認識を用いた機器制御システムについての説明の両方を含むものである。
【0025】この実施の形態では、図5で説明したように、1つの居住空間1内に、音声対話型のユーザインタフェース機能を持った機器として、エアコン2とTV3とステレオなどの音響機器4が存在している状況を考えるが、本発明では、図1に示すように、これら各機器がネットワーク10に接続されていて、さらに、このネットワーク10には、これらの各機器の制御が可能であるとともにそれぞれの機器が個々に有する情報の処理が可能である機器制御手段11が接続されている。この機器制御手段11は比較的高度な処理能力を有した情報処理手段が用いられ、この実施の形態ではパーソナルコンピュータ(以下、PCという)を用いるものとする。
【0026】なお、これらそれぞれの機器(エアコン2、TV3、音響機器4)は独立した動作が可能でありながら、当該機器制御手段11の制御によって、それぞれの機器が個々に有する情報をそれぞれの機器間またはそれぞれの機器と機器制御手段11間で相互に交換可能とし、ユーザの発話する音声コマンドに対し、相互に情報の交換を行いながら音声認識して、当該音声コマンドによって動作すべき機器の動作制御を行うようになっている。
【0027】なお、このネットワーク10は、この図1では便宜上、有線通信路によるネットワークとしているが、近距離無線(Blue Toothなど)などによる無線通信によるネットワークでもよい。また、有線通信路によるネットワークは建物内の電気配線を用いるなどの方法もあり、ネットワークを構築する手段は本発明では限定されるものではない。また、この実施の形態では、音声対話型のインターフェース機能を有した機器を考えているが、ユーザに対して音声による応答を行う機能は必ずしも必要ではない。
【0028】また、機器制御手段11は、ネットワーク10に接続されているのみならず、電話回線などを介して外部のネットワーク12にも接続され、インタネットなどにも接続可能となっている。以下、この電話回線などを介して接続される外部のネットワーク12を外部ネットワーク12と呼び、機器の接続されているネットワーク10を内部ネットワーク10と呼ぶ。
【0029】図2および図3は図1で示した音声対話型のユーザインタフェース機能を持った機器の構成をそれぞれ示すブロック図であるが、ここでは、エアコン2(図2参照)とTV3(図3参照)について説明する。なお、これらの機器は、この実施の形態では、音声対話型のユーザインタフェース機能を持った機器としているので、音声入力部は勿論のこと音声出力部をも有する。
【0030】また、音声認識機能や音声合成機能さらにはそれに伴う様々な機能(それぞれの機器の位置関係の測定や雑音解析や雑音除去などの機能)をそれぞれの機器に持たせることも可能であるが、この実施の形態では、これら各機能は機器制御手段11に持たせるものとする。以下、詳細に説明する。
【0031】図2はエアコン2の構成を示すもので、従来から普通に用いられている通常のエアコンとしての動作をなす機器動作部21やエアコンの運転の開始/停止やタイマ設定など通常のエアコンでなされる様々な設定がユーザによって可能なユーザ操作部22の他に、音声対話型のユーザインタフェース機能を有するとともに機器動作部21の制御を可能とする機器動作制御部23、エアコン2を内部ネットワーク10に接続するためのネットワーク接続部24が設けられる。
【0032】また、図3はTV3の構成を示すもので、図2に示したエアコン2と基本的には殆ど同じ構成であり、従来から普通に用いられている通常のTVとしての動作をなす機器動作部31やTVの動作の開始/停止やチャンネル設定など通常のTVでなされる様々な設定がユーザによって可能なユーザ操作部32の他に、図2のエアコン2と同様に、音声対話型のユーザインタフェース機能を有するとともに機器動作部21の制御を可能とする機器動作制御部33、TV3を内部ネットワーク10に接続するためのネットワーク接続部34が設けられる。
【0033】これらエアコン2あるいはTV3における機器動作制御部23,33は、それぞれ同じ構成となっているので、ここでは、同一部分には同一符号を付して説明する。
【0034】この実施の形態では、音声対話型のユーザインタフェース機能を実現するための音声コマンド入力用のマイクロホン41、このマイクロホン41に入力された音声の増幅などを行う増幅器42、音声をディジタル変換するA/D変換部43、ユーザに対する応答用の音声データをアナログ変換するD/A変換部44、それを増幅する増幅器45、それを出力するスピーカ46が設けられる。さらに、自己機器が有する自己機器情報(たとえば、自己機器に割り当てられた機器識別情報や自己機器が収集した雑音情報など)を内部ネットワーク接続部24(TV3の場合はネットワーク接続部34)からネットワーク10を介して機器制御手段11に送出したり、ネットワーク10上に存在する情報(たとえば、機器制御手段11からの制御情報など)をネットワーク接続部24(TV3の場合はネットワーク接続部34)を介して受け取ってそれを処理したり、機器動作部21の動作制御を行ったりというように、機器全体の制御を行う情報処理部47が設けられる。その他、この情報処理部47が実行する動作処理プログラムなどが保存されたROMや上述の自己機器情報や他の機器や機器制御手段11からの情報など、情報処理部47が行う処理に必要な様々な情報を保存するRAMからなる情報記憶部48を有している。
【0035】なお、情報処理部47は、ユーザ操作部22(TV3の場合はユーザ操作部32)にも接続されていて、このユーザ操作部22(TV3の場合はユーザ操作部32)によって、出力音声の音量などの制御や機器動作部21(TV3の場合は機器動作部31)に対する制御内容など様々な項目をユーザが設定できるようになっている。
【0036】また、TV3の場合は、もともと、音声を発する機能を有しているので、TVとしての音声出力用の増幅器やスピーカと、ユーザ応答用の増幅器やスピーカなどは共用することができる。したがって、図3では、TV3としての機器動作部31からの音声出力とユーザに対する応答出力は、ともに増幅器45で増幅されたのちに、スピーカ46から出力されるようになっている。
【0037】また、エアコン2はその運転中に運転音が定常的な雑音として常に発生するのが普通であるが、その運転音が音声コマンドに重畳されて、認識性能に悪影響を与えることがある。
【0038】これに対処するために、その運転音などの定常的な雑音をそれぞれの機器が自己のマイクロホン41で収集して、情報処理部47から雑音情報として出力し、その雑音情報を情報記憶部48に保存するとともに、内部ネットワーク10にも送出するようにしている。これによって、その雑音情報は機器制御手段11によって取得され、機器制御手段11で管理される。そして、機器制御手段11が音声コマンドを認識する際、その雑音情報を用いて音声コマンドに重畳された運転音を雑音として除去した上で音声認識する。
【0039】なお、このような定常的な雑音は、内部ネットワーク10に接続されている機器が発する雑音だけではなく、内部ネットワーク10に接続されていない機器が発する場合もあり、また、環境上に定常的に存在する雑音の場合もある。これらの定常的な雑音も、内部ネットワーク10に接続されているそれぞれの機器が、自己のマイクロホン41で収集して、情報処理部47から雑音情報として出力し、その雑音情報を情報記憶部48に保存するとともに、ネットワーク10に送出することで、その雑音情報を機器制御手段11が取得できるようにしている。
【0040】一方、TV3から発せられる音声は、そのTV3の音声(増幅器45の出力側音声)をA/D変換器43を介して情報処理部47にリアルタイムで入力させ、情報処理部47から雑音情報として内部ネットワーク10を介して機器制御手段11に出力し、機器制御手段1では音声コマンドを音声認識する際、その雑音情報(TV3の音声)を用いて、音声コマンドに重畳されたTVの音声を雑音として除去しながら音声認識する。
【0041】また、図1においては、これらエアコン2やTV3の他に音響機器4が存在するが、この音響機器4もこの図2や図3と同様に考えることができ。なお、音響機器4はTV3と同様に、もともと、音を出力する機能を有しているので、図3で示したTV3と同様に、 音響機器4としての音声出力用の増幅器やスピーカと、ユーザ応答用の増幅器やスピーカなどは共用することができる。
【0042】さらに、TV3と同様、その音響機器4から発せられる音を増幅器45の出力側から取り出して情報処理部47からリアルタイムで機器制御手段11に送出する。
【0043】このようにこの実施の形態では、ある限られた空間として1つの部屋1内に、音声対話型のユーザインタフェース機能を持った機器が複数存在している状況を考えている。そして、それぞれの機器(ここではエアコン2、TV3、音響機器4)は、それぞれの機器としての動作は独立して並列に行いながら、自己の情報処理部47から自己機器情報を内部ネットワーク10を介して機器制御手段11に送出する。
【0044】これによって、機器制御手段11は、内部ネットワーク10上に存在する機器からの情報を受け取って、それぞれ機器からの情報に基づいて音声認識を用いた機器制御を行うようにしている。なお、この音声認識を行う際は、雑音情報を用いて雑音除去を行いながら行う。以下、この実施の形態の全体的な動作について図4のフローチャートを参照しながら説明する。
【0045】この図4のフローチャートは、主に機器制御手段11が行う処理を示すものである。この場合、機器制御手段11はPCとしているので、PCとしての通常の動作状態(ステップs1)において、本発明を処理を行うための割り込みが入ると、本発明の処理が開始する。
【0046】まず、内部ネットワーク10に制御の対象となる機器が接続されているか否かを判定し(ステップs2)、制御の対象となる機器が接続されていることを認識すると、それぞれの機器との間で情報交換を行い(ステップs3)、ネットワーク10に接続されているすべての機器からそれぞれの機器が有する情報を取得する(ステップs4)。ここで取得した情報には、個々の機器の機器識別情報(機器IDという)も含まれ、それによって、現在、どのような機器が内部ネットワーク10に接続されているかを知ることができる。
【0047】そして、内部ネットワーク10に接続されている機器の位置関係測定を行う必要があるか否かを判断する(ステップs5)。これは、現在、内部ネットワーク10に接続されている複数の機器(ここでは、エアコン2、TV3、音響機器4)がどのような位置関係にあるか否かを調べるもので、位置関係測定を行う必要がある場合には、それぞれの機器から出される位置関係測定用の情報に基づいて機器制御手段11がその情報を分析してそれぞれの機器の位置関係の測定を行う。
【0048】なお、それぞれの機器から出される位置関係測定用の情報というのは、ある機器が出す音を他の機器のマイクロホンが取得(たとえば、TV3のスピーカ46から出される音をエアコン2のマイクロホン41が取得)し、その音の到達時間の遅れなどによって得られる2つの機器間の距離などの情報であり、この情報を機器制御部11が受け取って、それぞれの機器の位置関係を調べる。たとえば、この実施の形態のように、3つの機器(エアコン2、TV3、音響機器4)について考えている場合には、3つの機器の間の距離がわかればそれによって、図1に示す部屋1内における3つの機器の位置関係を推定することができる。
【0049】なお、この位置関係の測定は、位置関係測定モードとなっている場合にのみ行われる。その位置関係測定モードとなる条件としては、たとえば、内部ネットワーク10に新たに機器が加わった場合、前回の位置関係測定から所定の時間が経過している場合などであり、このような条件となった場合には、機器制御手段11からの指令によってそれぞれの機器が、上述したような機器間の距離測定を行う。
【0050】このように、位置測定モードとなった場合には、前述したような手法によって位置測定を行い(ステップs6)、それぞれの機器がどのような位置関係となっているかを機器制御手段11が推定する。
【0051】そして次に、雑音解析を行うか否かを調べ(ステップs7)、雑音解析を行う必要がある場合には、雑音解析を行う(ステップs8)。ここでの雑音というのは、前述したように、エアコン2の運転音やその他の機器の運転音など、さらには、環境下に存在する定常的な雑音である。これらの定常的な雑音は、内部ネットワーク10に接続されているそれぞれの機器がそれぞれ自分のマイクロホンで入力し、それぞれの機器において得られた雑音情報を機器制御手段11が取得して解析する。そして、その解析結果は機器制御手段11が記憶しておく。
【0052】なお、定常的な雑音が存在しない場合には、ステップs8の処理は不要であり、また、定常的な雑音があっても、一度、その定常的な雑音情報が得られれば、それ以降は特には雑音解析処理は行う必要はないが、その定常的な雑音に大きな変化があったときには、再度、雑音解析処理を行った方が望ましい。この定常的な雑音に大きな変化があったときの例として、たとえば、定常的な雑音の発生源がエアコンであった場合、ユーザによって運転内容の設定変更がなされた場合など(たとえば、送風を「弱」から「強」に変更した場合など)がある。
【0053】このようにして、位置関係の測定が終了し、さらに、定常的な雑音などに対する雑音解析がなされたあと、ユーザからの音声コマンドの入力待ちの状態となる(ステップs9)。そして、ユーザがある機器(エアコン2とする)に対して音声コマンドを発話したとすると、その音声コマンドはエアコン2以外の他の機器にも入力され、その音声コマンドを入力した全ての機器は、当該音声コマンドを処理(増幅してA/D変換するなどの処理)した音声信号を、情報処理部47からネットワーク接続部24(TV3においてはネットワーク接続部34)を介して内部ネットワーク10に送出する。
【0054】機器制御手段11が内部ネットワーク10を通じてこれら各機器からの音声信号を受け取ると、音声認識処理に入る(ステップs10)。この音声認識処理は、内部ネットワーク10を通じて各機器から取得される情報に基づいてなされ、その認識結果に応じた制御を制御対象となる機器(この場合エアコン2)に対して行う。
【0055】この音声認識処理は、ユーザの音声コマンドがどの機器に対してなされたものであるかを、そのユーザの発話した音声コマンドの音声信号を各機器から受け取って、その音声コマンドの音声信号の大きさやそれぞれの機器の位置関係に基づいて判定して行う。そのとき、音声コマンドに重畳された雑音を除去して上で音声認識処理を行う。
【0056】ここでの雑音情報とは、上述したエアコン2などが発する定常的な運転音や、TV3や音響機器4などが発する音声あるいは音楽などの音であり、機器制御手段11はこれらの雑音情報をそれぞれの機器から内部ネットワーク10を介して取得し、その取得した雑音情報を解析することによって行う。これによって、音声コマンドを認識する際、音声コマンドに重畳されたそれらの雑音を除去した上で、音声コマンドを認識することができる。
【0057】なお、エアコン2などが発する定常的な運転音は、前述したように、収集した雑音を予め解析して、機器制御手段11がそれを保存しておくことができる。したがって、音声認識する際、その保存された定常音の雑音情報を読み出して、音声コマンドに重畳されているエアコン2の運転音を除去して音声認識するということができる。
【0058】一方、 音声コマンドに重畳されたTV3や音響機器4が発する音は、リアルタイムで雑音情報を解析しながら雑音を除去して音声認識する必要がある。したがって、これらTV3や音響機器4からの音情報は、各機器がそれをリアルタイムで取得して、取得した音を機器制御手段11にもリアルタイムで送る必要がある。なお、この場合、実際の音声認識処理は、ユーザからの音声コマンドやTV3や音響機器4からの音情報をバッファリングして両者の同期をとりながら多少の時間遅れを持った状態で行うことができる。
【0059】このようにして音声コマンドに対する認識処理が行われると、次に、その認識結果に対する処理がなされる。その処理としては、まず、音声による応答を行うか否かの判定を行う(ステップs11)。つまり、そのエアコン2が音声対話型であって音声による応答を行う必要のある場合には、ユーザの音声コマンドに対する応答内容を音声合成処理によって生成し(ステップs12)、それを対応する機器(エアコン2)に送る。その応答内容を受け取った機器(エアコン2)は、その応答内容を情報処理部47が処理して、スピーカ46から音声として出力する。
【0060】次に、その認識結果に応じた機器の制御を行うか否かを判定し(ステップs13)、機器の制御を行うのであれば、その認識結果に応じた機器の制御を行うための制御指令を制御対象となる機器(エアコン2)に送る(ステップs14)。その制御指令を受け取った機器(エアコン2)は、その制御指令を情報処理部47が処理して、機器動作部31に対し動作指令を出す。
【0061】一方、上述のステップs11における判定が、音声による応答は行わないとの判定であれば、直接、その認識結果に基づいた機器の制御を行うか否かを判定し(ステップs13)、機器の制御を行うのであれば、そのまま、その認識結果に応じた機器制御を行うための制御指令を制御対象となる機器(エアコン2)に送る(ステップs14)。エアコン2ではその制御指令を情報処理部47が受け取って機器動作部31に対し動作指令を出す。
【0062】なお、このステップs14が行う機器制御は、制御対象となる機器がエアコン2であれば、運転の停止や開始といった制御の他、風量の強・弱の設定や温度設定などエアコン2としての通常の運転制御が可能であり、また、制御対象となる機器がTV3であれば、電源スイッチのオン・オフや、チャンネルの変更、音量の増減などTV3としての通常の制御が可能である。
【0063】その他、インタネットなどからの情報を取得する機能が整備されている場合には、その情報に基づいた機器制御も可能となる。一例として、インタネットでTV番組情報を機器制御手段11が取得しておき、ユーザがニュース番組を見たい場合には、音声コマンドで「ニュース番組」と指定することによって、機器制御手段11が現在放送中のニュース番組を探して、放送中のニュース番組があれば、それをユーザに知らせたり、自動的にTVのチャンネルを設定したり、さらには、番組予約などを音声コマンドで行うことでそれを機器制御手段11が認識して、インタネットから取得した番組表に基づいてTVを制御するといったこともできる。
【0064】また、ここでは図示されていないが、電子レンジなどが内部ネットワーク10に接続されている場合には、調理方法などのレシピをインタネットから取得し、ユーザの要求に応じた調理方法を教えるといったことも可能となる。
【0065】また、この機器制御手段11は、ユーザが電話などによって制御指令内容を音声コマンドとして指示すれば、その音声コマンドに対して認識処理することも可能である。たとえば、ユーザが電話でエアコン2の電源をオン・オフさせる指令を与えると、それを機器制御手段11が認識して、それに応じたエアコン2の制御を行うこともできる。
【0066】そして、このステップs13またはステップs14による機器制御が終了したあとは、ステップs2に処理が戻るが、新たな機器が内部ネットワーク10に接続されなければ、ステップs5に戻ることも可能であり、さらに、位置関係の測定や定常雑音の計測などを新たに行う必要がなければ、ステップs9に処理が戻るようにしてもよい。
【0067】以上説明したように、この実施の形態では、ある限られた空間としての1つの部屋1内に、音声対話型のユーザインタフェースを持った機器として、エアコン2とTV3と音響機器4が存在し、それらが内部ネットワーク10に接続され、それぞれの機器は機器としての動作を独立して並列に行いながらも、それぞれの機器が有する情報やそれぞれの機器の取得した情報を機器制御手段11に送り、機器制御手段11がそれらの情報に基づいて、これら各機器の制御を行うようにしている。
【0068】これによって、機器制御手段11は、内部ネットワーク10上には現在どのような機器がどのような位置関係で存在するか、さらには、どのような雑音が存在するかなど内部ネットワーク10上の様々な状況を一括して把握することができる。それによって、ユーザがある機器に対して、音声コマンドを発話した場合でも、その音声コマンドがどの機器に対してなされているかを的確に判定することができ、ユーザの意図しない機器が誤動作するのを未然に防止することができる。
【0069】また、音声認識する際、各機器から送られてくる雑音に関する情報に基づいて、音声コマンドに重畳された雑音を除去した上で音声認識することができるので、雑音に影響されずに適切な雑音除去を行うことができる。
【0070】このように、機器制御手段11が複数の機器の状況や雑音状況を一括して管理して、音声認識およびそれに必要な殆どの機能を機器制御手段11が集中的に行うことによって、それぞれの機器は最小限の機能を有するだけで済み、個々の機器を安価なものとすることができる。
【0071】しかも、機器制御手段11そのものはパーソナルコンピュータなど比較的高性能な処理能力を有したものとすることが可能であるので、音声認識など様々な処理を余裕をもって高速に行うことができ、機能を様々に拡張することができる。たとえば、音声認識について考えれば、高性能な音声認識技術を搭載することも可能でとなり、認識可能となる単語の数の大幅に増やすこともでき、単語認識だけでなく連続音声認識を高性能に行うこともでき、さらに、高性能な音声合成も可能となるため、高度な音声対話型のユーザインタフェースが可能となり、変化に富んだ機器制御が可能となる。
【0072】また、機器制御手段11を外部ネットワーク12に接続することもできるので、たとえば、電話により外部から指令を与えることでそれに応じた機器制御や、インタネットを利用した機器制御など、外部からの情報をも取り入れた様々な制御が可能となる。
【0073】なお、本発明は以上説明した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲で種々変形実施可能となるものである。たとえば、前述の実施の形態では、図4のフローチャートからもわかるように、それぞれの機器の位置関係の測定、雑音の解析や除去、音声認識などの主たる処理を機器制御手段11が行うようにしたが、これらの処理のうち、どれをそれぞれの機器側が行い、どれを機器制御手段側が行うかは種々設定可能である。
【0074】たとえば、位置関係の測定や雑音の解析を行う機能はそれぞれの機器が行い、音声認識(雑音除去を含む)とその認識結果に基づく機器制御は、機器制御手段11が行うというようなことも可能である。この場合は、それぞれの機器の情報処理部47がこれら、位置関係の測定や音声コマンドの雑音解析を行う機能を有し、この情報処理部47がこれらの処理を行い、それによって得られた信号を機器制御手段11に送る。そして、機器制御手段11は、それぞれの機器から送られてきたこれらの信号に基づいて、音声コマンドに対し雑音除去を行いながら音声認識し、その認識結果を制御対象となる機器に送出する。なお、このとき、それぞれの機器が行う位置関係の測定や雑音の解析や除去は、内部ネットワーク10に接続された機器間でそれぞれの機器が有する情報やそれぞれの機器が取得した情報を相互に交換しながら行う。
【0075】また、たとえば、前述の実施の形態では、音声対話型のインターフェース機能を有した機器、つまり、ユーザの音声コマンドを認識して、その応答を音声により行うとともに、その認識結果に応じた機器制御を行う機能を有した機器について説明したが、本発明は、ユーザに対して音声による応答を行う機能は必ずしも必要ではない。
【0076】また、内部ネットワーク10につながる機器は全てが音声コマンドによる制御対象の機器でなくてもよい。たとえば、TV3や音響機器4など、音声や音楽などの音を発する機器は、たとえ、音声コマンドによる制御対象の機器でないとしても、それらの機器を内部ネットワーク10に接続しておけば、それらの機器が発する音声や音楽などの音を雑音情報としてリアルタイムで取得することができる。これによって、音声コマンドを認識する際、音声コマンドに重畳されたこれらの音声や音楽を雑音として除去しながら音声認識処理することができる。
【0077】また、前述の実施の形態では、制御対象の機器としては主に家庭電化製品を想定したが、本発明は家電製品に限られるものではなく、限られた空間内に複数の機器が存在するような場合には広く適用することができるものである。
【0078】また、本発明は、以上説明した本発明を実現するための処理手順が記述された処理プログラムを作成し、その処理プログラムをフロッピィディスク、光ディスク、ハードディスクなどの記録媒体に記録させておくことができ、本発明はその処理プログラムが記録された記録媒体をも含むものである。また、ネットワークから当該処理プログラムを得るようにしてもよい。
【0079】
【発明の効果】以上説明したように本発明によれば、ある限られた空間内に、複数の機器が内部ネットワークに接続され、それぞれの機器は機器としての動作を独立して並列に行いながらも、それぞれの機器が有する情報やそれぞれの機器の取得した情報を機器制御手段に送り、機器制御手段がそれらの情報に基づいて、これら各機器の制御を行うようにしている。これによって、機器制御手段は、内部ネットワークには現在どのような機器がどのような位置関係で存在するか、さらには、どのような雑音が存在するかなど内部ネットワーク上の様々な状況を一括し把握することができる。それによって、ユーザがある機器に対して、音声コマンドを発話した場合でも、その音声コマンドがどの機器に対してなされているかを的確に判定することができ、ユーザの意図しない機器が誤動作するのを未然に防止することができる。
【0080】また、音声認識する際、各機器から送られてくる雑音に関する情報に基づいて、音声コマンドに重畳された雑音を除去した上で音声認識することができるので、雑音に影響されずに適切な雑音除去を行うことができる。
【0081】このように、機器制御手段が複数の機器の状況や雑音状況を一括して管理して、音声認識およびそれに必要な殆どの機能を機器制御手段が集中的に行うことによって、それぞれの機器は最小限の機能を有するだけで済み、個々の機器を安価なものとすることができる。
【0082】しかも、機器制御手段そのものはパーソナルコンピュータなど比較的高性能な処理能力を有したものとすることが可能であるので、音声認識など様々な処理を余裕をもって高速に行うことができ、機能を様々に拡張することができる。たとえば、音声認識について考えれば、高性能な音声認識技術を搭載することも可能でとなり、認識可能となる単語の数の大幅に増やすこともでき、単語認識だけでなく連続音声認識を高性能に行うこともでき、さらに、高性能な音声合成も可能となるため、高度な音声対話型のユーザインタフェースが可能となり、変化に富んだ機器制御が可能となる。
【0083】また、機器制御手段を外部ネットワークに接続することもできるので、たとえば、電話により外部から指令を与えることでそれに応じた機器制御や、インタネットを利用した機器制御など、外部からの情報をも取り入れた様々な制御が可能となる。
【出願人】 【識別番号】000002369
【氏名又は名称】セイコーエプソン株式会社
【出願日】 平成12年12月18日(2000.12.18)
【代理人】 【識別番号】100095728
【弁理士】
【氏名又は名称】上柳 雅誉 (外1名)
【公開番号】 特開2002−182688(P2002−182688A)
【公開日】 平成14年6月26日(2002.6.26)
【出願番号】 特願2000−383809(P2000−383809)