| 【発明の名称】 |
音声認識装置 |
| 【発明者】 |
【氏名】中田 孝一
|
| 【要約】 |
【課題】音声認識装置において、発話スイッチ等を持たない製品では、利用者が欲する音声認識動作の開始を知る術が無く、車室内に存在する利用者以外が発生する音を除去するキャンセル装置の動作に利用者自身の音声が重畳し、認識対象の音声にエコー等が存在し、音声認識の効率が非常に悪かった。
【解決手段】利用者が欲する音声認識のタイミングを音声認識装置1内に設けられたレベル判定部14で検知すると共に、第1並びに第2の遅延回路12,13により、最初のコマンドが認識されるまで音声信号に遅延をかけることで、エコーの発生を防ぎ音声認識率を向上させ、最初のコマンド以降の音声認識を行う際は、第1並びに第2の遅延回路12、13の遅延量を制御することで音声認識装置の応答性を高めることができる。 |
【特許請求の範囲】
【請求項1】音声認識装置に入力する音声とオーディオ音とを集音するマイクと、前記マイクからの信号を遅延させる第1の遅延部と、前記マイクからの入力信号レベルの変化を判定するレベル判定部と、オーディオ装置から入力されるオーディオ信号を入力し適応アルゴリズム算出部によりタップ係数が変化される適応フィルタと、前記オーディオ信号の適応フィルタへの入力を遅延させる第2の遅延部と、前記適応フィルタの出力信号と前記マイクからの信号を入力する減算器と、前記減算器から出力する両信号の誤差信号を前記適応アルゴリズムに入力すると共に音声認識部に出力するようにした音声認識装置において、前記誤差信号の出力部に前記適応フィルタのタップ係数の変更度合いを調節するステップサイズパラメータ変更部を備え、前記マイクからの入力信号の変化が所定のレベル以上になったことを前記レベル判定部が判定したときに、ステップサイズパラメータを変更すると共に、減算器から出力される誤差信号に対する音声認識を実施するよう音声認識部を作動し、前記誤差信号に対する音声認識により前記音声認識部が所定の音声コマンドを認識した場合には前記マイクからの入力信号ならびに前記適応フィルタを通過するオーディオ信号を前記第1並びに第2の遅延部を経由せずに前記減算器に入力するように制御する制御部を設けたことを特徴とする音声認識装置。 【請求項2】前記音声認識部が所定のコマンドを認識したことを利用者に通知する通知手段を設けたことを特徴とする特許請求の範囲第1項記載の音声認識装置。 【請求項3】前記通知手段は、音声認識装置が利用者に対して発する音声応答であることを特徴とする特許請求の範囲第2項記載の音声認識装置。 【請求項4】前記通知手段が利用者に対して応答する期間中は、ステップサイズパラメータを変更しないように前記制御部を制御することを特徴とする特許請求の範囲第2項記載の音声認識装置。 【請求項5】音声認識装置に入力する音声とオーディオ音とを集音するマイクと、前記マイクからの信号を遅延させる第1の遅延部と、前記マイクからの入力信号レベルの変化を判定するレベル判定部と、オーディオ装置から入力されるオーディオ信号を入力し適応アルゴリズム算出部によりタップ係数が変化される適応フィルタと、前記オーディオ信号の適応フィルタへの入力を遅延させる第2の遅延部と、前記適応フィルタの出力信号と前記マイクからの信号を入力する減算器と、前記減算器から出力する両信号の誤差信号を前記適応アルゴリズムに入力すると共に音声認識部に出力するようにした音声認識装置において、前記誤差信号の出力部に前記適応フィルタのタップ係数の変更度合いを調節するステップサイズパラメータ変更部を備え、前記マイクからの入力信号の変化が所定のレベル以上になったことを前記レベル判定部が判定したときに、ステップサイズパラメータを変更すると共に、減算器から出力される誤差信号に対する音声認識を実施するよう音声認識部を作動し、前記誤差信号に対する音声認識により前記音声認識部が所定の音声コマンドを認識した場合には前記マイクからの入力信号ならびに前記適応フィルタを通過するオーディオ信号に対する前記第1並びに第2の遅延回路の遅延量を前記制御部が制御し、前記マイクからの入力信号ならびに前記適応フィルタを通過したオーディオ信号の遅延量を減少させるようにしたことを特徴とする特許請求の範囲第1項記載の音声認識装置。 【請求項6】前記音声認識部が所定のコマンドを認識したことを利用者に通知する通知手段を設けたことを特徴とする特許請求の範囲第5項記載の音声認識装置。 【請求項7】前記通知手段は、音声認識装置が利用者に対して発する音声応答であることを特徴とする特許請求の範囲第6項記載の音声認識装置。 【請求項8】前記通知手段が利用者に対して応答する期間中は、ステップサイズパラメータを変更しないように前記制御部を制御することを特徴とする特許請求の範囲第6項記載の音声認識装置。
|
【発明の詳細な説明】【0001】 【発明の属する技術分野】本発明は、音声認識装置において、マイクから入力されるオーディオ音を消去することにより音声認識率を高める音声認識用オーディオキャンセル装置に関し、特に、適応フィルタを用いてマイクからの信号と適応フィルタからの信号の誤差信号により適応フィルタのタップ係数を適応アルゴリズムで制御し、オーディオキャンセルを行うシステムで生じる、エコーがかかったような音声信号の出力を防止するようにした、音声認識用オーディオキャンセル装置を備えた音声認識装置において、トークスイッチなどの操作をすることなく車室内で操作者が発声する音声のレベルを認識して、音声認識部を作動させるようにした音声認識装置に関するものである。 【0002】 【従来の技術】近年、各種機器の作動を音声により指示し、音声認識装置によりこれを認識して機器の作動制御を行うことが、パソコンを初めとして一般家庭用機器等の各種の分野で広く行われており、その研究開発が急速に進められている。このような音声により機器の作動を制御する分野の一つとして、各種の車載機器を音声により操作することが注目されている。即ち、車載機器の多くは運転者が操作する場合が多く、一方、運転者は安全運転のために、できる限り車載機器の操作に注意をそらせることは好ましくない。 【0003】近年の車載機器はオーディオ装置の高度化、ナビゲーション装置の機能の多様化等のため、これらの機器に対して各種の作動指示を行うことが多くなっている。この対策として、上記音声認識装置を用い、運転者は前方を注視したままで、例えばナビゲーション装置の近隣施設検索を音声で指示し、ナビゲーション装置では音声でこれに応える、というシステムが考えられており、一部実用化されている。 【0004】しかしながら、音声認識装置を上記のような車載機器の制御を行うために、車両に搭載すると、車内にはエンジン音、タイヤの走行音、車の風切り音、更にはオーディオ音や周囲の人の話し声などが混在し、このような騒音の中でマイクに向かって話した言葉に基づいて、操作指示の内容を認識することはきわめて困難である。したがって、広く研究開発が行われている音声認識の技術分野において、車載機器の操作指示のための音声認識は、最も困難な分野の一つということができる。このように騒音の多い環境下で音声認識を行うためには、マイクから入力される音声に混じって入ってくる騒音成分を取り除いて、できる限り使用者の音声のみを入力することが必要となる。 【0005】一方、従来から例えば車の騒音対策として、車において最も大きな騒音源である排気音の消去に際し、排気音をマイクにより検出し、これを分析して、排気音に対応する音をスピーカから出力し、両者の音の相殺により排気音を消去することが試みられている。また、車室内の居住環境を向上させるため、車内の音をマイクにより検出し、これを分析して、車内の音を人間にとって心地よい程度のノイズである所定の白色ノイズになるように、スピーカから騒音消去用の所定の音を出力することも試みられている。また、車以外の分野においても、マイクで入力された音をその場でスピーカにより出力する際、マイクから現在入力されている音声以外の音をできる限り入力しないように、また、スピーカの音が再びマイクに入力してエコーがかかることを防止するため、周囲の音やスピーカからの音を消し、音声を際立たせるための研究がなされている。更に、特に近年急速に普及している携帯電話の技術分野において、マイクから入力される小さな音声でも明瞭に送信することができるように、通話中における周囲の騒音のみを消去し、音声を際立たせる研究も行われている。 【0006】上記のような種々の技術においては、騒音や音声を適応フィルタを通し、各種処理を行い、所望の特性を得る研究が行われている。適応フィルタによる制御方式自体は広く知られている技術であり、例えば第6図に示すように、第1信号入力x(n)をタップ係数w(n)が可変のFIRフィルタ(有限インパルス応答フィルタ)21を通し、出力y(n)を得る。この出力y(n)と目標信号としての第2信号入力d(n)を減算器22に入れ、その誤差e(n)を得る。この誤差e(n)によって変化する適応アルゴリズム(LMS)23により、FIRフィルタ21のタップ係数w(n)を制御し、誤差e(n)のパワーをできる限り0に近づける。ここで、第1信号入力側をマイクからの信号とし、第2信号入力側を目標信号とすることができ、逆に第1信号入力側を目標信号とし、第2信号入力側をマイク等からの信号とすることもできる。この適応フィルタで用いられる適応アルゴリズムとしては種々のものが提案されており、例えば学習同定法、LMS法、RMS法、射影法等が知られている。このような適応フィルタを用いることにより、フィルタ係数は、任意の初期状態から逐次書き換えられ、徐々に誤差を最小にするタップ係数w0に近づけていくことができる。 【0007】上記適応フィルタにおいて例えばLMSアルゴリズムを用いてタップ係数をリアルタイムに更新するものにおいては、 wj(n+1)=wj(n)+2μ・e(n)・xj(n) ・・・(1) j=0,1・・・,N e(n)=d(n)−y(n) の更新式を用いている。ここでμはステップサイズパラメータと呼ばれ、適応フィルタのタップ係数の更新の度合いを制御するパラメータであり、これが大きいとタップ係数の修正量が多くなるため収束が強くなる。しかしながら、修正量が大きい分だけ、係数更新の妨害となる成分が存在する場合にはその影響を強く受けて、残留誤差量が多くなる。一方反対にステップサイズパラメータが小さい場合には、収束が遅くなるが、妨害信号成分の影響が少なく残留誤差量は小さくなる。 【0008】一方、例えば車室内で音声認識装置を用いるに際して、車室内で最も音声認識を妨害する大きな音としては、オーディオ装置からの音が存在し、したがって、音声認識時にはこのオーディオ装置の音を消すことが好ましい。しかしながら、音声で指示を行う度にオーディオ装置を消す操作は面倒であり、かつ、例えばオーディオの使用中にオーディオ装置に対して音量の変更等の操作指示を行うときには、そのたび毎にオーディオ装置の音を消すことは適切ではない。その対策として、音声認識装置において、マイクから入るオーディオ音をキャンセルするために、スピーカから出力されるオーディオ信号を直接入力して、このオーディオ信号を前記適応フィルタに入力し、適応フィルタから出力されたオーディオの調整信号と、マイクから音声信号と共に入力されたオーディオ信号とを減算器に入力し、その誤差が最小となるように、あるいは所定の状態になるように適応フィルタを調整し、それにより減算器からの出力信号中にオーディオ信号が残留しないようにすることが考えられている。 【0009】このようなオーディオキャンセルシステムの基本的な構成は、第7図に示すように、第6図の適応フィルタの構成を備え、特にこのシステムにおいては、LMSアルゴリズム23でタップ係数w(n)が制御されるFIRフィルタ21への入力信号である第1入力x(n)としては、車室内のスピーカ25に出力するオーディオ出力部が参照信号発生部26を対応させて接続しており、また、減算器22への第2入力d(n)としては、車室内に設けた音声認識装置用のマイク27からの信号を減算器22に出力するようにしている。この時マイク27からは、利用者30からの認識すべき音声Xs−Csと、音声認識装置作動中はキャンセルされるべき騒音となるオーディオ音Xn−Cnが入力される。減算器22における誤差信号e(n)はLMSアルゴリズム23に入力すると共に、この信号は音声認識装置31に出力するシステムを形成している。 【0010】このようなシステムにおいて、利用者5が車室内でスピーカ25からのオーディオを聴いている状態で、音声認識装置31を利用するためマイク27に音声を発するときには、マイク27には車室内において特に大きな音であるオーディオからの音も入力される。マイク27から入力されたこれら音声等の信号は、減算器22のプラス側にd(n)として入力される。一方、スピーカ25にオーディオ信号を出力しているオーディオ出力部の信号を参照信号x(n)としてFIRフィルタ21に入力し、FIRフィルタ21においてはLMSアルゴリズム23によりタップ係数w(n)が制御され、出力信号y(n)を得る。 【0011】この出力信号y(n)を減算器のマイナス側に入力し、両者の減算値、即ち両者の誤差である、e(n)=d(n)−y(n)を得る。この誤差e(n)は理想的には車室内のスピーカからマイクに入力されたオーディオ音が、適応フィルタで処理されたオーディオ信号によりキャンセルされたものとなる。したがって、これを音声認識装置31に入力すると、車室内のオーディオ音がキャンセルされた、ほぼ利用者の音声のみの信号となる。しかしながら、両者に誤差が生じているときには、この誤差e(n)をフィードバックしてLMSアルゴリズム23に入れ、FIRフィルタ21のタップ係数w(n)を調整して、前記誤差e(n)のパワーを最小にするように制御する。 【0012】上記のように、車室内においてオーディオ装置が作動しスピーカから音が出ている状態の中で、音声認識装置により各種機器の作動を行わせるため、マイクから音声認識装置に音声を入力するとき、音声と共にオーディオの音も入力され、音声認識の精度が悪くなる。これを防止するため、上記のようなLMSアルゴリズムにより変化するタップ係数w(n)を用いる適応フィルタを使用する際には、その誤差e(n)にはオーディオ部分の誤差の他に、音声信号成分が含まれており、これもLMSアルゴリズムにフィードバックせざるを得ない。 【0013】このように音声信号成分もフィードバックされることにより、前記更新式に影響を及ぼし、e(n)が最小になるように更新しているw(n)が微少に変動してしまうこととなる。そのため、減算器22から音声認識装置31に入力される音声信号にエコーがかかったような信号等の不適切な信号を出力してしまい、音声認識性能を悪化させる原因となる。また、このような音声認識装置に入力される信号の中には更に種々の不適切な信号が存在し、音声認識性能を悪化させていることが考えられ、これらの信号を除去する必要がある。 【0014】このような音声認識性能を悪化させているエコー成分を発生させないようにするため、音声認識処理を行うときには、タップ係数を制御して、音声信号成分をフィードバックしないようにオーディオキャンセル処理を一時停止するか、あるいはフィードバックによる処理効果を弱めるようにしている。 【0015】 【発明が解決しようとする課題】従来の装置では、音声認識を開始するために、例えばトークスイッチなどを操作することで、音声認識を開始するトリガとしていたため、前記のオーディオキャンセル装置における音声認識用のオーディオキャンセル処理の効果を停止あるいは弱めることを容易に行うことができる。しかしながら、音声認識装置で、トークスイッチなどを使用せずに、常に音声認識装置を作動させておき、マイクから入力される音声中に所定のコマンドが認識された場合に車室内の機器を操作するようなシステムにおいては、音声認識が開始されたタイミングを知るすべがなくなり、オーディオキャンセル処理の効果を停止あるいは弱めることが十分にできず、音声認識部に入力される信号にオーディオ音と音声が混在し、また、音声信号を含んだ誤差信号がフィードバックされるため音声認識部に入力される信号がエコーを帯びたような信号となり、正しく認識されないという問題がある。また、音声認識部が常に作動していることで消費電力の面からも好ましくない。 【0016】したがって、本発明は、トークスイッチなどの操作をすることなく、マイクから入力される車室内の音声が所定のレベル以上となったことに基づき音声認識機能を作動させると共に、マイクから入力される音声信号を、通常の状態では、所定の期間遅延させることで、適応フィルタにフィードバックされる誤差信号e(n)中に、操作者の音声を含まないようにするとともに、タップ係数の制御の効果を弱めることで、音声認識率の向上を図り、かつ、所定のコマンドが認識された後は、マイクから入力される音声等の信号の減算器への入力ならびにオーディオ装置からの信号の適応フィルタへの入力を遅延回路を経由せずに行うことで、応答性に優れた音声認識装置を提供することを目的としている。 【0017】 【課題を解決するための手段】本発明は、上記課題を解決するため、音声認識装置に入力する音声とオーディオ音とを集音するマイクと、前記マイクからの信号を遅延させる第1の遅延部と、前記マイクからの入力信号レベルを判定するレベル判定部と、オーディオ装置から入力されるオーディオ信号を入力し適応アルゴリズムによりタップ係数を変化させる適応フィルタと、前記オーディオ信号の適応フィルタへの入力を遅延させる第2の遅延部と、前記適応フィルタの出力信号と前記マイクからの信号を入力する減算器と、前記減算器から出力する両信号の誤差信号を前記適応アルゴリズムに入力すると共に音声認識部に出力するようにした音声認識装置において、前記マイクからの入力信号が所定のレベル以上となったと前記レベル判定部が判定したときに、前記適応フィルタのタップ係数を変化すると共に、減算器から出力される誤差信号に対する音声認識を作動し、前記音声認識部が所定の音声コマンドを認識した場合には、前記マイクからの入力信号ならびにオーディオ信号を前記第1並びに第2の遅延部を経由せずに前記減算器に入力するようにしたことを特徴とする音声認識装置としたものである。 【0018】 【発明の実施の形態】本発明の実施の形態を図面に沿って説明する。第1図は本発明の音声認識装置用オーディオキャンセル部を備えた音声認識装置の実施例を示し、この実施例においては車内用オーディオ装置40からオーディオ出力x(n)が出力されており、各出力は車室内に配置したスピーカ41に出力すると共に、同じ信号を音声認識装置1に設けられた第2の遅延回路13ならびに切替スイッチSW3を介して、適応フィルタとしてのFIRフィルタ15に出力している。FIRフィルタ15は第6図の基本原理に基づき作動するものであり、第7図に示す音声認識装置用オーディオキャンセルシステムにおける適応フィルタと同様に作動する。 【0019】オーディオ信号に対応するFIRフィルタ15の出力信号y(n)は減算器18のマイナス側に出力している。一方車室内に設けたマイク11には、利用者5の発する音声Xsが伝わる伝達関数Cs、及びスピーカ41から出力されるオーディオ音Xnが伝わる伝達関数Cnを経由して、室内の音Xs・Cs+Xn・Cnが入力される。このマイクからの信号は適宜の時定数を持つ遅延回路12ならびに切替スイッチSW2を介して減算器18のプラス側に出力している。減算18においては両信号に基づいて、e(n)=d(n)−y(n)を演算し、誤差信号e(n)を得ている。 【0020】また、マイク11からの音声信号は、レベル判定部14に入力され、レベル判定部14は、常時車室内の音声信号d(n)のレベルを判定し、所定のレベル以上の変化を検出した際に、その検出内容を制御部20に伝達するように構成されている。 【0021】減算器18において誤差信号e(n)は、音声認識部19に出力されると共に、切替スイッチSW1を介して適応フィルタ15のタップ係数w(n)を変化させる適応アルゴリズムを算出するLMSアルゴリズム算出部16に入力され、適応フィルタ15は選択された適応アルゴリズム値に基づき、オーディオ装置40から遅延回路13ならびにSW3を介して入力されているオーディオ信号x(n)を変化させ、減算器18へ信号y(n)として出力する。 【0022】減算器18から出力される誤差信号e(n)はステップサイズパラメータ変更部17の入力端にも出力されている。このステップサイズパラメータ変更部17は、誤差信号e(n)を小さな値とする構成をとっており、レベル判定部14が車室内の音声信号が所定のレベル以上と判定した場合に、制御部20からの制御信号に基づき、SW1がBに切り替えられて、誤差信号e(n)が、ステップサイズパラメータ変更部17により小さな値に変換され、LMSアルゴリズム算出部16に入力される。 【0023】また、減算器18から出力される誤差信号e(n)は音声認識部19にも入力され、レベル判定部14が所定のレベル以上の変化を検出した場合、誤差信号e(n)に対する音声認識処理が行われる。 【0024】上記構成からなる第1図に示す音声認識装置用オーディオキャンセル装置においては、車室内においてオーディオ装置からの音楽等の音が出力されているときに、利用者5が例えばナビゲーション装置に対して周辺施設情報検索等を行うために例えば第4図に例示されている所定のコマンドの一つを発声する。 【0025】この時、スピーカ41からのオーディオ信号ならびに利用者5からの発生信号の双方が重畳された音声信号d(n)がマイク11に入力され、この音声信号d(n)がレベル判定部14に入力される。 【0026】レベル判定部14は、音声信号d(n)がそれ以前の音声信号のレベルに対して、利用者の音声が重畳された分だけ所定のレベル以上にあることを判定し、制御部20に対して、所定のレベル以上の変化の検出を通知する。 【0027】制御部20は、レベル判定部14からの通知に基づき、SW1をBに切替え、ステップサイズパラメータ変更部17を介してLMSアルゴリズム算出部16にフィードバックされる誤差信号e(n)の値を変更するとともに、音声認識部19を作動させる。 【0028】マイク11から入力された音声信号d(n)は、レベル判定部14に出力されると共に、第1の遅延回路12にも出力される。この第1の遅延回路12ならびにSW2を経由した音声信号d(n)と、第2の遅延回路13ならびにSW3と、ステップサイズパラメータ変更部17で値が変更された誤差信号e(n)に基づきLMSアルゴリズムが算出されたタップ係数w(n)による適応フィルタ15を通したオーディオ信号x(n)とが、減算器18で減算され、誤差信号e(n)として得られる。 【0029】この誤差信号e(n)には、利用者5が発生した所定のコマンドが含まれており、この誤差信号e(n)が音声認識部19に入力され、誤差信号e(n)に含まれている発生コマンドの音声認識が行われる。同時に、誤差信号e(n)はステップサイズパラメータ変更部17を介して、LMSアルゴリズム算出部16に送られ、適応フィルタ15のタップ係数が変更される。 【0030】この際、誤差信号e(n)のフィードバック値は、ステップサイズパラメータ変更部17によってその効果が弱められており、誤差信号e(n)に含まれる利用者5の発生音声のフィードバックが抑えられ、エコーの発生を防止することとなり、音声認識部19における音声認識率が向上する。 【0031】上記のような本発明の音声認識用オーディオキャンセル装置は、第2図に示される作動フローに沿って処理される。即ち、このフローの開始後、SW1、SW2、SW3がそれぞれA側に設定され(ステップS0)、その後、レベル判定部14により、常時マイク11からの音声入力信号d(n)の入力レベルの監視が行われる。レベル判定部14がマイク11から入力される音声信号d(n)のレベルが所定の変化があったことを検知する(ステップS2)と、その結果が制御部20に通知され、制御部20からの制御信号に基づき、まず、SW1がB側に切り替えられると同時に、音声認識部19の音声認識動作が開始される。SW1のB側への切替により誤差信号e(n)に基づき適応フィルタ15に供給されるタップ係数の値がステップサイズパラメータ変更部17により弱められる。 【0032】レベル判定部14は、例えば次のような判定基準で判定を行う。
つまり、つまり、過去の(k+1)個のサンプル値の平均値と最新のサンプル値d(n)を比較し、最新のサンプル値が平均値のα倍以上であるかどうかを判定する。また、レベルのみに限らず、パワーで比較を行ってもよい。さらに、以下のように、最新のサンプル値d(n)のみではなく、最近の(m+1)個のサンプル値の平均と、それ以前の(k+1)個のサンプル値の平均を比較するなどの方法も考えられる。
ここで、α>1,m<<kとする。 【0033】上記のような方法で判定されたレベルの変化に基づき、SW1の切替ならびに音声認識部19の動作が開始される。 【0034】音声認識部19に入力される音声認識用の信号e(n)は、第1の遅延回路12ならびにSW2を通して減算器18に供給されるマイク11が取得した車室内の音声信号d(n)と、第2の遅延回路13、SW3と、ステップサイズパラメータ変更部17でその効果を弱められた適応フィルタ15を通して減算器18に供給されるオーディオ装置40からのオーディオ信号x(n)との差分であり、第1並びに第2の遅延回路は、レベル判定部14における所定のレベル変化の検知に基づき制御部20がSW1の切替ならびに音声認識部19に対する音声認識開始のための制御信号を出力するまでの期間マイク11からの信号d(n)並びにオーディオ装置40からの信号x(n)を遅延させるように設定されている。 【0035】音声認識部19は、入力された音声信号e(n)に対する音声認識動作を行い、第4図に例示される所定のコマンドの一つを認識した場合(ステップS4)、その認識の結果を制御部20に通知し、制御部20は、SW2ならびにSW3をB側に切り替える。この動作により、マイク11から入力される音声信号d(n)ならびにオーディオ装置40からのオーディオ信号x(n)は第1並びに第2の遅延回路12,13を通さずに減算器18に供給されることとなり、音声認識装置1の応答性を損なうことがなくなる。 【0036】音声認識装置1は、認識されたコマンドに基づき、利用者5に次の操作を促すためのシステム応答処理を行い、次のコマンドの入力を待つ(ステップS6)。マイク11から利用者の音声が入力され(ステップS7)、入力された音声d(n)と、適応フィルタ15で適応化されたオーディオ装置からのオーディオ信号x(n)とが前記と同様に減算器18でオーディオ信号のキャンセル処理が行われた信号e(n)として音声認識部19に入力され音声認識処理が行われる(ステップS8)。 【0037】この応答処理は、例えば、利用者5が発生した音声から認識されたコマンドを車室内に設けられた音声認識装置専用のスピーカなどから発音し、その後次の音声を入力するように音声で利用者5に促すように発音することが考えられる。 【0038】この処理期間中においては、通常利用者5は応答内容を確認するため、コマンドなどの発音を控えていることが一般的であると考えられる。したがって、この応答処理期間中において、エコー音の発生を防ぐために音声認識を実施中にステップサイズパラメータ変更部17の動作によりその効果が弱められていたオーディオキャンセル処理のための誤差信号のフィードバック量をステップサイズパラメータ変更部17で弱めることなく適応アルゴリズム算出部16に出力することで、音声認識処理期間中に弱められていたオーディオキャンセル効果の効率を最大限とし、次の音声認識処理におけるオーディオキャンセルのための適応アルゴリズムを最適化することが望まれる。 【0039】このシステム応答処理期間中のフローを第3図に示す。ここで、システム応答処理が開始されると、この応答期間中は、利用者5からの音声入力を処理する必要がないため、音声認識部19における音声認識処理を停止する(ステップS100)。 【0040】次に、ステップサイズパラメータ変更部17からの出力をSW1で切替(B→A)、ステップサイズパラメータ変更部17で減少されていた誤差信号e(n)のフィードバック量を初期状態とする(ステップS101)。 【0041】SW1が初期状態となった時点で、音声認識装置1は利用者に対する応答メッセージ(利用者5の発声音声から認識されたコマンドの確認並びに次に入力すべき項目)を発声する(ステップS102)。 【0042】応答メッセージの再生が完了すると、音声認識装置1の制御部20は、SW1をB側に切替、エコーなどが発生しないようにステップサイズパラメータ変更部17により誤差信号e(n)を減少して適応アルゴリズム算出部16に出力するようにする(ステップS103)。 【0043】最後に、音声認識装置1の制御部20は、音声認識部19に対して、音声認識処理の開始のための制御信号を発する。 【0044】音声認識は、或るコマンド、例えば最初のコマンドが「住所」であった場合、音声認識装置は、住所を特定するために都道府県名、市区町村名、所番地などを階層的に処理するように構成されている。このような階層が存在する場合、音声認識装置1は、ステップS8で認識された音声コマンドに基づき、音声認識の一つの階層が終了したか否かを音声認識部19が確認するように構成されている(ステップS9)。 【0045】階層を終了するコマンドがステップS9で認識できなかった場合、音声認識装置1はステップS6のシステム応答処理により再度の音声入力を促す。 【0046】ステップS9で階層の終了を検知した場合、音声認識装置1は、次の階層の処理が必要であるか否かを判断し(ステップS10)、次の階層がある場合、その処理はステップS6に戻り、次の階層のための利用者5の音声入力を促すためのシステム応答処理を行う。 【0047】ステップS9で次の階層が無いことが検知された場合、音声認識装置は、SW1を初期値であるA側に切替、ステップサイズパラメータ変更部17による誤差信号e(n)への処理を停止し、オーディオ音のキャンセル効果を最大限とする(ステップS11)。 【0048】続いて、SW2、SW3を同様に初期設定であるA側に切り替えることで、マイク11からの音声信号d(n)ならびにオーディオ装置40からのオーディオ音x(n)を第1並びに第2の遅延回路12、13を通して減算器18に供給するように切り替える(ステップS12)。 【0049】以上の実施例では、第1並びに第2の遅延部12、13を経由せずにマイク11からの音声信号d(n)ならびにオーディオ装置40からのオーディオ音x(n)を切り替えるための切替スイッチSW1、SW2とステップサイズパラメータ変更部17からの出力を切り替えるための切替スイッチSW3を有しているものである。 【0050】しかしながら、遅延回路を通さずに直接減算器にオーディオ装置からのオーディオ音ならびにマイクからの音声を入力した場合、車室内における音の伝達関数により、オーディオ装置からのオーディオ音に時間的なずれが生じるおそれがある。 【0051】このようなおそれを解決するため、音声認識装置1の制御部20により第1並びに第2の遅延回路部における遅延量を制御し、時間的なずれを最小とすることで、さらなる音声認識率の向上を図ることが可能である。 【0052】第5図は、上記の本発明に係る第2の実施例を示すものである。第1図における実施例のSW1、SW2、SW3を排除し、制御部20が第1並びに第2の遅延回路12、13、ならびに、ステップサイズパラメータ変更部17を直接制御するように構成している。 【0053】第5図における第1並びに第2の遅延回路12、13に対する遅延量は、利用者5からの音声入力がない状態で、第1の遅延回路12に対するレベル判定部14のマイク11からの入力レベルの変化を検出するに必要な期間をまず設定し、その上で、減算器から出力される誤差信号e(n)を極小化するように第2の遅延回路の遅延量を調節することで行われる。第2の遅延回路13の遅延量は、第1の遅延回路12の遅延量は等しい値とする。 【0054】また、本第2の実施例においては、システム応答処理期間中に音声認識装置1が発生する音声と同じ音声信号s(n)をオーディオ装置40からのオーディオ信号x(n)に重畳する加算器50を有し、マイク11からの入力に対するキャンセル対象としている。 【発明の効果】本発明は、レベル判定部でマイクから入力される音声信号のレベル変化が所定の値以上である場合に、音声認識装置を作動させると共に、通常の状態では、レベル判定部がレベル変化を検知し、ステップサイズパラメータ変更部が動作するまでの間、音声認識部に入力される音声信号を遅延させるようにしたため、発話スイッチ等の利用者による操作なしでも、音声認識時に音声認識部に入力される信号へのエコーなどの発生を防止でき、音声認識率が向上するとの効果を奏する。また、所定のコマンド認識後においては、マイクから入力される車室内の音声信号に対する第1の遅延回路ならびにオーディオ装置から入力されるオーディオ音に対する第2の遅延回路の遅延量を極小化することで、音声認識開始後の音声認識装置の応答性が向上するとの効果を奏する。また、音声認識装置がシステムとして応答する処理期間中は、ステップサイズパラメータ変更部の設定を最適なオーディオキャンセルのためのフィードバックを行うように制御しているため、音声認識処理のための最適なキャンセル処理が行えるとの効果を奏する。また、本発明においては、レベル判定部のレベル変化の検出結果に基づき、音声認識部を作動させるように構成しているため、音声認識装置の消費電力を削減できるとの効果をも奏するものである。
|
| 【出願人】 |
【識別番号】000101732 【氏名又は名称】アルパイン株式会社
|
| 【出願日】 |
平成13年3月2日(2001.3.2) |
| 【代理人】 |
|
| 【公開番号】 |
特開2002−258898(P2002−258898A) |
| 【公開日】 |
平成14年9月11日(2002.9.11) |
| 【出願番号】 |
特願2001−57683(P2001−57683) |
|