| 【発明の名称】 |
音声認識装置、音声認識方法および音声認識プログラム |
| 【発明者】 |
【氏名】川根 友恵
【氏名】金森 丈郎
|
| 【要約】 |
【課題】話者の音声レベルに左右されずに音声認識の認識率を向上させることができる音声認識装置、音声認識方法および音声認識プログラムを提供することである。
【解決手段】話者により発声された音声はマイクロホン1により集音され、A/Dコンバータ2を介して信号遅延部3および音声レベル推定部4に与えられる。音声レベル推定部4は与えられるデジタル音声信号から音声レベルの推定値の算出を行う。信号遅延部3は予め定められた音声レベル立ち上がり時間分を遅延させたデジタル音声信号を音声レベル調整部5に与え、音声レベル調整部5は、音声レベルの推定値に基づいてデジタル音声信号の音声レベルの調整を行い、音声レベルの調整後の出力を音声認識部6に与える。音声認識部6は与えられる音声レベルの調整後の出力に応じて音声認識を行う。 |
【特許請求の範囲】
【請求項1】 デジタル音声信号を入力する入力手段と、前記入力手段により入力される音声区間内の一部の時間内のデジタル音声信号に基づいて前記音声区間の音声レベルを推定する音声レベル推定手段と、前記音声レベル推定手段により推定された音声レベルおよび予め設定された目標レベルに基づいて前記入力手段により入力される前記音声区間のデジタル音声信号のレベルを調整する音声レベル調整手段と、前記音声レベル調整手段により調整されたデジタル音声信号に基づいて音声認識を行う音声認識手段とを備えたことを特徴とする音声認識装置。 【請求項2】 前記音声レベル推定手段は、前記入力手段により入力される前記音声区間内の最初の所定時間内のデジタル音声信号に基づいて前記音声区間の音声レベルを推定することを特徴とする請求項1記載の音声認識装置。 【請求項3】 前記音声レベル推定手段は、前記入力手段により入力される前記音声区間内の最初の所定時間内のデジタル音声信号の平均値を前記音声区間の音声レベルとして推定することを特徴とする請求項2記載の音声認識装置。 【請求項4】 前記音声レベル調整手段は、前記予め設定された目標レベルと前記音声レベル推定手段により推定される音声レベルとの比により定まる増幅率で前記入力手段により入力される前記音声区間のデジタル音声信号のレベルを増幅または減衰させることを特徴とする請求項1〜3のいずれかに記載の音声認識装置。 【請求項5】 前記音声区間のデジタル音声信号が前記音声レベル推定手段により推定される音声レベルとともに同期して前記音声レベル調整手段に与えられるように前記入力手段により入力されるデジタル音声信号を遅延させる遅延回路をさらに備えたことを特徴とする請求項1〜4のいずれかに記載の音声認識装置。 【請求項6】 前記音声レベル推定手段は、前記入力手段により入力される前記音声区間のデジタル音声信号の開始点を検出する音声検出部と、前記入力手段により入力される前記音声区間内の最初の所定時間内のデジタル音声信号に基づいて前記音声区間の音声レベルを推定する音声レベル推定部と、前記音声レベル推定部により推定された音声レベルを保持する保持回路と、前記音声検出部による検出に応答して前記入力手段により入力される前記音声区間のデジタル音声信号を蓄積するとともに蓄積された前記音声区間のデジタル音声信号を前記保持回路に保持された音声レベルと同期させて前記音声レベル調整手段に出力する蓄積回路とを含むことを特徴とする請求項1〜5のいずれかに記載の音声認識装置。 【請求項7】 前記蓄積回路は、前記入力手段により入力される前記音声区間のデジタル音声信号を交互に蓄積するとともに蓄積された前記音声区間のデジタル音声信号を交互に前記音声レベル調整手段に出力する第1および第2のバッファを含むことを特徴とする請求項6記載の音声認識装置。 【請求項8】 前記音声認識手段は、音声認識結果を前記音声レベル調整手段に帰還させ、前記音声レベル調整手段は、前記音声認識手段により帰還された音声認識結果に基づいて前記音声レベルの調整程度を変更することを特徴とする請求項1〜7のいずれかに記載の音声認識装置。 【請求項9】 前記音声レベル調整手段は、前記音声認識手段による音声認識が不可能な場合に前記音声レベルの増幅率を上昇させることを特徴とする請求項8記載の音声認識装置。 【請求項10】 前記音声レベル推定手段により推定された音声レベルが予め定められた範囲内にある場合に前記音声レベル調整手段を不能動化し、前記音声レベル推定手段により推定された音声レベルが予め定められた範囲内にない場合に前記音声レベル調整手段を能動化するとともに前記音声レベル推定手段により推定された音声レベルを前記予め定められた範囲内の音声レベルに変更して前記音声レベル調整手段に与える非線形処理部をさらに備えたことを特徴とする請求項1〜9のいずれかに記載の音声認識装置。 【請求項11】 デジタル音声信号を入力するステップと、音声区間内の一部の時間内の前記入力されたデジタル音声信号に基づいて前記音声区間の音声レベルを推定するステップと、前記推定された音声レベルおよび予め設定された目標レベルに基づいて前記音声区間のデジタル音声信号のレベルを調整するステップと、前記調整されたデジタル音声信号に基づいて音声認識を行うステップとを備えたことを特徴とする音声認識方法。 【請求項12】 前記音声レベルを推定するステップは、前記音声区間内の最初の所定時間内のデジタル音声信号に基づいて前記音声区間の音声レベルを推定することを含むことを特徴とする請求項11記載の音声認識方法。 【請求項13】 前記音声レベルを推定するステップは、前記音声区間内の最初の所定時間内のデジタル音声信号の平均値を前記音声区間の音声レベルとして推定することを含むことを特徴とする請求項12記載の音声認識方法。 【請求項14】 前記デジタル音声信号のレベルを調整するステップは、前記予め設定された目標レベルと前記推定される音声レベルとの比により定まる増幅率で前記音声区間のデジタル音声信号のレベルを増幅または減衰させることを含むこと特徴とする請求項11〜13のいずれかに記載の音声認識方法。 【請求項15】 前記音声区間のデジタル音声信号が前記推定される音声レベルとともに同期して前記デジタル音声信号のレベルを調整するステップに与えられるように前記デジタル音声信号を遅延させるステップをさらに備えたことを特徴とする請求項11〜14のいずれかに記載の音声認識方法。 【請求項16】 前記音声レベルを推定するステップは、前記音声区間のデジタル音声信号の開始点を検出するステップと、前記音声区間内の最初の所定時間内のデジタル音声信号に基づいて前記音声区間の音声レベルを推定するステップと、前記推定された音声レベルを保持するステップと、前記デジタル音声信号の開始点の検出に応答して前記音声区間のデジタル音声信号を蓄積するとともに蓄積された前記音声区間のデジタル音声信号を前記保持された音声レベルと同期させて出力するステップとを含むことを特徴とする請求項11〜15のいずれかに記載の音声認識方法。 【請求項17】 前記蓄積するステップは、前記音声区間のデジタル音声信号を第1および第2のバッファに交互に蓄積するとともに蓄積された前記音声区間のデジタル音声信号を第1および第2のバッファから交互に出力するステップを含むことを特徴とする請求項16記載の音声認識方法。 【請求項18】 前記音声認識を行うステップは、音声認識結果を前記デジタル音声信号のレベルを調整するステップに帰還させることを含み、前記デジタル音声信号のレベルを調整するステップは、前記帰還された音声認識結果に基づいて前記音声レベルの調整程度を変更することを含むことを特徴とする請求項11〜17のいずれかに記載の音声認識方法。 【請求項19】 前記デジタル音声信号のレベルを調整するステップは、前記音声認識が不可能な場合に前記音声レベルの増幅率を上昇させることを含むことを特徴とする請求項18記載の音声認識方法。 【請求項20】 前記推定された音声レベルが予め定められた範囲内にある場合に前記デジタル音声信号のレベルを調整することを不能動化し、前記推定された音声レベルが予め定められた範囲内にない場合に前記調整するステップを能動化するとともに前記推定された音声レベルを前記予め定められた範囲内の音声レベルに変更して変更された音声レベルを前記デジタル音声信号のレベルを調整するために用いるステップをさらに備えたことを特徴とする請求項11〜19のいずれかに記載の音声認識方法。 【請求項21】 コンピュータ読み取り可能な音声認識プログラムであって、デジタル音声信号を入力する処理と、前記入力される音声区間内の一部の時間内のデジタル音声信号に基づいて前記音声区間の音声レベルを推定する処理と、前記推定された音声レベルおよび予め設定された目標レベルに基づいて前記入力される前記音声区間のデジタル音声信号のレベルを調整する処理と、前記調整されたデジタル音声信号に基づいて音声認識を行う処理とを、前記コンピュータに実行させることを特徴とする音声認識プログラム。
|
【発明の詳細な説明】【0001】 【発明の属する技術分野】本発明は、話者により発声された音声を認識する音声認識装置、音声認識方法および音声認識プログラムに関する。 【0002】 【従来の技術】近年、音声認識に関する技術の発展が著しい。この音声認識とは、コンピュータまたは機械などが人間の音声を自動的に理解することである。例えば、この音声認識を用いることにより、コンピュータまたは機械などを人間の音声に応じて動作させたり、人間の音声を文字に変換させたりすることができる。 【0003】音声認識では、発声された音声が有する周波数スペクトルなどの物理的特徴を抽出し、予め記憶されている母音、子音または単語の物理的特徴の型と比較する方法が主に用いられる。しかし、複数の不特定の話者の音声認識を行う場合には、話者各々の個人差による音声の有する物理的特徴の相違が要因となり正確な音声認識を行うことができない。また、特定の話者の音声認識を行う場合にも、昼夜などの周囲環境の変化による雑音(ノイズ)、または話者の体調などによる音声の有する物理的特徴の変化が、音声認識を行う際の認識率を低下させる要因となり正確な音声認識を行うことができない。 【0004】図13は音声認識を行う際の音声レベルと認識率との関係の一例を示す模式図である。図13に示す模式図は、縦軸が認識率(%)を示し、横軸が音声レベル(dB)を示す。ここで、音声レベルとは、音声パワーのレベルを意味し、例えば0dBは、負荷抵抗600Ω、端子間電圧0.775V、消費電力1mWをいう。 【0005】図13に示すように、従来の音声認識では、音声レベルが−19dBよりも低い場合、または音声レベルが−2dBよりも高い場合に認識率が低下する傾向がある。 【0006】従来の音声認識においては、母音、子音または単語の物理的特徴の型である音声レベルを予め記憶する際の音声レベルの近傍において認識率が高くなっている。すなわち、予め記憶される音声レベルと入力される音声レベルとを比較して音声認識を行うため、音声レベルが低い場合から高い場合まで平均的に高い認識率を得ることはできない。 【0007】そこで、実開昭59−60700号公報には、音声を入力する際に使用するマイクロアンプにAGC回路(Auto Gain Contoroller:自動利得制御回路)を用いて常に入力される音声レベルをほぼ一定にする音声認識装置が開示されている。また、実開平01−137497号公報および特開昭63−014200号公報には、適当な手段により話者に音声レベルを知らせ、最適な音声レベルの発声を行うように促す音声認識装置が開示されている。 【0008】 【発明が解決しようとする課題】しかしながら、実開昭59−60700号公報に開示された音声認識装置では、AGC回路により増幅する必要のない音声以外の雑音(ノイズ)も増幅され、増幅された雑音によって認識率が低下する場合がある。さらに、入力される音声には、1単語ごとに言葉の抑揚を示すアクセントが存在する。そのため、入力される音声レベルをAGC回路によって頻繁に増幅したり増幅しなかったりすることにより、ほぼ一定のレベルに増幅された音声の波形に歪みが生じる。この音声の波形の歪みにより、一単語ごとに含まれる言葉の抑揚を示すアクセントが歪みを生じ認識率が低下する。 【0009】一方、実開平01−137497号公報および特開昭63−014200号公報に開示された音声認識装置では、周囲環境の変化または話者自身の体調不良などの影響により、話者によって入力される音声レベルが予め定められた規定値に達しない場合がある。また、話者が予め定められた規定の音声レベルを発声しても、音声認識装置が認識しない場合などがある。例えば、話者により発声される音声レベルは個人特有の物理的特徴であり、無理に発声を変化させると物理的特徴が異質のものとなり、かえって音声認識の認識率を低下させる場合などがある。 【0010】本発明の目的は、話者の音声レベルに左右されずに音声認識の認識率を向上させることができる音声認識装置、音声認識方法および音声認識プログラムを提供することである。 【0011】 【課題を解決するための手段】第1の発明に係る音声認識装置は、デジタル音声信号を入力する入力手段と、入力手段により入力される音声区間内の一部の時間内のデジタル音声信号に基づいて音声区間の音声レベルを推定する音声レベル推定手段と、音声レベル推定手段により推定された音声レベルおよび予め設定された目標レベルに基づいて入力手段により入力される音声区間のデジタル音声信号のレベルを調整する音声レベル調整手段と、音声レベル調整手段により調整されたデジタル音声信号に基づいて音声認識を行う音声認識手段とを備えたものである。 【0012】第1の発明に係る音声認識装置においては、入力手段によりデジタル音声信号が入力され、入力手段により入力される音声区間内の予め定められた時間内のデジタル音声信号に基づいて音声レベル推定手段により音声区間の音声レベルが推定される。音声レベル推定手段により推定された音声レベルおよび予め設定された目標レベルに基づいて入力手段により入力される音声区間のデジタル音声信号のレベルが音声レベル調整手段により調整され、音声レベル調整手段により調整されたデジタル音声信号に基づいて音声認識手段により音声認識が行われる。 【0013】この場合、音声区間内の一部の時間内のデジタル音声信号に基づいて音声区間の全体の音声レベルが推定され、推定された音声レベルおよび予め設定された目標レベルに基づいて音声区間のデジタル音声信号のレベルが一律に調整される。それにより、話者の音声が有する言葉の抑揚を示すアクセントに歪みを与えることなく音声認識を行うことができる。したがって、音声認識の認識率を向上させることができる。 【0014】第2の発明に係る音声認識装置は、第1の発明に係る音声認識装置の構成において、音声レベル推定手段は、入力手段により入力される音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声区間の音声レベルを推定するものである。 【0015】この場合、通常、音声区間内の最初の所定時間内の音声レベルの立ち上がり部分により音声区間の全体の音声レベルを判断することができる。したがって、音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声レベルの推定を行うことにより、音声区間内の音声レベルを短時間で正確に推定することができる。 【0016】第3の発明に係る音声認識装置は、第2の発明に係る音声認識装置の構成において、音声レベル推定手段は、入力手段により入力される音声区間内の最初の所定時間内のデジタル音声信号の平均値を音声区間の音声レベルとして推定するものである。 【0017】この場合、音声区間の最初の所定時間内のデジタル音声信号の平均値を算出することにより、音声区間の音声レベルをより正確に推定することができる。 【0018】第4の発明に係る音声認識装置は、第1〜第3のいずれかの発明に係る音声認識装置の構成において、音声レベル調整手段は、予め設定された目標レベルと音声レベル推定手段により推定される音声レベルとの比により定まる増幅率で入力手段により入力される音声区間のデジタル音声信号のレベルを増幅または減衰させるものである。 【0019】この場合、目標レベルと推定された音声レベルとの比により定まる増幅率で音声区間のデジタル信号のレベルを増加または減衰させることにより、音声区間の音声レベルを目標レベルに設定することができる。 【0020】第5の発明に係る音声認識装置は、第1〜第4のいずれかの発明に係る音声認識装置の構成において、入力手段により入力されるデジタル音声信号が音声レベル推定手段により推定される音声レベルとともに同期して音声レベル調整手段に与えられるように入力手段により入力されるデジタル音声信号を遅延させる遅延回路をさらに備えたものである。 【0021】この場合、デジタル音声信号に対応した音声レベルの推定値を用いて音声レベルを調整することができる。これにより、音声区間の音声レベルを正確に調整することができる。 【0022】第6の発明に係る音声認識装置は、第1〜第5のいずれかの発明に係る音声認識装置の構成おいて、音声レベル推定手段は、入力手段により入力される音声区間の開始点を検出する音声検出部と、入力手段により入力される音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声区間の音声レベルを推定する音声レベル推定部と、音声レベル推定部により推定された音声レベルを保持する保持回路と、音声検出部による検出に応答して入力手段により入力される音声区間のデジタル音声信号を蓄積するとともに蓄積された音声区間のデジタル音声信号を保持回路に保持された音声レベルと同期させて音声レベル調整手段に出力する蓄積回路とを含むものである。 【0023】この場合、入力手段により入力される音声区間のデジタル音声信号の開始点が音声検出部により検出され、入力手段により入力される音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声レベル推定部により音声区間の音声レベルが推定される。音声レベル推定部により推定された音声レベルが保持回路により保持され、音声検出部による検出に応答して入力手段により入力される音声区間のデジタル音声信号が蓄積回路に蓄積されるとともに蓄積された音声区間のデジタル音声信号が保持回路に保持された音声レベルと同期させて蓄積回路により音声レベル調整手段に出力される。 【0024】この場合、音声区間の開始点からデジタル音声信号が蓄積回路に蓄積され、蓄積されたデジタル音声信号に対応した音声レベルの推定値を用いて音声レベルが調整される。これにより、デジタル音声信号を正確な音声レベルに調整することができ、音声認識の認識率を向上させることができる。 【0025】第7の発明に係る音声認識装置は、第6の発明に係る音声認識装置の構成において、蓄積回路は、入力手段により入力される音声区間のデジタル音声信号を交互に蓄積するとともに蓄積された音声区間のデジタル音声信号を交互に音声レベル調整手段に出力する第1および第2のバッファを含むものである。 【0026】この場合、複数の単語を含む長い時間の音声が入力されても、第1および第2のバッファに音声区間のデジタル音声信号が交互に蓄積されるとともに第1または第2のバッファから音声区間のデジタル音声信号が出力される。これにより、複数の単語を含む長い時間の音声の認識を小さな容量の第1または第2のバッファを用いて行うことができる。 【0027】第8の発明に係る音声認識装置は、第1〜第7のいずれかの発明に係る音声認識装置の構成において、音声認識手段は、音声認識結果を音声レベル調整手段に帰還させ、音声レベル調整手段は、音声認識手段により帰還された音声認識結果に基づいて音声レベルの調整程度を変更するものである。 【0028】この場合、音声認識結果を再び音声レベルの調整に用いて音声レベルの調整程度を変更することにより、音声レベルの調整程度が適切でない場合に音声レベルの調整程度を適切な状態に近づけることができる。 【0029】第9の発明に係る音声認識装置は、第8の発明に係る音声認識装置の構成において、音声レベル調整手段は、音声認識手段による音声認識が不可能な場合に音声レベルの増幅率を上昇させるものである。 【0030】この場合、音声認識が不可能な場合に音声レベルの増幅率を上昇させることにより、音声認識が不可能な音声レベルを音声認識が可能な音声レベルに調整することができる。 【0031】第10の発明に係る音声認識装置は、第1〜第9のいずれかの発明に係る音声認識装置の構成において、音声レベル推定手段により推定された音声レベルが予め定められた範囲内にある場合に音声レベル調整手段を不能動化し、音声レベル推定手段により推定された音声レベルが予め定められた範囲内にない場合に音声レベル調整手段を能動化するとともに音声レベル推定手段により推定された音声レベルを予め定められた範囲内の音声レベルに変更して音声レベル調整手段に与える非線形処理部をさらに備えたものである。 【0032】この場合、予め定められた範囲内にない音声レベルの場合にのみ、予め定められた範囲内の音声レベルに変更して音声レベルの調整を行うことができる。これにより、話者の音声が有する言葉の抑揚を示すアクセントに無用な歪みを与えることを防止することができる。 【0033】第11の発明に係る音声認識方法は、デジタル音声信号を入力するステップと、音声区間内の一部の時間内の入力されたデジタル音声信号に基づいて音声区間の音声レベルを推定するステップと、推定された音声レベルおよび予め設定された目標レベルに基づいて音声区間のデジタル音声信号のレベルを調整するステップと、調整されたデジタル音声信号に基づいて音声認識を行うステップとを備えたものである。 【0034】第11の発明に係る音声認識方法においては、デジタル音声信号が入力され、音声区間内の一部の時間内のデジタル音声信号に基づいて音声区間の音声レベルが推定される。推定された音声レベルおよび予め設定された目標レベルに基づいて音声区間のデジタル音声信号のレベルが調整され、調整されたデジタル音声信号に基づいて音声認識が行われる。 【0035】この場合、音声区間内の一部の時間内のデジタル音声信号に基づいて音声区間の全体の音声レベルが推定され、推定された音声レベルおよび予め設定された目標レベルに基づいて音声区間のデジタル音声信号のレベルが一律に調整される。それにより、話者の音声が有する言葉の抑揚を示すアクセントに歪みを与えることなく音声認識を行うことができる。したがって、音声認識の認識率を向上させることができる。 【0036】第12の発明に係る音声認識方法は、第11の発明に係る音声認識方法において、音声レベルを推定するステップは、音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声区間の音声レベルを推定することを含むものである。 【0037】この場合、通常、音声区間内の最初の所定時間内の音声レベルの立ち上がり部分により音声区間の全体の音声レベルを判断することができる。したがって、音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声レベルの推定を行うことにより、音声区間内の音声レベルを短時間で正確に推定することができる。 【0038】第13の発明に係る音声認識方法は、第12の発明に係る音声認識方法において、音声レベルを推定するステップは、音声区間内の最初の所定時間内のデジタル音声信号の平均値を音声区間の音声レベルとして推定することを含むものである。 【0039】この場合、音声区間の最初の所定時間内のデジタル音声信号の平均値を算出することにより、音声区間の音声レベルをより正確に推定することができる。 【0040】第14の発明に係る音声認識方法は、第11〜第13のいずれかの発明に係る音声認識方法において、デジタル音声信号のレベルを調整するステップは、予め設定された目標レベルと推定される音声レベルとの比により定まる増幅率で音声区間のデジタル音声信号のレベルを増幅または減衰させることを含むものである。 【0041】この場合、目標レベルと推定された音声レベルとの比により定まる増幅率で音声区間のデジタル信号のレベルを増加または減衰させることにより、音声区間の音声レベルを目標レベルに設定することができる。 【0042】第15の発明に係る音声認識方法は、第11〜第14のいずれかの発明に係る音声認識方法において、音声区間のデジタル音声信号が推定される音声レベルとともに同期してデジタル音声信号のレベルを調整するステップに与えられるようにデジタル音声信号を遅延させるステップをさらに備えたものである。 【0043】この場合、デジタル音声信号に対応した音声レベルの推定値を用いて音声レベルを調整することができる。これにより、音声区間の音声レベルを正確に調整することができる。 【0044】第16の発明に係る音声認識方法は、第11〜第15のいずれかの発明に係る音声認識方法において、音声レベルを推定するステップは、音声区間のデジタル音声信号の開始点を検出するステップと、音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声区間の音声レベルを推定するステップと、推定された音声レベルを保持するステップと、デジタル音声信号の開始点の検出に応答して音声区間のデジタル音声信号を蓄積するとともに蓄積された音声区間のデジタル音声信号を保持された音声レベルと同期させて出力するステップとを含むものである。 【0045】この場合、音声区間のデジタル音声信号の開始点が検出され、音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声区間の音声レベルが推定される。推定された音声レベルが保持され、音声区間のデジタル音声信号の開始点の検出に応答して音声区間のデジタル音声信号が蓄積されるとともに蓄積された音声区間のデジタル音声信号が保持された音声レベルと同期させて出力される。 【0046】この場合、音声区間の開始点からデジタル音声信号が蓄積回路に蓄積され、蓄積されたデジタル音声信号に対応した音声レベルの推定値を用いて音声レベルが調整される。これにより、デジタル音声信号を正確な音声レベルに調整することができ、音声認識の認識率を向上させることができる。 【0047】第17の発明に係る音声認識方法は、第16の発明に係る音声認識方法において、蓄積するステップは、音声区間のデジタル音声信号を第1および第2のバッファに交互に蓄積するとともに蓄積された音声区間のデジタル音声信号を第1および第2のバッファから交互に出力するステップを含むものである。 【0048】この場合、複数の単語を含む長い時間の音声が入力されても、第1および第2のバッファに音声区間のデジタル音声信号が交互に蓄積されるとともに第1または第2のバッファから音声区間のデジタル音声信号が出力される。これにより、複数の単語を含む長い時間の音声の認識を小さな容量の第1または第2のバッファを用いて行うことができる。 【0049】第18の発明に係る音声認識方法は、第11〜第17のいずれかの発明に係る音声認識方法において、音声認識を行うステップは、音声認識結果をデジタル音声信号のレベルを調整するステップに帰還させることを含み、デジタル音声信号のレベルを調整するステップは、帰還された音声認識結果に基づいて音声レベルの調整程度を変更することを含むものである。 【0050】この場合、音声認識結果を再び音声レベルの調整に用いて音声レベルの調整程度を変更することにより、音声レベルの調整程度が適切でない場合に繰り返し音声レベルの調整程度を適切なレベルに近づけることができる。 【0051】第19の発明に係る音声認識方法は、第18の発明に係る音声認識方法において、デジタル音声信号のレベルを調整するステップは、音声認識が不可能な場合に音声レベルの増幅率を上昇させることを含むものである。 【0052】この場合、音声認識が不可能な場合に音声レベルの増幅率を上昇させることにより、音声認識が不可能な音声レベルを音声認識が可能な音声レベルに調整することができる。 【0053】第20の発明に係る音声認識方法は、第11〜第19のいずれかの発明に係る音声認識方法において、推定された音声レベルが予め定められた範囲内にある場合にデジタル音声信号のレベルを調整することを不能動化し、推定された音声レベルが予め定められた範囲内にない場合に調整するステップを能動化するとともに推定された音声レベルを予め定められた範囲内の音声レベルに変更して変更された音声レベルをデジタル音声信号のレベルを調整するために用いるステップをさらに備えたものである。 【0054】この場合、予め定められた範囲内にない音声レベルの場合にのみ、予め定められた範囲内の音声レベルに変更して音声レベルの調整を行うことができる。これにより、話者の音声が有する言葉の抑揚を示すアクセントに無用な歪みを与えることを防止することができる。 【0055】第21の発明に係る音声認識プログラムは、コンピュータ読み取り可能な音声認識プログラムであって、デジタル音声信号を入力する処理と、入力される音声区間内の一部の時間内のデジタル音声信号に基づいて音声区間の音声レベルを推定する処理と、推定された音声レベルおよび予め設定された目標レベルに基づいて入力される音声区間のデジタル音声信号のレベルを調整する処理と、調整されたデジタル音声信号に基づいて音声認識を行う処理とをコンピュータに実行させるものである。 【0056】第21の発明に係る音声認識プログラムにおいては、デジタル音声信号が入力され、入力される音声区間内の予め定められた時間内のデジタル音声信号に基づいて音声区間の音声レベルが推定される。推定された音声レベルおよび予め設定された目標レベルに基づいて入力される音声区間のデジタル音声信号のレベルが調整され、調整されたデジタル音声信号に基づいて音声認識が行われる。 【0057】この場合、音声区間内の一部の時間内のデジタル音声信号に基づいて音声区間の全体の音声レベルが推定され、推定された音声レベルおよび予め設定された目標レベルに基づいて音声区間のデジタル音声信号のレベルが一律に調整される。それにより、話者の音声が有する言葉の抑揚を示すアクセントに歪みを与えることなく音声認識を行うことができる。したがって、音声認識の認識率を向上させることができる。 【0058】 【発明の実施の形態】(第1の実施の形態)図1は本発明の第1の実施の形態における音声認識装置の一実施例を示すブロック図である。 【0059】図1に示すように、音声認識装置は、マイクロホン1、A/D(アナログ−デジタル)コンバータ2、信号遅延部3、音声レベル推定部4、音声レベル調整部5および音声認識部6を含む。 【0060】図1に示すように、話者により発声された音声は、マイクロホン1により集音される。集音された音声は、マイクロホン1の働きによりアナログ音声信号SAに変換されA/Dコンバータ2に出力される。A/Dコンバータ2は、出力されるアナログ音声信号SAをデジタル音声信号DSに変換し、信号遅延部3および音声レベル推定部4に与える。音声レベル推定部4は、与えられるデジタル音声信号DSから音声レベルの推定値LVLの算出を行う。ここで、音声レベルとは、音声パワー(音声エネルギー)のレベルを意味する。この音声レベルの推定値LVLの算出については後述する。 【0061】信号遅延部3は、後述する予め定められた音声レベル立ち上がり時間TLに相当する遅延量分のみ遅延させたデジタル音声信号DSを音声レベル調整部5に与える。音声レベル調整部5は、音声レベル推定部4から与えられる音声レベルの推定値LVLに同期して信号遅延部3により与えられるデジタル音声信号DSの音声レベルの調整を行う。音声レベル調整部5は、音声レベルの調整後の出力CTRL_OUTを音声認識部6に与える。音声認識部6は、音声レベル調整部5により与えられる音声レベルの調整後の出力CTRL_OUTに基づき音声認識を行う。 【0062】第1の実施の形態における音声認識装置においては、マイクロホン1およびA/D(アナログ−デジタル)コンバータ2が入力手段に相当し、信号遅延部3が遅延回路に相当し、音声レベル推定部4が音声レベル推定手段に相当し、音声レベル調整部5が音声レベル調整手段に相当し、音声認識部6が音声認識手段に相当する。 【0063】なお、信号遅延部3、音声レベル推定部4、音声レベル調整部5および音声認識部6は、それぞれ信号遅延回路、音声レベル推定回路、音声レベル調整回路および音声認識回路により構成することができる。また、信号遅延部3、音声レベル推定部4、音声レベル調整部5および音声認識部6をコンピュータおよび音声認識プログラムにより表現することができる。 【0064】ここで、音声認識プログラムを実行するためのコンピュータについて説明する。図2は音声認識プログラムを実行するためのコンピュータの構成を示すブロック図である。 【0065】コンピュータは、CPU(中央演算処理装置)500、入出力装置501、ROM(リードオンリメモリ)502、RAM(ランダムアクセスメモリ)503、記録媒体504、記録媒体駆動装置505および外部記録装置506を含む。 【0066】入出力装置501は、他の装置との間で情報の送受信を行う。本実施の形態の入出力装置501は、図1のA/Dコンバータ2からデジタル音声信号DSを入力する。ROM502にはシステムプログラムが記録される。記録媒体駆動装置505は、CD−ROMドライブ、フロッピィディスクドライブ等からなり、CD−ROM、フロッピィディスク等の記録媒体504に対してデータの読み書きを行う。記録媒体504には、音声認識プログラムが記録されている。外部記録装置506は、ハードディスク装置などからなり、記録媒体駆動装置505を介して記録媒体504から読み込まれた音声認識プログラムを記録する。CPU500は、外部記録装置506に記録された音声認識プログラムをRAM503上で実行する。これにより、図1の信号遅延部3、音声レベル推定部4、音声レベル調整部5および音声認識部6の機能が実行される。 【0067】次に、図1の音声レベル推定部4による音声レベルの推定値LVLの算出方法および音声レベル調整部5による音声レベルの調整方法について説明する。 【0068】まず、音声レベル推定部4による音声レベルの推定値LVLの算出方法について説明を行う。音声レベル推定部4に入力されるデジタル音声信号DSを、DS(x)(x=1,2,…,Q)とする。ここで、xは、予め定められた音声レベルの立ち上がり時間TL内でのQ個の時点を表し、DS(x)はQ個の時点でのデジタル音声信号DSの値を表す。この場合、音声レベルの推定値LVLは、次式のように表される。 【0069】 LVL= (Σ|DS(x)|)/Q …(1) 式(1)によれば、音声レベルの推定値LVLは、予め定められた音声レベル立ち上がり時間TL内のQ個の時点でのデジタル音声信号DS(x)の絶対値の累積加算をQで除算することにより得られる平均値である。このようにして、音声レベル推定部4において音声レベルの推定値LVLが算出される。 【0070】次に、音声レベル調整部5による音声レベルの調整方法について説明する。音声レベル調整部5において、予め定められた音声レベルの目標値をTRG_LVLと表す。この場合、音声レベルの調整値LVL_CTRLは、次式のように表される。 【0071】 LVL_CTRL=TRG_LVL/LVL …(2) 式(2)によれば、音声レベルの調整値LVL_CTRLは、予め定められた音声レベルの目標値TRG_LVLを音声レベルの推定値LVLにより除算することにより算出される。 【0072】また、音声レベルの調整後の出力CTRL_OUTは、音声レベルの調整値LVL_CTRLを用いて次式のように表される。 【0073】 CTRL_OUT(X)=DS(X)×LVL_CTRL …(3) ここで、Xは時間を表す。式(3)によれば、音声レベルの調整後の出力CTRL_OUT(X)は、予め定められた音声レベル立ち上がり時間TLにおけるデジタル音声信号DS(X)に音声レベルの調整値LVL_CTRLを乗算した値となる。このように、音声レベル調整部5は、音声レベルの調整を行い調整後の出力CTRL_OUT(X)を音声認識部6に与える。 【0074】次に、図1に示す信号遅延部3の予め定められた音声レベル立ち上がり時間TLについて図を用いて説明する。 【0075】図3は話者により発声された“らぐびー”の音声スペクトルを示す波形図である。図3において、縦軸が音声レベルを示し、横軸が時間を示す。 【0076】図3に示すように、“らぐびー”という一単語の音声スペクトルは、“ら”の部分の音声レベルが高くなっている。すなわち、音声レベルの高い部分が、1単語ごとに言葉の抑揚を示すアクセントの部分である。ここで、図3に示すように、話者により発声された音声の開始時間TSから発声された音声レベルの値がピーク値Pに到達するまでの時間を音声レベル立ち上がり時間TLとする。一般に、音声レベル立ち上がり時間TLは0sec (秒)〜100msec(ミリ秒)以内に存在し、本発明の実施の形態では、音声レベル立ち上がり時間TLは、100msecとする。 【0077】例えば、この音声レベル立ち上がり時間TLを短時間に設定すると音声認識の認識率の低下を招くこととなる。図3に示すように“らぐびー”という単語を話者が発声した場合、音声レベル立ち上がり時間をTL’で示すように短く設定した場合を考える。この場合、図1に示す信号遅延部3において入力されるデジタル音声信号DSを音声レベル立ち上がり時間TL’分のみ遅延させても、音声レベル推定部4により適切な音声レベルの推定値LVLが算出されず、本来目標とする音声レベルの推定値LVLよりも低い音声レベルの推定値が算出される。その後、音声レベル調整部5に目標よりも低い音声レベルの推定値が与えられ、音声レベル調整部5によりデジタル音声信号DSの音声レベルの値が誤って調整される。これにより、音声認識部6に誤ったデジタル音声信号DSが入力され音声認識の認識率が低下する。 【0078】上記のように、信号遅延部3において音声区間の最初の音声レベル立ち上がり時間TLを100msecに設定することにより、音声区間全体の音声レベルを音声レベル推定部4により算出することができる。これにより、音声区間のデジタル音声信号DSのレベルが一律に調整されるので、話者の音声が有する言葉の抑揚を示すアクセントに歪みを与えることなく音声認識を行うことができ音声認識の認識率を向上させることができる。 【0079】(第2の実施の形態)次に、本発明の第2の実施の形態における音声認識装置について図を用いて説明する。 【0080】図4は本発明の第2の実施の形態における音声認識装置を示すブロック図である。 【0081】図4に示すように、音声認識装置は、マイクロホン1、A/Dコンバータ2、音声レベル推定部4、音声レベル調整部5、音声認識部6、音声検出部7、音声レベル保持部8、選択部11,12、バッファ21およびバッファ22を含む。 【0082】図4に示すように、話者により発声された音声は、マイクロホン1により集音される。集音された音声は、マイクロホン1の働きによりアナログ音声信号SAに変換されA/Dコンバータ2に出力される。A/Dコンバータ2は、出力されるアナログ音声信号SAをデジタル音声信号DSに変換し、音声レベル推定部4、音声検出部7および選択部11に与える。音声レベル推定部4は、与えられるデジタル音声信号DSから音声レベルの推定値LVLの算出を行う。第2の実施の形態における音声レベル推定部4による音声レベルの推定値LVLの算出は、第1の実施の形態における音声レベル推定部4による音声レベルの推定値LVLの算出方法と同様である。 【0083】音声レベル推定部4は、A/Dコンバータ2から与えられるデジタル音声信号DSに基づいて、一単語ごとに音声レベルの推定値LVLを算出し、算出される音声レベルの推定値LVLを順次音声レベル保持部8に与える。ここで、音声レベル保持部8は、音声レベル保持部8内に設けられる保持レジスタに、次に音声レベル推定部4により算出される音声レベルの推定値LVLが与えられるまで前回の音声レベルの推定値LVLを保持し、音声レベル推定部4によって算出される音声レベルの推定値LVLが与えられるごとに、前回の音声レベルの推定値LVLが保持されている保持レジスタに、新たに与えられた音声レベルの推定値LVLを上書き保存する。また、この保持レジスタは、データ容量Mを有している。 【0084】一方、音声検出部7は、A/Dコンバータ2により与えられるデジタル音声信号DSから図3の音声の開始時間TSを検出し、A/Dコンバータ2から与えられるデジタル音声信号DSをバッファ21に与えるように選択部11に制御信号CIS1を与えるとともに、選択部11により与えられるデジタル音声信号DSを蓄積するようにバッファ21に制御信号CB1を与える。バッファ21,22は、ぞれぞれ容量Lを有している。 【0085】選択部11は、音声検出部7により与えられる制御信号CIS1に応答して、A/Dコンバータ2から与えられるデジタル音声信号DSをバッファ21に与える。バッファ21は、音声検出部7から与えられる制御信号CB1に応答して、選択部11を介して与えられるデジタル音声信号DSを蓄積する。そして、バッファ21は、蓄積可能な容量Lのデジタル音声信号DSを蓄積した際に、音声検出部7に満杯信号F1を与える。それにより、音声検出部7は、バッファ21を介して、音声レベル保持部8に音声レベルの推定値LVLを出力させる制御信号SL1を与える。 【0086】また、音声検出部7は、バッファ21から与えられる満杯信号F1に応答して、A/Dコンバータ2から与えられるデジタル音声信号DSをバッファ22に与えるように選択部11に制御信号CIS2を与えるとともに、選択部11から与えられるデジタル音声信号DSを蓄積するようにバッファ22に制御信号CB2を与える。さらに、音声検出部7は、バッファ21に制御信号CBO1を与え、選択部12に制御信号COS1を与える。 【0087】選択部11は、音声検出部7により与えられる制御信号CIS2に応答して、A/Dコンバータ2から与えられるデジタル音声信号DSをバッファ22に与える。バッファ22は、音声検出部7により与えられる制御信号CB2に応答して、選択部11を介して与えられるデジタル音声信号DSを蓄積する。 【0088】一方、バッファ21は、音声検出部7により与えられる制御信号CBO1に応答して、バッファ21に蓄積されたデジタル音声信号DSを選択部12を介して音声レベル調整部5に与える。 【0089】そして、バッファ22は、音声検出部7から与えられる制御信号CB2に応答して、選択部11を介して与えられるデジタル音声信号DSを蓄積する。バッファ22は、蓄積可能な容量Lのデジタル音声信号DSを蓄積した際に、音声検出部7に満杯信号F2を与える。それにより、音声検出部7は、バッファ22を介して音声レベル保持部8に音声レベルの推定値LVLを出力させる制御信号SL2を与える。 【0090】また、音声検出部7は、バッファ22から与えられる満杯信号F2に応答して、A/Dコンバータ2から与えられるデジタル音声信号DSをバッファ21に与えるように選択部11に制御信号CIS1を与える。さらに、音声検出部7は、バッファ22に制御信号CBO2を与え、選択部12に制御信号COS2を与える。 【0091】一方、バッファ22は、音声検出部7により与えられる制御信号CBO2に応答して、バッファ22に蓄積されたデジタル音声信号DSを選択部12を介して音声レベル調整部5に与える。 【0092】音声レベル保持部8は、内部の保持レジスタに保持された音声レベルの推定値LVLをバッファ21から与えられる制御信号SL1またはバッファ22から与えられる制御信号SL2に応答して音声レベル調整部5に与える。ここで、音声レベル保持部8内に設けられる保持レジスタの容量Mとバッファ21,22の容量Lとは、ほぼ同一の容量であるため、選択部12を介して与えられるデジタル音声信号DSに対応する音声レベルの推定値LVLが、音声レベル保持部8から出力される。 【0093】音声レベル調整部5は、音声レベル保持部8により与えられる音声レベルの推定値LVLに基づいて、選択部12を介して得られるデジタル音声信号DSの調整を行う。第2の実施の形態における音声レベル調整部5によるデジタル音声信号DSの調整方法は、第1の実施の形態における音声レベル調整部5によるデジタル音声信号DSの調整方法と同様である。音声レベル調整部5は、音声レベルの調整後の出力CTRL_OUTを音声認識部6に与える。音声認識部6は、音声レベル調整部5により与えられる音声レベルの調整後の出力CTRL_OUTに基づき音声認識を行う。 【0094】第2の実施の形態における音声認識装置においては、マイクロホン1およびA/D(アナログ−デジタル)コンバータ2が入力手段に相当し、音声レベル推定部4が音声レベル推定手段に相当し、音声レベル調整部5が音声レベル調整手段に相当し、音声認識部6が音声認識手段に相当し、音声検出部7が音声検出部に相当し、音声レベル保持部8が保持回路に相当し、バッファ21,22が蓄積回路に相当する。 【0095】図5(a)は図4のマイクロホン1の出力波形図であり、図5(b)は音声信号(信号成分)(S)と雑音成分(N)との比(S/N)を示す図である。 【0096】図5(a)に示すように、マイクロホン1の出力波形は、雑音成分と音声信号からなる。そして、音声信号を含む音声区間では、出力波形の音声レベルの値が高くなる。 【0097】また、図5(b)に示すように、図4の音声検出部7は、音声信号(音声成分)と雑音成分との比であるS/N値が低い場合は雑音区間であると判定し、音声信号(音声成分)と雑音成分との比であるS/N値が高い場合は音声区間であると判定する。 【0098】図6は図4の音声検出部7の動作を示すフローチャートである。まず、図6に示すように、音声検出部7は、入力されるデジタル音声信号DSが音声信号であるか否かを判定する(ステップS61)。入力されるデジタル音声信号DSが音声信号でない場合には、次回に入力されるデジタル音声信号DSが音声信号と判定されるまで待機する。一方、入力されるデジタル音声信号DSが音声信号であると判定された場合、音声検出部7は、図4の選択部11に与えられるデジタル音声信号DSをバッファ21に与えるように選択部11に制御信号CIS1を与える(ステップS62)。そして、音声検出部7は、バッファ21にデジタル音声信号DSを蓄積するように制御信号CB1を与える(ステップS63)。 【0099】次いで、音声検出部7は、バッファ21により蓄積可能な容量Lのデジタル音声信号DSを蓄積した際に出力される満杯信号F1を受信したか否かを判定する(ステップS64)。音声検出部7は、バッファ21から満杯信号F1を受信していない場合には、引き続きステップS63を繰り返す。一方、音声検出部7は、バッファ21から満杯信号F1を受信した場合には、図4の選択部11に与えられるデジタル音声信号DSをバッファ22に与えるように選択部11に制御信号CIS2を与える(ステップS65)。そして、音声検出部7は、さらにバッファ22にデジタル音声信号DSを蓄積するように制御信号CB2を与える(ステップS66)。また、音声検出部7は、制御信号CIS2および制御信号CB2を出力した後に、選択部12にバッファ21から与えられる蓄積されたデジタル音声信号DSを音声レベル調整部5に与えるように制御信号COS1を与える(ステップS67)。 【0100】次いで、音声検出部7は、音声レベル保持部8にバッファ21を介して制御信号SL1を与える(ステップS68)。音声レベル保持部8は、バッファ21を介して与えられる制御信号SL1に応答して、音声レベル保持部8内の保持レジスタに繰り返し記憶されている音声レベルの推定値LVLを音声レベル調整部5に与える。 【0101】次いで、音声検出部7は、バッファ21に制御信号CBO1を与え、蓄積されたデジタル音声信号DSを音声レベル調整部5に出力させる(ステップS69)。続いて、音声検出部7は、バッファ21に蓄積された全てのデジタル音声信号DSが音声レベル調整部5に出力されたか否かを判定する(ステップS70)。ここで、バッファ21から全てのデジタル音声信号DSが出力されていない場合には、再度、バッファ21に制御信号CBO1を与え蓄積されたデジタル音声信号DSを音声レベル調整部5に出力させる。一方、バッファ21に蓄積されたデジタル音声信号DSが全て出力された場合、音声検出部7は、バッファ21にバッファ内のデータを消去(クリア)するように制御信号CRを与える(ステップS71)。 【0102】図7は2単語を話者が発声した場合におけるバッファ21およびバッファ22のデジタル音声信号DSの入出力を表す模式図である。 【0103】図7に示すように、バッファ21には、音声区間(S)の一単語(W1)の開始時点において、音声検出部7により制御信号CB1が与えられ、バッファ21へのデジタル信号DSの入力が開始される。ここで、バッファ21およびバッファ22はFIFO(First In First Out)タイプのメモリで構成されており、またバッファ21およびバッファ22のメモリ容量Lはほぼ同一である。 【0104】バッファ21へのデジタル音声信号DSの入力は、一単語(W1)のほぼ全てにおいて行われ、バッファ21に蓄積可能な容量Lのデジタル音声信号DSが蓄積されるとバッファ21は音声検出部7に満杯信号F1を出力する。バッファ21は、満杯信号F1を出力した後、バッファ21内に蓄積されたデジタル音声信号DSを音声検出部7により与えられる制御信号CBO1に応答して出力する。一方、バッファ22は、音声検出部7により与えられる制御信号CB2に応答してデジタル音声信号DSの蓄積を開始する。 【0105】バッファ22は、蓄積可能な容量Lのデジタル音声信号DSが蓄積された場合に、音声検出部7に満杯信号F2を出力する。一方、バッファ22の蓄積の間にバッファ21に蓄積されたデジタル音声信号DSは、全て音声レベル調整部5に出力された後、音声検出部7により制御信号CRが与えられバッファ21内のデータが消去(クリア)される。それにより、バッファ21には、音声検出部7により再度デジタル音声信号DSを蓄積させる制御信号CB1が与えられる。 【0106】上記のように、音声区間の開始点からデジタル音声信号が蓄積され、蓄積されたデジタル音声信号に対応した音声レベルの推定値を用いて音声レベルを正確に調整することができる。したがって、音声認識を正確な音声レベルで調整することにより音声認識の認識率を向上させることができる。 【0107】また、複数の単語を含む長い時間のデジタル音声信号DSが入力されても、交互に蓄積および出力を行うことができる。これにより、小さい容量のバッファを用いても音声認識を行うことができる。 【0108】なお、本発明の実施の形態においては、バッファを用いることとしたが、これに限らず、他の蓄積回路を用いてもよい。さらに、バッファの内部にカウンタを設けて、音声検出部7によりバッファの内部のカウンタを監視させて満杯信号F1,F2または制御信号CRを出力してもよい。 【0109】(第3の実施の形態)図8は本発明の第3の実施の形態における音声認識装置の一例を示すブロック図である。 【0110】図8に示すように、音声認識装置は、マイクロホン1、A/D(アナログ−デジタル)コンバータ2、信号遅延部3、音声レベル推定部4、音声レベル調整帰還部9および音声認識帰還部10を含む。 【0111】図8に示すように、話者により発声された音声は、マイクロホン1により集音される。集音された音声は、マイクロホン1の働きによりアナログ音声信号SAに変換されA/Dコンバータ2に出力される。A/Dコンバータ2は、出力されるアナログ音声信号SAをデジタル音声信号DSに変換し、信号遅延部3および音声レベル推定部4に与える。音声レベル推定部4は、与えられるデジタル音声信号DSから音声レベルの推定値LVLの算出を行う。ここで、第3の発明の実施の形態における音声レベル推定部4による音声レベルの推定値LVLの算出方法については、第1の実施の形態における音声レベル推定部4による音声レベルの推定値LVLの算出方法と同様である。 【0112】音声レベル推定部4は、音声レベルの推定値LVLを算出し音声レベル調整帰還部9に与える。音声レベル調整帰還部9は、音声レベル推定部4により与えられる音声レベルの推定値LVLに基づいて、音声レベルの推定値LVLに同期して信号遅延部3により与えられるデジタル音声信号DSのレベルの調整を行う。音声レベル調整帰還部9は、音声レベルの調整後の出力CTRL_OUTを音声認識帰還部10に与える。音声認識帰還部10は、音声レベル調整帰還部9により与えられる調整後の出力CTRL_OUTに基づき音声認識を行い、音声認識が失敗したときに音声レベル制御信号RCを音声レベル調整帰還部9に与える。この音声レベル調整帰還部9および音声認識帰還部10の動作については後述する。 【0113】第3の実施の形態における音声認識装置においては、マイクロホン1およびA/D(アナログ−デジタル)コンバータ2が入力手段に相当し、信号遅延部3が遅延回路に相当し、音声レベル推定部4が音声レベル推定手段に相当し、音声レベル調整帰還部9が音声レベル調整手段に相当し、音声認識帰還部10が音声認識手段に相当する。 【0114】図9は図8に示す音声レベル調整帰還部9における音声レベルの調整を行う際の動作を説明するフローチャートである。 【0115】図9に示すように、まず、音声レベル調整帰還部9は、音声認識帰還部10による音声レベル制御信号RCが入力されたか否かを判定する(ステップS91)。次に、音声レベル調整帰還部9は、音声認帰還識部10により音声レベル制御信号RCが入力されていない場合には、音声認識帰還部10による音声レベル制御信号RCが入力されたと判定されるまで待機する。一方、音声認識帰還部10から音声レベル制御信号RCが入力されたと判定された場合には、音声レベル調整帰還部9は、変数Kに1を加算する(ステップS92)。 【0116】ここで、複数の段階の音声レベルの目標値が予め設定されており、変数Kとは、この複数の段階を表す変数である。ここで、本実施の第3の形態においては、変数Kは1からRまでの値を有し、音声レベルの目標値TRG_LVL(K)の取りうる値は、TRG_LVL(1),TRG_LVL(2),…TRG_LVL(R)とする。 【0117】次いで、音声レベル調整帰還部9は、変数Kが最大値Rよりも大きいか否かを判定する(ステップS93)。ここで、音声レベル調整帰還部9は、変数Kが最大値Rよりも大きいと判定した場合には、変数Kを最小値1に戻し(ステップS94)、音声レベルの目標値TRG_LVLをTRG_LVL(1)に設定する(ステップS95)。 【0118】一方、音声レベル調整帰還部9は、変数Kが最大値R以下と判定した場合、音声レベルの目標値TRG_LVLをTRG_LVL(K)に設定する(ステップS95)。 【0119】例えば、最初、音声レベルの目標値TRG_LVLが、TRG_LVL(2)に設定されているとする。そして、音声認識帰還部10が音声認識に失敗して音声認識を行うことができない場合には、制御信号RCが音声レベル調整帰還部9に出力される。音声レベル調整帰還部9は、音声レベルの目標値TRG_LVL(2)を音声レベルの目標値TRG_LVL(3)に変更し、再度の話者からの音声入力を待つ。 【0120】このように、音声レベルの目標値TRG_LVLをTRG_LVL(2),TRG_LVL(3),TRG_LVL(4)と順次に変更し、音声認識が成功した時点で音声レベルの目標値TRG_LVLが固定される。また、音声レベルの目標値TRG_LVLが最大値であるTRG_LVL(R)に設定されても音声認識に失敗した場合には、次に音声レベルの目標値TRG_LVLを最小値であるTRG_LVL(1)に戻し、再度の話者からの音声入力を待つ。 【0121】このようして、音声レベルの目標値TRG_LVLが音声認識に最適な値に設定される。 【0122】上記のように、音声認識結果が失敗であった場合に、再び音声レベル調整帰還部9において、音声レベルの調整程度を順次上げていくことができる。また、音声レベルの調整程度が、予め定めた音声レベルの最大値に到達しても、再度音声レベルを最小値に戻して調整程度を順次上げることができる。これにより、音声レベルの調整程度が適切でなく音声認識に失敗した場合には、繰り返し音声レベルの調整程度を順次変更することができるので音声認識の認識率を向上させることができる。 【0123】なお、上記実施の形態においては、音声認識に失敗した場合には、再度話者からの音声入力により音声レベルの目標値TRG_LVL(K)を順次変更することとしたが、これに限らず、話者の音声入力を保持する手段を設け、音声認識に失敗した場合には、音声入力を保持する手段により保持されている音声入力を用いることにより音声レベルの目標値TRG_LVL(K)を順次変更させてもよい。 【0124】(第4の実施の形態)図10は本発明の第4の実施の形態における音声認識装置の一例を示すブロック図である。 【0125】図10に示すように、音声認識装置は、マイクロホン1、A/D(アナログ−デジタル)コンバータ2、信号遅延部3、音声レベル推定部4、音声レベル調整部5、音声認識部6および信号非線形処理部11を含む。 【0126】図10に示すように、話者により発声された音声は、マイクロホン1により集音される。集音された音声は、マイクロホン1の働きによりアナログ音声信号SAに変換されA/Dコンバータ2に出力される。A/Dコンバータ2は、出力されるアナログ音声信号SAをデジタル音声信号DSに変換し、信号遅延部3および音声レベル推定部4に与える。音声レベル推定部4は、与えられるデジタル音声信号DSから音声レベルの推定値LVLの算出を行う。ここで、第4の実施の形態における音声レベル推定部4による音声レベルの推定値LVLの算出方法については、第1の実施の形態における音声レベル推定部4による音声レベルの推定値LVLの算出方法と同様である。音声レベル推定部4は、与えられるデジタル音声信号DSおよび音声レベルの推定値LVLを信号非線形処理部11に与える。信号非線形処理部11は、音声レベル推定部4により与えられる音声レベルの推定値LVLに応じて後述する非線形処理を行い、非線形処理を行った音声レベルの推定値LVLを音声レベル調整部5に与える。 【0127】一方、信号遅延部3は、音声レベル立ち上がり時間TLに相当する遅延量分のみ遅延させたデジタル音声信号DSを音声レベル調整部5に与える。ここで、第4の実施の形態における音声レベル立上り時間TLに相当する遅延量分は、100msecとする。音声レベル調整部5は、信号非線形処理部11から与えられる音声レベルの推定値LVLに応じて信号遅延部3により与えられるデジタル音声信号DSの音声レベルの調整を行う。音声レベル調整部5は、音声レベルの調整後の出力CTRL_OUTを音声認識部6に与える。音声認識部6は、音声レベル調整部5により与えられる音声レベルの調整後の出力CTRL_OUTに応じて音声認識を行う。 【0128】第4の実施の形態における音声認識装置においては、マイクロホン1およびA/D(アナログ−デジタル)コンバータ2が入力手段に相当し、信号遅延部3が遅延回路に相当し、音声レベル推定部4が音声レベル推定手段に相当し、音声レベル調整部5が音声レベル調整手段に相当し、音声認識部6が音声認識手段に相当し、信号非線形処理部11が非線形処理部に相当する。 【0129】図11は図10の信号非線形処理部11に入力される音声レベルの推定値LVLと図10の音声認識部6における認識率との関係を示す図である。 【0130】図11に示すように、図10の音声認識部6における認識率は、音声レベルの推定値LVLに依存している。音声レベルの推定値LVLが−19dB以上−2dB以下の範囲にある場合には、認識率が80%以上を示す。そして、特に音声レベルの推定値LVLが低い(−19dB以下)場合、または音声レベルの推定値LVLが高い(−2dB以上)場合には、音声認識の認識率が急激に低下する。 【0131】このことから、本発明の第4の実施の形態における信号非線形処理部11においては、入力される音声レベルの推定値LVLが−19dBから−2dBまでの範囲内に存在するように音声レベルの推定値LVLを調整する。 【0132】図12は信号非線形処理部11の処理動作を示すフローチャートである。図12に示すように、信号非線形処理部11は、音声レベル推定部4により入力される音声レベルの推定値LVLが−19dB以上−2dB以下であるか否かを判定する(ステップS101)。 【0133】信号非線形処理部11は、入力される音声レベルの推定値LVLが−19dB以上−2dB以下の値であると判定した場合には、音声レベル調整部5を不能動化させる。すなわち、音声レベル調整部5において式(2)に示す音声レベルの調整値LVL_CTRLは1となる。 【0134】一方、信号非線形処理部11は、入力される音声レベルの推定値LVLが−19dB以上−2dB以下の値でないと判定した場合、音声レベルの推定値LVLを−10dBに設定する(ステップS102)。 【0135】上記のように、信号非線形処理部11は、音声レベルの推定値LVLが認識率80%以上を満たすように、音声レベルの推定値LVLを設定するため、音声認識部6において入力されるデジタル音声信号DSの音声認識の認識率を向上させることができる。すなわち、音声レベルの推定値LVLが予め定められた範囲内にない場合にのみ、音声レベルの推定値を予め定められた範囲内の音声レベルの推定値に変更して音声レベルの調整を行い、音声レベルの推定値が予め定められた範囲内のにある場合には、音声レベル調整部5における増幅率を1にして音声レベル調整部5を不能動化にすることにより音声レベルの調整を行わない。これにより、簡易に話者の音声が有する言葉の抑揚であるアクセントに無用な歪みを与えることを防止し音声認識を行うことができるので音声認識の認識率を向上させることができる。 【0136】なお、上記実施の形態においては、音声レベルの推定値を−19dBから−2dBに調整することとしたが、これに限定されず、音声認識を行う際に予め設定される音声レベルの推定値または音声認識率の高い音声レベル推定値に調整すればよい。 【0137】 【発明の効果】本発明によれば、音声区間内の一部の時間内のデジタル音声信号に基づいて音声区間の全体の音声レベルが推定され、推定された音声レベルおよび予め設定された目標レベルに基づいて音声区間のデジタル音声信号のレベルが一律に調整される。それにより、話者の音声が有する言葉の抑揚を示すアクセントに歪みを与えることなく音声認識を行うことができる。したがって、音声認識の認識率を向上させることができる。
|
| 【出願人】 |
【識別番号】000005821 【氏名又は名称】松下電器産業株式会社
|
| 【出願日】 |
平成13年7月4日(2001.7.4) |
| 【代理人】 |
【識別番号】100098305 【弁理士】 【氏名又は名称】福島 祥人
|
| 【公開番号】 |
特開2002−91487(P2002−91487A) |
| 【公開日】 |
平成14年3月27日(2002.3.27) |
| 【出願番号】 |
特願2001−203754(P2001−203754) |
|