トップ :: G 物理学 :: G10 楽器;音響




【発明の名称】 音声認識方式および音声認識プログラム
【発明者】 【氏名】花沢 健

【要約】 【課題】精度の高い認識結果を出力することが可能な音声認識方式および音声認識プログラムを実現すること。

【解決手段】音声入力を行うマイクロフォン102と、マイクロフォン102より入力された入力音声101を分析する音響分析部103と、分析された音響特徴量系列104を音響処理および言語処理して正解候補を生成する音響・言語処理部105と、正解候補の確からしさを算出する発声確認部108とを備える。
【特許請求の範囲】
【請求項1】 音声を入力するための入力手段と、前記入力手段により入力された音声を分析して特徴抽出を行う特徴抽出手段と、前記特徴抽出手段により抽出された前記入力された音声の特徴量とあらかじめ保持している音声の特徴量の標準パターンとのマッチングを行い、評価距離を算出する評価距離算出手段と、前記評価距離算出手段により算出された評価距離に基づいて正解候補を生成する候補生成手段と、前記評価距離算出手段が行う評価距離の算出時に定められた各フレーム毎の評価距離系列からその時間変化特性をあらわすスコア変化特徴量を抽出する抽出手段と、前記抽出手段が抽出した前記スコア変化特徴量と、あらかじめ保持している正解例のスコア変化特徴量の標準パターンとのマッチングを行い、正解候補の確からしさを算出する確度算出手段と、前記確度算出手段が算出した正解候補の確からしさに基づいて正解候補を出力する正解候補出力手段と、を備えたことを特徴とした音声認識方式。
【請求項2】 前記マッチング用の標準パターンとして、正解例だけでなく誤り例のスコア変化特徴量も併用することを特徴とした請求項1記載の音声認識方式。
【請求項3】 前記評価距離の時間変化の特徴量として、発話全体での評価距離の時間変化を帯域フィルタ群を利用して分析し、特徴量とすることを特徴とした請求項1または2記載の音声認識方式。
【請求項4】 前記評価距離として、その時刻での音響モデルの出力尤度の最大値を用いて正規化した値を用いることを特徴とした請求項1または2記載の音声認識方式。
【請求項5】 前記評価距離算出手段において、評価距離として音響モデルの出力尤度とNグラム言語モデルのスコアを併用することを特徴とした請求項1または2記載の音声認識方式。
【請求項6】 入力された音声を分析して特徴抽出を行う特徴抽出処理と、前記特徴抽出処理により抽出された前記入力された音声の特徴量とあらかじめ保持している音声の特徴量の標準パターンとのマッチングを行い、評価距離を算出する評価距離算出処理と、前記評価距離算出処理により算出された評価距離に基づいて正解候補を生成する候補生成処理と、前記評価距離算出処理で行う評価距離の算出時に定められた各フレーム毎の評価距離系列からその時間変化特性をあらわすスコア変化特徴量を抽出する抽出処理と、前記抽出処理で抽出した前記スコア変化特徴量と、あらかじめ保持している正解例のスコア変化特徴量の標準パターンとのマッチングを行い、正解候補の確からしさを算出する確度算出処理と、前記確度算出処理で算出した正解候補の確からしさに基づいて正解候補を出力する正解候補出力処理と、をコンピュータに実行させるための音声認識プログラム。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は、音声認識方式および音声認識プログラムに関する。
【0002】
【従来の技術】音声認識方式において、音響モデルや言語モデルの確からしさを利用して認識結果が妥当であるかどうかの判定を行う手法はいくつか提案されている。例えば、モデルとのパターンマッチ結果を直接利用する手法では、出力されるスコアがあらかじめ定められたある閾値を越えているかどうかの判定を行い、越えているもののみを結果とすることで精度の高い認識結果を得ようとする。また、出力されるスコアの継続時間長にも閾値を設け、時間方向の情報も併用することでより精度の高い認識結果を得ようとする手法もある。
【0003】
【発明が解決しようとする課題】従来の手法では、判定基準となる閾値はあらかじめ定められた値であり、その判定方法もまた時間方向の伸縮が考慮されておらず、精度の限界があった。すなわち、入力される音声と標準パターンとの評価距離は話者や環境によって値が変わるものであり、また同じ話者や環境であってもその値と継続時間は一定しないため、ある一定の閾値では判定精度が悪くなるという問題がある。また、全音素ネットなどを用いて参照すべきモデルの尤度を動的に対応させられる場合においても、その判定尺度はある一定の閾値を用いるものであり同様な問題を有している。
【0004】そこで本発明の目的は、高精度の認識結果を出力することが可能な音声認識方式および音声認識プログラムを実現することにある。
【0005】
【課題を解決するための手段】本発明の音声認識方式は、認識結果候補のモデルとの評価距離を時系列として算出し、その評価距離系列から時間変化特性をスコア変化特徴量と呼ばれる特徴量として抽出し、そのスコア変化特徴量を、あらかじめ保持している正解および誤りでのスコア変化特徴量の標準パターンとのマッチングを行い、誤りモデルに対して正解モデルが出力する尤度がどれだけ高いかで確からしさを算出し、前記算出された確からしさに基づいて認識結果候補を出力することで高精度な認識結果を得る構成を有したことを特徴とする。
【0006】本発明の音声認識プログラムは、入力された音声を分析して特徴抽出を行う特徴抽出処理と、前記特徴抽出処理により抽出された前記入力された音声の特徴量とあらかじめ保持している音声の特徴量の標準パターンとのマッチングを行い、評価距離を算出する評価距離算出処理と、前記評価距離算出処理により算出された評価距離に基づいて正解候補を生成する候補生成処理と、前記評価距離算出処理で行う評価距離の算出時に定められた各フレーム毎の評価距離系列からその時間変化特性をあらわすスコア変化特徴量を抽出する抽出処理と、前記抽出処理で抽出した前記スコア変化特徴量と、あらかじめ保持している正解例のスコア変化特徴量の標準パターンとのマッチングを行い、正解候補の確からしさを算出する確度算出処理と、前記確度算出処理で算出した正解候補の確からしさに基づいて正解候補を出力する正解候補出力処理とをコンピュータに実行させることを特徴とする。
【0007】本発明による音声認識方式および音声認識プログラムは、判定基準となるスコア変化特徴量には評価距離の時間変化が考慮されており、さらに正解モデルと誤りモデルをそれぞれ作成することで評価距離の絶対値の変動に頑健な判定基準を用いることが可能であり、高精度の認識結果を出力するように作用する。
【0008】
【発明の実施の形態】先ず、本発明の音声認識方式の原理について説明する。図4は評価距離であるスコア変化特徴量の時間変化の一例を示す特性図である。図4に示すように、評価距離の時間変化は正解の場合には符号401で示すようにほぼ平坦であるのに対し、誤りを含む場合には音響的ミスマッチのために符号402で示すように誤り部分の評価距離であるスコアが局所的に落ち込むことが考えられる。そこでこのような評価距離の時間変化をモデル化することで、正解候補が本当に正解らしいかの判定に利用できると考えられる。モデル化においては、スコアの時系列を直接特徴量として用いるのではなく、時系列の概形をモデル化するためにバンドパスフィルタなどを用いて抽出した特徴量を用いる。バンドパスフィルタを用いて特徴抽出を行うと周波数成分に分解できるため、例えばパルス的なスコアの落ち込みとミスマッチによるある一定区間以上のスコアの落ち込みとを区別することが容易になる。この判定方法によれば、スコアの絶対値によらず、また時間方向の伸縮にも頑健な正解候補の正誤判定が行える。なお、正解モデルのみモデル化しても、誤りモデルを併用しても原理的には実行可能である。
【0009】次に、この発明の第1の実施の形態の音声認識方式について図面を参照して詳細に説明する。図1は、この第1の実施の形態の音声認識方式の全体構成を示すブロック図である。この音声認識方式は、音声入力を行うマイクロフォン(入力手段)102と、マイクロフォン102より入力された入力音声101を分析する音響分析部(特徴抽出手段)103と、分析された音響特徴量系列104を音響処理および言語処理して正解候補を生成する音響・言語処理部(評価距離算出手段,候補生成手段,正解候補出力手段)105と、正解候補の確からしさを算出する発声確認部(確度算出手段,抽出手段)108とからなる。また、音響・言語処理部105には音響モデル106である隠れマルコフモデル(HMM)、言語モデル107である統計的言語モデル(Nグラム)、発声確認部108には判定用モデル109として混合ガウス分布モデル(GMM)があらかじめ用意されている。
【0010】次に、図1を用いて動作を説明する。マイクロフォン102より入力された入力音声101は、音響分析部103によって音響特徴量系列104に分析される。音響・言語処理部105では、前記入力音声の特徴量とあらかじめ保持している音声の特徴量の標準パターンとのマッチングを行い、評価距離を算出し、前記算出された評価距離に基づいて正解候補を生成する。すなわち、入力された音響特徴量系列104に対して、音響モデル106の与える尤度と言語モデル107が与える尤度の積が最大となるような単語系列の候補および、それに続く尤度をもつ複数の候補を生成する。この各候補が認識結果となるが、このとき発声確認部108において判定用モデル109を用いてその正解候補の尤度時系列111に対する確からしさの判定が行われ、その判定結果のうち発声確認部108で受理された判定結果112に対応する候補のみが認識結果110となって出力される。
【0011】次に、図2を用いて発声確認部108の詳細な動作例を説明する。発声確認部108には、正解候補の尤度時系列111が入力される。この正解候補の尤度時系列はバンドパスフィルタ部201によってスコア変化特徴量202に変換される。すなわち、音響・言語処理部105で評価距離の算出時に定められた各フレーム毎の評価距離系列からその時間変化特性をあらわすスコア変化特徴量を抽出する。そして、スコア変化特徴量202に対し、判定部203において判定用モデル109との距離計算が行われる。
【0012】判定用モデル109には正解モデル、あるいは正解モデルと誤りモデルがあり、正解モデルが出力する尤度がどれだけ高いか、あるいは誤りモデルに対して正解モデルが出力する尤度がどれだけ高いかによって、正解候補の判定を行う。判定結果112は音響・言語処理部105に戻され、受理であれば対応する正解候補が出力される。棄却であれば次候補の処理を行う。
【0013】図3は、図1に示す発声確認部108における判定処理動作を示すフローチャートである。音響・言語処理部105から正解候補の尤度時系列111を受け取り(ステップS301)、その尤度の時間変化をスコア変化特徴量として抽出し(ステップS302)、抽出されたスコア変化特徴量に対して、あらかじめ用意されている判定用モデルによる判定を行い(ステップS303)、前記判定の結果、棄却されれば(ステップS304)、次の処理に移りステップS301以下の処理を次候補に対し行う。一方、ステップS303における判定の結果、受理されれば判定結果112を出力して終了する。
【0014】なお、以上説明した音響分析部103、音響・言語処理部105,発声確認部112は、入力された音声を分析して特徴抽出を行う特徴抽出処理と、前記特徴抽出処理により抽出された前記入力された音声の特徴量とあらかじめ保持している音声の特徴量の標準パターンとのマッチングを行い、評価距離を算出する評価距離算出処理と、前記評価距離算出処理により算出された評価距離に基づいて正解候補を生成する候補生成処理と、前記評価距離算出処理で行う評価距離の算出時に定められた各フレーム毎の評価距離系列からその時間変化特性をあらわすスコア変化特徴量を抽出する抽出処理と、前記抽出処理で抽出した前記スコア変化特徴量と、あらかじめ保持している正解例のスコア変化特徴量の標準パターンとのマッチングを行い、正解候補の確からしさを算出する確度算出処理と、前記確度算出処理で算出した正解候補の確からしさに基づいて正解候補を出力する正解候補出力処理とをコンピュータに実行させるための音声認識プログラムとしてソフトウェア的に実現できる。
【0015】以上のように、この第1の実施の形態によれば、正解候補の尤度時系列111に対する確からしさの判定を行い、その判定結果112が受理となったもののみが認識結果110となって出力されるため、認識結果の出力について精度を向上できる音声認識方式および音声認識プログラムを提供できる効果がある。
【0016】次に、本発明の第2の実施の形態について説明する。この第2の実施の形態では、図4におけるスコアとしてその時刻での音響モデルの出力尤度の最大値を用いて正規化した値を用いることで、音響モデルの出力尤度の絶対値に左右されにくい頑健な判定基準を利用することが出来る。
【0017】次に、本発明の第3の実施の形態について説明する。この第3の実施の形態では、図4におけるスコアとして音響モデルの出力尤度とNグラム言語モデルのスコアを併用する。具体的には、音響モデルの出力尤度と、Nグラム言語モデルスコアをフレーム単位に分割・平均化した値を、各フレーム毎に積算してスコアとする。この第3の実施の形態では、言語モデルスコアも併用することで、より高精度な判定基準を用いることが出来る。
【0018】
【発明の効果】本発明によれば、正解候補の確からしさの判定処理を行う結果、応用システムにとって望ましくない候補、または望ましくない部分を含む候補を棄却できるため、高精度な認識結果の出力が可能になる効果がある。
【出願人】 【識別番号】000004237
【氏名又は名称】日本電気株式会社
【出願日】 平成13年1月19日(2001.1.19)
【代理人】 【識別番号】100089875
【弁理士】
【氏名又は名称】野田 茂
【公開番号】 特開2002−215185(P2002−215185A)
【公開日】 平成14年7月31日(2002.7.31)
【出願番号】 特願2001−12358(P2001−12358)