| 【発明の名称】 |
音声認識システム |
| 【発明者】 |
【氏名】小林 載
|
| 【要約】 |
【課題】音声区間の検出精度を向上させる。
【解決手段】学習ベクトル生成部16が生成した無声音の学習ベクトルVと、LPCケプストラム分析部18が生成した非音声期間内の特徴ベクトルAとの内積値VTAを内積演算部19での求め、閾値生成部20が閾値θvを生成する。LPCケプストラム分析部18が生成した非音声期間内の音の、予測残差パワーεに基づいて閾値THDを生成する。入力音声Safに基いて特徴ベクトルAと予測残差パワーεを求め、また入力音声Safの特徴ベクトルAと学習ベクトルVの内積値VTAを求める。閾値判定部21でθv≦VTAのときを音声区間と判定する。また、閾値判定部23が入力音声Safの予測残差パワーεと閾値THDを比較し、THD≦εのときを音声区間と判定する。 |
【特許請求の範囲】
【請求項1】 音声認識の対象とする音声の区間を検出する音声区間検出手段を備えた音声認識システムであって、前記音声区間検出手段は、予め音声の特徴を学習ベクトルとして生成する学習ベクトル生成手段と、非音声期間内に生じる音の特徴ベクトルと前記学習ベクトルとの内積値に基づいて第1の閾値を生成する第1の閾値生成手段と、発話によって生じる入力音声の特徴ベクトルと前記学習ベクトルの内積を求め、その内積値が前記第1の閾値以上となるときを音声区間と判定する第1の判定手段とを備えることを特徴とする音声認識システム。 【請求項2】 非音声期間内に生じる音の予測残差パワーに基づいて第2の閾値を生成する第2の閾値生成手段と、発話によって生じる入力音声の予測残差パワーが前記第2の閾値以上となるときを音声区間と判定する第2の判定手段とを備え、前記第1の判定手段と第2の判定手段の両者又は何れか一方で判定される音声区間における前記入力音声を音声認識の対象とすることを特徴とする請求項1記載の音声認識システム。
|
【発明の詳細な説明】【0001】 【発明の属する技術分野】本発明は、音声認識システムに関し、特に音声区間の検出の精度向上を図った音声認識システムに関する。 【0002】 【従来の技術】音声認識システムでは、例えば雑音等のある背景下で発話された音声をそのまま音声認識した場合、雑音等の影響によって音声認識率の低下を招くことから、音声認識を行うためにはまず音声区間を正しく検出することが重要な課題となっている。 【0003】従来、ベクトル内積法を用いて音声区間の検出を行う音声認識システムとして、図4に示す構成のものが知られている。 【0004】この音声認識システムは、隠れマルコフモデル(Hidden Markov Model:HMM)を用いて単語やサブワード(音素、音節等)単位の音響モデル(音声HMM)を作成しておき、認識すべき音声が発話されると、その入力音声のケプストラムの時系列である観測値系列を生成して、観測値系列と音声HMMとを照合し、最大尤度を与える音声HMMを選んでこれを認識結果として出力する。 【0005】より具体的には、学習用音声データベースに実験的に収集して記憶しておいた大量の音声データSmを所定期間(10〜20msec程度)のフレーム単位に区分けし、各フレーム単位のデータを順次にケプストラム(Cepstrum)演算することによってケプストラムの時系列を求め、更にこのケプストラムの時系列を音声の特徴量として学習処理して、音響モデル(音声HMM)のパラメータに反映させることで、単語やサブワード単位の音声HMMを作成している。 【0006】また、音声区間の検出を行う音声区間検出部は、音響分析部1,3と、固有ベクトル生成部2、内積演算部4、比較部5、音声切り出し部6とによって構成されている。 【0007】ここで、音響分析部1は、学習用音声データベース中の音声データSmを所定フレーム数nずつ音響分析することにより、M次元の特徴ベクトルxn=〔xn1xn2 xn3 … xnM〕Tを生成する。ここで、Tは転置を表す。 【0008】固有ベクトル生成部2は、M次元の特徴ベクトルxnから次式(1)で表される相関行列Rを求め、更に次式(2)を解いて相関行列Rを固有値展開することにより、固有ベクトル(学習ベクトルと呼ばれる)Vを求めるようになっている。 【0009】 【数1】
【0010】 【数2】
【0011】こうして学習用の音声データSmに基づいて予め学習ベクトルVを求めておき、実際に発話によって入力音声データSaが入力されると、音響分析部4が入力音声データSaを音響分析することによって特徴ベクトルAを生成し、内積演算部5が上記の学習ベクトルVと特徴ベクトルAの内積を求め、更に、比較部6が内積値VTAと予め決められた固定の閾値θとを比較して、内積値VTAが閾値θより大きな値となった場合に音声区間であると判定する。 【0012】そして、上記判定された音声区間の間、音声切り出し部7がオン(導通)になることで、入力音声データSaから音声認識の対象とすべき入力音声データSvcを切り出し、音声HMMと照合させるべき観測値系列を生成させることとしている。 【0013】 【発明が解決しようとする課題】ところで、上記従来のベクトル内積法を用いた音声区間の検出法では、閾値θを零(θ=0)に固定している。そして、実際の環境下で得られる入力音声のデータSaの特徴ベクトルAと学習ベクトルVとの内積値VTAがこの固定閾値θより大きくなったときを音声区間と判定することとしている。 【0014】このため、雑音の少ない背景下で発話が行われたような場合、図5(a)に示すように、実際の環境下で得られる入力音声中の雑音の特徴ベクトル(雑音ベクトル)と、本来の音声の特徴ベクトル(音声ベクトル)と、実際の環境下で得られる入力音声の特徴ベクトルAと、学習ベクトルVとの夫々の関係を、線形スペクトル領域上で見ると、雑音ベクトルは小さくなって、本来の音声の音声ベクトルは優勢になることから、実際の環境下で得られる入力音声の特徴ベクトルAは、音声ベクトル及び学習ベクトルVと同様の方向となる。 【0015】したがって、特徴ベクトルAと学習ベクトルVとの内積値VTAは正(プラス)の値となることから、固定閾値θ(=0)を判定基準とすることで音声区間の検出が可能となる。 【0016】しかし、例えば自動車の車室内等のように、雑音が多くSN比が低下するような場所では、図5(b)に示すように、雑音ベクトルが優勢となって、音声ベクトルが相対的に小さくなることから、実際の環境下で得られる入力音声の特徴ベクトルAは、音声ベクトル及び学習ベクトルVとは逆の方向となる。したがって、特徴ベクトルAと学習ベクトルVとの内積値VTAは負(マイナス)の値となることから、固定閾値θ(=0)を判定基準としたのでは、音声区間を正しく検出することができなくなるという問題があった。 【0017】別言すれば、雑音が多くSN比が低下するような場所で音声認識を行うことにすると、図5(c)に示すように、音声区間と判定すべきときでも、特徴ベクトルAと学習ベクトルVの内積値VTAが負の値(VTA<θ)となってしまい、音声区間を正しく検出することができなくなるという問題があった。 【0018】本発明は上記従来の問題点を克服し、音声区間の検出精度の向上を図った音声認識システムを提供することを目的とする。 【0019】 【課題を解決するための手段】上記目的を達成するため本発明は、音声認識の対象とする音声の区間を検出する音声区間検出手段を備えた音声認識システムであって、上記音声区間検出手段を、予め音声の特徴を学習ベクトルとして生成する学習ベクトル生成手段と、非音声期間内に生じる音の特徴ベクトルと上記学習ベクトルとの内積値に基づいて第1の閾値を生成する第1の閾値生成手段と、発話によって生じる入力音声の特徴ベクトルと上記学習ベクトルの内積を求め、その内積値が上記第1の閾値以上となるときを音声区間と判定する第1の判定手段とを備える構成とした。 【0020】かかる構成によると、非音声期間(すなわち実際に発話が行われていない期間)に、いわゆる背景の音だけの特徴ベクトルを生成し、その特徴ベクトルと学習ベクトルの内積値に基づいて、実際の環境に応じた第1の閾値が生成される。 【0021】実際に発話が行われると、入力音声の特徴ベクトルと学習ベクトルの内積を求め、その内積値が第1の閾値以上となるときを音声区間と判定する。 【0022】第1の閾値は実際の環境に応じて適切に可変調整されることから、実際に発話された入力音声の特徴ベクトルと学習ベクトルとの内積値を第1の閾値に基づいて判定することで、音声区間の検出精度の向上を実現する。 【0023】また、上記目的を達成するため本発明は、非音声期間内に生じる音の予測残差パワーに基づいて第2の閾値を生成する第2の閾値生成手段と、発話によって生じる入力音声の予測残差パワーが上記第2の閾値以上となるときを音声区間と判定する第2の判定手段とを更に備え、上記第1の判定手段と第2の判定手段の両者又は何れか一方で判定される音声区間における上記入力音声を音声認識の対象とする構成とした。 【0024】かかる構成によれば、第1の判定手段が入力音声の特徴ベクトルと学習ベクトルの内積値に基づいて音声区間を判定する。また、第2の判定手段が入力音声の予測残差パワーに基づいて音声区間を判定する。そして、少なくとも何れか一方の判定手段が判定した音声区間に該当する入力音声を音声認識対象とする。特に、入力音声の特徴ベクトルと学習ベクトルの内積値に基づいて音声区間を判定することで、無声音の音声区間を正しく検出するのに有効な機能を発揮し、入力音声の予測残差パワーに基づいて音声区間を判定することにより、有声音の音声区間を正しく検出するのに有効な機能を発揮する。 【0025】 【発明の実施の形態】以下、本発明の実施の形態を図面を参照して説明する。尚、図1は本実施形態の音声認識システムの構成を示すブロック図である。 【0026】図1において、本音声認識システムには、隠れマルコフモデルを用いて作成された単語やサブワード単位の音響モデル(音声HMM)11と、認識部12と、ケプストラム演算部13とが備えられ、ケプストラム演算部13で生成される入力音声のケプストラムの時系列である観測値系列と音声HMM11とを認識部12が照合し、最大尤度を与える音声HMMを選んでこれを認識結果として出力する。 【0027】すなわち、実験的に収集し学習用音声データベース7に記憶した音声データSmを、フレーム化部8が所定期間(10〜20msec程度)のフレーム単位に区分けし、フレーム単位の音声データをケプストラム演算部9が順次にケプストラム演算することにより、ケプストラムの時系列を求め、更にこのケプストラムの時系列を音声の特徴量として学習部10が学習処理することにより、単語やサブワード単位の音声HMM11が予め作成されている。 【0028】そして、後述の音声区間の検出によって切り出される実際の入力音声データSvcをケプストラム演算部13がケプストラム演算することによって上記の観測値系列を生成し、認識部12がその観測値系列と音声HMM11とを単語やサブワード単位で照合することにより、音声認識を行うようになっている。 【0029】更に、本音声認識システムには、実際に発話された音声(入力音声)の音声区間を検出し、音声認識対象としての上記入力音声データSvcを切り出すための音声区間検出部が備えられ、音声区間検出部は、第1の検出部100、第2の検出部200、音声区間決定部300、及び音声切り出し部400を備えて構成されている。 【0030】ここで、第1の検出部100には、予め実験的に収集した音声の無声音部分のデータ(無声音データ)Scを記憶する学習用無声音データベース14と、LPCケプストラム分析部15と、学習ベクトル生成部16が備えられている。 【0031】LPCケプストラム分析部15は、学習用無声音データベース14中の無声音データScを所定期間(10〜20msec程度)のフレーム単位でLPC(linearpredictive coding)ケプストラム分析することにより、ケプストラム領域でのM次元特徴ベクトルcn=〔cn1,cn2,…,cnM〕Tを生成する。 【0032】学習ベクトル生成部16は、M次元の特徴ベクトルcnから次式(3)で表される相関行列Rを求めると共に、相関行列Rを固有値展開することによりM個の固有値λkと固有ベクトルvkを求め、更に、M個の固有値λkのうちの最大固有値に対応する固有ベクトルを学習ベクトルVとすることで、無声音の特徴を良く表した学習ベクトルVを生成する。尚、次式(3)中、変数nはフレーム番号、Tは転置を表している。 【0033】 【数3】
【0034】更に第1の検出部100には、実際に発話された入力音声のデータSaを所定期間(10〜20msec程度)のフレーム単位に区分けして入力するフレーム化部17と、LPCケプストラム分析部18と、内積演算部19、閾値生成部20、第1の閾値判定部21が備えられている。 【0035】LPCケプストラム分析部18は、フレーム化部17から出力されるフレーム単位の入力音声データSafをLPC分析することにより、ケプストラム領域でのM次元の特徴ベクトルAと、予測残差パワーεを求める。 【0036】内積演算部19は、学習ベクトル生成部16で予め生成されている上記の学習ベクトルVと特徴ベクトルAの内積値VTAを求める。 【0037】閾値生成部20は、本音声認識システムに備えられている発話開始スイッチ(図示省略)を発話者がオン操作して、実際に発話を開始するまでの所定期間(非音声期間)τ1内に、内積演算部18で求められる特徴ベクトルAと学習ベクトルVの内積を演算し、更に非音声期間τ1内に求めた複数フレーム分の内積値VTAの時間平均値Gを求める。そして、時間平均値Gと予め実験的に求めておいた調整値αとを加算し、その加算値を第1の閾値θv(=G+α)として、第1の閾値判定部21に供給する。 【0038】第1の閾値判定部21は、上記の非音声期間τ1の経過後、内積演算部19から出力される内積値VTAを閾値θvと比較し、内積値VTAが閾値θvより大きいときを音声区間と判定し、その判定結果D1を音声区間決定部300に供給する。 【0039】すなわち、非音声期間τ1の経過後、実際に発話が行われてフレーム化部17が入力音声データSaをフレーム単位の入力音声データSafに区分けして入力すると、フレーム単位の入力音声データSafをLPCケプストラム分析部18がLPCケプストラム分析することで、入力音声データSafの特徴ベクトルAと予測残差パワーεを求め、更に、内積演算部19が、入力音声データSafの特徴ベクトルAと学習ベクトルVの内積を求める。そして、その内積値VTAと閾値θvとの比較を第1の閾値判定部21が行い、内積値VTAが閾値θvより大きい場合に、音声区間と判定してその判定結果D1を音声区間検出部300に供給する。 【0040】第2の検出部200は、閾値生成部22と第2の閾値判定部23を備えて構成されている。 【0041】ここで、閾値生成部22は、上記の発話開始スイッチを発話者がオン操作して、実際に発話を開始するまでの非音声期間τ1内に、LPCケプストラム分析部18で求められる予測残差パワーεの時間平均値Eを求めると共に、予め実験的に決められた調整値βを時間平均値Eに加算することにより、閾値THD(=E+β)を求めて閾値判定部23に供給する。 【0042】第2の閾値判定部23は、非音声期間τ1の経過後、LPCケプストラム分析部18で求められる予測残差パワーεと閾値THDとを比較し、THD≦εとなったときを音声区間と判定し、その判定結果D2を音声区間決定部300に供給する。 【0043】すなわち、非音声期間τ1の経過後、実際に発話が行われてフレーム化部17が入力音声データSaをフレーム単位の入力音声データSafに区分けして入力すると、フレーム単位の入力音声データSafをLPCケプストラム分析部18がLPC分析することで、入力音声データSafの特徴ベクトルAと予測残差パワーεを求め、更に、その予測残差パワーεと閾値THDとの比較を第2の閾値判定部23が行い、予測残差パワーεが閾値THDより大きい場合に、音声区間と判定してその判定結果D2を音声区間検出部300に供給する。 【0044】音声区間決定部300は、第1の検出部100から判定結果D1が供給されるときと、第2の検出部200から判定結果D2が供給されるときを、入力音声Saの音声区間τ2と決定する。すなわち、θv≦VTA又はTHD≦εのいずれか一方の条件が満足されるときを音声区間τ2と決定し、その決定結果D3を音声切り出し部400に供給する。 【0045】音声切り出し部400は、上記の決定結果D3に基づいて最終的に音声区間を検出し、フレーム化部17より供給されるフレーム単位の入力音声データSafから、認識対象とする入力音声データSvcをフレーム単位で切り出してケプストラム演算部13へ供給する。 【0046】そして、ケプストラム演算部13が、その切り出された入力音声データSvcに基づいて、ケプストラム領域での観測値系列を生成し、更に認識部12が観測値系列と音声HMM11とを照合することで、音声認識を行う。 【0047】このように本実施形態の音声認識システムによれば、第1の検出部100は主に無声音の音声区間を正しく検出するのに有効な機能を発揮し、第2の検出部100は主に有声音の音声区間を正しく検出するのに有効な機能を発揮することになる。 【0048】すなわち、第1の検出部100は、学習用の無声音データScに基づいて予め作成しておいた無声音の学習ベクトルVと実際の発話によって生じる入力音声データSafの特徴ベクトルAとの内積を求め、得られた内積値VTAが閾値θvより大きな値となったときを入力音声データSa中の無声音の区間と判断することになる。つまり、比較的パワーの小さな無声音を高精度で検出することが可能となる。 【0049】第2の検出部200は、予め非音声期間の予測残差パワーに基づいて求めた閾値THDと実際の発話によって生じる入力音声データSafの予測残差パワーεとを比較し、THD≦εとなったときを入力音声データSa中の有声音の区間と判断することになる。つまり、比較的パワーの大きな有声音を高精度で検出することが可能となる。 【0050】そして、音声区間決定部が第1,第2の検出部100,200の判定結果D1,D2に基づいて音声区間(有声音又は無声音の区間)を最終的に決定し、その決定結果D3に基づいて、音声認識の対象とすべき入力音声データDvcを切り出すので、音声認識の精度向上を図ることができる。 【0051】尚、第1の検出部100の判定結果D1及び第2の検出部200の判定結果D2に基づいて音声区間を決定しても良いし、第1の検出部100の判定結果D1又は、第2の検出部200の判定結果D2の何れか一方の判定結果に基づいて音声区間を決定しても良い。 【0052】更に、上記の非音声期間τ1、すなわち実際に発話が行われていない期間に、LPCケプストラム分析部18が背景音だけの特徴ベクトルAを生成し、その特徴ベクトルAと学習ベクトルVの内積値VTAに所定の調整値αを加えた値VTA+αを閾値θvとする。このため、音声区間を検出するための判定基準である閾値θvは、実際に背景雑音等が生じている環境に応じて適切に可変調整が行われ、音声区間の検出精度を向上させることが可能となる。 【0053】つまり、従来は、例えば自動車の車室内等のように、雑音が多くSN比が低下するような場所では、図5(b)に示したように、雑音ベクトルが優勢となって、音声ベクトルが相対的に小さくなることから、実際の環境下で得られる入力音声の特徴ベクトルAは、音声ベクトル及び学習ベクトルVとは逆の方向となり、したがって特徴ベクトルAと学習ベクトルVとの内積値VTAは負(マイナス)の値となることから、固定閾値θ(=0)を判定基準としたのでは、音声区間を正しく検出することができなくなるという問題があった。 【0054】これに対し、本実施形態の音声認識システムでは、図2に示すように、特徴ベクトルAと学習ベクトルVとの内積値VTAが負の値になったとしても、予め閾値θvを背景雑音等に応じて適応的に可変調整するので、閾値θvを判定基準として内積値VTAを比較することで、音声区間の検出が可能となる。 【0055】別言すれば、図3に示すように、実際に発話された入力音声の特徴ベクトルAと学習ベクトルVの内積値VTAが閾値θvに掛かるように、その閾値θvを適切に可変調整することが可能となり、音声区間の検出精度の向上を可能にする。 【0056】尚、以上に述べた実施形態では、非音声期間τ1内に、内積演算部18で求められる特徴ベクトルAと学習ベクトルVの内積を演算し、更に非音声期間τ1内に求めた複数フレーム分の内積値VTAの時間平均値Gを求め、この時間平均値Gに所定の調整値αを加算した値を閾値θvとしている。 【0057】ただし、本発明はこれに限定されるものではなく、非音声期間τ1内に求めた複数フレーム分の内積値VTAのうちの最大値(VTA)maxを求め、最大値(VTA)maxと実験的に決めた所定の閾値α’とを加算した値(VTA)max+α’を閾値θvとしてもよい。 【0058】 【発明の効果】以上説明したように本発明の音声認識システムによれば、非音声期間の音の特徴ベクトルと学習ベクトルの内積値に基づいて第1の閾値を生成し、実際に発話が行われると入力音声の特徴ベクトルと学習ベクトルの内積値を第1の閾値と比較して音声区間の検出を行うようにしたので、音声区間の検出精度を向上させることができる。すなわち、音声区間の判定基準となる第1の閾値を非音声期間の音に応じて適応的に可変調整するので、第1の閾値を判定基準として、入力音声の特徴ベクトルと学習ベクトルの内積値を比較することで、音声区間を適切に検出することができる。 【0059】また、第1の判定手段が入力音声の特徴ベクトルと学習ベクトルの内積値に基づいて音声区間を判定する他、第2の判定手段が入力音声の予測残差パワーに基づいて音声区間を判定し、これら一方の判定手段が判定した音声区間に該当する入力音声を音声認識対象とすることとしたので、無声音と有声音の音声区間を正しく検出することができる。
|
| 【出願人】 |
【識別番号】000005016 【氏名又は名称】パイオニア株式会社
|
| 【出願日】 |
平成12年9月12日(2000.9.12) |
| 【代理人】 |
【識別番号】100063565 【弁理士】 【氏名又は名称】小橋 信淳
|
| 【公開番号】 |
特開2002−91468(P2002−91468A) |
| 【公開日】 |
平成14年3月27日(2002.3.27) |
| 【出願番号】 |
特願2000−277025(P2000−277025) |
|