トップ :: G 物理学 :: G10 楽器;音響




【発明の名称】 音響モデル生成装置及び音声認識装置
【発明者】 【氏名】伊田 政樹

【氏名】松井 知子

【氏名】中村 哲

【要約】 【課題】未知雑音の混入に対して頑強であって音響モデルの計算量を削減できるように音響モデルを生成する。

【解決手段】ガウス混合モデル生成部11は、データベースメモリ21に格納された学習用の複数の種類の環境雑音の波形信号データに基づいて、出力尤度が最大となるように、1状態で複数混合のガウス混合モデルを生成し、HMM合成部13は、所定の雑音のない音声HMMと生成された雑音ガウス混合モデルとを、これらの各状態のすべての組み合わせの状態において、所定の重み係数で重み付けされた各ガウス分布の線形結合の和で表した各状態の混合ガウス分布を含む適応化されたHMMを生成することにより合成する。一方、特徴抽出部3は自然発話文の発話音声信号に基づいてその特徴量を抽出し、音声認識部4は抽出された特徴量に基づいて上記生成された適応化されたHMMを用いて発話音声信号の音声認識を行って音声認識結果を出力する。
【特許請求の範囲】
【請求項1】 学習用の複数の種類の環境雑音の波形信号データを格納する記憶手段と、上記記憶手段に格納された学習用の複数の種類の環境雑音の波形信号データに基づいて、出力尤度が最大となるように、1状態で複数混合のガウス混合モデルを生成する生成手段と、所定の雑音のない音声隠れマルコフモデルと、上記生成手段により生成された雑音ガウス混合モデルとを、これらの各状態のすべての組み合わせの状態において、所定の重み係数で重み付けされた各ガウス分布の線形結合の和で表した各状態の混合ガウス分布を含む適応化された隠れマルコフモデルを生成することにより合成する合成手段とを備えたことを特徴とする音響モデル生成装置。
【請求項2】 自然発話文の発話音声信号に基づいてその特徴量を抽出する抽出手段と、上記抽出された特徴量に基づいて、請求項1記載の合成手段により生成された適応化された隠れマルコフモデルを用いて上記発話音声信号の音声認識を行って音声認識結果を出力する音声認識手段とを備えたことを特徴とする音声認識装置。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は、音声認識装置のための音響モデル生成装置及び音声認識装置に関する。
【0002】
【従来の技術】音声認識システムの実環境下での使用を考えたとき、周囲の環境音が存在するために認識性能の低下が避けられない。そこで、周囲の環境音の混入に対してロバストな音響モデルが必要になる。環境音の混入にロバストな音響モデルの生成法としては、認識時の環境音そのものを用いることはできないので、予め混入環境音を予測して適応化を行う方法が用いられる。ところが、混入環境音の予測は変動成分を含むため、困難であることが多い。
【0003】従来技術における音響モデルの適応化の方法としては次の2つに大別される。一方は、システム設計時に認識時の環境音を想定した音響モデルを作成する方法である。すなわち、例えば、既知の雑音の波形データベースに基づいて、学習用雑音隠れマルコフモデル(以下、隠れマルコフモデルをHMMという。)を生成した後、これを用いて、雑音のない音声HMMを学習することにより適応化されたHMMを生成し、これを音声認識装置に用いることができる(以下、第1の従来例という。)。
【0004】これに対してもう一方は、認識時の環境音データによって随時音響モデルの適応する方式である。認識時の環境音そのものを適応化に用いることはできないので、一般に音声入力の直前の比較的少量の環境音が用いられる(以下、第2の従来例という。)。
【0005】
【発明が解決しようとする課題】第1の従来例の方法によれば、想定した範囲内の環境音の混入に対しては強いロバスト性を示す。しかしながら、未知の雑音に対して対応できず、頑強性に欠けるという問題点があり、さまざまな環境音の混入を想定した場合、すべての音声と環境音の組合わせについて考慮する必要があるため、コスト面において現実的ではない。すなわち、既知の雑音の種類を多くした場合、適応化されたHMMの計算量が多大になるという問題点があった。
【0006】第2の従来例の方法においては、少量のデータから認識中のあらゆる環境音を予測することは非常に困難であり、想定外の環境音の混入には対応できない。
【0007】前者は混入する環境音がすべて既知であるという条件、後者は混入する環境音の特徴は不変であるという制約条件が存在する。一般に実使用においては環境音は変動する成分を含んでいるため、上記の制約条件が満たされるとは限らない。
【0008】本発明の目的は以上の問題点を解決し、未知雑音の混入に対して頑強であって音響モデルの計算量を増大させることなく音響モデルを生成することができる音響モデル生成装置、及び、当該音響モデル生成装置を用いた音声認識装置を提供することにある。
【0009】
【課題を解決するための手段】本発明に係る音響モデル生成装置は、学習用の複数の種類の環境雑音の波形信号データを格納する記憶手段と、上記記憶手段に格納された学習用の複数の種類の環境雑音の波形信号データに基づいて、出力尤度が最大となるように、1状態で複数混合のガウス混合モデルを生成する生成手段と、所定の雑音のない音声HMMと、上記生成手段により生成された雑音ガウス混合モデルとを、これらの各状態のすべての組み合わせの状態において、所定の重み係数で重み付けされた各ガウス分布の線形結合の和で表した各状態の混合ガウス分布を含む適応化されたHMMを生成することにより合成する合成手段とを備えたことを特徴とする。
【0010】また、本発明に係る音声認識装置は、自然発話文の発話音声信号に基づいてその特徴量を抽出する抽出手段と、上記抽出された特徴量に基づいて、上記合成手段により生成された適応化されたHMMを用いて上記発話音声信号の音声認識を行って音声認識結果を出力する音声認識手段とを備えたことを特徴とする。
【0011】
【発明の実施の形態】以下、図面を参照して本発明に係る実施形態について説明する。
【0012】図1は、本発明に係る一実施形態であるHMMモデル生成装置100及び音声認識装置200の構成を示すブロック図である。この実施形態に係るHMMモデル生成装置100は、複数の種類の環境音の雑音波形を含む学習用環境雑音波形データベースを用いて雑音ガウス混合モデルを生成するガウス混合モデル生成部11と、生成された雑音ガウス混合モデルを用いて、雑音のない音声HMMを、公知のHMM合成法により学習することにより適応化されたHMMを生成するHMM合成部13とを備えたことを特徴としている。具体的には、本実施形態では、環境変動にロバストな音声モデルを少ない計算量で構築する方法であって、未知の環境音が混入した場合のロバスト性を高めるため、予めさまざまな環境音が混入すると想定し、複数の種類の環境音を適応データとして与えたHMM合成による環境適応化を行い、ここで、環境音をHMMとして独立に学習し、公知のHMM合成法(例えば、従来技術文献1「F. Martin et al.,”Recognition of Noisy Speech by Composition of Hidden Markov Models”,電子情報通信学会技術報告, SP92-96, pp.9-16, 1992」、従来技術文献2「南泰浩ほか,“HMM合成に基づく尤度最大化適応法”,電子情報通信学会技術報告,SP95−24,1995年6月」など参照。)によってすべての音声モデルに複数の種類の環境音の影響を適応化させている。
【0013】従来技術における上述の問題点を解決するために、本実施形態で用いる手法は、未知の環境音が混入した場合のロバスト性を高めるため、予めさまざまな環境音が混入すると想定した環境適応化を行う。さまざまな環境音を雑音ガウス混合モデルとして独立に学習し、HMM合成によってすべての音声モデルに複数の種類の環境音の影響を適応化させることにより環境変動にロバストな音声モデルを少ない計算量で構築することが可能になる。
【0014】図1において、雑音のない音声波形データベースメモリ31は、例えば複数の話者の大規模な音素ラベル付き音声波形信号(雑音がなくクリーンである。)のデータベースを格納しており、また、HMM生成部12は、当該データベースに基づいて公知のEM(Expectation-Maximization)アルゴリズムを用いて、出力尤度が最大となるように、雑音のない音声HMMを生成して雑音のない音声HMMメモリ32に出力して格納する。一方、学習用環境雑音波形データベースメモリ21は、例えば電子協騒音データベース(例えば、従来技術文献3「電子協騒音データベース,(社)日本電子工業振興協会,http://www.jeida.or.jp/committee/humanmed/ speech/noisedbj.html」など参照。)に格納された、学習用の複数の種類の環境雑音の波形信号のデータを格納していて、このデータベースメモリ21に格納された学習用の複数の種類の環境雑音の波形信号のデータに基づいて、ガウス混合モデル生成部11は、公知のEMアルゴリズムを用いて、出力尤度が最大となるように、1状態で複数混合の雑音ガウス混合モデルを生成して雑音ガウス混合モデルメモリ22に出力して格納する。さらに、HMM合成部13は、音声HMMメモリ32に格納された雑音のない音声HMMと、モデルメモリ22に格納された雑音ガウス混合モデルとを、公知のHMM合成法を用いて合成することにより、適応化されたHMMを生成して適応化されたHMMメモリ23に出力して格納する。
【0015】本実施形態のHMM合成部13で用いるHMM合成法とは、雑音の存在しないクリーンな環境で学習された音声HMMと環境音の特徴を学習した雑音ガウス混合モデルとを合成して、環境音の混入した音声に対するHMMを作成する方法である。このHMM合成法では、従来技術文献2の図2に図示されるように、ケプストラム領域にある音声と雑音の各ガウス分布をそれぞれコサイン変換することにより、対数スペクトラム領域の音声と雑音の各ガウス分布に変換した後、さらに、指数変換することにより線形スペクトラム領域の音声と雑音の対数ガウス分布に変換する。ここで、指数変換後の線形スペクトラム領域の音声と雑音の対数ガウス分布を互いに重み係数付け加算することにより、線形スペクトラム領域における雑音が重畳した音声の対数ガウス分布を生成する。さらに、生成した雑音が重畳した音声の対数ガウス分布を対数変換して、対数スペクトラム領域における雑音が重畳した音声のガウス分布に変換した後、さらに逆コサイン変換することによりケプストラム領域における雑音が重畳した音声のガウス分布を得る。以上がHMM合成法での出力確率の合成法である。
【0016】雑音ガウス混合モデルの状態は、環境音の多様性を表現するために出力確率分布を混合ガウス分布で表す。このときの合成後のHMMの出力確率分布は、ケプストラム領域における音声HMMの混合分布と雑音ガウス混合モデルの混合分布の和で表される。すなわち、混合分布を構成する各ガウス分布は、音声HMMの各状態と、雑音ガウス混合モデルの状態とのガウス分布におけるすべての組合わせの和で表現され、混合の重み係数は各重み係数の積で表現される。ここで、雑音ガウス混合モデルが1状態で1ループであり、音声HMMが3状態で1ループであるときの、図1のHMM合成部13におけるHMM合成法によるHMM学習処理を図2に示す。
【0017】上述のように、音声HMMと雑音ガウス混合モデルとの合成を行うときに、各出力分布が混合ガウス分布で表現されているとき、合成後の出力分布はそれぞれの混合要素のすべての組合わせになる。合成後の各要素の平均及び分散は元の混合要素の和になる。合成後の各要素の混合重み係数は、元の混合重み係数の積で表される。図2は音声HMM及び雑音ガウス混合モデルともに2混合の出力分布で表現されているときの、合成後の出力確率分布の導出を示している。なお、図2において、N(・)は各ガウス分布の平均及び分散を示す。音声HMMの第1状態の出力確率分布がガウス分布S11,S12の重み係数付き和であり、雑音ガウス混合モデルの出力確率分布がN1,N2の重み係数つき和であり、すなわち、所定の重み係数で重み付けされたガウス分布の線形結合の和である。それぞれの重み係数はws11,ws12,wn1,wn2とする。このとき、合成後の適応化されたの第1状態の出力分布は、S11+N1,S12+N1,S11+N2,S12+N2の4つのガウス分布の重み係数付き和になる。さらに、同様にして、雑音ガウス混合モデルの状態と、音声HMMの第2の状態との組み合わせにおけるHMM合成、並びに、雑音ガウス混合モデルの状態と、音声HMMの第3の状態との組み合わせにおけるHMM合成を行う。
【0018】従って、HMM合成部13は、音声HMMメモリ32に格納されている雑音のない音声HMMと、モデルメモリ22に格納されている雑音ガウス混合モデルとを、公知のHMM合成法を用いて、これらの各状態のすべての組み合わせの状態において、所定の重み係数で重み付けされた各ガウス分布の線形結合の和で表した各状態の混合ガウス分布を含む適応化されたHMMを生成することにより合成し、HMMメモリ23に出力して格納する。
【0019】図1において、音声認識装置200は、マイクロホン1と、A/D変換器2と、特徴抽出部3と、音声認識部4とを備えて構成される。自然発話文の発生音声はマイクロホン1に入力されて発声音声信号に変換された後、A/D変換器2により所定のサンプリング周波数で音声ディジタルデータ信号にA/D変換される。次いで、特徴抽出部3は、入力される音声ディジタルデータ信号に基づいて、例えばLPC分析することにより、例えば、12次のメルケプストラム係数と、12次のΔメルケプストラム係数と、パワーと、Δパワーとを含む特徴ベクトルを抽出して音声認識部4に出力する。さらに、音声認識部4は、HMMメモリ23に格納された適応化されたHMMを用いて音素の尤度を計算するとともに、単語HMMメモリ5に予め格納されている所定の音素ベースの単語HMMを用いて単語の尤度を計算して、出力尤度が最大となる音素からなる単語を決定することにより音声認識処理を行い、音声認識結果の最尤単語の文字列を生成して出力する。
【0020】以上の実施形態において、ガウス混合モデル生成部11と、HMM生成部12と、HMM合成部13と、特徴抽出部3と、音声認識部4とは、例えばディジタル計算機などの演算制御装置により構成され、単語HMMメモリ5と、学習用環境雑音波形データベースメモリ21と、ガウス混合モデルメモリ22と、適応化されたHMMメモリ23と、雑音のない音声波形データベースメモリ31と、雑音のない音声HMMメモリ32とは、例えばハードディスクメモリなどの記憶装置により構成される。
【0021】
【実施例】本発明者らは、本実施形態のHMMモデル生成装置100及び音声認識装置200を用いて単語認識実験を行い、その性能で適応化されたHMMである音響モデルを評価した。音声や雑音の両HMMの学習、及び認識を行う際の音声データ分析条件を表1に示す。また、雑音のないクリーンな環境で学習された音声HMMとして表2に示すHMnetを用いた。
【0022】
【表1】
音声データ分析条件―――――――――――――――――――――――――――――――――――サンプリング周波数:16kHz量子化ビット数:16bit特徴分析:12次MFCC+12次ΔMFCC+パワー+Δパワー分析フレーム:20msecフレームシフト:10msec―――――――――――――――――――――――――――――――――――【0023】
【表2】
クリーンな音声HMMの構成―――――――――――――――――――――――――――――――――――26音素コンテキスト依存(トライフォン)
性別依存総状態数:1403状態総分布数:7030分布各状態の混合分布数:10又は5各音声モデルの最大状態数:4学習データ:出願人が所有する音声データベース(400話者;19948発声)
―――――――――――――――――――――――――――――――――――【0024】雑音ガウス混合モデルの学習には一般的な環境雑音として上述の電子協騒音データベースを用いた。このうち12種類、計4000secのデータをオープン(混入雑音環境が既知)条件の雑音ガウス混合モデルの学習用環境音データとする。比較対象として、この4000secに含まれない1種類、計400secのデータをクローズド(混入雑音環境が未知)条件の雑音ガウス混合モデルの学習用環境音データとする。この内訳を表3に示す。クローズド条件のデータは、評価用の環境音混入音声データの作成の際に評価用音声データに重畳して用いる。各環境音データは評価用音声データに対してSN比が15dBになるよう振幅調整を行った。
【0025】
【表3】
騒音データベース(環境雑音波形データベース)
―――――――――――――――――――――――――――――――――――分類 内容 総時間[sec]
―――――――――――――――――――――――――――――――――――オープン 走行自動車内 800 駅 400 公衆電話ボックス 200 工場 400 仕分け処理場 400 幹線道路 200 交差点 200 人混み 200 列車 400 計算機室 400 空調雑音 600 エレベータホール 200―――――――――――――――――――――――――――――――――――クローズド 展示会場 400―――――――――――――――――――――――――――――――――――【0026】各環境音データを用いて雑音ガウス混合モデルの学習生成を行った。雑音ガウス混合モデルの構成は1状態で1ループとし、出力確率分布の混合数を1〜3とする。これにより、各混合数を用いたときの雑音ガウス混合モデルの学習データに認識時の環境が既知の場合(クローズド条件)と未知の場合(オープン条件)について適応化されたHMMを生成した。比較のため、環境適応化を行わない、雑音のないHMM(クリーンなHMM;音声HMMメモリ32内に格納された雑音のない音声HMM)を用いた場合と、クローズド条件の雑音ガウス混合モデル学習用データを音声モデル学習用音声データに重畳して再学習を行った音声モデル(以下、再学習されたHMMという。)についても評価を行った。
【0027】認識実験のタスクは、出願人が所有する音声認識装置内の音素ベースの単語HMMを用いた、音素バランス216単語の孤立単語認識であり、評価用データは男性話者1名、計216発声を用いた。環境音を含まない評価データ(雑音のないテストセット)とクローズド条件の雑音ガウス混合モデル学習用データと同じ環境音を重畳したデータ(雑音有りのテストセット)の2種類の評価セットを用意した。実験結果の単語認識率を図4に示す。
【0028】
【表4】
単語認識率―――――――――――――――――――――――――――――――――――HMMの種類 雑音ガウス混合モデル テストセット 単語認識率[%]
―――――――――――――――――――――――――――――――――――雑音のないHMM −−− 雑音なし 94.6雑音のないHMM −−− 雑音有り 81.8―――――――――――――――――――――――――――――――――――適応化されたHMM クローズド&1混合 雑音有り 85.3適応化されたHMM オープン&1混合 雑音有り 84.5適応化されたHMM クローズド&2混合 雑音有り 87.6適応化されたHMM オープン&2混合 雑音有り 84.9適応化されたHMM クローズド&3混合 雑音有り 88.0適応化されたHMM オープン&3混合 雑音有り 84.9―――――――――――――――――――――――――――――――――――再学習されたHMM −−− 雑音有り 89.0―――――――――――――――――――――――――――――――――――【0029】この表4から明らかなように、雑音のないクリーンHMMを用いた場合、入力音声に環境音が混入すると認識性能が低下するが、環境適応化HMMを用いることでその低下を抑えることができる。また、雑音ガウス混合モデルの混合分布数が等しいならば、雑音ガウス混合モデルの学習時に認識時の環境音が既知の場合(クローズド条件)に比べて未知の場合(オープン条件)は、認識率が各混合数において1〜3ポイント(%)少ない。逆に、認識時の環境音が既知の場合は、混合数の増加に伴って認識性能が向上し、混合数3の場合には再学習を行った音響モデル(再学習されたHMM)と同等の認識性能を示す。これに対して、認識時の環境音が未知の場合は性能向上があまり見られない。この原因の一つとして、未知の場合に雑音ガウス混合モデルの学習に用いた環境音の種類の不足が考えられる。
【0030】
【発明の効果】以上詳述したように本発明に係る音響モデル生成装置によれば、学習用の複数の種類の環境雑音の波形信号データに基づいて、出力尤度が最大となるように、1状態で複数混合のガウス混合モデルを生成した後、所定の雑音のない音声HMMと、上記生成手段により生成された雑音ガウス混合モデルとを、これらの各状態のすべての組み合わせの状態において、所定の重み係数で重み付けされた各ガウス分布の線形結合の和で表した各状態の混合ガウス分布を含む適応化されたHMMを生成することにより合成する。従って、以下の特有の効果を有する。
(1)複数の種類の環境雑音の波形信号データに基づいてガウス混合モデルを生成しているので、このガウス混合モデルと、音声HMMとを合成した適応化されたHMMは、未知の雑音の混入に対して頑強なモデルとなる。
(2)雑音モデルとして複数混合のモデルを利用することにより、多種多様な雑音に対して有効な雑音モデルの構築ができ、雑音の時間的変動に対する耐性が向上する。
(3)雑音モデルの重み係数を現場データ等を用いて適応化した場合、合成後のモデルの重み係数だけを現場データに対応させればよいので、従来例に比較して計算量を大幅に軽減でき、大規模な音響モデルにおいても高速に環境適応化が可能になる。
【0031】また、本発明に係る音声認識装置によれば、自然発話文の発話音声信号に基づいてその特徴量を抽出し、抽出された特徴量に基づいて、上記合成された適応化されたHMMを用いて上記発話音声信号の音声認識を行って音声認識結果を出力する。従って、未知の雑音が混入した音声信号に対して、従来例に比較して高い音声認識率で音声認識することができ、雑音が重畳した音声に対して頑健な音声認識装置を提供できる。
【出願人】 【識別番号】500209033
【氏名又は名称】株式会社エイ・ティ・アール音声言語通信研究所
【出願日】 平成12年9月19日(2000.9.19)
【代理人】 【識別番号】100062144
【弁理士】
【氏名又は名称】青山 葆 (外2名)
【公開番号】 特開2002−91480(P2002−91480A)
【公開日】 平成14年3月27日(2002.3.27)
【出願番号】 特願2000−283516(P2000−283516)