トップ :: G 物理学 :: G10 楽器;音響




【発明の名称】 音声認識装置
【発明者】 【氏名】西浦 敬信

【氏名】中村 哲

【要約】 【課題】話者の方向又は位置を推定して音声認識率を向上させることができる音声認識装置を提供する。

【解決手段】複数のマイクロホンを所定の間隔で並置してなるマイクロホンアレー10を備えた音声認識装置において、方向推定部13は、各マイクロホンから出力される電気信号に基づいてマイクロホンアレーで受信される少なくとも1つの音源の方位角を推定し、ビームフォーミング部14は、各マイクロホンから出力される電気信号に基づいて推定された少なくとも1つの音源の方位角の方向に対応する少なくとも1つのビーム信号を生成する。次いで、音源判定部16は各ビーム信号に基づいて音声のHMMと雑音HMMとを用いて各ビーム信号が音声であるか非音声であるかを判定し、音声認識部17は音声であると判定されたときに、当該ビーム信号に対して音声認識を行って音声認識結果を出力する。
【特許請求の範囲】
【請求項1】 複数のマイクロホンを所定の間隔で並置してなるマイクロホンアレーと、上記各マイクロホンから出力される電気信号に基づいて上記マイクロホンアレーで受信される少なくとも1つの音源の方位角又は位置を推定する推定手段と、上記各マイクロホンから出力される電気信号に基づいて上記推定手段により推定された少なくとも1つの音源の方位角又は位置の方向に対応する少なくとも1つのビーム信号を生成するビームフォーミング手段と、上記ビームフォーミング手段により生成された少なくとも1つのビーム信号に基づいて、音声の隠れマルコフモデルと、雑音の隠れマルコフモデルとを用いて、上記各ビーム信号が音声であるか非音声であるかを判定する判定手段と、上記判定手段により音声であると判定されたときに、当該ビーム信号に対して音声認識を行って音声認識結果を出力する音声認識手段とを備えたことを特徴とする音声認識装置。
【請求項2】 上記雑音の隠れマルコフモデルは、複数の環境音に基づいて生成された混合ガウス分布を有する隠れマルコフモデルであることを特徴とする請求項1記載の音声認識装置。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は、マイクロホンアレーを備えた音声認識装置に関する。
【0002】
【従来の技術】テレビ会議システムや音声による機器の制御において、発話者から離れた位置にあるマイクロホンで発話者の音声を高音質に受音することは極めて重要である。そこで発話者から離れた位置にあるマイクロホンでも発話者の音声を高音質に受音する方法としてマイクロホンアレーが注目されている。しかし、マイクロホンアレーを用いて高音質に発話者の音声を受音するためには、発話者の方向又は位置を推定することが必要となる。
【0003】
【発明が解決しようとする課題】しかしながら、これまでの方向又は位置推定に関する研究では、音源位置を推定(例えば、従来技術文献1「安部正人,“多数センサによる音源推定”,音響学会論文誌,Vol.51,No.5,pp.384−389,1995年」など参照。)することは多数試みられているが、話者の方向や位置を推定することは困難であった。また、これに伴って、別の方向からの雑音を収集して、音声認識率を向上させることができないという問題点があった。
【0004】本発明の目的は以上の問題点を解決し、話者の方向又は位置を推定して音声認識率を向上させることができる音声認識装置を提供することにある。
【0005】
【課題を解決するための手段】本発明に係る音声認識装置は、複数のマイクロホンを所定の間隔で並置してなるマイクロホンアレーと、上記各マイクロホンから出力される電気信号に基づいて上記マイクロホンアレーで受信される少なくとも1つの音源の方位角又は位置を推定する推定手段と、上記各マイクロホンから出力される電気信号に基づいて上記推定手段により推定された少なくとも1つの音源の方位角又は位置の方向に対応する少なくとも1つのビーム信号を生成するビームフォーミング手段と、上記ビームフォーミング手段により生成された少なくとも1つのビーム信号に基づいて、音声の隠れマルコフモデルと、雑音の隠れマルコフモデルとを用いて、上記各ビーム信号が音声であるか非音声であるかを判定する判定手段と、上記判定手段により音声であると判定されたときに、当該ビーム信号に対して音声認識を行って音声認識結果を出力する音声認識手段とを備えたことを特徴とする。
【0006】また、上記音声認識装置において、上記雑音の隠れマルコフモデルは、好ましくは、複数の環境音に基づいて生成された混合ガウス分布を有する隠れマルコフモデルであることを特徴とする。
【0007】
【発明の実施の形態】以下、図面を参照して本発明に係る実施形態について説明する。
【0008】図1は、本発明に係る一実施形態である音声認識装置の構成を示すブロック図である。この実施形態に係る音声認識装置は、特に、マイクロホンアレー10を備え、方向推定部13と、ビームフォーミング部14と、音源判定部16とを備えたことを特徴としている。すなわち、本実施形態では、マイクロホンアレー10で受信された音源信号に基づいて方向推定を行ってビーム信号を生成し、生成されたビーム信号に基づいて、HMMを用いた音声モデル及び環境音の雑音モデルにより音声であるか非音声であるかの識別(音源判定)を行い、音源が或る特定の話者であるかどうか識別を行い、さらに音源が話者であればその音声に対して音声認識を行うことを特徴としている。
【0009】例えば,図2に示すように、マイクロホンアレー10に対して正面方向から音声、右方向から非音声のホワイトノイズが到来する場合を考える。ここで、高音質に音声を受音するためには、音源方向を推定し、その後、推定方向に対してビームフォーミングを行う必要がある。しかしながら、この状況において音源方向を推定することができても、話者がどの方向であるのかわからない。そこで、本実施形態においては、音声のみを高音質に受音するために音源判定部16により音源の識別を行う。図1の音声認識装置においては、ビームフォーミング部14により形成された高音質に受音した音のビーム信号に対して、音源判定部16において、様々な環境音から作成した環境音の雑音モデルと音声モデルを用いて尤度を計算し、音声及び非音声の識別を行うことにより、音源が話者であるかどうか識別する。さらに音源が話者であれば、音声認識部17によりその音声に対して認識を行う。
【0010】本実施形態において、HMMを用いた音声モデル及び環境音の雑音モデルにより音源識別を行うためには、モデル作成のためにあらかじめ様々な環境音が必要となる。そこで、本実施形態では、RWCP実環境音声・音響データベース(以下、RWCP−DBという。)(例えば、従来技術文献2「S. Nakamura et al.,”Data Collection in Real Acoustical Environments for Sound Scene Understanding and Hands-Free Speech Recognition”,Proc. Eurospeech99, pp.2255-2258, 1999」参照。)を用いて環境音の雑音モデルを作成した。表1に環境音データベースの内容を示す。表1では9種類の系統を示しているが、全体のデータとして約100種類10,000サンプルの環境音が存在する。
【0011】
【表1】
環境音データベース――――――――――――――――――――――――――――――――――― 音源の系統 音源の例―――――――――――――――――――――――――――――――――――衝撃系 木質 木板を木棒で叩くなど 金属 金板を金棒で叩くなど プラスチック プラケースを木棒で叩くなど セラミック ガラスを叩くなど―――――――――――――――――――――――――――――――――――動作系 粒子落下系 豆を箱に注ぐなど ガス噴射系 スプレーの噴射など 摩擦系 ノコギリを引くなど 破裂破壊系 割箸を折るなど 弾性音系 拍手など―――――――――――――――――――――――――――――――――――特徴的 金属小物系 鈴を鳴らすなど 紙系 紙を破るなど 楽器系 ラッパの音など 電子音系 電話の呼出音など 機械系 ゼンマイの音など―――――――――――――――――――――――――――――――――――【0012】本実施形態において、雑音波形データベースメモリ22は、上述の92種類の環境音の波形信号を格納し、雑音HMM生成部32は、雑音波形データベースメモリ22内の環境音である雑音の波形信号に基づいて、公知のEM(Expectation Maximization)アルゴリズムを用いて、出力尤度が最大となるように、例えば3状態で複数混合の混合ガウス分布を有する雑音隠れマルコフモデル(以下、隠れマルコフモデルをHMMという。)を生成して、雑音HMMメモリ42に出力して格納する。一方、音素ラベル付き音声波形データベースメモリ21は、例えば特定話者が所定の文章(テキスト)を読み上げたときの音声波形信号を音素ラベル付きで格納し、音素HMM生成部31は、音声波形データベースメモリ21内の音声波形信号に基づいて、各音素毎に、複数の信号データを用い、かつEMアルゴリズムを用いて、出力尤度が最大となるように、例えば合計54音素であり、各音素で3状態で複数混合の混合ガウス分布を有する音素HMMを生成し、各音素HMMをそれぞれ音素HMMメモリ41−1乃至41−54に出力して格納する。ここで、これら54個の音素HMMは特定話者の音声HMMを構成しており、上述の雑音HMMとともに音源判定部16における音声か非音声かの識別で用いる。なお、音声認識部17のために、不特定話者の音素ベースの単語HMMが予め公知の方法で生成されて、音素ベース単語HMMメモリ51に格納されている。
【0013】図1において、マイクロホンアレー10は、複数のマイクロホン11を所定の間隔で1直線上に並置して構成され、各マイクロホン11は入力される音声又は非音声を受信した後、それぞれ音声信号又は非音声信号である電気信号に変換してA/D変換器12に出力する。次いで、A/D変換器12は、各マイクロホン11から出力される電気信号を所定のサンプリング周波数でディジタルデータ信号にA/D変換して方向推定部13及びビームフォーミング部14に出力する。
【0014】方向推定部13は、入力されるディジタルデータ信号のうち所定のしきい値レベル以上の信号を計算対象とし、例えば公知の白色化相互相関法(以下、CSP法という。)(例えば、従来技術文献3「T. Nishiura et al., "Localizationof Multiple Sound Sources Based on a CSP Analysis with a Microphone Array", Proceedings of ICASSP2000, pp.1053--1056, 2000」参照。)を用いて、複数のディジタルデータ信号のCSP係数及び到来時間差(DOA:Delay of Arrivals)を推定する。具体的には、以下の数1に示すように、複数のディジタルデータ信号をフーリエ変換して振幅で正規化を行った後、位相差を計算し、逆フーリエ変換を行ってCSP係数を計算する。次いで、CSP係数の大きくなる時間差(相関の強い時間差)τを計算することにより、到来時間差の推定を行うことができる。ここで、音源が1つしか存在しないときは、音源方向を推定するときは、数1及び数2により時間差τを計算した後、数3を用いて方位角θを推定する。推定された方位角θは方向推定部13からビームフォーミング部14に出力される。なお、以下の式では、マイクロホンi,jで信号si(n),sj(n)を受信したものとし、cは音速、dはマイクロホン間隔、Fsはサンプリング周波数である。
【0015】
【数1】CSPi,j(k)=DFT−1[(DFT[si(n)]DFT[sj(n)]*)/(|DFT[si(n)]||DFT[sj(n)]|)]
【数2】τ=argmax(CSPij(k))
【数3】θ=cos-1(c・τ/(Fs・d))
【0016】また、音源が複数存在する場合においても公知の方法により同様に方位角θを計算でき、この場合、複数の方位角θの情報がビームフォーミング部14に出力され、ビームフォーミング部14は複数のビーム信号を生成する。なお、方向推定においては、CSP法を用いているが、本発明はこれに限らず、CSP係数の加算法とビームフォーミングを用いた複数音源方向のクラスタリングを組み合わせた改善法、ビームフォーミングによる音源推定法、MUSIC法による音源方向推定法や、最小分散法による音源方向推定法などの公知の方法を用いてもよい。また、本実施形態においては、方向推定のみを行っているが、マイクロホンアレー10を2組備え、互いに並置された2組のマイクロホンアレー10を用いて2本のビームの交差点を音源の位置として特定するように構成してもよい。
【0017】ビームフォーミング部14は、方向推定部13からの方位角情報に基づいて重み係数を計算する制御部と、互いに縦続接続された複数の遅延線と、各遅延線のタップからの信号を上記重み係数で乗算する乗算器と、各乗算器からの出力信号を加算する加算器とを備えて構成され、いわゆるトランスバーサルフィルタ回路又は遅延和アレー回路と呼ばれる回路である。ビームフォーミング部14は、A/D変換器12から出力される各ディジタルデータ信号と、方位角情報に基づいて、方向推定部13で推定された少なくとも1つの方位角における少なくとも1つのビーム信号を生成して特徴抽出部15に出力する。次いで、特徴抽出部15は、入力される少なくとも1つのビーム信号に基づいて、例えば16次のメルケプストラム係数と、16次のΔメルケプストラム係数と、Δパワーとを含む特徴ベクトルを抽出して音源判定部16及び音声認識部17に出力する。そして、音源判定部16は、入力される各ビーム信号の特徴ベクトルに基づいて、音素HMMメモリ41−1乃至41−54内の音声HMMと、雑音HMMメモリ42内の非音声の雑音HMMとを用いて尤度を計算して最大の尤度を有するHMMを選択することにより、音声であるか非音声(雑音又は環境音)であるか、音声のときはどの音素であるかを判定して、その判定情報を音声認識部17に出力する。さらに、音声認識部17は、音源判定部16により入力された音源の信号が音声と判断されたときに、特徴抽出部15から順次出力される特徴ベクトルに基づいて、音素ベース単語HMMメモリ51内の単語HMMを用いて尤度を計算して最尤基準により音声認識を行い、音声認識結果の文字列を出力する。
【0018】以上の実施形態において、方向推定部13と、ビームフォーミング部14と、特徴抽出部15と、音源判定部16と、音声認識部17と、音素HMM生成部31と、雑音HMM生成部32とは、例えばディジタル計算機などのコンピュータで構成され、また、音声波形データベースメモリ21と、雑音波形データベースメモリ22と、音素HMMメモリ41−1乃至41−54と、雑音HMMメモリ42と、音素ベース単語HMMメモリ51とは、例えばハードディスクメモリなどの記憶装置で構成される。
【0019】
【実施例】上述のRWCP−DBには、様々な環境においてマイクロホンアレー10を用いて測定した音響伝達特性も存在する。そこで、RWCP−DB中の音響伝達特性と環境音・音声を用いて仮想実環境実験を行った。この実施例においては、音源位置が既知である場合の、音源識別性能を実験的に評価した。図2に実験環境を示す。音源はマイクロホンアレー10に対して正面方向に目的の音源、右方向に雑音源が存在する。次いで、表2に実験条件を示す。この実験条件下において1つのマイクロホン11及びマイクロホンアレー10を用いて、各SNRにおける音源識別性能を評価した。
【0020】
【表2】
実験条件―――――――――――――――――――――――――――――――――――マイクロホンアレー:素子数14,素子間隔2.83cmビームフォーミング部:遅延和アレーサンプリング周波数:12kHz―――――――――――――――――――――――――――――――――――フレーム長:32msec.(ハミング窓)
フレーム周期:8msec.
特徴ベクトル:MFCC,ΔMFCC,ΔパワーHMM:ガウス混合型HMM音響モデル数:音声54モデル(54音素),非音声(雑音)1モデル―――――――――――――――――――――――――――――――――――音声データベース:出願人が所有する音声データベースセットA音声モデル学習:特定の話者MHTで2620語―――――――――――――――――――――――――――――――――――非音声データベース:RWCP−DB非音声(雑音)モデル学習:環境音92種類×20―――――――――――――――――――――――――――――――――――テスト(オープン):音声:特定の話者MHTで音韻バランス216語 非音声:環境音92種類―――――――――――――――――――――――――――――――――――音響伝達特性:RWCP−DB残響時間:0.0,0.3,1.3sec.
―――――――――――――――――――――――――――――――――――SNR:−5,0,5,10,15,20dB―――――――――――――――――――――――――――――――――――【0021】本実験では、音声216単語と環境音92種類の合わせて308音に対して、音声・非音声に対する音源識別率により性能を評価した。さらに、識別結果が音声の場合には音声認識を行い、音声認識性能の評価を行った。
【0022】図3は、1つのマイクロホンを用いたときの比較例の音声認識装置の実験結果であって、無響室及び残響可変室における信号対雑音電力比(SNR)に対する音声識別率及び音声認識率を示すグラフであり、図4は、本実施形態のマイクロホンアレー10を備えた音声認識装置の実験結果であって、無響室及び残響可変室における信号対雑音電力比(SNR)に対する音声識別率及び音声認識率を示すグラフである。すなわち、図3は、1つのマイクロホンを用いたときの比較例の音声認識装置を用いたときの、無響室及び残響可変室における実験結果であり、横軸が信号対雑音電力比(SNR)であり、縦軸は、棒グラフのとき音源識別率を示し、折れ線グラフのとき音声認識率を示す。また、図4は、本実施形態のマイクロホンアレー10を備えた音声認識装置を用いたときの、無響室及び残響可変室における実験結果であり、横軸が信号対雑音電力比(SNR)であり、縦軸は、棒グラフのとき音源識別率を示し、折れ線グラフのとき音声認識率を示す。
【0023】図3及び図4から明らかなように、1つのマイクロホンよりもマイクロホンアレーを使用したほうが、音源識別率及び音声認識率が明らかに向上している。これよりマイクロホンアレーの有効性が確認できる。
【0024】さらに、図4よりSNRが0dBの場合、残響可変室[残響時間T60=1.3sec.]でも音源識別率は90%以上であり、また、無響室と残響可変室[T60=0.3sec.]では音源識別率は98%以上であった。この音源識別率はSNRが20dBの結果と全く変わらないことから、SNRが低い環境下でも高精度な音源識別が可能であることがわかる。しかしながら、SNRが0dBである場合の音声認識率は無響室で約88%、残響可変室[T60=0.3sec.]では約68%となりSNRが20dBの場合よりも大きく劣化している。今後、より高音質な音声受音が可能なビームフォーマの検討が必要であると考えられる。しかしながら、マイクロホンアレーを用いたHMMに基づく音源識別という観点から評価した場合、高残響下(残響可変室[T60=1.3sec.])において低SNRの環境でも高識別性能であることから、音源の位置が予めわかっているならば、その音源が話者であるかどうか十分に識別できることがわかった。
【0025】この実験から明らかなように、本実施形態に係る音声認識装置によれば、方向推定部13により音源の位置を推定することにより、音源が音声であるか非音声であるかの識別率を従来技術に比較して向上させることができるとともに、音声であるときの音声認識率を従来技術に比較して大幅に向上させることができる。また、複数の環境音に基づいて生成された雑音HMMを用いて音源識別を行ったので、環境音や雑音の種類によらず、多数の種類の環境音や雑音に対して非音声の識別を従来技術に比較して高い識別率で行うことができる。
【0026】
【発明の効果】以上詳述したように本発明によれば、複数のマイクロホンを所定の間隔で並置してなるマイクロホンアレーを備えた音声認識装置において、マイクロホンアレーで受信される少なくとも1つの音源の方位角又は位置を推定する推定手段と、上記各マイクロホンから出力される電気信号に基づいて推定された少なくとも1つの音源の方位角又は位置の方向に対応する少なくとも1つのビーム信号を生成するビームフォーミング手段と、生成された少なくとも1つのビーム信号に基づいて、音声の隠れマルコフモデルと、雑音の隠れマルコフモデルとを用いて、上記各ビーム信号が音声であるか非音声であるかを判定する判定手段と、音声であると判定されたときに、当該ビーム信号に対して音声認識を行って音声認識結果を出力する音声認識手段とを備えて音声認識装置を構成したので、音源が音声であるか非音声であるかの識別率を従来技術に比較して向上させることができるとともに、音声であるときの音声認識率を従来技術に比較して大幅に向上させることができる。
【0027】また、複数の環境音に基づいて生成された雑音HMMを用いて音源識別を行ったので、環境音や雑音の種類によらず、多数の種類の環境音や雑音に対して非音声の識別を従来技術に比較して高い識別率で行うことができる。
【出願人】 【識別番号】500209033
【氏名又は名称】株式会社エイ・ティ・アール音声言語通信研究所
【出願日】 平成12年9月19日(2000.9.19)
【代理人】 【識別番号】100062144
【弁理士】
【氏名又は名称】青山 葆 (外2名)
【公開番号】 特開2002−91469(P2002−91469A)
【公開日】 平成14年3月27日(2002.3.27)
【出願番号】 特願2000−283515(P2000−283515)