| 【発明の名称】 |
音声認識方法及び装置並びにプログラム及び記録媒体 |
| 【発明者】 |
【氏名】甘粕 哲郎
【氏名】小原 永
|
| 【要約】 |
【課題】不必要な計算による確率の分散を防止し、入力された音声から発話の意味内容を精度良く求める音声認識方法を提供する。
【解決手段】入力音声パラメータ列と、直前の発話に対する意味表現を受け取り次発話の各意味表現の生起確率を記録したテーブルから取り出した生起確率を入力し、音声パラメータ列に対応する音節標準パターンを記録した音響モデルとユーザが発話すると想定した発話文の音節連鎖標準パターンと対応する意味表現の間の条件付き生起確率を表した文モデルの各情報を用いて入力音声パラメータ列に対応するユーザが発話すると想定した発話文の意味内容を表す意味表現を格納した意味表現リストの意味表現の尤度計算を行い最も尤度の高い意味表現を出力する。 |
【特許請求の範囲】
【請求項1】入力音声の特徴パラメータ列(以下、「入力音声パラメータ列」という)を抽出し、入力音声パラメータ列を意味表現に変換して出力する音声認識方法において、入力音声パラメータ列と直前のユーザの発話に対応する意味表現を受け取り、推定した次発話における各意味表現の生起確率を入力し、音声パラメータ列に対応する音節標準パターンを記録した音響モデルとユーザが発話すると想定した発話文の音節連鎖標準パターンと対応する意味表現の間の条件付き生起確率を表した文モデルの各情報を用いて入力音声パラメータ列に対応する意味表現リストに格納された意味表現の尤度計算を行い最も尤度の高い意味表現を出力することを特徴とする音声認識方法。 【請求項2】入力音声の特徴パラメータ列(以下、「入力音声パラメータ列」という)を抽出する音声分析部と、入力音声パラメータ列を意味表現に変換して出力する意味表現解析部を備えた音声認識装置において、意味表現解析部は、ユーザが発話すると想定した発話文の意味内容を表す意味表現を格納した意味表現リスト格納部と、音声パラメータ列に対応する音節標準パターンを記録した音響モデルを格納した音響モデル格納部と、ユーザが発話すると想定した発話文の音節連鎖標準パターンと対応する意味表現の間の条件付き生起確率を表した文モデルを格納した文モデル格納部と、直前のユーザの発話に対応する意味表現を受け取り、次発話における各意味表現の生起確率を推定して出力する発話予測部と、尤度計算部とを有し、尤度計算部は、入力音声パラメータ列と発話予測部で推定した意味表現の生起確率を入力し、音響モデルと文モデルの各情報を用いて入力音声パラメータ列に対応する意味表現リスト格納部に格納された意味表現の尤度計算を行い最も尤度の高い意味表現を出力することを特徴とする音声認識装置。 【請求項3】入力音声の特徴パラメータ列(以下、「入力音声パラメータ列」という)を抽出する処理と、入力音声パラメータ列と直前のユーザの発話に対応する意味表現を受け取り、推定した次発話における各意味表現の生起確率を入力する処理と、音声パラメータ列に対応する音節標準パターンを記録した音響モデルとユーザが発話すると想定した発話文の音節連鎖標準パターンと対応する意味表現の間の条件付き生起確率を表した文モデルの各情報を用いて入力音声パラメータ列に対応する意味表現リストに格納された意味表現の尤度計算を行い最も尤度の高い意味表現を出力する処理をコンピュータに実行させる音声認識プログラム。 【請求項4】入力音声の特徴パラメータ列(以下、「入力音声パラメータ列」という)を抽出する処理と、入力音声パラメータ列と直前のユーザの発話に対応する意味表現を受け取り、推定した次発話における各意味表現の生起確率を入力する処理と、音声パラメータ列に対応する音節標準パターンを記録した音響モデルとユーザが発話すると想定した発話文の音節連鎖標準パターンと対応する意味表現の間の条件付き生起確率を表した文モデルの各情報を用いて入力音声パラメータ列に対応する意味表現リストに格納された意味表現の尤度計算を行い最も尤度の高い意味表現を出力する処理をコンピュータに実行させる音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
|
【発明の詳細な説明】【0001】 【発明の属する技術分野】この発明は、人間の音声を入力し、入力された音声の言語的な意味を受けて意味表現を出力する音声認識方法及び装置並びにプログラム及び記録媒体に関し、音声による商品の注文等の処理に用いられる。 【0002】 【従来の技術】従来の音声認識装置の構成を図9に示す。入力された音声から例えばFFT(Fast Fourier Transform)分析やLPC(Linear Predictive Coding)分析による音声分析部で入力音声の特徴パラメータ列(以下、「入力音声パラメータ列」という)が抽出される。入力音声パラメータ列は、音声認識部において、音声パラメータ列と音節(音響連鎖パターン)生起確率の対応を記録した認識用音響モデル及び言語的制約が規定されている認識用言語モデルと照合し、認識結果となる認識単語列を生成・出力する。 【0003】また、意味解析部は音声認識部から出力された認識単語列を入力し、ルールで記述された意味解析用文法を用いて認識単語列を解析し、結果を意味表現(例えば、カテゴリに分類)として出力する。 【0004】 【発明が解決しようとする課題】従来の音声認識装置においては、音声認識部で認識用言語モデルを用いて生成する認識単語列の集合と、意味解析部の用いる意味解析用文法で解析可能な単語列の集合が異なっていた。その結果、意味解析部においては、入力された認識単語列を意味解析用文法によって解析することができない場合があった。この場合、意味解析部に入力された認識単語列は棄却され、意味解析部から有効な出力がなされなかった。また、音声認識部においては後の処理で棄却される認識単語列を出力することは過剰な処理を行っていることを示し、この過剰な処理が音声認識の効率、また過剰な処理で生成されたデータにより確率が分散され音声認識率を落としていた。 【0005】また、ルール(例えば、文脈自由文法)として記述された意味解析用文法を音声認識用言語モデルとして統一的に利用する手法が提案されているが、音声認識時に、文節候補を十分に絞り込むには、莫大な数のルールを記述しなければならずコストもかかりその実現性に問題がある。 【0006】 【課題を解決するための手段】上記課題を解決するために、この発明は、音声認識時に動的に文を生成するのではなく、意味表現と対応づけられた文の集合を統一的な言語モデルとして利用し、さらに次発話の内容を確率的に予測することによって、音声認識及び意味解析に相当する処理を統計的に行う手法を提供する。 【0007】 【発明の実施の形態】図1にこの発明の音声認識装置の一実施例の構成を示す。この音声認識装置は、入力された音声から入力音声パラメータ列を抽出して、その発話の言語的内容を意味表現として出力する。音声認識装置は、音声分析部と意味表現解析部から構成される。意味表現解析部は、尤度計算部と音響モデル格納部と文モデル格納部と意味表現リスト格納部と次発話予測用テーブルを有する発話予測部から構成される。 【0008】音声分析部は、入力された音声をFFT分析やLPC分析等により入力音声パラメータ列(特徴パラメータ列)を抽出して出力する。尤度計算部は、入力音声パラメータ列と直前の発話に対応する意味表現を受取次発話における全ての意味表現に対する予想生起確率の一覧(「次発話意味表現生起確率集」とよぶ)を入力とし、音響モデルに格納された情報及び文モデルに格納された情報を用いて、入力音声パラメータ列に対応する意味表現を求めて出力する尤度計算を実行する。 【0009】音響モデルは、入力音声パラメータ列に用いているものと同じ音声パラメータ列(特徴パラメータ)でもって作られた隠れマルコフモデルなどで統計的に表現された音節標準パターンを記録したものである。すなわち、音節(C(子音)V(母音)単位)と周波数領域の音響的特徴量と対応させて記録したものである。(中川聖一 著「確率モデルによる音声認識」電子情報通信学会(1988) 参照) 意味表現リストは、ユーザが発話すると想定した発話文に対する全ての意味表現を記録したものである。 【0010】図2に意味表現リストの具体例を示す。この例では意味表現は3つの値の組み合わせで表現される。それぞれ、ユーザの発話を示す意味の命令の種類(リスト表示、商品注文、注文終了)と、その引数(カテゴリ名”野菜”、商品名”キャベツ”、個数”1”)となる情報である。(ただし、「意味」についてはそれぞれの意味表現の内容を説明したもので、リストの内容には含まれない。) 文モデルは、ユーザの発話文の音節連鎖パターンと、ある意味表現についての発話をユーザが行ったときにその音節連鎖パターンが発生する条件付き(ある意味表現が生成された時にある発話文が生成される)生起確率を記録したものである。すなわち、音節連鎖パターンと意味表現ごとの条件付き生起確率の対応を記録したものである。 【0011】図3に文モデルの具体例を示す。この文モデル中の音節連鎖パターンは、音響モデル中にその標準パターンが格納されている音節種類と同じ音節種類を使って表記されている。ここでは、26個の音節種を用いて表記している。発話予測部は、尤度計算部からの要求があった場合に、前の意味表現と次の意味表現ごとの出現確率の対応を記録した次発話予測用テーブルを用いて前発話意味表現を入力して次発話の想定される発話の意味表現の出現確率を出力する発話予測を実行して次発話意味表現出現確率集を出力する。 【0012】発話予測部の構成例を図4に示す。次発話予測用テーブルは、各行が前の発話の意味表現(M1,・・・,Mx,・・・,Mn)の場合と対応しており、テーブルの一番左の列には、その対応する意味表現が格納されている。最左列以外の各列は次発話に各意味表現(M1,・・・,Mx,・・・,Mn)と対応しておりその列上の各数字には、一番左の列の意味表現が出現した場合に、次発話に各意味表現が出現する条件付き確率(P(M1|M1),・・・,P(Mn|M1))、・・・、(P(M1|Mn),・・・,P(Mn|Mn))を与えておく。 【0013】発話予測処理部は、入力として前の発話の意味表現を受け取ると以下の処理を行う。入力された意味表現と次発話予測テーブルの最左列の各意味表現を照合していき、一致した行(例えば、Mx)の最左列以外の列の数値(P(M1|Mx),・・・,P(Mn|Mx))を、次発話意味表現出現確率集として出力する。図5に次発話予測用テーブルの具体例を示す。このテーブルにおいて意味表現中の記号”*”は、意味表現中の値として任意のものをもつことができることを示す。これはテーブルを効率よく作成するための措置である。 【0014】尤度計算部の尤度計算の処理手順を図6,7に示されたフローと図8に示された計算結果の例(ユーザからの音声により生鮮食料品の注文を受け付ける例)を参照して説明する。ある意味表現について、ユーザがその意味表現を内容として表す発話を行ったとき、入力音声を音声分析した入力音声パラメータ(例えば、周波数領域に変換した特徴量パラメータ列)を入力し、(1)尤度最大値=0、結果意味表現=NULLとする(初期化)。 (2)入力音声パラメータ列を保存する。 (3)意味表現リスト中の全ての意味表現それぞれに対して以下の処理を繰り返す。(意味表現リスト中の全ての意味表現M(図2の意味表現1〜3)について、尤度1を求め、最も尤度の高い尤度1を結果とする場合の意味表現を、入力された音声パラメータ列が表現する意味内容として出力する。) (3.1)入力音声パラメータ列と文モデル中のすべての音節連鎖パターン(図3音節連鎖パターン番号:1〜4)それぞれについて(3.1.1)〜(3.1.4)を繰り返す。 【0015】この場合、ユーザからの直前の発話が「野菜のリストを表示してください」という音声があり、前発話意味表現が1:(リスト表示,*,NULL)であったとする。発話予測部は入力された前発話意味表現1:により図5に示された次発話予測テーブルを参照して次発話意味表現出現確率集(0,0.6,0.4)を尤度計算部に出力する。従って、尤度計算部における発話意味表現1:(リスト表示,”野菜”NULL)の計算結果については確率値5が0で尤度1が0となることは明らかであるので図8には示していない。 (3.1.1)確率値4=0とする(初期化)。 (3.1.2)音節連鎖パターンSに対する確率値1を計算する。 (3.1.3)入力音声パラメータ列に対する確率値2を計算する。 【0016】確率値1と確率値2の計算は以下のように行う。 ■文モデル(図3参照)から意味表現2,3に対応する音節連鎖パターン番号1〜4の意味表現発生時の条件付き生起確率(0.5,0.5,0,0)、あるいは(0,0,0.5,0.5)を取り出して確率値1とする。 ■次に音節連鎖パターン番号1〜4の音節連鎖パターン(1:kjabetsuohitotsukudasai,・・・,4:chjumonowari)を基に音響モデル(音節の周波数領域における音響的特徴モデル)を用いて各音節連鎖パターンの周波数領域における音響的特徴列を生成する。生成された各音節連鎖パターンの周波数領域における音響的特徴列と入力音声パラメータ列(周波数領域における音響的特徴列)に基づいて発話意味表現2,3の音節連鎖パターン番号1〜4に対応する尤度(確率)である確率値2:(1.0×10-1,1.0×10-1,1.0×10-4,1.0×10-4)、あるいは(1.0×10-1,1.0×10-1,1.0×10-4,1.0×10-4)を計算する。(確率値2の計算は前述した音声認識手法により行うことができる。) (3.1.4)確率値3=確率値1×確率値2を計算する。 (3.1.5)発話表現ごとの確率値3を加算して確率値4を計算、すなわち、Σ((確率値1)×(確率値2))を計算する。( 文モデル中の全ての音節連鎖パターンにわたって加算した値を確率値4:1.0×10-1、あるいは1.0×10-4とする。) (3.2)前発話意味表現2,3に対する確率値5を計算する。(尤度計算部は発話予測部に対して要求信号を送信して、発話予測部の動作の結果により得られた意味表現生起確率集(図4参照)の中から、発話意味表現2,3の次発話意味表現出現確率(確率値5):0.6、あるいは0.4を取り出す。) (3.3)発話意味表現ごとの尤度1=確率値4×確率値5:6.0×10-2、あるいは4.0×10-5を計算する。 (3.4)尤度1>尤度最大値(前に格納されている尤度)を判断する。YESの場合は(3.5)に移行し、NOの場合は(3)に移行する。 (3.5)尤度最大値=尤度1、結果意味表現Mとして(3)に移行する。 (4)意味表現リスト中の全ての意味表現について上記の計算が行われた場合に結果意味表現の尤度がある基準(予め設定)のもとで更新された尤度(最も大きい尤度)に対する意味表現を選択して出力する。 【0017】図8のとおりに計算結果が得られた場合、意味表現番号2:(商品注文,”キャベツ”,1)の尤度1(6.0×10-2)と意味表現番号3:(注文終了,NULL,NULL)の尤度1(4.0×10-5)が比較され、尤度1の大きい意味表現、つまり「(商品注文,”キャベツ”,”1”)」が出力される意味表現となる。また、この発明の音声認識装置はCPUやメモリ等を有するコンピュータと、アクセス主体となるユーザが利用する利用者端末と、記録媒体とから構成することができる。 【0018】記録媒体は、CD-ROM、磁気ディスク、半導体メモリ等の機械読み取り可能な記録媒体であり、ここに記録されたプログラムはコンピュータに読み取られ、コンピュータの動作を制御しコンピュータ上に音声分析部、尤度計算部、発話予測部等の各構成要素を実現する。 【0019】 【発明の効果】この発明によれば、音声認識時に動的に文を作成することなく、意味表現と対応づけられた文の集合を統一的な言語モデルとして利用し、次発話の内容を確率的に予測することによって、音声認識および意味解析の処理を統計的に行い、不必要な計算による確率の分散を防止することにより、入力された音声から発話の意味内容について精度良く求めることが可能となる。
|
| 【出願人】 |
【識別番号】000004226 【氏名又は名称】日本電信電話株式会社
|
| 【出願日】 |
平成13年2月28日(2001.2.28) |
| 【代理人】 |
【識別番号】100066153 【弁理士】 【氏名又は名称】草野 卓 (外1名)
|
| 【公開番号】 |
特開2002−258891(P2002−258891A) |
| 【公開日】 |
平成14年9月11日(2002.9.11) |
| 【出願番号】 |
特願2001−54784(P2001−54784) |
|