トップ :: G 物理学 :: G10 楽器;音響




【発明の名称】 時間非同期型音声認識装置および記録媒体
【発明者】 【氏名】小早川 健

【要約】 【課題】仮説を展開する際に、仮説キャッシュを参照することによって高速処理可能な時間非同期型音声認識装置を実現すること。

【解決手段】キャッシュ判定部7は、尤度計算部4による入力音声の尤度計算または尤度キャッシュ部5からの尤度の参照を必要回数繰り返して仮説展開終了条件を満たすか否かを判定して、仮説展開終了条件を満たした仮説を仮説キャッシュ部6に登録し、さらに、仮説保持部3から仮説展開を要求された際に、仮説キャッシュ部6内に該当する仮説が登録されている場合は、当該仮説を仮説保持部3に出力する。これによって、仮説展開を要求される度に尤度計算または尤度キャッシュ参照を繰り返す必要がなくなり、処理が高速化する。
【特許請求の範囲】
【請求項1】 入力音声の尤度を計算する尤度計算部と、前記尤度計算部によって得られた尤度を登録する尤度キャッシュ部と、前記尤度計算部による尤度計算または前記尤度キャッシュ部からの尤度参照を必要回数繰り返して仮説展開終了条件を満たすか否かを判定する判定手段とを具えた時間非同期型音声認識装置において、前記判定手段によって仮説展開終了条件を満たしたと判定された仮説を登録する仮説キャッシュ部を有し、前記判定手段は、仮説展開を要求された際に、前記仮説キャッシュ部内に該当する仮説が登録されている場合は、当該仮説を出力することを特徴とする時間非同期型音声認識装置。
【請求項2】 請求項1において、前記仮説キャッシュ部は仮説を登録する際に当該仮説の展開開始時刻をキーとして登録することを特徴とする時間非同期型音声認識装置。
【請求項3】 請求項1において、前記判定手段は、仮説展開を要求された際に、必要に応じて、前記尤度計算部による尤度計算または前記尤度キャッシュ部からの尤度参照を必要回数繰り返して仮説展開終了条件を満たした仮説を出力することを特徴とする時間非同期型音声認識装置。
【請求項4】 コンピュータによって、入力音声を音声認識する時間非同期型音声認識装置を制御する制御プログラムを記録した記録媒体であって、前記制御プログラムは、前記コンピュータに、入力音声の尤度を計算させ、前記尤度計算によって得られた尤度を尤度キャッシュに登録させ、前記尤度計算または前記尤度キャッシュからの尤度参照を必要回数繰り返して仮説展開終了条件を満たすか否かを判定させ、前記判定によって仮説展開終了条件を満たしたと判定された仮説を仮説キャッシュに登録させ、仮説展開を要求された際に、前記仮説キャッシュ内に該当する仮説が登録されている場合は、当該仮説を出力させることを特徴とする記録媒体。
【請求項5】 請求項4において、前記仮説キャッシュに仮説を登録する際に当該仮説の展開開始時刻をキーとして登録させることを特徴とする記録媒体。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は、時間非同期型音声認識装置および記録媒体に関するものである。
【0002】
【従来の技術】図2に示すように、音声認識装置は、入力音声に対して、音声の音響的特徴および言語的特徴を音響スコア計算部1および言語スコア計算部2で計算し、仮説を更新する(これを、仮説の展開と言う)ことを繰り返す。音声認識結果としての出力文字列の候補としての仮説を仮説保持部3に保持する。仮説の展開では、仮説が増える事も減る事もある。入力音声の処理が終ると、もっともらしい仮説を出力文字列とする。
【0003】時間非同期型の仮説展開を行う音声認識装置の場合、入力音声の音響スコアの計算順序は、必ずしも発声時刻順ではない。つまり、過去に発声された音声の音響スコアを計算する必要が頻繁に生じる。
【0004】また、一方で、どこまで仮説を展開するか(仮説展開終了条件)は、仮説の展開開始位置(これは、形態素の開始位置である事が多い)と入力音声に依り、仮説そのものに依らないのが時間非同期型音声認識装置では標準的である。
【0005】
【発明が解決しようとする課題】従来、音響スコア計算部は、尤度計算部と尤度キャッシュ部とこれらを用いた仮説の展開が終了したかを判定する判定部としか有していない。
【0006】このため、従来の音声認識装置では、仮説展開をする度に必ず尤度計算又は尤度キャッシュ参照を必要回数繰り返していた。この尤度計算又は尤度キャッシュ参照を繰り返す事は非効率で、音声認識速度又は音声認識率が低下する原因となってきた。従来法では、忠実に音声認識を行えば認識速度が低下し、認識速度の低下を避けるために仮説保持部に近似アルゴリズムを導入すると認識率が低下する。
【0007】そこで本発明の目的は、以上のような問題を解消した時間非同期型音声認識装置および記録媒体を提供することにある。
【0008】
【課題を解決するための手段】請求項1の発明は、入力音声の尤度を計算する尤度計算部と、前記尤度計算部によって得られた尤度を登録する尤度キャッシュ部と、前記尤度計算部による尤度計算または前記尤度キャッシュ部からの尤度参照を必要回数繰り返して仮説展開終了条件を満たすか否かを判定する判定手段とを具えた時間非同期型音声認識装置において、前記判定手段によって仮説展開終了条件を満たしたと判定された仮説を登録する仮説キャッシュ部を有し、前記判定手段は、仮説展開を要求された際に、前記仮説キャッシュ部内に該当する仮説が登録されている場合は、当該仮説を出力することを特徴とする。
【0009】請求項2の発明は、請求項1において、前記仮説キャッシュ部は仮説を登録する際に当該仮説の展開開始時刻をキーとして登録することを特徴とする。
【0010】請求項3の発明は、請求項1において、前記判定手段は、仮説展開を要求された際に、必要に応じて、前記尤度計算部による尤度計算または前記尤度キャッシュ部からの尤度参照を必要回数繰り返して仮説展開終了条件を満たした仮説を出力することを特徴とする。
【0011】請求項4の発明は、コンピュータによって、入力音声を音声認識する時間非同期型音声認識装置を制御する制御プログラムを記録した記録媒体であって、前記制御プログラムは、前記コンピュータに、入力音声の尤度を計算させ、前記尤度計算によって得られた尤度を尤度キャッシュに登録させ、前記尤度計算または前記尤度キャッシュからの尤度参照を必要回数繰り返して仮説展開終了条件を満たすか否かを判定させ、前記判定によって仮説展開終了条件を満たしたと判定された仮説を仮説キャッシュに登録させ、仮説展開を要求された際に、前記仮説キャッシュ内に該当する仮説が登録されている場合は、当該仮説を出力させることを特徴とする。
【0012】請求項5の発明は、請求項4において、前記仮説キャッシュに仮説を登録する際に当該仮説の展開開始時刻をキーとして登録させることを特徴とする。
【0013】
【発明の実施の形態】本発明は、仮説展開終了条件が仮説展開位置と入力音声に依り、過去の仮説に依らない時間非同期型音声認識装置に適用される。
【0014】本発明は、尤度キャッシュを低レベルキャッシュと考えると、より高いレベルでキャッシュすることを特徴とする。
【0015】本発明においては、仮説展開終了条件が過去の仮説によらず、仮説の開始位置のみによる事から、仮説の展開開始時刻をキーとしたキャッシュが可能である。この仮説キャッシュによって、一度展開した仮説を将来有効に再利用できるので、仮説展開を要求される度に尤度計算または尤度キャッシュ参照を繰り返す事がなくなり、計算量の節約になる。
【0016】本発明では、尤度計算した結果を再利用するキャッシュの技術を応用する。キャッシュとは、キーから、データを高速に検索できるデータベースである。キャッシュの技術は、キーとデータの組を高速に検索する方法、及び、キーとデータの組を高速に登録する方法から成り立つ。本発明では、キーとして仮説展開開始時刻、データとしてキーの時刻から展開を開始した仮説を用いる。
【0017】図1は、図2のような構成の音声認識装置における本発明を適用した音響スコア計算部の構成を示す。図1に示すように、4は、入力音声の尤度を計算する尤度計算部、5は、尤度計算部4によって得られた尤度を登録する尤度キャッシュ部、6は仮説キャッシュ部である。7は前記の尤度計算部4、尤度キャッシュ部5および仮説キャッシュ部6を制御するキャッシュ判定部であって、尤度計算部4による尤度計算または尤度キャッシュ部5からの尤度の参照を必要回数繰り返して仮説展開終了条件を満たすか否かを判定して、仮説展開終了条件を満たした仮説を仮説キャッシュ部6に登録し、さらに、仮説保持部3から仮説展開を要求された際に、仮説キャッシュ部6内に該当する仮説が登録されている場合は、当該仮説を仮説保持部3に出力する。
【0018】本発明を適用した音声認識装置は、専用の装置として構成することができるが、さらに、例えば、図1の音響スコア計算部(図2の音声認識装置を含む)は、例えば、図4に示すようなコンピュータシステムによって実現することができる。すなわち、図4に示すように、CPU8は、ハードディスク装置9に格納され、起動時等にシステムメモリ10に展開される制御プログラム(図3に示す制御プログラムを含む)にしたがって、音声認識処理を実行することによって、図1に示す尤度計算部4、尤度キャッシュ部5、仮説キャッシュ部6、キャッシュ判定部7、図1に示す音響スコア計算部1、言語スコア計算部2、仮説保持部3の各機能が実現される。図3に示す制御プログラムは、リムーバブル・メディア、すなわち、例えば、CD−ROM、MO、フロッピー(登録商標)ディスク、メモリカード等にも記録することができ、これらからの制御プログラムデータをシステムメモリ10にロードすることによって、本発明は実行される。
【0019】11は音声認識処理すべき入力音声データを取り込むためのインターフェース、12は音声認識結果を出力するためのインターフェース、13はキーボード、マウス等の入力手段、14は、表示手段である。
【0020】図3に音響スコア計算部におけるキャッシュ判定部の動作フローチャートを示す。
【0021】始めに、仮説保持部から音響スコア計算部に対して時刻tを指定して仮説の展開が要求されることによってスタートし、まず、ステップ(S)1において、時刻tに展開を開始する仮説が仮説キャッシュ部内にあるか否かを判断する。仮説キャッシュ部内にあれば、S2で、仮説キャッシュ部から、その仮説を参照し、参照した仮説を出力として計算を終える。S1で、該当する仮説が仮説キャッシュ部内になければ、時刻tに展開した仮説を初めて計算することになるので、S3に進む。
【0022】S3〜S8では、一定の時間(時刻tから仮説展開終了条件を満たすまで)の尤度計算を行う。すなわち、一定の時間のループで時刻を進めながら処理をする。まず、S3では、同時刻の計算した尤度があるか否かを判断し、あれば、S4で尤度キャッシュ部からの尤度を参照して、S7に進み、そうでなければ、同時刻の尤度を初めて計算することになるので、S5に進む。
【0023】S5では、尤度計算部で入力音声を照合し、尤度を計算し、尤度キャッシュ部に登録し、S7に進む。
【0024】S7では、仮説展開を終了したか(仮説展開終了条件)を判定する(本発明は、仮説展開終了条件の能力(性能)とは無関係である。つまり、仮説展開終了条件の判定部分を改良したいかなる方法も、本発明を適用する事ができる。)。S7で、仮説展開を終了したと判定されれば、S9で仮説キャッシュ部に仮説を登録し、出力として計算を終える。S7で、仮説展開を終了していないと判定されれば、S8で時刻を進め、S3へ戻る。
【0025】
【発明の効果】以上説明したように本発明によれば、時間非同期型音声認識装置に仮説レベルのキャッシュを導入する事により、認識率を低下させる事なく、従来より高速な時間非同期音声認識を実現できる。
【出願人】 【識別番号】000004352
【氏名又は名称】日本放送協会
【出願日】 平成12年9月19日(2000.9.19)
【代理人】 【識別番号】100077481
【弁理士】
【氏名又は名称】谷 義一 (外2名)
【公開番号】 特開2002−91490(P2002−91490A)
【公開日】 平成14年3月27日(2002.3.27)
【出願番号】 特願2000−283479(P2000−283479)