トップ :: G 物理学 :: G10 楽器;音響




【発明の名称】 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
【発明者】 【氏名】南 泰浩
【住所又は居所】東京都千代田区大手町二丁目3番1号 日本電信電話株式会社内

【氏名】エリック マクダーモット
【住所又は居所】東京都千代田区大手町二丁目3番1号 日本電信電話株式会社内

【氏名】中村 篤
【住所又は居所】東京都千代田区大手町二丁目3番1号 日本電信電話株式会社内

【氏名】片桐 滋
【住所又は居所】東京都千代田区大手町二丁目3番1号 日本電信電話株式会社内

【要約】 【課題】本発明は、ヒドンマルコフモデル(HMM)により入力音声を認識するときにあって、高精度の音声認識を実現できるようにすることを目的とする。

【解決手段】学習時には、学習用音声から静的特徴量及び動的特徴量を抽出し、HMMを学習して記憶装置に保存し、その学習用音声のHMMと、静的特徴量と動的特徴量との間の関係とを使って学習用音声に対してのトラジェクトリを作成し、それからの分散を計算して記憶装置に保存する。認識時には、入力音声から静的特徴量及び動的特徴量を抽出し、保存されるHMMを使って、入力音声の音声認識を行い複数個の候補を得て、それらの候補のHMMと、静的特徴量と動的特徴量との間の関係とを使って、それらの候補に対してのトラジェクトリを作成し、保存される分散を参照することで、それらの候補のトラジェクトリと入力音声との間のスコアを再計算することで、それらの候補の再評価を行う。
【特許請求の範囲】
【請求項1】 ヒドンマルコフモデルによる音声認識で用いられる音声認識用情報を作成する音声認識用情報作成装置であって、学習用音声を特徴量分析して静的特徴量及び動的特徴量を抽出する手段と、上記静的特徴量及び上記動的特徴量からヒドンマルコフモデルを学習して、記憶装置に保存する手段と、上記学習したヒドンマルコフモデルと、上記静的特徴量と上記動的特徴量との間の関係とを使って、学習用音声に対してのトラジェクトリを作成する手段と、上記作成したトラジェクトリからの学習用音声の分散を計算して、記憶装置に保存する手段とを備えることを、特徴とする音声認識用情報作成装置。
【請求項2】 請求項1記載の音声認識用情報作成装置において、上記トラジェクトリを作成する手段は、ヒドンマルコフモデルを使った音声認識で得られるガウス分布時系列を使って、学習用音声に対してのトラジェクトリを作成することを、特徴とする音声認識用情報作成装置。
【請求項3】 ヒドンマルコフモデルによる音声認識で用いられる音声認識用情報を作成する音声認識用情報作成方法であって、学習用音声を特徴量分析して静的特徴量及び動的特徴量を抽出する過程と、上記静的特徴量及び上記動的特徴量からヒドンマルコフモデルを学習して、記憶装置に保存する過程と、上記学習したヒドンマルコフモデルと、上記静的特徴量と上記動的特徴量との間の関係とを使って、学習用音声に対してのトラジェクトリを作成する過程と、上記作成したトラジェクトリからの学習用音声の分散を計算して、記憶装置に保存する過程とを備えることを、特徴とする音声認識用情報作成方法。
【請求項4】 請求項3記載の音声認識用情報作成方法において、上記トラジェクトリを作成する過程では、ヒドンマルコフモデルを使った音声認識で得られるガウス分布時系列を使って、学習用音声に対してのトラジェクトリを作成することを、特徴とする音声認識用情報作成方法。
【請求項5】 ヒドンマルコフモデルに従って入力音声を認識する音声認識装置であって、入力音声を特徴量分析して静的特徴量及び動的特徴量を抽出する手段と、学習用音声に基づいて作成されたヒドンマルコフモデルを記憶する記憶装置を参照することで、入力音声との比較対象となるヒドンマルコフモデルを取得して、入力音声の音声認識を行い複数個の候補を得る手段と、上記候補のヒドンマルコフモデルと、上記静的特徴量と上記動的特徴量との間の関係とを使って、上記候補に対してのトラジェクトリを作成する手段と、学習用音声に基づいて作成されたトラジェクトリからの分散を記憶する記憶装置を参照することで、上記候補のトラジェクトリからの分散を取得して、上記候補のトラジェクトリと入力音声との間のスコアを計算することで、上記候補を再評価する手段とを備えることを、特徴とする音声認識装置。
【請求項6】 請求項5記載の音声認識装置において、上記トラジェクトリを作成する手段は、ヒドンマルコフモデルを使った音声認識で得られるガウス分布時系列を使って、上記候補に対してのトラジェクトリを作成することを、特徴とする音声認識装置。
【請求項7】 ヒドンマルコフモデルに従って入力音声を認識する音声認識方法であって、入力音声を特徴量分析して静的特徴量及び動的特徴量を抽出する過程と、学習用音声に基づいて作成されたヒドンマルコフモデルを記憶する記憶装置を参照することで、入力音声との比較対象となるヒドンマルコフモデルを取得して、入力音声の音声認識を行い複数個の候補を得る過程と、上記候補のヒドンマルコフモデルと、上記静的特徴量と上記動的特徴量との間の関係とを使って、上記候補に対してのトラジェクトリを作成する過程と、学習用音声に基づいて作成されたトラジェクトリからの分散を記憶する記憶装置を参照することで、上記候補のトラジェクトリからの分散を取得して、上記候補のトラジェクトリと入力音声との間のスコアを計算することで、上記候補を再評価する過程とを備えることを、特徴とする音声認識方法。
【請求項8】 請求項7記載の音声認識方法において、上記トラジェクトリを作成する過程では、ヒドンマルコフモデルを使った音声認識で得られるガウス分布時系列を使って、上記候補に対してのトラジェクトリを作成することを、特徴とする音声認識方法。
【請求項9】 請求項3又は4に記載の音声認識用情報作成方法の実現に用いられる処理をコンピュータに実行させるための音声認識用情報作成プログラム。
【請求項10】 請求項3又は4に記載の音声認識用情報作成方法の実現に用いられる処理をコンピュータに実行させるためのプログラムを記録した音声認識用情報作成プログラムの記録媒体。
【請求項11】 請求項7又は8に記載の音声認識方法の実現に用いられる処理をコンピュータに実行させるための音声認識プログラム。
【請求項12】 請求項3又は4に記載の音声認識方法の実現に用いられる処理をコンピュータに実行させるためのプログラムを記録した音声認識プログラムの記録媒体。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は、ヒドンマルコフモデルによる音声認識で用いられる音声認識用情報を作成する音声認識用情報作成装置及びその方法と、その音声認識用情報作成技術により作成された音声認識用情報を使って、ヒドンマルコフモデルに従って入力音声を認識する音声認識装置及びその方法と、その音声認識用情報作成方法の実現に用いられる音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、その音声認識方法の実現に用いられる音声認識プログラム及びそのプログラムを記録した記録媒体とに関する。
【0002】
【従来の技術】図7を使って、従来の音声認識手法について説明する。
【0003】この図に示すように、従来の音声認識手法では、入力された音声は、特徴量抽出部10で、特徴量(静的特徴量)が計算されるとともに、その動的特徴量である例えば特徴量の微分係数や2次微分係数が計算される。
【0004】学習時には、例えば音韻で構成される学習用音声について計算される特徴量及び動的特徴量が音響モデル学習部11に送られ、音響モデル学習部11は、例えば特徴量の微分係数と2次微分係数とが動的特徴量である場合で説明するならば、特徴パターンとして、特徴量の平均値及び分散と、特徴量の微分係数の平均値及び分散と、特徴量の2次微分係数の平均値及び分散とを計算して、例えば音韻で構成される学習用音声に対応付けて定義されるヒドンマルコフ(HMM)の構造上に保存することで、HMMデータベース12を構築する。
【0005】そして、認識時には、認識対象となる入力音声について計算されるこれらの特徴量及び動的特徴量が音声認識部13に送られ、音声認識部13は、辞書14に登録されている認識対象データを順番に1つずつ読み出して、その読み出した認識対象データの持つ音韻に対応付けられるHMM(HMMデータベース12に格納されている)を組み合わせることで、その読み出した認識対象データのHMMを作成して、その作成したHMMに対応付けて保存されている平均値及び分散から、入力音声とその読み出した認識対象データとの間のスコアを計算して、スコアの高い認識対象データを認識結果として出力する。
【0006】
【発明が解決しようとする課題】最初に、トラジェクトリという概念について説明する。
【0007】トラジェクトリとは、モデル化された音声の代表的な特徴量の時系列(パターン)であると考える。例えば、DPマッチングのような手法であれば、複数の話者の発声した時系列であり、HMMの場合は、ビタービアルゴリズム(Viterbiアルゴリズム)によって決まる平均値時系列である。
【0008】音声認識では、このトラジェクトリを基に、入力音声のスコア計算(距離計算やスコアの計算)が実行される。HMMでは、ビタービアルゴリズムによって平均値時系列であるトラジェクトリを効率よく求めて、それと入力音声との間のスコアを計算している。
【0009】HMMでは、このトラジェクトリを求める際に、特徴量と特徴量の微分係数との間と、特徴量と特徴量の2次微分係数との間と、特徴量の微分係数と特徴量の2次微分係数との間を、それぞれ独立と仮定していた。
【0010】ところが、実際の音声では、静的特徴量と動的特徴量(例えば、特徴量の微分係数や2次微分係数など)との間には一定の関係式が成立している。
【0011】しかしながら、従来のHMMでは、この関係式を使っていない。これがために、従来技術に従っていると、スコアを計算する際に基準となるHMMの平均値の時系列(トラジェクトリ)がHMMの状態遷移部分でなめらかではなくなる。
【0012】これから、従来技術に従っていると、精度のよい音声認識結果が得られないという問題点があった。また、スコアの計算に必要とされる分散についても、この平均値を基に計算しているため、この点からしても、精度のよい音声認識結果が得られないという問題点があった。
【0013】従来のHMMで、音声の持つ静的特徴量と動的特徴量との間に成立する関係を積極的に利用しなかった大きな原因は、HMMにおける認識手法であるビタービアルゴリズムにこの関係式を導入することができなかったからである。
【0014】本発明はかかる事情に鑑みてなされたものであって、ヒドンマルコフモデルに従って入力音声を認識するという構成を採るときにあって、音声の持つ静的特徴量と動的特徴量との間に成立する関係を用いてトラジェクトリを生成することで、高精度の音声認識を実現できるようにする新たな技術の提供を目的とする。
【0015】
【課題を解決するための手段】この目的を達成するために、本発明の音声認識用情報作成装置(例えば、本発明の音声認識装置が学習モードとして動作するときに機能することで実現される)は、ヒドンマルコフモデルによる音声認識で用いられる音声認識用情報を作成するために、■学習用音声を特徴量分析して静的特徴量及び動的特徴量を抽出する手段と、■静的特徴量及び動的特徴量からヒドンマルコフモデルを学習して、HMM記憶装置に保存する手段と、■学習したヒドンマルコフモデルと、静的特徴量と動的特徴量との間の関係とを使って、学習用音声に対してのトラジェクトリを作成する手段と、■作成したトラジェクトリからの学習用音声の分散を計算して、分散記憶装置に保存する手段とを備えるように構成する。
【0016】ここで、本発明の音声認識用情報作成装置の備える各処理手段はコンピュータプログラムで実現できるものであり、このコンピュータプログラムは、半導体メモリなどの記録媒体に記録して提供することができる。
【0017】一方、本発明の音声認識装置は、ヒドンマルコフモデルに従って入力音声を認識するために、■入力音声を特徴量分析して静的特徴量及び動的特徴量を抽出する手段と、■本発明の音声認識用情報作成装置により構築されたHMM記憶装置(学習用音声のヒドンマルコフモデルを記憶している)を参照することで、入力音声との比較対象となるヒドンマルコフモデルを取得して、入力音声の音声認識を行い複数個の候補を得る手段と、■それらの候補のヒドンマルコフモデルと、静的特徴量と動的特徴量との間の関係とを使って、それらの候補に対してのトラジェクトリを作成する手段と、■本発明の音声認識用情報作成装置により構築された分散記憶装置(学習用音声のトラジェクトリからの学習用音声の分散を記憶している)を参照することで、それらの候補のトラジェクトリからの分散を取得して、それらの候補のトラジェクトリと入力音声との間のスコアを計算することで、それらの候補を再評価する手段とを備えるように構成する。
【0018】ここで、本発明の音声認識装置の備える各処理手段はコンピュータプログラムで実現できるものであり、このコンピュータプログラムは、半導体メモリなどの記録媒体に記録して提供することができる。
【0019】このように構成される本発明の音声認識用情報作成装置では、例えば音韻で構成される学習用音声を特徴量分析して静的特徴量及び動的特徴量を抽出すると、その抽出した静的特徴量及び動的特徴量から学習用音声のヒドンマルコフモデルを学習して、HMM記憶装置に保存する。
【0020】続いて、学習した学習用音声のヒドンマルコフモデルと、静的特徴量と動的特徴量との間の関係とを使い、例えばヒドンマルコフモデルを使った音声認識で得られるガウス分布時系列を使って、学習用音声に対してのトラジェクトリを作成して、そのトラジェクトリからの学習用音声の分散(静的特徴量及び動的特徴量の分散)を計算し、分散記憶装置に保存する。
【0021】このようにして構築されるHMM記憶装置と分散記憶装置とを受けて、本発明の音声認識装置は、入力音声を特徴量分析して静的特徴量及び動的特徴量を抽出すると、HMM記憶装置に記憶されるヒドンマルコフモデルを参照することで、入力音声とのスコア計算の対象となるヒドンマルコフモデルを取得して、抽出した静的特徴量及び動的特徴量を使い、それらのヒドンマルコフモデルと入力音声との間のスコアを計算することで、入力音声の音声認識を行い複数個の候補を得る。
【0022】続いて、それらの候補のヒドンマルコフモデルと、抽出した静的特徴量と動的特徴量との間の関係とを使い、例えばヒドンマルコフモデルを使った音声認識で得られるガウス分布時系列を使って、それらの候補に対してのトラジェクトリを作成する。
【0023】続いて、分散記憶装置に記憶される分散を参照することで、取得した候補のトラジェクトリからの分散(静的特徴量及び動的特徴量の分散)を取得して、その分散と抽出した静的特徴量及び動的特徴量とを使って、それらの候補のトラジェクトリと入力音声との間のスコアを再計算することで、それらの候補の順位を並べ替えるなどの再評価を行う。
【0024】このようにして、本発明によれば、音声の持つ静的特徴量と動的特徴量との間に成立する関係を考慮してトラジェクトリを作成することで、従来技術で用いられていた不連続なHMMの平均値の時系列で構成される不自然なスコア関数が自然なスコア関数に変換されることになり、これにより、高精度の音声認識を実現できるようになる。
【0025】本発明で用いている音声の持つ静的特徴量と動的特徴量との間に成立する関係を考慮して、ヒドンマルコフモデルからトラジェクトリを作成するという操作は、いわば、ヒドンマルコフモデルの平均値時系列にローパスフィルタ操作を施すことを意味しており、これから、本来的には滑らかな動きを示すべきヒドンマルコフモデルの平均値時系列について、従来技術に従っていると、あくまで不連続な平均値時系列のものとして取り扱われるのに対して、本発明によれば、滑らかな動きを示すものに変換されることになる。
【0026】
【発明の実施の形態】以下、実施の形態に従って本発明を詳細に説明する。
【0027】先ず最初に、図1及び図2を参照して、本発明の音声認識装置1が実行する処理の概要について説明する。
【0028】ここで、図1は本発明の音声認識装置1が学習モードで動作するときの機能を示しており、図2は本発明の音声認識装置1が認識モードで動作するときの機能を示している。
【0029】図1及び図2中、100は特徴量抽出部、101は音響モデル学習部、102はHMMデータベース、103はトラジェクトリ合成部、104は分散計算部、105は分散データベース、106は特徴量間関係式、107は音声認識部、108は辞書、109はトラジェクトリ再合成部、110はスコア再計算部である。
【0030】本発明の音声認識装置1は、図1に示す機能で実現される学習モードで動作する場合、特徴量抽出部100で、例えば音韻で構成される学習用音声の特徴量(静的特徴量)を計算するとともに、その動的特徴量(以下、説明の便宜上、動的特徴量として、特徴量の微分係数と特徴量の2次微分係数とを想定する)を計算する。
【0031】この静的特徴量及び動的特徴量の計算を受けて、音響モデル学習部101は、特徴パターンとして、特徴量の平均値及び分散と、特徴量の微分係数の平均値及び分散と、特徴量の2次微分係数の平均値及び分散とを計算して、例えば音韻で構成される学習用音声に対応付けて定義されるヒドンマルコフ(HMM)の構造上に保存することで、HMMデータベース102を構築する。
【0032】なお、ここまでの処理については、従来技術で行われている処理と基本的に変わるところはない。
【0033】このHMMデータベース102の構築後に、トラジェクトリ合成部103は、静的特徴量と動的特徴量との間に成立する特徴量間関係式106の条件の基に、学習用音声のHMMから、学習用音声に対してのトラジェクトリを計算する。
【0034】このとき計算されるトラジェクトリは、HMMの平均値(静的特徴量及び動的特徴量の平均値)の時系列を基に計算されるが、静的特徴量と動的特徴量との間の関係を考慮しているため、HMMの平均値の時系列のように、不連続ではなくて滑らかなで自然な時系列となる。
【0035】認識モードで説明するように、本発明の音声認識装置1は、このトラジェクトリを基にスコア計算を行うことにより精度の高い音声認識を実現することになるが、このスコア計算を行うためには、トラジェクトリからの入力特徴量の広がりを表す分散(静的特徴量及び動的特徴量の分散)をあらかじめ学習用音声を用いて学習しておく必要がある。
【0036】そこで、分散計算部104は、各学習用音声に対してトラジェクトリが求められると、これらのトラジェクトリとそれに対応付けられる学習用音声とから、この分散をHMMの状態毎に計算して分散データベース105に記憶する。
【0037】このようにして、本発明の音声認識装置1は、学習モードで動作する場合には、図3の処理フローに示す処理を実行することで、音声認識のために必要となるHMMデータベース102と分散データベース105とを作成するように処理するのである。
【0038】ここで、図3中、200は学習用音声を格納する学習用音声ファイル、201は特徴量を格納する特徴量ファイル、202はトラジェクトリの合成に用いるトラジェクトリワークファイルである。
【0039】一方、本発明の音声認識装置1は、図2に示す機能で実現される認識モードで動作する場合、特徴量抽出部100で、認識対象となる入力音声の特徴量(静的特徴量)を計算するとともに、その動的特徴量を計算する。
【0040】この静的特徴量及び動的特徴量の計算を受けて、音声認識部107は、辞書108に登録されている認識対象データを順番に1つずつ読み出して、その読み出した認識対象データの持つ音韻に対応付けられるHMM(HMMデータベース102に格納されている)を組み合わせることで、その読み出した認識対象データのHMMを作成して、その作成したHMMに対応付けて保存されている平均値及び分散から、入力音声とその読み出した認識対象データとの間のスコアを計算して、スコアの高い上位複数個の候補を選択する。
【0041】この複数個の候補の選択を受けて、トラジェクトリ再合成部109は、静的特徴量と動的特徴量との間に成立する特徴量間関係式106の条件の基に、各々の候補のHMMから、各々の候補に対してのトラジェクトリを計算する。
【0042】このとき計算されるトラジェクトリは、HMMの平均値(静的特徴量及び動的特徴量の平均値)の時系列を基に計算されるが、静的特徴量と動的特徴量との間の関係を考慮しているため、HMMの平均値の時系列のように、不連続ではなくて滑らかなで自然な時系列となる。
【0043】これらのトラジェクトリの計算を受けて、スコア再計算部110は、これらのトラジェクトリと入力音声との間のスコアを、分散データベース105に格納されるトラジェクトリからの分散を使って計算して、候補の順位を入れ替えて最終結果とする。
【0044】このようにして、本発明の音声認識装置1は、認識モードで動作する場合には、図4の処理フローに示す処理を実行することで、不連続ではなくて滑らかで自然な時系列となるトラジェクトリを使って、入力音声の認識処理を実行するように処理するのである。
【0045】次に、本発明の音声認識装置1が実行する処理の詳細について説明する。
【0046】先ず最初に、図1で示したトラジェクトリ合成部103の実行するトラジェクトリの生成処理について詳細に説明する。
【0047】入力音声の静的な特徴量時系列、その特徴量の微分係数時系列、その特徴量の2次微分係数時系列として、それぞれ、ケプストラムC={c1,c2,...,cT }、ΔケプストラムΔC={Δc1,Δc2,...,ΔcT }、Δ2 ケプストラムΔ2 C={Δ2 12 2,...,Δ2 T }というベクトル時系列が与えられるとする。
【0048】また、S={s1,s2,...,sT }はHMMのガウス分布時系列を示し、M={μ12,...,μT }、ΔM={Δμ1,Δμ2,...,ΔμT }、Δ2 M={Δ2 μ12 μ2,...,Δ2 μT }は、それぞれ、そのガウス分布時系列でのHMMのケプストラムの平均値のベクトル時系列、Δケプストラムの平均値のベクトル時系列、Δ2 ケプストラムの平均値のベクトル時系列を示すものとする。
【0049】また、Σ={Σ12,...,ΣT }、ΔΣ={ΔΣ1,ΔΣ2,...,ΔΣT }、Δ2Σ={Δ2 Σ12 Σ2,...,Δ2 ΣT }は、それぞれ、HMMのケプストラムの共分散行列(対角共分散行列を仮定)の時系列、Δケプストラムの共分散行列(対角共分散行列を仮定)の時系列、Δ2 ケプストラムの共分散行列(対角共分散行列を仮定)の時系列を示すものとする。
【0050】ところで、静的特徴量であるケプストラムと、動的特徴量である2つのΔケプストラム、Δ2 ケプストラムとの間には、下記の〔数1〕式、〔数2〕式に示すような拘束条件がある(なお、その他の拘束条件を使っても同様のことが実現できる)。
【0051】
【数1】

【0052】
【数2】

【0053】ここで、(2L+1)はウィンドウサイズ、b0,b1,b2 はウィンドウサイズによって決まる固定値である。
【0054】通常のビタービアルゴリズムによる音声認識では、音声信号に対して、下記の〔数3〕式が最大になるように、入力音声に対するHMMのスコアを計算する。この最大化によって、HMMのガウス分布時系列が求まる。
【0055】
【数3】

【0056】ところが、この〔数3〕式により選ばれた平均値の時系列は、〔数1〕式および〔数2〕式を満たすようには選ばれていない。このため、HMMの状態間での平均値の不連続点が発生するなどといったように、音声としては不自然な時系列となっていることが多い。
【0057】しかるに、従来技術では、この〔数3〕式に従い、不自然な平均値時系列を基準にして入力音声時系列のスコアの計算を行なっている。これでは高い精度の音声認識を実現できない。
【0058】そこで、本発明では、音声合成で使われている手法[参考文献1〜3]を使って、この平均値の時系列を変形して、滑らかな特徴量時系列を生成するという構成を採っている。
〔参考文献〕
[1]K.Tokuda,T.Kobayashi and S.Imai, "Speech parameter generation from HMM using dynamic features・ Proc.ICASSP,pp.660-663,1995.[2]K.Tokuda,T.Masuko,T.Yamada,T.Kobayashi and S.Imai,"An algorithm for speech parameter generation from continuous mixture HMMs with dynamic features ・Proc.Eurospeech,pp.757-760,1995.[3]T.Masuko,K.Tokuda,T.Kobayashi and S.Imai,"Speech synthesis from HMMsusing dynamic features・Proc.ICASSP,pp.389-392,1996.次に、この音声合成で使われている手法について説明する。
【0059】いま、ガウス分布時系列が与えられていると仮定する。この音声合成で使われている手法では、与えられたガウス分布時系列に対して、〔数2〕式および〔数3〕式(但し、CをOに置き換える)の条件の下で、下記の〔数4〕式を最大化するO、ΔO、Δ2 Oを選ぶことによって、特徴量の時系列を生成するようにしている。
【0060】これは、下記の〔数4〕式のΔO、Δ2 Oを、〔数2〕式および〔数3〕式を用いてOだけで表現し、下記の〔数5〕式のようにすることで実現できる。以上が、音声合成で使われている手法である。
【0061】
【数4】

【0062】
【数5】

【0063】このようにして求められるO、ΔO、Δ2 Oの時系列を、ここではトラジェクトリと呼ぶ。このトラジェクトリは、任意のガウス分布時系列に対して生成され、元々のHMMの統計量を保ちながら、音声としての自然性を持つ特徴量時系列となる。
【0064】このトラジェクトリを用いた入力音声に対するスコアを、下記の〔数6〕式に示すように定義する。
【0065】
【数6】

【0066】ここで、Σ’={Σ’1,Σ’2,...,Σ’T }、ΔΣ’={ΔΣ’1,ΔΣ’2,...,ΔΣ’T }、Δ2 Σ’={Δ2 Σ’12 Σ’2,...,Δ2 Σ’T }は、ガウス分布時系列Sに沿ってのトラジェクトリからの広がりを表す共分散時系列を示す。
【0067】これまでの議論では、トラジェクトリを生成するのに、HMMのガウス分布の時系列が与えられているものとして議論を行った。次に、入力音声が与えられたときに、このガウス分布の時系列を求める方法について述べる。
【0068】ケプストラムCを出力するような最適なガウス分布時系列を求めるためには、下記の〔数7〕式で示すような関数を用いることが必要である。
【0069】
【数7】

【0070】ここで、probは〔数6〕式に示すスコアである。また、O(S)はガウス分布時系列Sが与えられているときのHMMから出力されるトラジェクトリである。
【0071】しかし、この〔数7〕式の計算を実現するためには、可能なガウス分布時系列に対するすべてのOを求めなければならない。また、ビタービアルゴリズムなどの効率的な探索が実現できないので、膨大な計算量が必要となる。
【0072】そこで、ここでは、通常の音声認識で用いられる〔数3〕式のビタービアルゴリズムによって得られるガウス分布時系列を、この最適ガウス分布時系列の近似として用いることにする。
【0073】次に、図1で示した分散計算部104の実行する分散の計算処理について詳細に説明する。
【0074】〔数6〕式で示したように、トラジェクトリ導入に伴って新しい分散の計算が必要になる。ここでは、分散は1つのガウス分布で、時刻によらず一定であるとする。分散を求めるために、以下に示すビタービ学習法を採用する。
【0075】すなわち、(a)MLE学習を行い通常のHMMを作成する。
(b)各学習データ(学習用音声)に対して、HMMを使用して、〔数1〕式のスコアが最大になるガウス分布時系列をビタービアルゴリズムにより計算する。
(c)求められたガウス分布時系列からトラジェクトリを求める。
(d)ビタービアルゴリズムの結果により、各学習データを各状態ごとにセグメンテーションし、セグメント毎の小さなデータに分割する。それらのデータを対応する状態に割り当てる。
(e)各状態毎に、その状態に割り当てられたセグメントデータを用いて下記の〔数8〕式に従って分散値を推定する。
という手順に従って分散を計算する。
【0076】
【数8】

【0077】ここで、〔数8〕式において、nは状態sに割り当てられたデータの数を示し、ck i はk番目の長さのデータのi番目のケプストラムを示す。また、ok iはそのケプストラムに対応するトラジェクトリの値である。
【0078】ΔΣ’についても、同様の手順に従って下記の〔数9〕式に従って計算で求めることができるとともに、Δ2 Σ’についても、同様の手順に従って下記の〔数10〕式に従って計算で求めことができる。
【0079】
【数9】

【0080】
【数10】

【0081】次に、本発明の音声認識装置1が認識モード(図2に示す機能で実現されるモード)で実行する音声認識処理について詳細に説明する。
【0082】本発明の音声認識装置1は、認識モードでは、はじめに、通常のHMMを用いてビタービアルゴリズムによる認識を行い、上位数個の認識候補を出力する。
【0083】この複数個の候補に対して、HMMと、静的特徴量と動的特徴量との間の関係とを使って、各々の候補に対してのトラジェクトリを生成する。
【0084】そして、これらの候補に対して、〔数6〕式による再スコアを行う。ここでは、スコアとして、動的特徴量のスコアに重みをかけるため、〔数6〕式に代えて下記の〔数11〕式を用いる。
【0085】
【数11】

【0086】ここで、αとβは、それぞれ、ΔケプストラムとΔ2 ケプストラムに対するスコアの重みを表す。
【0087】以上に説明した手法を使って認識実験を行った。この実験では、話者独立、タスク独立の認識を行った。学習データ(学習用音声)として、音響学会の503音韻バランス文の不特定話者音声データを用いた。サンプリングレートを16kHzとし、フレームシフトを10msとした。このデータを用いて、各状態のガウス分布数が1である環境依存HMMを学習した。
【0088】評価データ(入力音声)として、学習データと同条件で分析した男女各10人による100都市発声を用いた。αとβとを各々1,2,3,4,5,10と変化させて、最も認識率の高いものを本発明の認識結果とした。従来のHMMを用いたスコアについても同様にαとβとを変化させて認識率が最大になるようにした。
【0089】この認識実験で、■従来のHMMを用いる認識を行った場合の認識結果として4.1%の認識率(誤った認識を行った割合)、■本発明による認識を行った場合の認識結果として3.4%の認識率(誤った認識を行った割合)、■従来のHMMを用いて、αとβとを変化させて認識を行った場合の認識結果として4.0%の認識率(誤った認識を行った割合)が得られた。
【0090】この実験結果から、本発明による認識を行った場合の認識率(誤った認識を行った割合)が一番小さくなることで確認できたことで、本発明による音声認識の有効性を検証できた。
【0091】このように、従来技術に従っていると、図5に示すように、不連続なHMMの平均値の系列を基準とする不自然なスコア関数を用いて音声認識を行うのに対して、本発明では、静的特徴量と動的特徴量間との間の関係を用いてトラジェクトリを生成することにより、図6のように、トラジェクトリを基準とするより自然なスコア関数と変換され、この自然なスコア関数を用いて音声認識を行うことになる。
【0092】そして、このトラジェクトリからの広がりである分散を、〔数8〕式〜〔数11〕式のように計算することにより、図6で示すような、より広がりの小さいスコア関数を実現することができるようになる。
【0093】このようにして、本発明によれば、ヒドンマルコフモデルに従って入力音声を認識するときに、高い認識を期待できるようになる。
【0094】
【発明の効果】以上説明したように、本発明によれば、音声の持つ静的特徴量と動的特徴量との間に成立する関係を考慮してトラジェクトリを作成することで、従来技術で用いられていた不連続なHMMの平均値の時系列で構成される不自然なスコア関数が自然なスコア関数に変換されることになり、これにより、高精度の音声認識を実現できるようになる。
【出願人】 【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
【住所又は居所】東京都千代田区大手町二丁目3番1号
【出願日】 平成14年3月15日(2002.3.15)
【代理人】 【識別番号】100087848
【弁理士】
【氏名又は名称】小笠原 吉義 (外2名)
【公開番号】 特開2003−271185(P2003−271185A)
【公開日】 平成15年9月25日(2003.9.25)
【出願番号】 特願2002−71260(P2002−71260)