| 【発明の名称】 |
音声認識システム |
| 【発明者】 |
【氏名】瀬尾 尋
【氏名】駒村 光弥
【氏名】外山 聡一
|
| 【要約】 |
【課題】乗法性歪と加法性雑音に対してロバストな音声認識システムを提供する。
【解決手段】HMM法で作成した音声HMM5から乗法性歪Hm(cep)を減算(合成)し、HMM法で作成した雑音HMM6から発話音声の乗法性歪Ha(cep)を減算(合成)し、それぞれの減算結果Sm(cep)と{Nm(cep)−Ha(cep)}を合成することによってケプストラム領域での合成HMM18を作成する。発話音声のケプストラムRa(cep)から乗法性歪Ha(cep)を減算(合成)することで得られるケプストラムR^a(cep)と合成HMM18のケプストラム領域での分布R^m(cep)とを照合し、最大尤度を与える合成HMMを音声認識結果とする。 |
【特許請求の範囲】
【請求項1】 少なくとも乗法性歪を含んだ音声に基づいて作成された音響モデルと雑音モデルを合成することで得られる合成モデルと、乗法性歪と加法性雑音を含んだ発話音声とを照合することで音声認識を行う音声認識システムであって、前記発話音声に含まれる乗法性歪の特徴成分を抽出する第1の抽出手段と、前記音響モデルに含まれる乗法性歪の特徴成分を抽出する第2の抽出手段と、前記発話音声と前記第1の抽出手段の抽出した前記乗法性歪の特徴成分とを合成する第1の演算手段と、前記音響モデルと前記第2の抽出手段の抽出した前記乗法性歪の特徴成分とを合成する第2の演算手段と、前記雑音モデルと前記第1の抽出手段の抽出した前記乗法性歪の特徴成分とを合成する第3の演算手段と、前記第2の演算手段の演算結果と前記第3の演算手段の演算結果とを合成することにより前記合成モデルを作成する作成手段とを備え、前記第1の演算手段の演算結果と前記合成モデルとを照合することにより、音声認識を行うことを特徴とする音声認識システム。 【請求項2】 少なくとも乗法性歪を含んだ音声に基づいて作成された音響モデルと雑音モデルを合成することで得られる合成モデルと、乗法性歪と加法性雑音を含んだ発話音声とを照合することで音声認識を行う音声認識システムであって、前記発話音声に含まれる乗法性歪の特徴成分を抽出する第1の抽出手段と、前記音響モデルに含まれる乗法性歪の特徴成分を抽出する第2の抽出手段と、前記発話音声と前記第1の抽出手段の抽出した前記乗法性歪の特徴成分を合成する第1の演算手段と、前記雑音モデルと、前記第1の抽出手段の抽出した前記乗法性歪の特徴成分と、前記雑音モデルに前記第2の抽出手段の抽出した前記乗法性歪の特徴成分とを合成する第2の演算手段と、前記音響モデルと前記第2の演算手段の演算結果とを合成することにより前記合成モデルを作成する作成手段と、前記合成モデルと前記第2の抽出手段の抽出した前記乗法性歪の特徴成分とを合成する第3の演算手段とを備え、前記第1の演算手段の演算結果と前記第3の演算手段の演算結果とを照合することにより、音声認識を行うことを特徴とする音声認識システム。 【請求項3】 少なくとも乗法性歪を含んだ音声に基づいて作成された音響モデルと雑音モデルを合成することで得られる合成モデルと、乗法性歪と加法性雑音を含んだ発話音声とを照合することで音声認識を行う音声認識システムであって、前記発話音声に含まれる乗法性歪の特徴成分を抽出する第1の抽出手段と、前記音響モデルに含まれる乗法性歪の特徴成分を抽出する第2の抽出手段と、前記発話音声と、前記第1の抽出手段の抽出した前記乗法性歪の特徴成分と、前記発話音声に前記第2の抽出手段の抽出した前記乗法性歪の特徴成分とを合成する第1の演算手段と、前記雑音モデルと、前記第1の抽出手段の抽出した前記乗法性歪の特徴成分と、前記雑音モデルに前記第2の抽出手段の抽出した前記乗法性歪の特徴成分とを合成する第2の演算手段と、前記音響モデルと前記第2の演算手段の演算結果とを合成することにより前記合成モデルを作成する作成手段とを備え、前記第1の演算手段の演算結果と前記合成モデルとを照合することにより、音声認識を行うことを特徴とする音声認識システム。
|
【発明の詳細な説明】【0001】 【発明の属する技術分野】本発明は、雑音や、伝送系等の歪みに対してロバスト(頑健)な音声認識システムに関する。 【0002】 【従来の技術】従来、例えば車載用ナビゲーション装置等の電子機器では、マンマシンコニュニケーション等を可能にする音声認識システムが注目され、図4に示すような情報処理アルゴリズムに基づいて構成された音声認識システムが知られている。 【0003】この音声認識システムは、隠れマルコフモデル(Hidden Markov Model:HMM)を用いて単語やサブワード(音素、音節など)単位の音響モデル(音声HMM)を作成しておき、認識すべき音声が発話されると、その発話音声のケプストラムの時系列である観測値系列を生成して、観測値系列と音声HMMとを照合し、最大尤度を与える音声HMMを選んでこれを認識結果として出力する。 【0004】より具体的には、音声データベースに実験的に収集して記憶しておいた大量の音声データRmを10〜20msec程度のフレーム単位に区分けし、各フレーム単位のデータを順次にケプストラム(Cepstrum)演算することにより、ケプストラムの時系列を求め、更にこのケプストラムの時系列を音声の特徴量として学習処理し、音響モデル(音声HMM)のパラメータに反映させることで、単語やサブワード単位の音声HMMを作成している。 【0005】実際に発話が行われると、その発話音声のデータRaを上記同様のフレーム単位に区分けして入力し、各フレーム単位の発話音声データを順次にケプストラム演算することによってケプストラムの時系列である観測値系列を生成し、観測値系列と音声HMMとを単語やサブワード単位で照合して、観測値系列と最も尤度の高い音声HMMを音声認識結果として出力することにより、音声認識が行われている。 【0006】ところが、音声HMMを作成するための音声データRmを収集する際、マイクロフォンや電気伝送系等における乗法性歪の影響を受けた音声データRmが収集されてしまい、精度の良い音声HMMを生成することが困難になる場合や、認識すべき発話音声が発話された際、室内雑音や背景雑音等の加法性雑音と、口元からマイクロフォンまでの空間的伝達特性、マイクロフォンや電気伝送系等における乗法性歪などが発話データRaに悪影響を及ぼす場合があることから、加法性雑音と乗法性歪の影響を受け難い音声認識システム、すなわちロバスト(robust)な音声認識システムの構築が重要な課題となっている。 【0007】こうした課題に対処すべく、加法性雑音に対してはHMM合成法、乗法性歪に対してはケプストラム平均正規化法(Cepstrum Mean Normalization:CMN)が提案されている。 【0008】HMM合成法を適用した音声認識システムは、図5に示すように、HMM法で作成した音声の音響モデル(音声HMM)と加法性雑音の音響モデル(雑音HMM)とを備え、更に音声HMMと雑音HMMを合成することによって加法性雑音を含んだ音声の雑音重畳音響モデル(合成HMM)を作成し、その合成HMMと発話音声データに基づいて生成した観測値系列とを照合して、最も尤度の高い合成HMMを音声認識結果として出力するようになっている。 【0009】ここで、音声HMMは、加法性雑音を含まないクリーンな音声のデータSmをフレーム化し、ケプストラム演算及び学習処理することによって作成されている。 【0010】雑音HMMは、非音声区間から収集した雑音データNmを上記同様にフレーム化し、ケプストラム演算及び学習処理することによって作成されている。 【0011】合成HMMは、音声HMMと雑音HMMとを線形領域で足し合わせることによって作成されている。ただし、音声HMMと雑音HMMはケプストラム領域(cep)での分布Sm(cep)とNm(cep)として表されるため、ケプストラム領域のまま合成HMMを求めることはできない。 【0012】このため、まず、音声HMMの分布Sm(cep)と雑音HMMの分布Nm(cep)をそれぞれコサイン変換することによって対数スペクトル領域(log)での分布Sm(log)とNm(log)に変換し、更に指数変換することによって線形スペクトル領域(lin)での分布Sm(lin)とNm(lin)に変換した後、音声データベース2の音声Rmの平均パワーと加法性雑音Nmの平均パワーの比、及び発話音声RaのSN比で決まる所定係数kを分布Nm(lin)に乗算して分布Sm(lin)に加算することにより、雑音付加音声の線形スペクトル領域での分布Rm(lin)=Sm(lin)+k・Nm(lin)を求めている。そして、雑音付加音声の分布Rm(lin)を対数変換することによって対数スペクトル領域(log)での分布Rm(log)に変換し、更に逆コサイン変換して雑音付加音声のケプストラム領域(cep)での分布Rm(cep)を求めることにより、合成HMMを作成している。 【0013】このHMM合成法によると、実際の発話音声Raは、線形スペクトル領域(lin)ではクリーンな音声Sa(lin)と加法性雑音Na(lin)との加算Ra(lin)=Sa(lin)+Na(lin)で表されるのに対し、雑音付加音声モデル(合成HMM)も線形スペクトル領域(lin)ではクリーンな音声Sm(lin)と加法性雑音k・Nm(lin)との加算Rm(lin)=Sm(lin)+k・Nm(lin)で表されることから、観測値系列Ra(cep)と合成HMMの分布Rm(cep)とを照合する際に、加法性雑音の影響を抑えることができるとされている。尚、係数kは所定の定数である。 【0014】次に、CMN法を適用した音声認識システムは、図6に示すように、乗法性歪を含んだ音声データRmを予め収集して音声データベースに記憶しておき、その音声データRmをフレーム化しケプストラム演算及び学習処理することによって音声HMMが作成されている。すなわち、乗法性歪をHm、乗法性歪の無いクリーンな音声をSmとすると、音声HMMはケプストラム領域(cep)での分布Rm(cep)=Hm(cep)+Sm(cep)として構成されている。 【0015】更に、乗法性歪のケプストラムは音声のケプストラムの長時間平均で推定され得るという仮定に基づいて、音声HMMの分布Rm(cep)を所定時間平均することにより乗法性歪Hm(cep)を求めると共に、分布Rm(cep)から乗法性歪Hm(cep)を減算することにより、クリーンな音声のケプストラム領域(cep)での分布Sm(cep)を生成している。 【0016】実際に発話がなされると、その発話音声のデータSaをフレーム化してケプストラム演算することにより、クリーンな音声Saに実際の乗法性歪Haが含まれた発話音声のケプストラムRa(cep)=Sa(cep)+Ha(cep)を求め、更に、乗法性歪のケプストラムは音声のケプストラムの長時間平均で推定され得るという仮定に基づいて、発話音声のケプストラムRa(cep)を所定時間平均することによって乗法性歪Ha(cep)を求め、更に発話音声のケプストラムRa(cep)から乗法性歪Ha(cep)を減算することにより、クリーンな音声SaのケプストラムSa(cep)を生成し、そのケプストラムSa(cep)と音声HMMから求めた分布Sm(cep)とを照合して、最も尤度の高い音声HMMを認識結果として出力している。 【0017】このように、CMN法では、乗法性歪Hm(cep)を取り除いたケプストラム領域(cep)での分布Sm(cep)と、乗法性歪Ha(cep)を取り除いた発話音声のケプストラムSa(cep)とを照合するので、乗法性歪に対してロバストな音声認識が可能であるとされている。 【0018】また、CMN法を用いた他の音声認識システムとして、図7に示す構成のものも知られている。この音声認識システムでは、図6に示した音声認識システムと同様に、音声HMMの分布Rm(cep)を所定時間平均することにより乗法性歪Hm(cep)を求めている。更に、発話音声のケプストラムRa(cep)=Sa(cep)+Ha(cep)を求めると共に、この発話音声のケプストラムRa(cep)を所定時間平均することによって乗法性歪Ha(cep)を求め、更に発話音声のケプストラムRa(cep)から乗法性歪Ha(cep)を減算することによってクリーンな発話音声のケプストラムSa(cep)を生成している。 【0019】ただし、音声HMMの分布Rm(cep)から求めた乗法性歪Hm(cep)とクリーンな発話音声のケプストラムSa(cep)とを加算することで、乗法性歪Hm(cep)を含んだケプストラムSa(cep)+Hm(cep)を生成し、音声HMMの分布Rm(cep)=Hm(cep)+Sm(cep)とケプストラムSa(cep)+Hm(cep)とを照合して、最も尤度の高い音声HMMを認識結果として出力するようになっている。 【0020】したがって、図7に示した音声認識システムも、図6に示した音声認識システムと同様に、乗法性歪のケプストラムは音声のケプストラムの長時間平均で推定され得るという仮定に基づいた処理を行うことで、乗法性歪に対してロバストな音声認識が可能であるとされている。 【0021】また、図8に示すように、HMM合成法とCMN法とを併用することで、拡張性を持たせた音声認識システムも知られている。 【0022】この音声認識システムは、図5に示したのと同様に音声の音響モデル(音声HMM)と雑音の音響モデル(雑音HMM)を作成し、音声HMMのケプストラム領域(cep)での分布Rm(cep)を所定時間平均することによって得られる乗法性歪Hm(cep)を分布Rm(cep)から減算することにより、乗法性歪を除いた音声の分布Sm(cep)を求めている。 【0023】そして、このクリーンな音声のケプストラム領域での分布Sm(cep)と雑音HMMのケプストラム領域での分布Nm(cep)とをそれぞれコサイン変換することで対数スペクトル領域での分布Sm(log)とNm(log)を求め、更に指数変換することで線形スペクトル領域(lin)での分布Sm(lin)とNm(lin)を求めた後、SN比で決まる所定係数kを分布Nm(lin)に乗算して分布Sm(lin)に加算することにより、雑音付加音声の分布R'm(lin)=Sm(lin)+k・Nm(lin)を求めている。 【0024】そして、雑音付加音声の分布R'm(lin)を対数変換することによって対数スペクトル領域(log)での分布R'm(log)に変換し、更に逆コサイン変換して雑音付加音声のケプストラム領域(cep)での分布R'm(cep)を求めることにより、合成HMMを作成している。 【0025】つまり、合成HMMは、音声Rmから乗法性歪Hmが除去され、その乗法性歪Hmの除去された音声に加法性雑音Nmを付加することによって生じる雑音付加音声のケプストラムとして構成されている。 【0026】実際に発話がなされると、その発話音声のデータRaをフレーム化してケプストラム演算することにより、クリーンな音声Saに実際の乗法性歪Haと加法性雑音Naが含まれた発話音声のケプストラムRa(cep)=Ha(cep)+R^a(cep)を求めた後、ケプストラムRa(cep)を所定時間平均することによって乗法性歪Ha(cep)を求めると共に、発話音声のケプストラムRa(cep)から乗法性歪Ha(cep)を減算することにより、乗法性歪Ha(cep)を除いた発話音声のケプストラムR^a(cep)を生成している。つまり、ケプストラムR^a(cep)は、乗法性歪Haが除去されているが加法性雑音Naを含んでいる発話音声のケプストラムとなっている。 【0027】そして、そのケプストラムR^a(cep)と合成HMMの分布Rm(cep)とを照合して、最も尤度の高い合成HMMを認識結果として出力している。 【0028】 【発明が解決しようとする課題】ところが、上記図8に示したCMN法とHMM合成法とを適用した音声認識システムにあっては、合成HMMと発話音声のケプストラムR^a(cep)とを照合することで音声認識を行うことにしているが、合成HMMが発話音声に対して適切な照合対象としてモデル化されていないという問題があった。 【0029】すなわち、実際に発話された発話音声Raに乗法性歪Haと加法性雑音Naが含まれている場合、その発話音声Raは、クリーンな発話音声Saに乗法性歪みHaと加法性雑音Naが重畳しているものとして、次式(1)に示すような線形スペクトル領域(lin)で表すことができる。 Ra(lin)=Ha(lin)Sa(lin)+Na(lin) =Ha(lin){Sa(lin)+Na(lin)/Ha(lin)} =Ha(lin)R^a(lin) …(1) 図8に示した音声認識システムでは、この線形スペクトル領域(lin)で表される発話音声Raをフレーム化してケプストラム演算を施すことで、次式(2)に示すような発話音声RaのケプストラムRa(cep)を求めている。 Ra(cep)=Ha(cep)+R^a(cep) …(2) そして、ケプストラム領域(cep)での乗法性歪Ha(cep)をCMN法によって除去することにより、照合すべきケプストラムR^a(cep) を求めている。尚、ケプストラムR^a(cep)は、上記式(1)中の線形スペクトル{Sa(lin)+Na(lin)/Ha(lin)}に対応している。 【0030】これに対し、合成HMMは、図8を参照して説明したように、雑音付加音声に基づいて生成されており、その雑音付加音声を線形スペクトル領域(lin)で表すと次式(3)、合成HMMのケプストラム領域(cep)での表記は次式(4)となる。 R'm(lin)=Sm(lin)+k・Nm(lin) …(3) R'm(cep)=IDCT〔log{R'm(lin)}〕 =cep〔R'm(lin)〕 …(4) 尚、演算子logは対数変換、IDCTは逆コサイン変換、cepは対数変換の逆コサイン変換、すなわちIDCT〔log{ }〕である。 【0031】ここで、上記式(2)と(4)を対比すると、まず、上記式(2)に示した発話音声Raに基づいて生成されるケプストラムR^a(cep)は、式(1)中の線形スペクトル{Sa(lin)+Na(lin)/Ha(lin)}に対応していることから、加法性雑音Na(lin)を乗法性歪Ha(lin)で割算した成分が含まれるのに対し、上記式(4)に示した合成HMMのケプストラムR'm(cep)は、式(3)に示した線形スペクトルSm(lin)+k・Nm(lin) に対応していることから、加法性雑音Nm(lin)を何らかの乗法性歪で割算するようなことは行われていない。 【0032】したがって、合成HMMは、実際の発話音声を認識するための照合対象として適切にモデル化されていないという問題があった。 【0033】本発明は、上記従来の問題点を克服すると共に、加法性雑音と乗法性歪に対してロバストな音声認識システムを提供することを目的とする。 【0034】 【課題を解決するための手段】上記目的を達成するため本発明は、少なくとも乗法性歪を含んだ音声に基づいて作成された音響モデルと雑音モデルを合成することで得られる合成モデルと、乗法性歪と加法性雑音を含んだ発話音声とを照合することで音声認識を行う音声認識システムであって、上記発話音声に含まれる乗法性歪の特徴成分を抽出する第1の抽出手段と、上記音響モデルに含まれる乗法性歪の特徴成分を抽出する第2の抽出手段と、上記発話音声と上記第1の抽出手段の抽出した上記乗法性歪の特徴成分とを合成する第1の演算手段と、上記音響モデルと上記第2の抽出手段の抽出した上記乗法性歪の特徴成分とを合成する第2の演算手段と、上記雑音モデルと上記第1の抽出手段の抽出した上記乗法性歪の特徴成分とを合成する第3の演算手段と、上記第2の演算手段の演算結果と上記第3の演算手段の演算結果とを合成することにより上記合成モデルを作成する作成手段とを備え、上記第1の演算手段の演算結果と上記合成モデルとを照合することにより、音声認識を行うことを特徴とする。 【0035】かかる構成を有する音声認識システムによると、第2の演算手段は音響モデルに乗法性歪を合成した演算結果を出力し、第3の演算手段は雑音モデルに乗法性歪を合成した演算結果を出力する。これら第2,第3の演算手段の演算結果を作成手段が合成することにより、音響モデルと雑音モデルと上記乗法性歪との情報を有する合成モデルを作成する。 【0036】第1の演算手段は、乗法性歪と加法性雑音を含んだ発話音声に、第1の抽出手段の抽出した乗法性歪を合成することにより、合成モデルの有する音響モデルに相当する発話音声と、雑音モデルに相当する加法性雑音と、乗法性歪に相当する乗法性歪との情報を有する演算結果を出力する。 【0037】そして、第1の演算手段の演算結果と合成モデルは、共通した情報を有することになり、第1の演算手段の演算結果と合成モデルとを照合することにより、加法性雑音と乗法性歪に対してロバストで、適切な音声認識が実現される。 【0038】また、上記目的を達成するため本発明は、少なくとも乗法性歪を含んだ音声に基づいて作成された音響モデルと雑音モデルを合成することで得られる合成モデルと、乗法性歪と加法性雑音を含んだ発話音声とを照合することで音声認識を行う音声認識システムであって、上記発話音声に含まれる乗法性歪の特徴成分を抽出する第1の抽出手段と、上記音響モデルに含まれる乗法性歪の特徴成分を抽出する第2の抽出手段と、上記発話音声と上記第1の抽出手段の抽出した上記乗法性歪の特徴成分を合成する第1の演算手段と、上記雑音モデルと上記第1の抽出手段の抽出した上記乗法性歪の特徴成分と上記雑音モデルに上記第2の抽出手段の抽出した上記乗法性歪の特徴成分とを合成する第2の演算手段と、上記音響モデルと上記第2の演算手段の演算結果とを合成することにより上記合成モデルを作成する作成手段と、上記合成モデルと上記第2の抽出手段の抽出した上記乗法性歪の特徴成分とを合成する第3の演算手段とを備え、上記第1の演算手段の演算結果と上記第3の演算手段の演算結果とを照合することにより、音声認識を行うことを特徴とする。 【0039】かかる構成を有する音声認識システムによると、第2の演算手段は雑音モデルに第1の抽出手段の抽出した乗法性歪を合成し、且つ雑音モデルに第2の抽出手段の抽出した乗法性歪を合成する。この第2の演算手段による演算結果と音響モデルを作成手段が合成することにより、音響モデルと雑音モデルと上記乗法性歪との情報を有する合成モデルを作成し、更に、第3の演算手段が合成モデルから第2の抽出手段の抽出した乗法性歪を合成して出力する。 【0040】第1の演算手段は、乗法性歪と加法性雑音を含んだ発話音声に、第1の抽出手段の抽出した乗法性歪を合成することにより、合成モデルの有する音響モデルに相当する発話音声と、雑音モデルに相当する加法性雑音と、乗法性歪に相当する乗法性歪との情報を有する演算結果を出力する。 【0041】そして、第1の演算手段の演算結果と第3の演算手段の演算結果は、共通した情報を有することになり、これらの演算結果を照合することで、加法性雑音と乗法性歪に対してロバストで、適切な音声認識が実現される。 【0042】また、上記目的を達成するため本発明は、少なくとも乗法性歪を含んだ音声に基づいて作成された音響モデルと雑音モデルを合成することで得られる合成モデルと、乗法性歪と加法性雑音を含んだ発話音声とを照合することで音声認識を行う音声認識システムであって、上記発話音声に含まれる乗法性歪の特徴成分を抽出する第1の抽出手段と、上記音響モデルに含まれる乗法性歪の特徴成分を抽出する第2の抽出手段と、上記発話音声と上記第1の抽出手段の抽出した上記乗法性歪の特徴成分と上記発話音声に上記第2の抽出手段の抽出した上記乗法性歪の特徴成分とを合成する第1の演算手段と、上記雑音モデルと上記第1の抽出手段の抽出した上記乗法性歪の特徴成分と上記雑音モデルに上記第2の抽出手段の抽出した上記乗法性歪の特徴成分とを合成する第2の演算手段と、上記音響モデルと上記第2の演算手段の演算結果とを合成することにより上記合成モデルを作成する作成手段とを備え、上記第1の演算手段の演算結果と上記合成モデルとを照合することにより、音声認識を行うことを特徴とする。 【0043】かかる構成を有する音声認識システムによると、第2の演算手段は雑音モデルに第1の抽出手段の抽出した乗法性歪を合成し、且つ雑音モデルに第2の抽出手段の抽出した乗法性歪を合成する。この第2の演算手段による演算結果と音響モデルを作成手段が合成することにより、音響モデルと雑音モデルと上記乗法性歪との情報を有する合成モデルを作成する。 【0044】第1の演算手段は、乗法性歪と加法性雑音を含んだ発話音声に、第1の抽出手段の抽出した乗法性歪を合成すると共に、第2の抽出手段の抽出した乗法性歪を合成することで、合成モデルの有する音響モデルに相当する発話音声と、雑音モデルに相当する加法性雑音と、乗法性歪に相当する乗法性歪との情報を有する演算結果を出力する。 【0045】そして、第1の演算手段の演算結果と合成モデルとが共通した情報を有することになり、第1の演算手段の演算結果と合成モデルとを照合することで、加法性雑音と乗法性歪に対してロバストで、適切な音声認識が実現される。 【0046】 【発明の実施の形態】以下、本発明の実施の形態を図面を参照して説明する。尚、図1は本発明の音声認識システムの第1の実施の形態の構成を示すブロック図、図2は第2の実施の形態の構成を示すブロック図、図3は第3の実施の形態の構成を示すブロック図である。 【0047】まず、これら第1〜第3の実施形態を説明するに当たり、符号を説明する。音声認識システムが音響モデル(音声HMM)を生成するために用いる音声データをRm、雑音モデル(雑音HMM)を生成するために用いる加法性雑音をNm、実際に発話された発話音声のデータをRaとする。上記音声データRmは、雑音を含まないクリーンな音声Smに乗法性歪Hmが重畳したものとして表す。また、発話音声Raは、雑音を含まないクリーンな発話音声Smに乗法性歪Haと加法性雑音Naが重畳したものとして表す。 【0048】更に、線形スペクトル領域の情報には(lin)、対数スペクトル領域の情報には(log)、ケプストラム領域の情報には(cep)を付加して示すこととする。例えば、音響モデル(音声HMM)を生成するために用いる音声データRmの線形スペクトルを、Rm(lin)=Hm(lin)Sm(lin)のようにして示すこととする。 【0049】(第1の実施の形態)図1において、第1の実施形態の音声認識システムには、実験的に収集された多量の音声データRmを記憶する音声データベース1と、実験的に収集された加法性雑音のデータNmを記憶する雑音データベース2とが備えられている。 【0050】音声データRmは、静寂環境の下で被験者の発話した音声をマイクロフォンで集音し、所定のサンプリング周波数でA/D変換する等の一般的な手法によって収集される。このため、音声データRmは、加法性雑音を殆ど含まないが、マイクロフォンや電気伝送系等による乗法性歪Hmを含む可能性のあるデータである。 【0051】加法性雑音のデータNmは、上記実験の際に時非音声区間から収集した雑音に基づいて生成したデータである。 【0052】更に、隠れマルコフモデルHMMを用いて作成された音声の音響モデル(音声HMM)5及び雑音の音響モデル(雑音HMM)6が備えられている。 【0053】ここで、信号処理部3が音声データベース1中の音声データRmを10〜20msec程度のフレーム単位に区分けして入力し、各フレーム単位のデータを順次にケプストラム(Cepstrum)演算することにより、ケプストラムの時系列を求め、更にこのケプストラムの時系列を音声の特徴量として学習処理することにより、単語やサブワード単位の音声HMM5を作成している。 【0054】また、信号処理部4が雑音データベース2中の加法性雑音のデータNmを上記同様にフレーム単位に区分けして入力し、各フレーム単位のデータを順次にケプストラム演算することによりケプストラムの時系列を求め、更にこのケプストラムの時系列を加法性雑音の特徴量として学習処理することにより、雑音HMM6を作成している。 【0055】こうして作成された音声HMM5と雑音HMM6に対して、平均演算部7、減算器8,9、コサイン変換部10,11、指数変換部12,13、乗算器14、加算器15が図示するように所定の関係で接続され、更に、加算器15の出力には、対数変換部16と逆コサイン変換部17、及び雑音付加音声の音響モデルである合成HMM18が従属に接続され、合成HMM18のケプストラム領域(cep)での分布R^m(cep)を認識部22に供給するようになっている。 【0056】また、実際に発話が行われると、その発話音声をマイクロフォン(図示省略)で集音し、所定のサンプリング周波数でA/D変換する等の一般的な手法を施すことにより、デジタルの発話音声データRaにして信号処理部19に入力するようになっている。 【0057】したがって、発話音声のデータRaは、マイクロフォンや電気伝送系等による乗法性歪Haと、背景雑音や室内雑音(例えば自動車の車室内で生じる雑音)等の加法性雑音Naとを含んだデータである。 【0058】そして、信号処理部19は、発話音声のデータRaを10〜20msec程度のフレーム単位に区分けして入力し、各フレーム単位のデータを順次にケプストラム演算することにより、ケプストラムの時系列Ra(cep)を求めて出力する。 【0059】更に、信号処理部19に続けて平均演算部20と減算器21が設けられており、減算器21が出力する観測値系列R^a(cep)を認識部22に供給するようになっている。 【0060】上記の平均演算部7は、音声HMM5のケプストラム領域(cep)での分布Rm(cep)を所定時間平均することで、分布Rm(cep)に含まれている乗法性歪Hm(cep)を求め、減算器8は、分布Rm(cep)から、平均演算部7で求められた乗法性歪Hm(cep)を減算することにより、乗法性歪を除去したクリーンな音声のケプストラム領域(cep)での分布Sm(cep)を生成する。 【0061】コサイン変換部10は、上記の分布Sm(cep)をコサイン変換することで対数スペクトル領域(lin)での分布Sm(log)に変換し、指数変換部12は、分布Sm(log)を指数変換することで、線形スペクトル領域(lin)での分布Sm(lin)を求める。 【0062】減算器9は、雑音HMMのケプストラム領域(cep)での分布Nm(cep)から、平均演算部20で求められた乗法性歪Ha(cep)を減算処理するようになっている。すなわち、平均演算部20は、実際に発話が行われて信号処理部19から出力されるフレーム単位毎の発話音声データRaのケプストラムRa(cep)を所定時間(所定フレーム分)平均することで乗法性歪Ha(cep)を求め、更にこの乗法性歪Ha(cep)を減算器9に供給することで、上記の減算処理を行わせるようになっている。 【0063】コサイン変換部11は、減算器9による減算結果Nm(cep)−Ha(cep)をコサイン変換することで、対数スペクトル領域(log)での減算結果Nm(log)−Ha(log)を求め、更に指数変換部13は、減算結果Nm(log)−Ha(log)を指数変換することで、線形スペクトル領域(lin)での除算結果Nm(lin)/Ha(lin)を求める。 【0064】そして、乗算器14が、音声データベース2の音声Rmの平均パワーと加法性雑音Nmの平均パワーの比、及び発話音声RaのSN比で決まる所定値の係数kを除算結果Nm(lin)/Ha(lin)に乗算して加算器15に供給することで、加算器15では、乗算器14の出力k・{Nm(lin)/Ha(lin)}と指数変換部12の出力Sm(lin)との加算が行われ、この結果、線形スペクトル領域での加算結果R^m(lin)が生成される。 【0065】尚、加算結果R^m(lin)は、次式(5)で表されるように、乗法性歪Hmの取り除かれた音声Smに加法性雑音Nmと乗法性歪Haとを重畳させることによって得られる雑音付加音声R^mの線形スペクトルとなる。 R^m(lin)=Sm(lin)+k・{Nm(lin)/Ha(lin)} …(5) 対数変換部16は、加算器15で生成された雑音付加音声の線形スペクトルR^m(lin)を対数変換することで、雑音付加音声の対数スペクトルR^m(log)を求め、更に逆コサイン変換部17がこの対数スペクトルR^m(log)を逆コサイン変換することによって雑音付加音声のケプストラムR^m(cep)を求めることにより、雑音付加音声の音響モデル(ケプストラム領域での音響モデル)である合成HMM18を作成している。そして、合成HMM18のケプストラム領域での分布R^m(cep)が単語やサブワード単位で認識部22に供給される。 【0066】減算器21は、上記した平均演算部20から出力されるケプストラム領域(cep)での乗法性歪Ha(cep)と、信号処理部19からフレーム単位で出力されるケプストラム領域(cep)での発話音声Ra(cep)とを入力し、次式(6)で表されるように、発話音声Ra(cep)から乗法性歪Ha(cep)を減算することによって、乗法性歪が除去されたケプストラム領域(cep)での発話音声R^a(cep)の時系列、すなわち観測値系列R^a(cep)を生成して認識部22に供給する。 R^a(cep)=Ra(cep)−Ha(cep) …(6)認識部22は、観測値系列R^a(cep)と合成HMM18のケプストラム領域での分布R^m(cep)とを照合し、最も尤度の高いHMMを音声認識結果として出力する。 【0067】かかる構成を有する本実施形態の音声認識システムは、減算器9を備えて、雑音HMM6のケプストラム領域(cep)での分布Nm(cep)から、発話音声Raのケプストラム領域(cep)での平均値(すなわち、乗法性歪)Ha(cep)を減算するようにしたので、上記式(5)の右辺第2項に示されるように、上記雑音付加音声の線形スペクトルR^m(lin)には、加法性雑音Nm(lin)を乗法性歪Ha(lin)で割算した成分が含まれることになり、更に、この成分を含んだ合成HMM18がモデル化されることになる。 【0068】そして、実際に発話される発話音声Raを線形スペクトル領域(lin)で表記すると、Ra(lin)=Ha(lin){Sa(lin)+Na(lin)/Ha(lin)}=Ha(lin)R^a(lin)であるから、上記式(6)で表される観測値系列R^a(cep)は、線形スペクトル領域では、R^a(lin)=Sa(lin)+Na(lin)/Ha(lin)となり、上記雑音付加音声の線形スペクトルR^m(lin)と同様に、加法性雑音Na(lin)を乗法性歪Ha(lin)で割算した成分が含まれることになるから、合成HMM18は発話音声を音声認識するための照合対象として適切にモデル化されている。 【0069】このように、本実施形態の音声認識システムによれば、音声認識に用いるための合成HMM18を適切にモデル化することができると共に、加法性雑音と乗法性歪に対処した構成としているため、加法性雑音と乗法性歪に対してロバストで音声認識率の向上を図ることができる。 【0070】(第2の実施の形態)次に、第2の実施形態の音声認識システムを図2に基づいて説明する。尚、図2中、図1と同一又は相当する部分を同一符号で示している。 【0071】図2において、第1の実施形態との相違点を述べると、本実施形態の音声認識システムでは、平均演算部7が音声HMM5のケプストラム領域(cep)での分布Rm(cep)を所定時間平均して乗法性歪のケプストラムHm(cep)を求めると、このケプストラムHm(cep)を加減算器200に供給するようになっている。また、コサイン変換部10には、音声HMM5のケプストラム領域(cep)での分布Rm(cep)がそのまま供給され、指数変換器12の出力が線形スペクトル音声HMM100を介して加算器15に供給されている。 【0072】加減算器200には、上記の乗法性歪のケプストラムHm(cep)の他、雑音HMM6のケプストラム領域(cep)での分布Nm(cep)と、平均演算部20からの乗法性歪のケプストラムHa(cep)が供給され、次式(7)で表されるように、加減算結果σ(cep)が求められる。 σ(cep)=Hm(cep)+Nm(cep)−Ha(cep) …(7)また、減算器300が備えられ、合成HMM18のケプストラム領域(cep)での分布Hm(cep)+R^m(cep)から平均演算部7の乗法性歪のケプストラムHm(cep)を減算して認識部22に供給するようになっている。 【0073】かかる構成を備えた本音声認識システムでは、音声HMM5のケプストラム領域(cep)での分布Rm(cep)をコサイン変換部10がコサイン変換して指数変換部12が指数変換することにより、線形スペクトル領域での分布Rm(lin)=Hm(lin)Sm(lin)を求め、音声HMM100が求まる。 【0074】更に、音声HMM100の線形スペクトル領域での分布Rm(lin)=Hm(lin)Sm(lin)が加算器15に供給される。 【0075】加減算器200から出力されるケプストラム領域(cep)の加減算結果σ(cep)は、コサイン変換部11でコサイン変換されて指数変換部13で指数変換されることにより、線形スペクトル領域(lin)での加減算結果Hm(lin)Nm(lin)/Ha(lin)に変換され、更に乗算器14で所定係数kが乗算されることにより、k・{Hm(lin)Nm(lin)/Ha(lin)}となって加算器15に供給される。 【0076】したがって、加算器15では次式(8)で表されるように、音声Rmに乗法性歪Hm,Haと加法性雑音Nmとを重畳させることによって得られる雑音付加音声の線形スペクトルHm(lin)R^m(lin)となる。 Hm(lin)R^m(lin) =Hm(lin)Sm(lin)+k・{Hm(lin)Nm(lin)/Ha(lin)} =Hm(lin){Sm(lin)+k・Nm(lin)/Ha(lin)} …(8) この雑音付加音声の線形スペクトルHm(lin)R^m(lin)を対数変換部16が対数変換し更に逆コサイン変換部18が逆コサイン変換することで、雑音付加音声のケプストラムHm(cep)+R^m(cep)を求め、雑音付加音声の音響モデル(ケプストラム領域での音響モデル)である合成HMM18が作成されている。 【0077】そして、減算器300が、合成HMM18のケプストラム領域での分布Hm(cep)+R^m(cep)から、平均演算部7の求めた乗法性歪のケプストラムHm(cep)を減算することで、乗法性歪Hmの除かれた雑音付加音声のケプストラムR^m(cep)を認識部22に供給している。このように、本実施形態の音声認識システムによれば、認識部22では、雑音付加音声のケプストラムR^m(cep)と発話音声のケプストラムR^a(cep)とが照合されるようになっている。 【0078】そして、雑音付加音声のケプストラムR^m(cep)は、上記式(8)に示した線形スペクトルk・Nm(lin)/Ha(lin)に相当する成分が含まれ、発話音声のケプストラムR^a(cep)にも線形スペクトルNa(lin)/Ha(lin)に相当する成分が含まれることから、合成HMM18は発話音声を音声認識するための照合対象として適切にモデル化されている。 【0079】このように、本実施形態の音声認識システムによれば、音声認識に用いるための合成HMM18を適切にモデル化することができると共に、加法性雑音と乗法性歪に対して対処した構成としているため、加法性雑音と乗法性歪に対してロバストで音声認識率の向上を図ることができる。 【0080】(第3の実施の形態)次に、第3の実施形態の音声認識システムを図3に基づいて説明する。尚、図3中、図2と同一又は相当する部分を同一符号で示している。 【0081】図3に示す本実施形態と図2に示した第2の実施形態との相違点を述べると、第2の実施形態の音声認識システムでは、平均演算部7が求めた乗法性歪のケプストラムHm(cep)を減算器300に供給し、その減算器300が合成HMM18のケプストラム領域(cep)での分布Hm(cep)+R^m(cep)から乗法性歪のケプストラムHm(cep)を減算して認識部22に供給している。更に、減算器21が求めた発話音声のケプストラムR^a(cep)を認識部22に供給し、認識部22が発話音声のケプストラムR^a(cep)と減算器300からのケプストラムR^m(cep)とを照合して、音声認識を行う構成となっている。 【0082】これに対し本実施形態の音声認識システムでは、図3に示すように、減算器21と認識部22との間に加算器400が設けられ、平均演算部7の求めた乗法性歪のケプストラムHm(cep)と減算器21からの発話音声のケプストラムR^a(cep)とを加算することで得られるケプストラム領域(cep)での加算結果Hm(cep)+R^a(cep)を認識部22に供給するようになっている。更に、図2に示した減算器300は本音声認識システムには設けられておらず、合成HMM18のケプストラム領域(cep)での分布Hm(cep)+R^m(cep)を認識部22に供給し、認識部22が上記の加算結果Hm(cep)+R^a(cep)と分布Hm(cep)+R^m(cep)とを照合することによって、音声認識を行う構成となっている。 【0083】ここで、発話音声Raの線形スペクトルRa(lin)は、上記式(1)に示したように、Ra(lin)=Ha(lin)Sa(lin)+Na(lin)=Ha(lin){Sa(lin)+Na(lin)/Ha(lin)}=Ha(lin)R^a(lin) で表されることから、減算器21は線形スペクトル{Sa(lin)+Na(lin)/Ha(lin)}に対応したケプストラムR^a(cep)を出力し、更に加算器400は、線形スペクトルHm(lin){Sa(lin)+Na(lin)/Ha(lin)}に対応するケプストラムHm(cep)+R^a(cep)を生成して認識部22に供給する。 【0084】一方、合成HMM18から認識部22へは、上記式(8)に示したように、雑音付加音声の線形スペクトルHm(lin)R^m(lin)=Hm(lin)Sm(lin)+k・{Hm(lin)Nm(lin)/Ha(lin)}=Hm(lin){Sm(lin)+k・Nm(lin)/Ha(lin)}に対応したケプストラムHm(cep)+R^m(cep)が供給される。 【0085】このように本実施形態の音声認識システムによれば、線形スペクトル{k・Na(lin)/Ha(lin)}で表される成分を含んだケプストラムHm(cep)+R^a(cep)と、線形スペクトル{k・Nm(lin)/Ha(lin)}で表される成分を含んだケプストラムHm(cep)+R^m(cep)とを認識部22が照合することから、音声認識率の向上を図ることができ、更に加法性雑音と乗法性歪に対してロバストな音声認識システムを実現することができる。 【0086】尚、以上の第1〜第3の実施形態の説明では、音声と雑音との加算や、音声から雑音を減算する等の演算処理を、スペクトル領域又はケプルトラム領域において行うこととしているが、これらの加算と減算の演算処理は、音声と雑音等をスペクトル領域又はケプストラム領域にて合成することを意味している。例えば、図3中の加算器400が発話音声のケプストラムR^a(cep)と平均演算部7からの乗法性歪のケプストラムHm(cep)とを加算することで、それらの加算結果Hm(cep)+R^a(cep)を求めているが、かかるケプストラム領域での加算は、R^a(cep)とHm(cep)とを合成することを意味している。また、図3中の減算器21が発話音声のケプストラムRa(cep)から平均演算部20の生成した乗法性歪のケプストラムHa(cep)を減算することで、それらの減算結果R^a(cep)=Ra(cep)−Hm(cep)を求めているが、かかるケプストラム領域での減算は、Ra(cep)とHa(cep)とを合成することを意味している。 【0087】 【発明の効果】以上説明したように本発明の音声認識システムによれば、音響モデルと雑音モデルとを合成することによって作成する合成モデルを、発話音声に含まれている乗法性歪と加法性雑音の情報に合わせて作成し、その合成モデルに基づいて発話音声との照合を行うようにしたので、整合のとれた照合が可能となって、乗法性歪と加法性雑音に対してロバストな音声認識が可能となる。
|
| 【出願人】 |
【識別番号】000005016 【氏名又は名称】パイオニア株式会社
|
| 【出願日】 |
平成12年9月18日(2000.9.18) |
| 【代理人】 |
【識別番号】100063565 【弁理士】 【氏名又は名称】小橋 信淳
|
| 【公開番号】 |
特開2002−91478(P2002−91478A) |
| 【公開日】 |
平成14年3月27日(2002.3.27) |
| 【出願番号】 |
特願2000−282348(P2000−282348) |
|