| 【発明の名称】 |
話者特徴推定装置および話者特徴推定方法、クラスタモデル作成装置、音声認識装置、音声合成装置、並びに、プログラム記録媒体 |
| 【発明者】 |
【氏名】八幡 洋一郎
【氏名】山口 耕市
|
| 【要約】 |
【課題】梨状窩形状の個人差等による音声スペクトル高周波数帯域の変動を除去する。
【解決手段】特徴量写像部1および関数推定部3は、複数の写像関数を用いて式(1)に基づく最尤推定によって一つの写像関数を選択し、話者特徴として出力する。その際に、特徴量変換部4は、特徴量写像部1によって複数の写像関数の夫々で写像された入力話者の音響特徴量を、声道における梨状窩形状の個人差等によって変動する音声スペクトル高周波数帯域において、標準話者モデル格納部2に格納された標準話者モデルから抽出された音響特徴量で変換して、関数推定部3に入力するようにしている。こうして、声道における梨状窩形状の個人差等による音声スペクトル高周波数帯域の変動の影響を除去して、話者特徴としての写像関数を精度よく推定する。 |
【特許請求の範囲】
【請求項1】 入力話者の音響特徴量を標準話者に類似した音響特徴量に写像する写像関数を推定し、推定した写像関数の情報を話者特徴とする話者特徴推定装置において、標準話者の音響特徴量に関する情報を格納する標準話者音響情報格納手段と、入力話者の音響特徴量を写像する特徴量写像手段と、上記入力話者の音響特徴量における声道の梨状窩形状の個人差によって変動が生ずる領域を、上記標準話者音響情報格納手段に格納された標準話者の音響特徴量に関する情報を用いて変換する特徴量変換手段と、上記写像および変換が行われた入力話者の音響特徴量と、上記標準話者の音響特徴量に関する情報とに基づいて、写像関数を推定する関数推定手段を備えたことを特徴とする話者特徴推定装置。 【請求項2】 請求項1に記載の話者特徴推定装置において、上記特徴量変換手段は、上記入力話者の音響特徴量における変換領域の下限位置を、入力話者の音声スペクトルの傾きと上記標準話者の音声スペクトルの傾きとの差が最も小さくなる同一周波数位置に設定するようになっていることを特徴とする話者特徴推定装置。 【請求項3】 請求項1に記載の話者特徴推定装置において、上記特徴量変換手段は、上記入力話者の音響特徴量の変換を、上記入力話者の音声スペクトルにおける上記変換領域に該当する周波数帯域と上記標準話者の音声スペクトルにおける該当する周波数帯域とにおけるスペクトル値の差異から求められた周波数特性変換フィルタを用いて行うようになっていることを特徴とする話者特徴推定装置。 【請求項4】 請求項2あるいは請求項3に記載の話者特徴推定装置において、上記特徴量変換手段が音声スペクトルを変換する周波数帯域の下限は3kHzから3.5kHzまでの間に在る一方、上限はサンプリング周波数の1/2であることを特徴とする話者特徴推定装置。 【請求項5】 請求項1乃至請求項4の何れか一つに記載の話者特徴推定装置において、上記特徴量写像手段は、狭母音を除く母音に対してのみ写像処理を行うようになっていることを特徴とする話者特徴推定装置。 【請求項6】 請求項1乃至請求項5の何れか一つに記載の話者特徴推定装置において、特徴量写像手段は、予め用意された複数の写像関数を用いて上記写像を行うようになっており、上記関数推定手段は、上記標準話者の音響特徴量に関する情報に対する上記写像及び変換が行われた入力話者の音響特徴量の尤度を最大にするという基準で、上記複数の写像関数から写像関数を最尤推定するようになっていることを特徴とする話者特徴推定装置。 【請求項7】 入力話者の音響特徴量を標準話者の音響特徴量に正規化する音声認識装置において、入力音声信号を分析して音響特徴量を抽出する音響分析手段と、上記音響分析手段からの入力話者の音響特徴量に基づいて入力話者の特徴を推定する請求項1乃至請求項6の何れか一つに記載の話者特徴推定装置と、上記音響分析手段からの入力話者の音響特徴量を、上記推定された入力話者の特徴としての写像関数を用いて写像する特徴量写像手段と、上記写像が行われた入力話者の音響特徴量と標準話者モデルとに基づいて上記入力音声信号を認識する認識手段を備えたことを特徴とする音声認識装置。 【請求項8】 標準話者モデルを入力話者に適応させる音声認識装置において、入力音声信号を分析して音響特徴量を抽出する音響分析手段と、上記音響分析手段からの入力話者の音響特徴量に基づいて入力話者の特徴を推定する請求項1乃至請求項6の何れか一つに記載の話者特徴推定装置と、上記推定された入力話者の特徴としての写像関数の逆関数を用いて、上記標準話者モデルを入力話者に適応させて適応モデルを生成するモデル適応手段と、上記生成された上記適応モデルを格納する適応モデル格納手段と、上記入力話者の音響特徴量と上記適応モデルとに基づいて、上記入力音声信号を認識する認識手段を備えたことを特徴とする音声認識装置。 【請求項9】 話者の音声信号に基づいて複数の話者を話者クラスタに分割し、各話者クラスタ用の音響モデルであるクラスタモデルを作成するクラスタモデル作成装置において、入力音声信号を分析して音響特徴量を抽出する音響分析手段と、上記音響分析手段からの入力話者の音響特徴量に基づいて入力話者の特徴を推定する請求項1乃至請求項6の何れか一つに記載の話者特徴推定装置と、上記推定された各入力話者の特徴を話者間距離として、複数の話者をクラスタリングするクラスタリング手段と、上記クラスタリング手段によって得られた各話者クラスタに属する入力話者の音響特徴量に基づいて、上記クラスタモデルを作成するモデル作成手段を備えたことを特徴とするクラスタモデル作成装置。 【請求項10】 話者の音声信号に基づいて複数の話者を話者クラスタに分割し、各話者クラスタ用の音響モデルであるクラスタモデルを作成するクラスタモデル作成装置において、入力音声信号を分析して音響特徴量を抽出する音響分析手段と、上記音響分析手段からの入力話者の音響特徴量に基づいて、各入力話者の音響モデルである話者モデルを作成する話者モデル作成手段と、上記話者モデルから音響特徴量を抽出する特徴量抽出手段と、上記抽出された音響特徴量に基づいて入力話者の特徴を推定する請求項1乃至請求項6の何れか一つに記載の話者特徴推定装置と、上記推定された各入力話者の特徴を話者間距離として、複数の話者をクラスタリングするクラスタリング手段と、上記クラスタリング手段によって得られた各話者クラスタに属する入力話者の音響特徴量に基づいて、上記クラスタモデルを作成するモデル作成手段を備えたことを特徴とするクラスタモデル作成装置。 【請求項11】 入力話者が属する話者クラスタ用の音響モデルであるクラスタモデルを用いて音声を認識する音声認識装置において、入力音声信号を分析して音響特徴量を抽出する音響分析手段と、上記音響分析手段からの入力話者の音響特徴量に基づいて入力話者の特徴を推定する請求項1乃至請求項6の何れか一つに記載の話者特徴推定装置と、請求項9あるいは請求項10に記載のクラスタモデル作成装置によって作成されたクラスタモデルを格納するクラスタモデル格納手段と、上記推定された入力話者の特徴に基づいて、上記クラスタモデル格納手段から該当するクラスタモデルを選択するモデル選択手段と、上記入力話者の音響特徴量と上記選択されたクラスタモデルとに基づいて、上記入力音声信号を認識する認識手段を備えたことを特徴とする音声認識装置。 【請求項12】 音韻記号列に基づいて標準話者の音声素片を接続して合成音声を出力する音声合成装置において、入力音声信号を分析して音響特徴量を抽出する音響分析手段と、上記音響分析手段からの入力話者の音響特徴量に基づいて入力話者の特徴を推定する請求項1乃至請求項6の何れか一つに記載の話者特徴推定装置と、標準話者の音声素片を格納する標準話者素片格納手段と、上記音韻記号列に基づいて、上記標準話者素片格納手段から該当する音声素片を選択する素片選択手段と、上記選択された音声素片の音響特徴量を、上記推定された入力話者の特徴としての写像関数の逆関数を用いて写像する特徴量写像手段と、上記写像が行われた音声素片同士を接続する素片接続手段を備えたことを特徴とする音声合成装置。 【請求項13】 入力話者の声質を他の話者の声質に変換する声質変換装置において、入力音声信号を分析して、音響特徴量を抽出すると共に、音響分析結果を出力する音響分析手段と、上記音響分析手段からの入力話者の音響特徴量に基づいて入力話者の特徴を推定する請求項1乃至請求項6の何れか一つに記載の話者特徴推定装置と、上記入力話者の音響特徴量を、上記推定された入力話者の特徴としての写像関数を用いて写像する特徴量写像手段と、上記写像が行われた入力話者の音響特徴量と上記音響分析手段からの音響分析結果とに基づいて音声を合成する合成手段を備えたことを特徴とする声質変換装置。 【請求項14】 入力話者の音響特徴量を標準話者に類似した音響特徴量に写像する写像関数を推定し、推定した写像関数の情報を話者特徴とする話者特徴推定方法において、入力話者の音響特徴量を複数の写像関数を用いて写像し、上記写像が行われた入力話者の音響特徴量における声道の梨状窩形状の個人差によって変動が生ずる領域を、標準話者の音響特徴量に関する情報を用いて変換し、上記変換が行われた入力話者の音響特徴量と上記標準話者の音響特徴量に関する情報とに基づいて、上記複数の写像関数から写像関数を最尤推定することを特徴とする話者特徴推定方法。 【請求項15】 コンピュータを、請求項1における上記特徴量写像手段,特徴量変換手段,標準話者モデル格納手段および関数推定手段として機能させる話者特徴推定処理プログラムが記録されたことを特徴とするコンピュータ読出し可能なプログラム記録媒体。
|
【発明の詳細な説明】【0001】 【発明の属する技術分野】この発明は、隠れマルコフモデル(Hidden Markov Model:以下、HMMと略称する)を用いた話者特徴推定装置および話者特徴推定方法、その推定方法を用いたクラスタモデル作成装置,音声認識装置,音声合成装置、並びに、話者特徴推定処理プログラムを記録したプログラム記録媒体に関する。 【0002】 【従来の技術】音響特徴量あるいはその確率モデル(例えばHMM)に基づいて入力音声の発話内容を推定する音声認識装置では、入力話者とモデル話者との話者性の違いへの対応が重要な課題となる。また、入力された音韻記号列に基づいて予め用意した音声素片を接続して出力する音声合成装置や、入力された音声を他話者の声質に変換する声質変換装置では、話者性の表現が重要な課題となる。 【0003】従来、入力音声から発話者の特徴を推定し、この推定された話者特徴に基づいて、上記入力話者の音響特徴量を標準話者の音響特徴量に正規化する音声認識装置がある。例えば、文献「AT&T Bell Labs. Li Lee,Richard C.Rose:“SpeakerNormalization using Efficient Frequency Warping Procedures”,ICASSP96,p.p.353‐356(1996)(文献A)」で報告された音声認識方法では、標準話者モデルに対して、入力話者の音響特徴量の尤度を最大にするという基準(最尤推定)で、入力話者の音響特徴量における周波数軸の線形伸縮係数を推定する。そして、その推定結果を用いて入力話者の音響特徴量の周波数軸を伸縮することによって標準話者の音響特徴量に正規化するようにしている。また、特開平11‐327592号公報(文献B)に開示されている音声認識装置では、入力話者の声道形状の特徴量を声道形状パラメータとフォルマント周波数との間の対応関係を参照して推定する。そして、その推定結果に基づいて生成した周波数ワーピング関数を用いて、入力話者の音響特徴量を標準話者の音響特徴量に正規化するようにしている。 【0004】さらには、入力話者の音響特徴量と標準話者の音響特徴量との差異に基づいて入力話者に標準話者モデルを適応する音声認識装置がある。例えば、登録特許1984184号(文献C)に開示された音声認識装置では、VFS(Vector FieldSmoothing)法に基づく話者適応技術を用いている。 【0005】また、複数の話者をクラスタリングし、得られた複数の話者クラスタに属する話者に基づいて作成した複数の音響モデルを備え、入力話者に応じた話者クラスタの音響モデルを選択して用いる音声認識装置がある。例えば、特開平11‐175090号公報(文献D)に開示された話者クラスタリング処理装置では、複数話者の声道形状の特徴量を推定し、その推定結果に基づいて話者をクラスタリングするようにしている。さらに、上記話者クラスタリング結果に基づく話者クラスタ毎に音響モデル(以下、クラスタモデルと言う)を生成しておき、入力話者の声道形状の特徴量を推定し、その推定結果に応じたクラスタモデルを選択して用いる音声認識装置も開示されている。 【0006】また、話者適応技術を用いて入力話者音声の音響特徴量を写像して、他話者音声の声質に変換する声質変換装置がある。例えば、特開平7‐104792号公報(文献E)に開示された声質変換装置では、量子化(VQ)コードブックマッピング法に基づく話者適応技術を用いるようにしている。さらに、文献「橋本誠,樋口宣男:“話者選択と移動ベクトル場平滑化を用いた声質変換のためのスペクトル写像”,信学技報,SP95‐1,p.p.1‐8,May 1995」(文献F)において報告されているように、VFS(Vector Field Smoothing)法に基づく話者適応技術を用いた声質変換方法も報告されている。 【0007】 【発明が解決しようとする課題】しかしながら、上記従来の音声認識方法,音声認識装置,話者クラスタリング処理装置および声質変換装置においては、以下のような問題がある。先ず、上記文献Aに開示された音声認識方法においては、発音器官の個人差によるスペクトル変動に際して、梨状窩形状の個人差等による高周波数帯域のスペクトル変動が考慮されていない。そのために、周波数軸の線形伸縮係数を精度よく推定することが困難であり、話者正規化による音声認識精度向上の効果が少ないという問題がある。 【0008】また、上記文献Bおよび文献Dに開示された音声認識装置においは、声道形状の特徴量を推定するために用いるフォルマント周波数の正確な推定が困難であるという問題がある。さらに、声道形状の特徴量利用による音声認識精度向上の効果が少ないという問題もある。 【0009】また、上記文献Cに開示された音声認識装置においては、上記VFS法に基づく話者適応技術を用いているために、多量の入力音声データを必要とするという問題がある。また、上記文献Eに開示された声質変換装置および文献Fに開示された声質変換方法においては、少ない発声データから精度のよい声質変換結果が得られないという問題がある。 【0010】そこで、この発明の目的は、声道における梨状窩形状の個人差等による音声スペクトル高周波数帯域の変動を考慮して少量の音声データから精度よく話者の特徴を推定できる話者特徴推定装置および話者特徴推定方法、その推定方法を用いたクラスタモデル作成装置,話者認識装置,音声合成装置、並びに、話者特徴推定プログラムを記録したプログラム記録媒体を提供することにある。 【0011】 【課題を解決するための手段】上記目的を達成するため、第1の発明は、入力話者の音響特徴量を標準話者に類似した音響特徴量に写像する写像関数を推定し,推定した写像関数の情報を話者特徴とする話者特徴推定装置において、標準話者の音響特徴量に関する情報を格納する標準話者音響情報格納手段と、入力話者の音響特徴量を写像する特徴量写像手段と、上記入力話者の音響特徴量における声道の梨状窩形状の個人差によって変動が生ずる領域を,上記標準話者音響情報格納手段に格納された標準話者の音響特徴量に関する情報を用いて変換する特徴量変換手段と、上記写像および変換が行われた入力話者の音響特徴量と,上記標準話者の音響特徴量に関する情報とに基づいて,写像関数を推定する関数推定手段を備えたことを特徴としている。 【0012】上記構成によれば、特徴量写像手段および関数推定手段によって、入力話者の音響特徴量と標準話者の音響特徴量に関する情報とに基づいて、上記写像関数が推定される。 【0013】その際に、上記関数推定手段に入力される入力音響特徴量は、上記特徴量写像手段によって写像されると共に、特徴量変換手段によって、声道における梨状窩形状の個人差によって変動が生ずる領域が上記標準話者の音響特徴量に変換されている。こうして、声道における梨状窩形状の個人差による音声スペクトル高周波数帯域の変動の影響が除去されて、話者特徴としての写像関数が精度良く推定される。 【0014】また、上記第1の発明の話者特徴推定装置は、上記特徴量変換手段を、上記入力話者の音響特徴量における変換領域の下限位置を、入力話者の音声スペクトルの傾きと上記標準話者の音声スペクトルの傾きとの差が最も小さくなる同一周波数位置に設定するように成すことが望ましい。 【0015】上記構成によれば、入力話者および標準話者の音声スペクトルを用いて、上記入力話者の音響特徴量における変換領域の下限位置が簡単に設定される。 【0016】また、上記第1の発明の話者特徴推定装置は、上記特徴量変換手段を、上記入力話者の音響特徴量の変換を、上記入力話者の音声スペクトルにおける上記変換領域に該当する周波数帯域と上記標準話者の音声スペクトルにおける該当する周波数帯域とにおけるスペクトル値の差異から求められた周波数特性変換フィルタを用いて行うように成すことが望ましい。 【0017】上記構成によれば、上記特徴量変換手段による入力話者の音響特徴量に対する変換が、入力話者の音声スペクトルに対して周波数特性変換フィルタを用いることによって簡単に行われる。 【0018】また、上記第1の発明の話者特徴推定装置は、上記特徴量変換手段によって音声スペクトルが変換される周波数帯域の下限を3kHzから3.5kHzまでの間とする一方、上限をサンプリング周波数の1/2とすることが望ましい。 【0019】上記構成によれば、声道における梨状窩形状の個人差によって変動する音声スペクトル高周波数帯域が的確に設定される。 【0020】また、上記第1の発明の話者特徴推定装置は、上記特徴量写像手段を、狭母音を除く母音に対してのみ写像処理を行うように成すことが望ましい。 【0021】上記構成によれば、音声スペクトルにおけるホルマントのピークの出現位置が不安定な狭母音を除く母音に対してのみ話者特徴推定処理が行われ、入力話者の特徴がさらに精度良く推定される。 【0022】また、上記第1の発明の話者特徴推定装置は、特徴量写像手段を,予め用意された複数の写像関数を用いて上記写像を行うように成し、上記関数推定手段を,上記標準話者の音響特徴量に関する情報に対する上記写像及び変換が行われた入力話者の音響特徴量の尤度を最大にするという基準で,上記複数の写像関数から写像関数を最尤推定するように成すことが望ましい。 【0023】上記構成によれば、複数の写像関数を用いた写像演算と上記尤度演算と尤度値比較演算との繰り返しの簡単な処理で、話者特徴としての写像関数が精度良く推定される。 【0024】また、第2の発明は、入力話者の音響特徴量を標準話者の音響特徴量に正規化する音声認識装置において、入力音声信号を分析して音響特徴量を抽出する音響分析手段と、上記音響分析手段からの入力話者の音響特徴量に基づいて入力話者の特徴を推定する上記第1の発明の話者特徴推定装置と、上記音響分析手段からの入力話者の音響特徴量を,上記推定された入力話者の特徴としての写像関数を用いて写像する特徴量写像手段と、上記写像が行われた入力話者の音響特徴量と標準話者モデルとに基づいて上記入力音声信号を認識する認識手段を備えたことを特徴としている。 【0025】上記構成によれば、入力音声信号が認識されるに先立って、入力音声の音響特徴量に基づいて入力話者の特徴が推定される。そして、上記推定された入力話者の特徴としての写像関数を用いて、上記入力音響特徴量が写像(話者正規化)される。 【0026】その場合における入力話者の特徴の推定は、声道における梨状窩形状の個人差による音声スペクトル高周波数帯域の変動の影響を除去して精度よく行われる。したがって、上記推定された写像関数を用いて話者正規化することによって、より標準話者の音響特徴量の周波数特性に近づくように入力話者の音響特徴量が正規化される。その結果、続いて実行される認識処理によって、高い認識率が得られるのである。 【0027】また、第3の発明は、標準話者モデルを入力話者に適応させる音声認識装置において、入力音声信号を分析して音響特徴量を抽出する音響分析手段と、上記音響分析手段からの入力話者の音響特徴量に基づいて入力話者の特徴を推定する上記第1の発明の話者特徴推定装置と、上記推定された入力話者の特徴としての写像関数の逆関数を用いて,上記標準話者モデルを入力話者に適応させて適応モデルを生成するモデル適応手段と、上記生成された上記適応モデルを格納する適応モデル格納手段と、上記入力話者の音響特徴量と上記適応モデルとに基づいて,上記入力音声信号を認識する認識手段を備えたことを特徴としている。 【0028】上記構成によれば、入力音声信号が認識されるに先立って、入力音声の音響特徴量に基づいて入力話者の特徴が推定される。そして、上記推定された入力話者の特徴としての写像関数の逆関数を用いて標準話者モデルが入力話者に適応された適応モデルが生成される。 【0029】その場合における入力話者の特徴の推定は、声道における梨状窩形状の個人差による音声スペクトル高周波数帯域の変動の影響を除去して精度よく行われる。したがって、上記推定された写像関数の逆関数を用いて標準話者モデルを話者適応することによって、より入力話者の音響特徴量の周波数特性に近い周波数特性を有する適応モデルが生成される。その結果、上記適応モデルを用いて実行される認識処理によって、高い認識率が得られるのである。 【0030】また、第4の発明は、話者の音声信号に基づいて複数の話者を話者クラスタに分割し,各話者クラスタ用の音響モデルであるクラスタモデルを作成するクラスタモデル作成装置において、入力音声信号を分析して音響特徴量を抽出する音響分析手段と、上記音響分析手段からの入力話者の音響特徴量に基づいて入力話者の特徴を推定する上記第1の発明の話者特徴推定装置と、上記推定された各入力話者の特徴を話者間距離として,複数の話者をクラスタリングするクラスタリング手段と、上記クラスタリング手段によって得られた各話者クラスタに属する入力話者の音響特徴量に基づいて,上記クラスタモデルを作成するモデル作成手段を備えたことを特徴としている。 【0031】上記構成によれば、クラスタモデルが作成されるに先立って、入力音声の音響特徴量に基づいて入力話者の特徴が推定される。そして、上記推定された入力話者の特徴を話者間距離として、複数の話者がクラスタリングされる。 【0032】その場合における入力話者の特徴の推定は、声道における梨状窩形状の個人差による音声スペクトル高周波数帯域の変動の影響を除去して精度よく行われる。したがって、上記推定された写像関数を話者間距離としてクラスタリングを行うことによって、より話者に適合した話者間距離を用いてクラスタリングが行われる。その結果、話者集団における発声特性の分布を的確に表現できるクラスタモデルが作成されるのである。 【0033】また、第5の発明は、話者の音声信号に基づいて複数の話者を話者クラスタに分割し,各話者クラスタ用の音響モデルであるクラスタモデルを作成するクラスタモデル作成装置において、入力音声信号を分析して音響特徴量を抽出する音響分析手段と、上記音響分析手段からの入力話者の音響特徴量に基づいて,各入力話者の音響モデルである話者モデルを作成する話者モデル作成手段と、上記話者モデルから音響特徴量を抽出する特徴量抽出手段と、上記抽出された音響特徴量に基づいて入力話者の特徴を推定する上記第1の発明の話者特徴推定装置と、上記推定された各入力話者の特徴を話者間距離として,複数の話者をクラスタリングするクラスタリング手段と、上記クラスタリング手段によって得られた各話者クラスタに属する入力話者の音響特徴量に基づいて,上記クラスタモデルを作成するモデル作成手段を備えたことを特徴としている。 【0034】上記構成によれば、クラスタモデルが作成されるに先立って、入力話者の音響特徴量に基づいて作成された話者モデルから音響特徴量が抽出される。そして、この抽出された音響特徴量に基づいて話者特徴推定装置によって入力話者の特徴が推定され、上記推定された入力話者の特徴を話者間距離として複数の話者がクラスタリングされる。 【0035】その場合における入力話者の特徴の推定は、声道における梨状窩形状の個人差による音声スペクトル高周波数帯域の変動の影響を除去して精度よく行われる。したがって、上記推定された写像関数を話者間距離としてクラスタリングを行うことによって、より話者に適合した話者間距離を用いてクラスタリングが行われる。その結果、話者集団における発声特性の分布を的確に表現できるクラスタモデルが作成されるのである。 【0036】さらに、上記話者特徴推定装置は、上記各話者モデルから抽出された音響特徴量に基づいて、入力話者の特徴を推定するようにしている。こうして、入力話者の音響特徴量における発話内の変動が除去されて、入力話者の特徴がより精度良く推定される。 【0037】また、第6の発明は、入力話者が属する話者クラスタ用の音響モデルであるクラスタモデルを用いて音声を認識する音声認識装置において、入力音声信号を分析して音響特徴量を抽出する音響分析手段と、上記音響分析手段からの入力話者の音響特徴量に基づいて入力話者の特徴を推定する上記第1の発明の話者特徴推定装置と、上記第4の発明あるいは第5の発明のクラスタモデル作成装置によって作成されたクラスタモデルを格納するクラスタモデル格納手段と、上記推定された入力話者の特徴に基づいて,上記クラスタモデル格納手段から該当するクラスタモデルを選択するモデル選択手段と、上記入力話者の音響特徴量と上記選択されたクラスタモデルとに基づいて,上記入力音声信号を認識する認識手段を備えたことを特徴としている。 【0038】上記構成によれば、上記第4の発明あるいは第5の発明のクラスタモデル作成装置によって作成されたクラスタモデルが用意されている。そして、入力音声信号が認識されるに先立って、入力音声の音響特徴量に基づいて入力話者の特徴が推定される。そして、上記推定された入力話者の特徴に基づいて該当するクラスタモデルが選択される。 【0039】その場合における上記クラスタモデルの作成および選択時に用いられる入力話者の特徴の推定は、声道における梨状窩形状の個人差による音声スペクトル高周波数帯域の変動の影響を除去して精度よく行われる。したがって、上記推定された入力話者の特徴を用いて上記クラスタモデルの作成および選択が行われることによって、話者集団における発声特性の分布を的確に表すクラスタモデルを用いて認識処理が行われ、高い認識率が得られるのである。 【0040】また、第7の発明は、音韻記号列に基づいて標準話者の音声素片を接続して合成音声を出力する音声合成装置において、入力音声信号を分析して音響特徴量を抽出する音響分析手段と、上記音響分析手段からの入力話者の音響特徴量に基づいて入力話者の特徴を推定する上記第1の発明の話者特徴推定装置と、標準話者の音声素片を格納する標準話者素片格納手段と、上記音韻記号列に基づいて上記標準話者素片格納手段から該当する音声素片を選択する素片選択手段と、上記選択された音声素片の音響特徴量を,上記推定された入力話者の特徴としての写像関数の逆関数を用いて写像する特徴量写像手段と、上記写像が行われた音声素片同士を接続する素片接続手段を備えたことを特徴としている。 【0041】上記構成によれば、標準話者の音声素片同士が接続されて合成音声が生成されるに先立って、入力音声の音響特徴量に基づいて入力話者(学習話者)の特徴が推定される。そして、音韻記号列に基づいて選択された音声素片の音響特徴量が上記推定された入力話者の特徴としての写像関数の逆関数を用いて写像されて、入力話者の声質に変換された音声素片が生成される。 【0042】その場合における入力話者の特徴の推定は、声道における梨状窩形状の個人差による音声スペクトル高周波数帯域の変動の影響を除去して精度よく行われる。したがって、上記推定された写像関数の逆関数を用いて上記標準話者の音声素片を写像することによって、より入力話者(学習話者)の声質に近い声質に変換された合成音声が得られるのである。 【0043】また、第8の発明は、入力話者の声質を他の話者の声質に変換する声質変換装置において、入力音声信号を分析して,音響特徴量を抽出すると共に,音響分析結果を出力する音響分析手段と、上記音響分析手段からの入力話者の音響特徴量に基づいて入力話者の特徴を推定する上記第1の発明の話者特徴推定装置と、上記入力話者の音響特徴量を,上記推定された入力話者の特徴としての写像関数を用いて写像する特徴量写像手段と、上記写像が行われた入力話者の音響特徴量と上記音響分析手段からの音響分析結果に基づいて音声を合成する合成手段を備えたことを特徴としている。 【0044】上記構成によれば、入力話者の声質が変換されるに先立って、入力音声の音響特徴量に基づいて入力話者の特徴が推定される。そして、入力話者の音響特徴量が上記推定された入力話者の特徴としての写像関数を用いて写像され、入力話者の声質が、上記入力話者の特徴推定時における標準話者であるターゲット話者の声質に変換される。 【0045】その場合における入力話者の特徴の推定は、声道における梨状窩形状の個人差による音声スペクトル高周波数帯域の変動の影響を除去して精度よく行われる。したがって、上記推定された写像関数を用いて上記入力話者の音響特徴量を写像することによって、よりターゲット話者の声質に近い声質に変換された音声が得られるのである。 【0046】また、第9の発明は、入力話者の音響特徴量を標準話者に類似した音響特徴量に写像する写像関数を推定し,推定した写像関数の情報を話者特徴とする話者特徴推定方法において、入力話者の音響特徴量を複数の写像関数を用いて写像し、上記写像が行われた入力話者の音響特徴量における声道の梨状窩形状の個人差によって変動が生ずる領域を標準話者の音響特徴量に関する情報を用いて変換し、上記変換が行われた入力話者の音響特徴量と上記標準話者の音響特徴量に関する情報とに基づいて上記複数の写像関数から写像関数を最尤推定することを特徴としている。 【0047】上記構成によれば、複数の写像関数を用いて写像されると共に、声道における梨状窩形状の個人差による音声スペクトル高周波数帯域の変動の影響が除去された入力話者の音響特徴量と、標準話者の音響特徴量に関する情報とに基づいて、上記複数の写像関数から写像関数が最尤推定される。こうして、話者特徴としての写像関数が精度良く推定される。 【0048】また、第10の発明のプログラム記録媒体は、コンピュータを、上記第1の発明の話者特徴推定装置における上記特徴量写像手段,特徴量変換手段,標準話者モデル格納手段および関数推定手段として機能させる話者特徴推定処理プログラムが記録されていることを特徴としている。 【0049】上記構成によれば、上記第1の発明の場合と同様に、写像されると共に、声道における梨状窩形状の個人差による音声スペクトル高周波数帯域の変動の影響が除去された入力話者の音響特徴量と、標準話者の音響特徴量に関する情報とに基づいて写像関数が推定される。こうして、話者特徴としての写像関数が精度良く推定される。 【0050】 【発明の実施の形態】以下、この発明を図示の実施の形態により詳細に説明する。 <第1実施の形態>図1は、本実施の形態の話者特徴推定装置におけるブロック図である。特徴量写像部1は、専用のLSI(大規模集積回路)素子等によって構成されて、後述する関数推定部3から取得した写像関数fに基づいて入力音響特徴量を写像する。尚、上記入力音響特徴量としては、例えばMFCC(メル周波数FFT(高速フーリエ変換)ケプストラム)やLPC(線形予測分析)メルケプストラム等の音声スペクトルを効率よく表現できるものを用いる。尚、以下の説明においては、LPCメルケプストラムを用いる場合を例に挙げる。 【0051】標準話者モデル格納部2は、半導体メモリや磁気メモリや記憶装置等によって構成されて、標準話者の音響特徴量に関する情報が格納されている。ここで、上記標準話者の音響特徴量に関する情報としてHMM(以下、音響モデルあるいは単にモデルとも言う)を用いる。上記HMMは、大量の音声データから得られる音声の統計的特徴を確率的にモデル化したものであり、HMMを用いた音声認識方式の詳細は、中川聖一著「確率モデルによる音声認識」(電子情報通信学会)に詳しい。 【0052】上記関数推定部3は、専用のLSI素子等によって構成されて、内部メモリに複数の写像関数fを格納しており、この複数の写像関数fを順次特徴量写像部1に送出する。さらに、標準話者モデル格納部2に格納されている標準話者モデルと、後述の特徴量変換部4によって得られる音響特徴量とを用いて、式(1)に従って、複数の写像関数fのうち最大累積尤度を与える写像関数fを最尤推定し、この推定された写像関数fあるいはこの写像関数fに関連付けられたインデックス等を話者特徴として出力する。
ここで、 f:写像関数P():音響モデルによって得られる確率Uf:写像関数fで写像された入力音響特徴量系列W:入力音響特徴量系列Ufに対応する音韻記号列【0053】尚、以下の説明における写像関数fの推定方法では、予め用意した複数の写像関数fから最尤推定に基づいて一つの写像関数fを選択するようにしている。しかしながら、式(1)に基づく最尤推定方法であれば他の推定方法であっても差し支えなく、本実施の形態においては推定方法を限定するものではない。例えば、Newton法を用いて任意の関数に収束させる方法等を用いてもよい。 【0054】上記特徴量変換部4は、専用のLSI素子等によって構成されて、上記特徴量写像部1によって写像された音響特徴量の一部を、標準話者モデル格納部2に格納された標準話者モデルを用いて変換する。そして、変換後の音響特徴量を上記関数推定部3に出力する。尚、この特徴量変換部4による変換処理が、本実施の形態における一つの特徴である。 【0055】ここで、上記各部を構成する素子等は、一つであっても複数が複合されたものであっても本実施の形態に影響はない。また、上記各部は、CPU(中央演算処理装置)あるいはその周辺機器等で代用してもよい。 【0056】図2は、図1に示す話者特徴推定装置によって実行される話者特徴推定処理動作のフローチャートである。以下、図2に従って、話者特徴推定処理動作について説明する。ステップS1で、特徴量写像部1に音響特徴量が入力される。ステップS2で、特徴量写像部1によって、入力音響特徴量は狭母音(「イ」や「ウ」)を除く母音(すなわち、「ア」や「エ」や「オ」等)の音響特徴量であるか否かが判別される。その結果、上記狭母音を除く母音であればステップS3に進み、上記狭母音を除く母音でなければ(すなわち、狭母音または子音であれば)上記ステップS1に戻って、次の音響特徴量の入力処理に移行する。 【0057】上記入力音響特徴量の音韻情報を獲得する方法は本実施の形態には直接的に関係はなく、その獲得方法を限定するものではない。例えば、発声内容として「ア」や「エ」や「オ」を発話者に指示し、発声内容既知として処理すればよい。また、発声内容が複数語彙候補の中の一つである場合には音声認識処理を行い、ビタビ演算等を用いて音韻情報を推定すればよい。 【0058】ステップS3で、上記特徴量写像部1によって、カウンタiに初期値「1」が代入される。ステップS4で、特徴量写像部1によって、関数推定部3から送出されてくるカウンタiの値に対応する写像関数fi()を用いて、上記入力された狭母音を除く母音の音響特徴量が写像されて特徴量変換部4に送出される。尚、写像関数の例および写像処理の詳細な動作については後述する。ステップS5で、特徴量変換部4によって、上記ステップS4において写像された音響特徴量の一部(声道における梨状窩形状の個人差等によって変動する部分)が、標準話者モデルから得られる標準話者の音響特徴量を用いて変換されて関数推定部3に送出される。尚、上記変換処理の詳細な動作については後述する。 【0059】ステップS6で、上記関数推定部3によって、上記ステップS5において変換された音響特徴量(LPCメルケプストラム)の標準話者モデル(HMM)に対する尤度が算出されて累積尤度piとして保存される。尚、上記尤度算出処理の詳細な動作については後述する。ステップS7で、関数推定部3によって、カウンタiの値が関数推定部3に予め用意されている写像関数fi()の数Nより大きいか否かが判別される。その結果大きい場合にはステップS9に進む一方、そうでなければステップS8に進む。ステップS8で、特徴量写像部1によって、カウンタiの内容が「1」だけインクリメントされる。そうした後に、上記ステップS4に戻って次の写像関数fi()を用いた処理に移行する。ステップS9で、特徴量写像部1によって、入力対象の総ての音響特徴量が入力されたか否かが判別される。その結果、総て入力されていればステップS10に進み、そうでなければ上記ステップS1に戻って次の音響特徴量が入力される。 【0060】ステップS10で、上記関数推定部3によって、上記ステップS6において保存された総ての累積尤度pi(i=1,2,…,N)の中から最大値が選択されて推定値p^として保存され、上記推定値p^を呈するiの値が推定値i^として保存される。ステップS11で、関数推定部3によって、上記ステップS10において選択された推定値p^を与える推定値i^に対応する写像関数f^i()が、話者特徴として出力される。その場合、出力される情報は写像関数fi()に限定されるものではなく、写像関数f^i()を決定できるインデックスとして推定値i^あるいは写像関数f^i()を一意に決定づける後述の線形伸縮係数αi等であってもよい。そうした後、話者特徴推定処理動作を終了する。 【0061】尚、上述した話者特徴推定処理動作のフローチャートにおけるステップS2の上記狭母音の削除処理は省略しても差し支えない。 【0062】図3は、図2に示す話者特徴推定処理動作のフローチャートにおける上記ステップS4において特徴量写像部1によって実行される音響特徴量写像処理動作を示すフローチャートである。上記話者特徴推定処理動作のフローチャートにおける上記ステップS3においてカウンタiの値が設定されると音響特徴量写像処理動作がスタートする。 【0063】ステップS21で、上記狭母音を除く母音の音響特徴量(LPCメルケプストラム)が逆cos変換される。ここで、上記逆cos変換することによって、上記音響特徴量が周波数次元の対数パワー(対数パワースペクトル)として表現される。ステップS22で、上記写像関数fi()を用いて入力音響特徴量の周波数軸が伸縮される。そうした後、音響特徴量写像処理動作を終了して上記話者特徴推定処理動作のフローチャートにおける上記ステップS5に移行する。 【0064】図4は、上記写像関数fi()の一例を示す図である。図4において、横軸xは周波数軸伸縮前の音響特徴量の周波数軸であり、縦軸f(x)は周波数軸伸縮後の音響特徴量の周波数軸である。尚、写像関数fi()は、下記の式で表される。ここで、写像関数fi()として線形伸縮係数に基づく線形関数を用いるのは、声道長の個人差を次元数の少ないパラメータで簡潔に表現するためである。尚、声道長と音声スペクトルとの詳細な関係については文献Aに詳しい。 【0065】写像関数fi():・x≦min(ω/αi,ω)では、fi(x)=αi・x (i=1,2,…,N)・min(ω/αi,ω)<xでは、αi>1のとき fi(x)→(ω/αi,ω)と(fs/2,fs/2)とを結ぶ直線αi≦1のとき fi(x)→(ω,αi・ω)と(fs/2,fs/2)とを結ぶ直線但し、N:写像関数fi()の数αi:線形伸縮係数 (0.8≦αi≦1.2の範囲を(N−1)等分して得られる値)fs:サンプリング周波数(例えば12kHz)ω:写像関数の接続点(例えば4kHz)ここで、ωによって接続点を設置するのは、周波数軸伸縮前後の定義域を保ち、且つ不連続性に対処するためである。 【0066】図5は、図2に示す話者特徴推定処理動作のフローチャートにおけるステップS5において特徴量変換部4によって実行される音響特徴量変換処理動作を示すフローチャートである。上記話者特徴推定処理動作のフローチャートにおける上記ステップS4において音響特徴量写像処理動作が終了すると音響特徴量変換処理動作がスタートする。 【0067】ステップS31で、上記標準話者モデル格納部2から標準話者モデルが入力される。ステップS32で、標準話者モデルから音響特徴量が抽出される。例えば、連続HMMは平均値ベクトルと分散ベクトルからなる多次元ガウス分布による出力確率密度関数の集合で構成されており、入力音響特徴量の音韻に対応するステート(HMMの状態)の平均値ベクトルを標準話者の音響特徴量として抽出する。ステップS33で、図3に示す音響特徴量写像処理動作のフローチャートにおけるステップS21と同様にして逆cos変換処理が行われる。ステップS34で、標準話者の音響特徴量で置換する入力話者の音響特徴量の範囲、すなわち、声道における梨状窩形状の個人差等によって変動する周波数範囲が決定される。その際に、置換範囲の下限を決定する基準は、例えば、3.0kHzにおいて、入力話者音響特徴量(音声対数パワースペクトル)の傾きと標準話者音響特徴量(音声対数パワースペクトル)の傾きとを比較した値(例えば傾き値の差)を保存し、同様に3.5kHzまでの各周波数ポイントにおける傾き比較値を保存し、保存した値の中から最も小さい値(両者の傾きが近い)の周波数ポイントを置換範囲の下限として選択する。ここで、入力話者音響特徴量と標準話者音響特徴量とが同じ傾き(傾き値の差0)を呈する周波数ポイントが複数存在する場合には、最も大きい周波数ポイントを採用する。これに対して、置換範囲の上限は、例えばfs/2(=6kHz)とする。 【0068】ステップS35で、上記ステップS34において決定された置換範囲に関して、入力話者の音響特徴量が標準話者の音響特徴量で置換される。尚、置換の際には、音響特徴量の連続性を保つために、上記置換範囲の下限周波数ポイントにおいては、標準話者音響特徴量の値が入力話者音響特徴量の値に等しくなるように、標準話者音響特徴量を対数パワー軸方向に平行移動してから置換する。あるいは、逆に、入力話者音響特徴量の値が標準話者音響特徴量の値に等しくなるように、入力話者音響特徴量を対数パワー軸方向に平行移動してから置換してもよい。また、標準話者音響特徴量の値が入力話者音響特徴量の値に等しくなるように、標準話者音響特徴量を、置換範囲の上限周波数ポイントにおける標準話者音響特徴量の値を固定して、対数パワー軸方向に線形伸縮してから置換してもよい。あるいは、逆に、入力話者音響特徴量の値が標準話者音響特徴量の値に等しくなるように、入力話者音響特徴量を、0kHzにおける入力話者音声対数パワースペクトルの値を固定して、対数パワー軸方向に線形伸縮してから置換してもよい。 【0069】ステップS36で、上記置換処理によって一部が置換された入力話者音響特徴量がcos変換される。このようにcos変換することによって、入力話者の音響特徴量がLPCメルケプストラムとして表現される。そうした後、音響特徴量変換処理動作を終了して上記話者特徴推定処理動作のフローチャートにおける上記ステップS6に移行する。 【0070】図3の写像処理および図5の変換処理においては、上記入力音響特徴量はLPCメルケプストラムである場合について説明している。しかしながら、この発明においてはLPCメルケプストラムに限定するものではなく、MFCC等他のパラメータであってもよい。尚、他のパラメータである場合には、図3の写像処理動作における上記ステップS21及び図5の変換処理動作における上記ステップS33での逆cos変換処理においては、入力音響特徴量を周波数次元の対数パワー(対数パワースペクトル)になるように変換する。そして、図5の変換処理動作における上記ステップS36でのcos変換処理においては、入力音響特徴量を元のパラメータとなるように変換すればよい。 【0071】さらに、図3の写像処理動作における上記ステップS22および図5の置換処理動作における上記ステップS34においては、周波数次元の対数パワー(対数パワースペクトル)を用いる場合について説明しているが、対数パワーに限定するものではなく、直接算出される周波数次元のパワー(パワースペクトル)を用いても差し支えない。尚、周波数次元のパワーを用いる場合には、図3の写像処理動作における上記ステップS21および図5の変換処理動作における上記ステップS33での逆cos変換処理の後に、例えば、対数パワーを指数演算してパワーに変換する指数変換処理ステップを実行する。そして、図5の変換処理動作における上記ステップS36でのcos変換処理の前に、パワーを対数演算して対数パワーに変換するステップを実行すればよい。 【0072】図6は、上記特徴量変換部4による音響特徴量変換処理が行われる前における入力話者音響特徴量(音声対数パワースペクトル)の一例を示す。図6において、横軸は周波数であり、縦軸は対数パワーである。また、破線で示される曲線は、標準話者の音響特徴量(音声対数パワースペクトル)を示す。Aで示す範囲は、図5の変換処理動作における上記ステップS34において置換範囲の下限を決定する際の対象範囲である。 【0073】また、図7は、上記特徴量変換部4による音響特徴量変換処理が行われた後における入力話者音響特徴量の一例を示す図である。図7において、横軸は周波数であり、縦軸は対数パワーである。また、破線で示される曲線は、標準話者の音響特徴量を示す。Bで示す範囲は、図5の変換処理動作における上記ステップS35において入力話者の音響特徴量が置換される置換範囲である。図より、上記置換処理動作によって、置換範囲B内における入力話者の周波数特性が標準話者の周波数特性に近づいていることがわかる。 【0074】図8は、図5に示す音響特徴量変換処理動作とは異なる音響特徴量変換処理動作のフローチャートである。この音響特徴量変換処理動作は、上記話者特徴推定処理動作のフローチャートにおける上記ステップS4において音響特徴量写像処理動作が終了するとスタートする。 【0075】ステップS41〜ステップS43で、図5に示す音響特徴量変換処理動作におけるステップS31〜ステップS33と同様にして、標準話者モデルの入力、音響特徴量の抽出、逆cos変換処理が行われる。 【0076】ステップS44で、上記入力話者音響特徴量における高周波数帯域の特性を変換する変換フィルタが作成される。この変換フィルタ作成時においては、例えば、3kHzからfs/2(=6kHz)の範囲で、入力話者音響特徴量と標準話者音響特徴量との比を求め、平滑化を施して変換フィルタを設計する。その際に、0kHzから3kHzの範囲においては特性変更なしとするのである。ステップS45で、上記作成された周波数特性変換フィルタを用いて、上記ステップS43における逆cos変換処理によって得られた対数パワースペクトルの周波数特性が変更される。 【0077】ステップS46で、図5に示す音響特徴量変換処理動作におけるステップS36と同様にして、上記フィルタ処理で対数パワースペクトルの周波数特性が変更された入力話者音響特徴量がcos変換される。そうした後に、音響特徴量変換処理動作を終了して上記話者特徴推定処理動作のフローチャートにおける上記ステップS6に移行する。 【0078】図9は、図8に示す音響特徴量変換処理動作のフローチャートにおけるステップS44において作成される変換フィルタの一例を示す。この変換フィルタは、周波数特性変換用のフィルタである。図9において、横軸は周波数であり、縦軸はゲインである。尚、図9は、図6に示す入力話者音響特徴量と標準話者音響特徴量との比に基づいて作成された周波数特性変換フィルタの例である。図9より、上記変換フィルタは、入力話者音響特徴量が標準話者音響特徴量より小さい周波数領域では入力話者音響特徴量を上げる一方、大きい周波数領域では下げる周波数特性を有していることが解かる。 【0079】図10は、図2に示す話者特徴推定処理動作のフローチャートにおけるステップS6において関数推定部3によって実行される尤度算出処理動作を示すフローチャートである。上記話者特徴推定処理動作のフローチャートにおける上記ステップS5において音響特徴量変換処理動作が終了すると尤度算出処理動作がスタートする。 【0080】ステップS51で、後述する累積尤度の初期化処理が既に済んでいるか否かが判別される。その結果、済んでいればステップS53に進み、済んでいなければステップS52に進む。ステップS52で、上記累積尤度初期化処理が実行されて、累積尤度pi(i=1,2,…,N)が、例えば「0」あるいは「1」に初期化される。ステップS53で、入力話者音響特徴量の標準話者モデル(HMM)に対する尤度p'が、式(2)によって算出される。 p'=bs(→u) …(2)但し、bs():標準話者音響モデルの第sステートに対応する出力確率密度関数s:入力話者音響特徴量の音韻に対応する標準話者音響モデルのステート番号 尚、式(2)中の「→u」は入力話者音響特徴量を表し、例えば音声対数パワー,LPCメルケプストラムおよび夫々の線形一次回帰係数から成るベクトルである。 【0081】ここで、上記標準話者モデルが離散HMMである場合には、尤度p'として、入力音響特徴量「→u」の標準話者モデル(離散HMM)に対する出力確率を算出すればよい。 【0082】ステップS54で、上記ステップS53において算出された尤度p'が、上記標準話者音響モデルの全ステートに関する累積尤度piの値に累積保存される。この場合、尤度p'として対数値が求められている場合は、上記累積保存は、式(3)に示すように加算すればよい。 pi=pi+p' …(3)【0083】上述したように、本実施の形態においては、上記特徴量写像部1および関数推定部3において、予め用意した複数の写像関数fi(i=1,2,…,N)を用いて、式(1)に従って最尤推定に基づいて一つの写像関数fを選択し、この選択された写像関数fを、話者特徴として出力する。その際に、関数推定部3に入力される入力話者の音響特徴量として、特徴量写像部1によって写像関数fiで写像された音響特徴量を、特徴量変換部4によって、求められた置換範囲において、標準話者モデル格納部2に格納された標準話者モデルから抽出された音響特徴量で置換するようにしている。そして、その場合における置換範囲の下限値は、3kHz〜3.5kHzの範囲内で、入力話者の音声スペクトルの傾きと標準話者の音声スペクトルの傾きの差が最小となる点とする。また、上限値はサンプリング周波数fsの1/2とする。 【0084】したがって、本実施の形態によれば、上記声道における梨状窩形状の個人差等による音声スペクトル高周波数帯域の変動の影響を除去して、話者特徴としての写像関数を精度よく推定することができるのである。また、その際に、入力話者の音響特徴量における声道長の梨状窩形状の個人差による変動を予め補正しておくので、少量の音声データから入力話者の特徴を精度よく推定することができるのである。 【0085】また、上記入力話者の音声スペクトルにおける上記置換範囲と上記標準話者の音声スペクトルにおける該当する周波数範囲とにおけるスペクトル値の差異から求めた変換フィルタを用いることによって、上記入力話者の音響特徴量の変換処理を簡単な処理で行うこともできる。 【0086】また、上記話者特徴推定処理動作を、狭母音を除く母音に対してのみ行うようにしている。したがって、音声スペクトルにおけるホルマントのピークの出現位置が不安定な狭母音を除く母音に対してのみ話者特徴推定処理を行って、入力話者の特徴をより精度良く推定することができる。 【0087】尚、上記実施の形態においては、上記特徴量写像部1によって写像した入力話者音響特徴量を、特徴量変換部4によって変換するようにしている。しかしながら、本実施の形態は、これに限定されるものではない。図11は、本実施の形態による話者特徴推定装置における他の実施例を示すブロック図である。図11において、特徴量写像部11,標準話者モデル格納部12,関数推定部13および特徴量変換部14は、図1に示す話者特徴推定装置における特徴量写像部1,標準話者モデル格納部2,関数推定部3および特徴量変換部4と同様である。但し、本話者特徴推定装置においては、特徴量写像部11によって入力音響特徴量を写像する前に、特徴量変換部14によって入力音響特徴量を変換する点において、図1に示す話者特徴推定装置とは異なる。 【0088】尚、図11に示す話者特徴推定装置によって実行される話者特徴推定処理は、図2に示すフローチャートにおいて、特徴量変換部4によってステップS5において実行される音響特徴量の変換処理を、ステップS1において実行される音響特徴量の入力処理と、ステップS4において実行される音響特徴量の写像処理との間において実行するようにすればよい。 【0089】<第2実施の形態>本実施の形態は、第1実施の形態における話者特徴推定装置を用いた音声認識装置に関する。図12は、本実施の形態における話者正規化方式による音声認識装置のブロック図である。図12において、特徴量写像部21,標準話者モデル格納部22,関数推定部23および特徴量変換部24は、図1に示す話者特徴推定装置における特徴量写像部1,標準話者モデル格納部2,関数推定部3および特徴量変換部4と同様であり、上記話者特徴推定装置を構成している。但し、特徴量写像部21は、音声認識時にも、入力音響特徴量に対して、自身が構成要素となっている上記話者特徴推定装置で推定された写像関数fを用いた写像処理を行うようになっている。 【0090】音響分析部25は、専用のLSI素子等によって構成されて、入力音声信号を分析する。認識部26は、専用のLSI素子と専用の半導体メモリや磁気メモリや記憶装置等とによって構成されている。そして、特徴量写像部21から送出される写像後の音響特徴量と、標準話者モデル格納部22に格納された標準話者モデルとに基づいて、発声内容を認識する。 【0091】図13は、図12に示す音声認識装置によって実行される音声認識処理動作のフローチャートである。以下、図13に従って、音声認識処理動作について説明する。先ず、ステップS61で、音響分析部25によって音声信号が入力される。上記入力音声信号は、例えば、マイク等から入力されてA/D変換器(図示せず)や記録媒体等を通して得られるデジタル音声信号である。ステップS62で、音響分析部25によって、上記音声信号が短い時間間隔(フレーム)毎に周波数分析されて、スペクトルを表すパラメータのベクトル系列に変換される。尚、周波数分析には、例えばMFCCやLPCメルケプストラム等の音声スペクトルを効率よく表現できる音響特徴を抽出できる分析方法を用いる。 【0092】ステップS63で、上記特徴量写像部21によって、音声認識モードであるか否かが判別される。その結果、音声認識モードであればステップS65に進み、音声認識モードでなければ(つまり、話者特徴推定モードであれば)ステップS64に進む。尚、上記音声認識モードであるか否かを管理するモード情報管理方法は本実施の形態には直接関係はなく、モード情報管理方法を限定するものではない。例えば、通常は音声認識モードに設定しておき、発話者が話者特徴推定スイッチを押して発声した場合に話者特徴推定モードに変更する管理方法が簡単である。 【0093】ステップS64で、上記特徴量写像部21,標準話者モデル格納部22,関数推定部23及び特徴量変換部24で構成される話者特徴推定装置によって、話者特徴推定処理が実行される。尚、その場合における話者特徴推定処理動作は、上記第1実施の形態における図2のフローチャートと同様である。そうした後、上記ステップS61に戻って次の音声信号の入力処理に移行する。そして、上記ステップS63において音声認識モードであると判別されると、上記ステップS65に進む。 【0094】ステップS65で、上記特徴量写像部21によって、入力音響特徴量に対して写像が行われる。その場合に用いられる写像関数fは、上記ステップS64における話者特徴推定処理によって推定された写像関数f^i()が用いられる。尚、その場合における音響特徴量写像処理は、上記第1実施の形態における図3に示す音響特徴量写像処理動作と同様である。また、話者特徴が未推定である場合には、例えば、当該ステップをスキップするようにしておけばよい。ステップS66で、上記認識部26によって、上記写像された入力音響特徴量(LPCメルケプストラム)と、標準話者モデル(HMM)と、言語情報を表現する言語モデル(例えば単語辞書等)(図示せず)に基づいて、例えば音韻類似度として尤度が求められ、ビタビ演算を行って各単語のスコア(類似度)が算出されて、上位のスコアを呈する単語が認識結果と決定される。ステップS67で、認識部26によって、上記認識結果が出力される。そうした後、音声認識処理動作を終了する。 【0095】このように、本実施の形態における音声認識装置は、第1実施の形態における話者特徴推定装置を搭載している。そして、音声認識処理に先立って、入力音声の音響特徴量に基づいて、話者特徴推定装置によって話者特徴(写像関数f^i)を推定する。そして、推定された写像関数f^iを用いて上記入力音響特徴量を話者正規化するようにしている。 【0096】その場合における写像関数f^iの推定は、声道における梨状窩形状の個人差等による音声スペクトル高周波数帯域の変動の影響を除去して精度よく行われる。したがって、上記推定された写像関数f^iを用いて話者正規化を行なうことによって、標準話者モデル格納部22に格納された標準話者の音響モデルの周波数特性により近づくように入力話者を正規化することができる。すなわち、本実施の形態によれば、続いて実行される認識処理によって、高い認識率を得ることができるのである。 【0097】尚、上記実施の形態においては、上記特徴量写像部21に、上記話者特徴推定装置における音響特徴量写像手段としての機能と、音声認識時における話者正規化手段としての機能とを兼用させている。しかしながら、この発明はこれに限定されるものではなく、上記話者正規化手段としての特徴量写像部を独立して設けても差し支えない。 【0098】<第3実施の形態>本実施の形態は、第1実施の形態における話者特徴推定装置を用いた音声認識装置に関する。図14は、本実施の形態における話者適応方式による音声認識装置のブロック図である。図14において、特徴量写像部31,標準話者モデル格納部32,関数推定部33および特徴量変換部34は、図1に示す話者特徴推定装置における特徴量写像部1,標準話者モデル格納部2,関数推定部3及び特徴量変換部4と同様であり、上記話者特徴推定装置を構成している。さらに、音響分析部35は、図12に示す音声認識装置における音響分析部25と同様である。 【0099】モデル適応部36は、専用のLSI素子等によって構成されて、標準話者モデル格納部32から読み出された標準話者モデルを、関数推定部33によって推定された話者特徴としての写像関数f^を用いて入力話者に適応させて、適応モデルを作成する。適応モデル格納部37は、半導体メモリや磁気メモリや記憶装置等によって構成されて、モデル適応部36で作成された適応モデルを格納する。認識部38は、専用のLSI素子と専用の半導体メモリや磁気メモリや記憶装置等とによって構成されて、音響分析部35からの入力音響特徴量と、適応モデル格納部37に格納されている適応モデルとに基づいて、発声内容を認識する。 【0100】図15は、図14に示す音声認識装置によって実行される音声認識処理動作のフローチャートである。以下、図15に従って、音声認識処理動作について説明する。先ず、ステップS71〜ステップS74で、上記第2実施の形態における図13に示す音声認識処理動作のステップS61〜ステップS64と同様にして、入力されたデジタル音声信号が周波数分析されて音響特徴量が抽出される。そして、話者特徴推定モードであれば、特徴量写像部31,標準話者モデル格納部32,関数推定部33および特徴量変換部34で構成される話者特徴推定装置によって、話者特徴推定処理が実行される。 【0101】ステップS75で、上記モデル適応部36によって、上記標準話者モデル格納部32から読み出された標準話者モデルと、上記ステップS74における話者特徴推定処理によって推定された話者特徴としての写像関数f^とに基づいて、上記適応モデルが作成される。そして、得られた適応モデルは、適応モデル格納部37に格納される。尚、上記適応モデルの作成処理は、例えば、標準話者モデル(HMM)の各ステートの中から母音に対応するステートに関して、出力確率密度関数の平均値ベクトルを写像関数f^の逆関数を用いて写像すればよい。そうした後、上記ステップS71に戻って次の音声信号の入力処理に移行する。そして、上記ステップS73において音声認識モードであると判別されると、ステップS76に進むのである。 【0102】ステップS76,ステップS77で、上記第2実施の形態における図13に示す音声認識処理動作のステップS66,S67と同様にして、認識処理が行われ、得られた認識結果が出力される。尚、その際における上記認識処理は、抽出された入力音響特徴量と、ステップS75において作成された適応モデル(HMM)と、上記言語モデルに基づいて行われる。また、上記適応モデルが未作成である場合には、例えば標準話者モデルを用いるようにしておけばよい。そうした後、音声認識処理動作を終了する。 【0103】このように、本実施の形態における音声認識装置は、第1実施の形態における話者特徴推定装置を搭載している。そして、音声認識処理に先立って、入力音声の音響特徴量に基づいて、話者特徴推定装置によって話者特徴(写像関数f^i)を推定する。そして、標準話者モデル格納部32に格納された標準話者モデルと推定された写像関数f^iとを用いて適応モデルを作成することによって、話者適応を行うようにしている。 【0104】その場合における写像関数f^iの推定は、声道における梨状窩形状の個人差等による音声スペクトル高周波数帯域の変動の影響を除去して精度よく行われる。したがって、上記推定された写像関数f^iを用いて話者適応を行なうことによって、入力話者の音響特徴量の周波数特性により近づくように上記標準話者モデルを正規化することができる。したがって、上記話者適応モデルを用いて行われる認識処理の結果、高い認識率を得ることができるのである。 【0105】<第4実施の形態>本実施の形態は、第1実施の形態における話者特徴推定装置を用いたクラスタモデル作成装置に関する。図16は、本実施の形態におけるクラスタモデル作成装置のブロック図である。図16において、特徴量写像部41,標準話者モデル格納部42,関数推定部43および特徴量変換部44は、図1に示す話者特徴推定装置における特徴量写像部1,標準話者モデル格納部2,関数推定部3および特徴量変換部4と同様であり、上記話者特徴推定装置を構成している。さらに、音響分析部45は、図12に示す音声認識装置における音響分析部25と同様である。 【0106】クラスタリング部46は、専用のLSI素子等によって構成されて、上記関数推定部43から出力される話者特徴としてのパラメータ(例えば線形伸縮係数α)に基づいて話者をクラスタリングする。モデル作成部47は、専用のLSI素子等によって構成されて、音響分析部45で得られた入力音響特徴量と、標準話者モデル格納部42から読み出された標準話者モデルと、クラスタリング部45からの話者クラスタ情報とに基づいて、各話者クラスタ用の音響モデルであるクラスタモデルを作成する。 【0107】図17は、図16に示すクラスタモデル作成装置によって実行されるクラスタモデル作成処理動作のフローチャートである。以下、図17に従って、クラスタモデル作成処理動作について説明する。先ず、ステップS81で、カウンタiに1が代入されて初期化される。ステップS82で、音響分析部45によって、i番目の話者の音声信号が入力される。入力音声信号は、例えば、マイク等から入力されてA/D変換器(図示せず)や記録媒体等を通して得られるデジタル音声信号である。ステップS83,ステップS84で、上記第2実施の形態における図13に示す音声認識処理動作のステップS62,ステップS64と同様にして、入力されたデジタル音声信号が周波数分析されて音響特徴量が抽出され、特徴量写像部41,標準話者モデル格納部42,関数推定部43および特徴量変換部44で構成される話者特徴推定装置によって話者特徴推定処理が実行される。 【0108】ステップS85で、上記音響分析部45によって、カウンタiの値が予め用意されている話者数Mよりも大きいか否かが判別される。その結果、大きければステップS87に進み、そうでなければステップS86に進む。ステップS86で、カウンタiの値が「1」だけインクリメントされる。そうした後、上記ステップS82に戻って次の話者の音声信号入力処理に移行する。そして、上記ステップS85においてカウンタiの値が話者数Mよりも大きいと判別されると、上記ステップS87に進む。 【0109】ステップS87で、上記クラスタリング部46によって、上記関数推定部43から出力される全話者に関する話者特徴としてのパラメータ(例えば線形伸縮係数α)に基づいて、話者がクラスタリングされる。その際における話者クラスタリングの方法は本実施の形態には直接関係はなく、話者クラスタリングの方法を限定するものではない。尚、例えば、線形伸縮係数αに基づくクラスタリングの場合には、M人の話者における線形伸縮係数αの範囲をC等分し、分割された各領域に属する話者集合を話者クラスタとする。Cはクラスタ数を表す。あるいは、線形伸縮係数αに基づいて各話者を順序付けし、順序付けられた話者をM/C人ずつに区切って話者クラスタを作成してもよい。 【0110】ステップS88で、上記モデル作成部47によって、上記クラスタリング部46による話者クラスタリング結果に基づいて、上記ステップS82において入力された全話者の音響特徴量と標準話者モデル格納部42に格納された標準話者モデル(HMM)とを用いて、上記クラスタモデル(HMM)が作成されて出力される。その際におけるクラスタモデルの作成は、例えば、標準話者モデルを初期モデルとし、話者クラスタ毎にクラスタ内に属する話者の音声データを用いて、VFS法あるいはMLLR法によるモデル適応によって作成すればよい。十分な学習用音声データが存在する場合には、HMMの学習アルゴリズムを用いて作成すればよい。そうした後、クラスタモデル作成処理動作を終了する。 【0111】このように、本実施の形態におけるクラスタモデル作成装置は、第1実施の形態における話者特徴推定装置を搭載している。そして、話者をクラスタリングするに先立って、個々の話者の音響特徴量に基づいて、上記話者特徴推定装置によって総ての話者の話者特徴(線形伸縮係数α)を推定する。そして、クラスタリング部46によって、線形伸縮係数αを話者間の距離として総ての話者をクラスタリングし、モデル作成部47によって、話者クラスタ毎に全話者の音響特徴量と標準話者モデルとを用いてクラスタモデルを作成するようにしている。 【0112】その場合における上記線形伸縮係数αの推定は、声道における梨状窩形状の個人差等による音声スペクトル高周波数帯域の変動の影響を除去して精度よく行われる。したがって、上記推定された線形伸縮係数αを話者間の距離として話者クラスタリングを行なうことによって、より話者に適合した距離を用いて話者クラスタリングを行なうことができる。すなわち、本実施の形態によれば、話者集団における発声特性の分布を的確に表現できるクラスタモデルを作成することができるのである。 【0113】図18は、上記話者特徴推定装置を用いた他のクラスタモデル作成装置のブロック図である。図18において、特徴量写像部51,標準話者モデル格納部52,関数推定部53および特徴量変換部54は、図1に示す話者特徴推定装置における特徴量写像部1,標準話者モデル格納部2,関数推定部3及び特徴量変換部4と同様であり、上記話者特徴推定装置を構成している。また、音響分析部55は、図12に示す音声認識装置における音響分析部25と同様である。さらに、クラスタリング部56は、図16に示すクラスタモデル作成装置におけるクラスタリング部46と同様である。 【0114】モデル作成部57は、専用のLSI素子等によって構成されて、図16に示すクラスタモデル作成装置におけるモデル作成部47と同様にしてクラスタモデルを作成するに加えて、音響分析部55からの入力音響特徴量に基づいて各話者の話者モデル(HMM)を作成する。特徴量抽出部58は、専用のLSI素子等によって構成されて、モデル作成部57によって作成された各話者モデルから音響特徴量を抽出して特徴量写像部51に送出する。 【0115】図19は、図18に示すクラスタモデル作成装置によって実行されるクラスタモデル作成処理動作のフローチャートである。以下、図19に従って、クラスタモデル作成処理動作について説明する。先ず、ステップS91〜ステップS93で、図17に示すクラスタモデル作成処理動作におけるステップS81〜ステップS83と同様にして、カウンタiが初期化され、i番目の話者のデジタル音声信号が周波数分析されて音響特徴量が抽出される。 【0116】ステップS94で、上記モデル作成部57によって、話者iの音響特徴量と標準話者モデル格納部52に格納された標準話者モデルとを用いて、話者iの話者モデル(HMM)が作成される。話者モデルの作成処理手順は、例えば、標準話者モデルを初期モデルとし、話者iの音声データを用いて、VFS法またはMLLR法によるモデル適応によって作成すればよい。あるいは、十分な学習用音声データが存在する場合には、HMMの学習アルゴリズムを用いて作成すればよい。ステップS95で、特徴量抽出部58によって、上記作成された話者iの話者モデルから音響特徴量が抽出される。尚、その場合における音響特徴量抽出処理は、上記第1実施の形態における図5に示す音響特徴量変換処理動作中のステップS32において実行される標準話者音響特徴量抽出処理動作と同様にして行われる。 【0117】ステップS96〜ステップS100で、図17に示すクラスタモデル作成処理動作におけるステップS84〜ステップS88と同様にして、特徴量写像部51,標準話者モデル格納部52,関数推定部53および特徴量変換部54で構成される話者特徴推定装置によって話者特徴推定処理が実行され、カウンタiがインクリメントされ、i>話者数Mであれば話者クラスタリングが行われる。そして、話者クラスタリング結果に基づいて、全話者の音響特徴量と標準話者モデルとを用いて話者クラスタモデルが作成されて出力される。そうした後、クラスタモデル作成処理動作を終了する。 【0118】このように、本実施の形態におけるクラスタモデル作成装置は、第1実施の形態における話者特徴推定装置を搭載している。そして、話者をクラスタリングするに先立って、個々の話者の音響特徴量に基づいて、上記話者特徴推定装置によって総ての話者の話者特徴(線形伸縮係数α)を推定する。そして、クラスタリング部56によって、線形伸縮係数αを話者間の距離として総ての話者をクラスタリングし、モデル作成部57によって、話者クラスタ毎に全話者の音響特徴量と標準話者モデルとを用いて話者クラスタモデルを作成するようにしている。 【0119】その場合における上記線形伸縮係数αの推定は、声道における梨状窩形状の個人差等による音声スペクトル高周波数帯域の変動の影響を除去して精度よく行われる。したがって、上記推定された線形伸縮係数αを話者間の距離として話者クラスタリングを行なうことによって、より話者に適合した距離を用いて話者クラスタリングを行なうことことができる。すなわち、本実施の形態によれば、話者集団における発声特性の分布を的確に表現できるクラスタモデルを作成することができるのである。 【0120】さらに、上記話者特徴推定装置は、上記モデル作成部57で作成された話者モデルから特徴量抽出部58によって抽出された音響特徴量に基づいて、入力話者の特徴を推定するようにしている。したがって、入力話者の音響特徴量における発話内の変動を除去して、入力話者の特徴をより精度良く推定することができるのである。すなわち、本実施の形態によれば、さらに話者に適合した距離を用いて話者クラスタリングを行なうことができるのである。 【0121】尚、上記実施の形態においては、上記モデル作成部52に、話者特徴推定時における話者モデル作成手段としての機能と、音声認識時におけるクラスタモデル作成手段としての機能とを兼用させている。しかしながら、この発明はこれに限定されるものではなく、上記話者モデル作成手段としてのモデル作成部を独立して設けても差し支えない。 【0122】<第5実施の形態>本実施の形態は、第1実施の形態における話者特徴推定装置を用いた他の音声認識装置に関する。図20は、本実施の形態におけるクラスタモデルを用いた音声認識装置のブロック図である。図20において、特徴量写像部61,標準話者モデル格納部62,関数推定部63および特徴量変換部64は、図1に示す話者特徴推定装置における特徴量写像部1,標準話者モデル格納部2,関数推定部3および特徴量変換部4と同様であり、上記話者特徴推定装置を構成している。さらに、音響分析部65及び認識部68は、図14に示す音声認識装置における音響分析部35および認識部38と同様である。 【0123】クラスタモデル格納部66は、半導体メモリや磁気メモリや記憶装置等によって構成されて、上記第4実施の形態におけるクラスタモデル作成装置によって作成されたクラスタモデルを格納する。モデル選択部67は、専用のLSI素子等によって構成されて、関数推定部63から出力される話者特徴としてのパラメータ(例えば線形伸縮係数α)に基づいて入力話者のクラスタに応じたクラスタモデルをクラスタモデル格納部66から選択して認識部68に送出する。 【0124】図21は、図20に示す音声認識装置によって実行される音声認識処理動作のフローチャートである。以下、図21に従って、音声認識処理動作について説明する。先ず、ステップS101〜ステップS104で、上記第2実施の形態における図13に示す音声認識処理動作のステップS61〜ステップS64と同様にして、入力されたデジタル音声信号が周波数分析されて音響特徴量が抽出される。そして、話者特徴推定モードであれば、特徴量写像部61,標準話者モデル格納部62,関数推定部63および特徴量変換部64で構成される話者特徴推定装置によって、話者特徴推定処理が実行される。 【0125】ステップS105で、上記モデル選択部67によって、上記話者特徴推定処理部によって推定された線形伸縮係数αに基づいてクラスタモデルを選択する。尚、上記クラスタモデル選択処理は、例えば、予め線形伸縮係数αが付与されたクラスタモデルをクラスタモデル格納部66に格納しておき、上記推定された線形伸縮係数αに最も近い線形伸縮係数αが付与されているクラスタモデルを選択すればよい。そうした後、上記ステップS101に戻って次の音声信号の入力処理に移行する。そして、上記ステップS103において音声認識モードであると判別されると、ステップS106に進む。 【0126】ステップS106,ステップS107で、図13に示す音声認識処理動作におけるステップS66,ステップS67と同様にして、認識処理が行われ、得られた認識結果が出力される。そうした後、音声認識処理動作を終了する。 【0127】このように、本実施の形態における音声認識装置は、第1実施の形態における話者特徴推定装置を搭載している。そして、音声認識処理に先立って、入力音声の音響特徴量に基づいて、話者特徴推定装置によって話者特徴(線形伸縮係数α)を推定する。そして、推定された線形伸縮係数αに基づいてクラスタモデル格納部66から話者クラスタのクラスタモデルを選択し、この選択されたクラスタモデルを用いて音声認識を行うようにしている。 【0128】その場合におけるクラスタモデルの作成および選択時に用いられる線形伸縮係数αの推定は、声道における梨状窩形状の個人差等による音声スペクトル高周波数帯域の変動の影響を除去して精度よく行われる。したがって、上記推定された線形伸縮係数αを用いてクラスタモデルの作成及び選択を行なうことによって、より入力話者に適合する話者間距離を用いたクラスタモデルの作成および選択を行なうことができる。したがって、話者集団における発声特性の分布を的確に表すクラスタモデルを用いて認識処理を行うことができ、高い認識率を得ることができるのである。 【0129】<第6実施の形態>本実施の形態は、第1実施の形態における話者特徴推定装置を用いた音声合成装置に関する。図22は、本実施の形態における音声合成装置のブロック図である。図22において、特徴量写像部71,標準話者モデル格納部72,関数推定部73および特徴量変換部74は、図1に示す話者特徴推定装置における特徴量写像部1,標準話者モデル格納部2,関数推定部3および特徴量変換部4と同様であり、上記話者特徴推定装置を構成している。但し、特徴量写像部71は、音声合成時にも、音声素片の音響特徴量に対して、自身が構成要素となっている上記話者特徴推定装置で推定された写像関数f^を用いた写像処理を行うようになっている。さらに、音響分析部75は、図12に示す音声認識装置における音響分析部25と同様である。 【0130】標準話者素片格納部76は、半導体メモリや磁気メモリや記憶装置等によって構成されて、標準話者の音声素片を格納している。素片選択部77は、専用のLSI素子等によって構成されて、入力音韻記号列および入力韻律情報に基づいて標準話者素片格納部76から音声素片を選択する。素片接続部78は、専用のLSI素子等によって構成されて、入力韻律情報に基づいて特徴量写像部71から出力される写像後の音声素片同士を接続して合成音声を出力する。 【0131】図23は、図22に示す音声合成装置によって実行される音声合成処理動作のフローチャートである。以下、図23に従って、音声合成処理動作について説明する。先ず、ステップS111で、音響分析部75によって、音声合成モードであるか否かが判別される。その結果、音声合成モードであればステップS115に進み、音声合成モードでなければ(つまり話者特徴推定モードであれば)ステップS112に進む。尚、音声合成モードであるか否かを管理するモード情報管理方法は本実施の形態に直接関係はなく、モード情報管理方法を限定するものではない。例えば、通常は音声合成モードに設定しておき、発話者が話者特徴推定スイッチを押して発声した場合に話者特徴推定モードに変更する管理方法が簡単である。 【0132】ステップS112〜ステップS114で、上記第2実施の形態における図13に示す音声認識処理動作のステップS61,S62,S64と同様にして、入力されたデジタル音声信号が周波数分析されて音響特徴量が抽出され、特徴量写像部71,標準話者モデル格納部72,関数推定部73および特徴量変換部74で構成される話者特徴推定装置によって、話者特徴推定処理が実行される。そうした後、ステップS111に戻る。そして、上記ステップS111において音声合成モードであると判別されると、上記ステップS115に進む。 【0133】ステップS115で、上記素片選択部77によって、標準話者素片格納部76に格納された標準話者の音声素片の中から、入力音韻記号列および入力韻律情報に基づいて該当する音声素片が選択される。音声素片の選択においては、入力音韻記号列のみに基づいて選択しても差し支えない。尚、上記入力音韻記号列および入力韻律情報の生成方法は本実施の形態に直接関係はなく、生成方法を限定するものではない。例えば、テキストに対して形態素解析や構文解析等の言語処理を行い、アクセントやイントネーション付与等の韻律処理を行って得られる言語情報を用いればよい。 【0134】ステップS116で、上記特徴量写像部71によって、上記第1実施の形態において図3に示す音響特徴量写像処理動作と同様にして、上記選択された音声素片に対して音響特徴量の写像が行われる。但し、その場合に、写像関数としては、上記ステップS114において推定された写像関数f^i()の逆関数f^i-1()を用いることになる。ステップS117で、素片接続部78によって、入力韻律情報に基づいて、上記写像によって入力話者(学習話者)の声質に変換された音声素片が接続される。ステップS118で、入力話者の声質に変換された上記入力音韻記号列に基づく合成音声が出力される。 【0135】このように、本実施の形態における音声合成装置は、第1実施の形態における話者特徴推定装置を搭載している。そして、音声合成処理に先立って、入力音声の音響特徴量に基づいて、話者特徴推定装置によって話者特徴(写像関数f)を推定する。そして、推定された写像関数f^の逆関数f^-1を用いて、入力音韻記号列に基づいて選択された標準話者の音声素片を写像することによって、入力話者の声質に変換された音声素片を得るようにしている。 【0136】その場合における写像関数fの推定は、声道における梨状窩形状の個人差等による音声スペクトル高周波数帯域の変動の影響を除去して精度よく行われる。したがって、上記推定された写像関数f^の逆関数f^-1を用いて標準話者の音声素片を写像することによって、より学習話者の声質に近い声質に変換された合成音声を得ることができるのである。 【0137】尚、上記実施の形態においては、上記特徴量写像部71に、上記話者特徴推定装置における音響特徴量写像手段としての機能と、音声合成時における声質変換手段としての機能とを兼用させている。しかしながら、この発明はこれに限定されるものではなく、上記声質変換手段としての特徴量写像部を独立して設けても差し支えない。 【0138】<第7実施の形態>本実施の形態は、第1実施の形態における話者特徴推定装置を用いた声質変換装置に関する。図24は、本実施の形態における声質変換装置のブロック図である。図24において、特徴量写像部81,標準話者モデル格納部82,関数推定部83および特徴量変換部84は、図1に示す話者特徴推定装置における特徴量写像部1,標準話者モデル格納部2,関数推定部3および特徴量変換部4と同様であり、上記話者特徴推定装置を構成している。さらに、音響分析部85は、図12に示す音声認識装置における音響分析部25と同様である。但し、特徴量写像部81は、声質変換時にも、入力音響特徴量に対して、自身が構成要素となっている上記話者特徴推定装置で推定された写像関数f^を用いた写像処理を行うようになっている。また、標準話者モデル格納部82には、声質変換におけるターゲット(変換先)話者モデルを格納しておく。その場合のターゲット話者モデルは、例えば予めターゲット話者の音声データを用いて作成されたHMMである。 【0139】合成部86は、専用のLSI素子等によって構成される。そして、上記特徴量写像部81から出力されたターゲット話者に写像された(ターゲット話者の声質に変換された)入力話者の音響特徴量と、音響分析部85よって得られた残差音響信号とに基づいて、音声信号を合成して合成音声を出力する。 【0140】図25は、図24に示す声質変換装置によって実行される声質変換処理動作のフローチャートである。以下、図25に従って、上記声質変換処理動作について説明する。ステップS121〜ステップS125で、上記第2実施の形態における図13に示す音声認識処理動作のステップS61〜ステップS65と同様にして、入力されたデジタル音声信号が周波数分析されて音響特徴量が抽出される。但し、ステップS122における音響特徴量抽出処理においては、分析して得られるスペクトル情報の逆フィルタに入力音声信号を通すことによって、残差音響信号も抽出される。そして、話者特徴推定モードであれば、特徴量写像部81,標準話者モデル格納部82,関数推定部83および特徴量変換部84で構成される話者特徴推定装置によって、話者特徴推定処理が実行される。一方、声質変換であれば、上記話者特徴推定処理で推定された写像関数f^i()が用いられて、入力音響特徴量に対して写像が行われる。 【0141】ステップS126で、上記合成部86によって、上記ステップS122において抽出された残差音響信号と、上記ステップS125においてターゲット話者に写像された音響特徴量とを用いて、合成音声が生成される。尚、その場合における合成処理は、音響特徴量を逆cos変換および指数変換することによって得られるスペクトル情報を表すフィルタを作成し、上記残差音響信号を上記フィルタに通すことによって行われる。ステップS127で、上記生成された合成音声が出力される。そうした後、声質変換処理動作を終了する。 【0142】このように、本実施の形態における声質変換装置は、第1実施の形態における話者特徴推定装置を搭載している。そして、声質変換処理に先立って、入力音声の音響特徴量に基づいて、話者特徴推定装置によって話者特徴(ターゲット話者への写像関数f)を推定する。そして、推定された写像関数f^を用いて、入力音響特徴量を写像することによって、入力話者の声質をターゲット話者の声質に変換するようにしている。 【0143】その場合における写像関数f^の推定は、声道における梨状窩形状の個人差等による音声スペクトル高周波数帯域の変動の影響を除去して精度よく行われる。したがって、上記推定された写像関数f^を用いて入力話者の音響特徴量を写像することによって、よりターゲット話者の声質に近い声質に変換された合成音声を得ることができるのである。 【0144】尚、上記実施の形態においては、上記特徴量写像部81に、上記話者特徴推定装置における音響特徴量写像手段としての機能と、声質変換時における声質変換手段としての機能とを兼用させている。しかしながら、この発明はこれに限定されるものではなく、上記声質変換手段としての特徴量写像部を独立して設けても差し支えない。 【0145】また、上記各実施の形態において、上記各部を構成する素子等は、一つの素子であっても、または、複数の素子が複合されたものであっても差し支えない。また、上記各部はCPUあるいはその周辺機器等で代用してもよい。 【0146】また、上記各実施の形態においては、音響モデルとしてHMMを、音韻類似度としてHMMに基づく尤度を、スコア算出にビタビ演算を用いる場合について説明している。しかしながら、HMMの代わりに音声波形あるいは音響特徴量系列を登録したモデルを、尤度の代わりにスペクトル間距離を、ビタビ演算の代わりにDPマッチングを用いても差し支えない。 【0147】ところで、上記話者特徴推定装置における上記特徴量写像手段,特徴量変換手段,標準話者モデル格納手段および関数推定手段としての機能は、プログラム記録媒体に記録された話者特徴推定処理プログラムによって実現される。上記実施の形態における上記プログラム記録媒体は、ROM(リード・オンリ・メモリ)でなるプログラムメディアである。あるいは、外部補助記憶装置に装着されて読み出されるプログラムメディアであってもよい。尚、何れの場合においても、上記プログラムメディアから話者特徴推定処理プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有していてもよいし、RAM(ランダム・アクセス・メモリ)に設けられたプログラム記憶エリア(図示せず)にダウンロードして、上記プログラム記憶エリアにアクセスして読み出す構成を有していてもよい。尚、上記プログラムメディアからRAMの上記プログラム記憶エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。 【0148】ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク,ハードディスク等の磁気ディスクやCD(コンパクトディスク)‐ROM,MO(光磁気)ディスク,MD(ミニディスク),DVD(ディジタルビデオディスク)等の光ディスクのディスク系、IC(集積回路)カードや光カード等のカード系、マスクROM,EPROM(紫外線消去型ROM),EEPROM(電気的消去型ROM),フラッシュROM等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。 【0149】また、上記各実施の形態における音声情報処理装置は、モデムを備えてインターネットを含む通信ネットワークと接続可能な構成を有していれば、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。あるいは、別の記録媒体からインストールされるものとする。 【0150】尚、上記記録媒体に記録されるものはプログラムのみに限定されるものではなく、データも記録することが可能である。 【0151】 【発明の効果】以上より明らかなように、第1の発明の話者特徴推定装置は、特徴量写像手段によって写像されると共に、特徴量変換手段によって、声道における梨状窩形状の個人差によって変動が生ずる領域が上記標準話者の音響特徴量に関する情報を用いて変換された入力話者の音響特徴量と、標準話者の音響特徴量に関する情報とに基づいて、関数推定手段によって写像関数を推定するので、入力話者の音響特徴量における声道の梨状窩形状の個人差による音声スペクトル高周波数帯域の変動の影響を除去することができ、話者特徴としての写像関数を精度良く推定することができる。 【0152】その際に、入力話者の音響特徴量における声道長の梨状窩形状の個人差による変動を予め補正しておくので、少量の音声データから入力話者の特徴を精度よく推定することができる。 【0153】また、上記第1の発明の話者特徴推定装置は、上記特徴量変換手段を、上記入力話者の音響特徴量における変換領域の下限位置を、入力話者の音声スペクトルの傾きと上記標準話者の音声スペクトルの傾きとの差が最も小さくなる同一周波数位置に設定するように成せば、入力話者および標準話者の音声スペクトルを用いて、上記入力話者の音響特徴量における変換領域の下限位置を簡単に設定することができる。 【0154】また、上記第1の発明の話者特徴推定装置は、上記特徴量変換手段を、上記入力話者の音響特徴量の変換を、上記入力話者の音声スペクトルにおける上記変換領域に該当する周波数帯域と上記標準話者の音声スペクトルにおける該当する周波数帯域とにおけるスペクトル値の差異から求められた周波数特性変換フィルタを用いて行うように成せば、上記入力話者の音響特徴量に対する変換処理を、上記周波数特性変換フィルタを用いて簡単に行うことができる。 【0155】また、上記第1の発明の話者特徴推定装置は、上記特徴量変換手段によって音声スペクトルが変換される周波数帯域の下限を3kHzから3.5kHzまでの間とする一方、上限をサンプリング周波数の1/2とすれば、声道における梨状窩形状の個人差によって変動する音声スペクトル高周波数帯域を的確に設定することができる。 【0156】また、上記第1の発明の話者特徴推定装置は、上記特徴量写像手段を、狭母音を除く母音に対してのみ写像処理を行うように成せば、音声スペクトルにおけるホルマントのピークの出現位置が不安定な狭母音を除く母音に対してのみ話者特徴推定処理を行うことができ、入力話者の特徴をさらに精度良く推定することができる。 【0157】また、上記第1の発明の話者特徴推定装置は、特徴量写像手段を、予め用意された複数の写像関数を用いて上記写像を行うように成し、上記関数推定手段を、上記標準話者の音響特徴量に関する情報に対する上記写像および変換が行われた入力話者の音響特徴量の尤度を最大にするという基準で上記複数の写像関数から写像関数を最尤推定するように成せば、複数の写像関数を用いた写像演算と上記尤度演算と尤度値比較演算との繰り返しの簡単な処理で、話者特徴情報としての写像関数を精度良く推定することができる。 【0158】また、第2の発明の音声認識装置は、認識手段によって入力音声信号を認識するに先立って、入力音声の音響特徴量に基づいて、上記第1の発明の話者特徴推定装置によって入力話者の特徴を推定し、特徴量写像手段によって、上記推定された入力話者の特徴としての写像関数を用いて上記入力話者の音響特徴量を写像(話者正規化)し、この話者正規化された入力話者の音響特徴量に基づいて、上記認識手段によって入力音声信号を認識するので、声道における梨状窩形状の個人差による音声スペクトル高周波数帯域の変動の影響を除去して精度よく推定された写像関数を用いて上記話者正規化を行うことができる。 【0159】したがって、この発明によれば、より標準話者の音響特徴量の周波数特性に近づくように入力話者の音響特徴量を正規化することができ、高い認識率を得ることができる。 【0160】また、第3の発明の音声認識装置は、認識手段によって入力音声信号を認識するに先立って、入力音声の音響特徴量に基づいて、上記第1の発明の話者特徴推定装置によって入力話者の特徴を推定し、モデル適応手段によって、上記推定された入力話者の特徴としての写像関数の逆関数を用いて標準話者モデルを入力話者に適応させて適応モデルを生成し、この生成された適応モデルを用いて、上記認識手段によって入力音声信号を認識するので、声道における梨状窩形状の個人差による音声スペクトル高周波数帯域の変動の影響を除去して精度よく推定された写像関数の逆関数を用いて、上記標準話者モデルを話者適応させることができる。 【0161】したがって、この発明によれば、より入力話者の音響特徴量の周波数特性に近い周波数特性を有する適応モデルを用いることができ、高い認識率を得ることができる。 【0162】また、第4の発明のクラスタモデル作成装置は、モデル作成手段によってクラスタモデルを作成するに先立って、入力音声の音響特徴量に基づいて、上記第1の発明の話者特徴推定装置によって入力話者の特徴を推定し、クラスタリング手段によって、上記推定された入力話者の特徴を話者間距離として複数の話者をクラスタリングし、このクラスタリング結果に基づいて、上記モデル作成手段によって各話者クラスタ用の音響モデルであるクラスタモデルを作成するので、声道における梨状窩形状の個人差による音声スペクトル高周波数帯域の変動の影響を除去して精度よく推定された入力話者の特徴を話者間距離として、複数の話者をクラスタリングすることができる。 【0163】したがって、この発明によれば、より話者に適合した話者間距離を用いてクラスタリングを行うことができ、話者集団における発声特性の分布を的確に表現できるクラスタモデルを作成することができる。 【0164】また、第5の発明のクラスタモデル作成装置は、モデル作成手段によってクラスタモデルを作成するに先立って、話者モデル作成手段によって入力話者の音響特徴量に基づいて話者モデルを作成し、特徴量抽出手段によって話者モデルから音響特徴量を抽出し、この抽出された音響特徴量に基づいて、上記第1の発明の話者特徴推定装置によって入力話者の特徴を推定し、クラスタリング手段によって、上記推定された各入力話者の特徴を話者間距離として複数の話者をクラスタリングし、このクラスタリング結果に基づいて、上記モデル作成手段によってクラスタモデルを作成するので、声道における梨状窩形状の個人差による音声スペクトル高周波数帯域の変動の影響を除去して精度よく推定された入力話者の特徴を話者間距離として、複数の話者をクラスタリングすることができる。 【0165】したがって、この発明によれば、より話者に適合した話者間距離を用いてクラスタリングを行うことができ、話者集団における発声特性の分布を的確に表現できるクラスタモデルを作成することができる。 【0166】さらに、上記話者特徴推定装置は、上記話者モデルから抽出された音響特徴量に基づいて入力話者の特徴を推定するので、入力話者の音響特徴量における発話内の変動を除去して入力話者の特徴をより精度良く推定することができる。 【0167】また、第6の発明の音声認識装置は、クラスタモデル格納手段に上記第4の発明あるいは第5の発明のクラスタモデル作成装置によって作成されたクラスタモデルを格納し、認識手段によって入力音声信号を認識するに先立って、入力音声の音響特徴量に基づいて、上記第1の発明の話者特徴推定装置によって入力話者の特徴を推定し、モデル選択手段によって、上記推定された入力話者の特徴に基づいて該当するクラスタモデルを選択し、この選択されたクラスタモデルを用いて、上記認識手段によって入力音声信号を認識するので、声道における梨状窩形状の個人差による音声スペクトル高周波数帯域の変動の影響を除去して精度よく推定された入力話者の特徴を用いて、上記クラスタモデルの作成および選択を行うことができる。 【0168】したがって、この発明によれば、話者集団における発声特性の分布を的確に表すクラスタモデルを用いて認識処理を行うことができ、高い認識率を得ることができる。 【0169】また、第7の発明の音声合成装置は、素片接続手段によって音声素片同士を接続して合成音声を生成するに先立って、入力音声の音響特徴量に基づいて、上記第1の発明の話者特徴推定装置によって入力話者の特徴を推定し、特徴量写像手段によって、素片選択部で音韻記号列に基づいて選択された標準話者の音声素片の音響特徴量を上記推定された入力話者の特徴としての写像関数の逆関数を用いて写像し、この写像された音声素片同士を上記素片接続手段によって接続するので、声道における梨状窩形状の個人差による音声スペクトル高周波数帯域の変動の影響を除去して精度よく推定された写像関数の逆関数を用いて、上記標準話者の音声素片を入力話者(学習話者)の声質に変換することができる。 【0170】したがって、この発明によれば、より入力話者の声質に近い声質に変換された合成音声を得ることができる。 【0171】また、第8の発明の声質変換装置は、特徴量写像手段によって入力話者の音響特徴量を写像して入力話者の声質を変換するに先立って、入力音声の音響特徴量に基づいて、上記第1の発明の話者特徴推定装置によって入力話者の特徴を推定し、上記特徴量写像手段によって、入力話者の音響特徴量を上記推定された入力話者の特徴としての写像関数を用いて写像し、合成手段によって、この写像された入力話者の音響特徴量と音響分析手段からの音響分析結果とに基づいて音声を合成するので、声道における梨状窩形状の個人差による音声スペクトル高周波数帯域の変動の影響を除去して精度よく推定された写像関数を用いて、入力話者の声質を他の話者の声質に変換することができる。 【0172】したがって、この発明によれば、より他の話者の声質に近い声質に変換された音声を得ることができる。 【0173】また、第9の発明の話者特徴推定方法は、入力話者の音響特徴量を複数の写像関数を用いて写像し、上記写像が行われた入力話者の音響特徴量における声道の梨状窩形状の個人差によって変動が生ずる領域を標準話者の音響特徴量に関する情報を用いて変換し、上記変換が行われた入力話者の音響特徴量と上記標準話者の音響特徴量に関する情報とに基づいて上記複数の写像関数から写像関数を最尤推定するので、入力話者の音響特徴量における声道の梨状窩形状の個人差による音声スペクトル高周波数帯域の変動の影響を除去して、話者特徴としての写像関数を少量の音声データから精度良く推定することができる。 【0174】また、第10の発明のプログラム記録媒体は、コンピュータを、上記第1の発明の話者特徴推定装置における上記特徴量写像手段,特徴量変換手段,標準話者モデル格納手段および関数推定手段として機能させる話者特徴推定処理プログラムが記録されているので、上記第1の発明の場合と同様に、入力話者の音響特徴量における声道の梨状窩形状の個人差による音声スペクトル高周波数帯域の変動の影響を除去して、話者特徴としての写像関数を少量の音声データから精度良く推定することができる。
|
| 【出願人】 |
【識別番号】000005049 【氏名又は名称】シャープ株式会社
|
| 【出願日】 |
平成12年12月15日(2000.12.15) |
| 【代理人】 |
【識別番号】100062144 【弁理士】 【氏名又は名称】青山 葆 (外1名)
|
| 【公開番号】 |
特開2002−182683(P2002−182683A) |
| 【公開日】 |
平成14年6月26日(2002.6.26) |
| 【出願番号】 |
特願2000−382383(P2000−382383) |
|