トップ :: G 物理学 :: G10 楽器;音響




【発明の名称】 音声認識装置、音声認識方法、および音声認識プログラムを記録した記録媒体
【発明者】 【氏名】中藤 良久

【氏名】金森 丈郎

【氏名】河村 岳

【氏名】芳澤 伸一

【氏名】山田 麻紀

【要約】 【課題】入力音声のスペクトル特徴に応じて、周波数分解能を適応させる音声分析を行い、少ない特徴量でも効率的にスペクトル包絡の特徴を捉える音声認識装置、音声認識方法および音声認識プログラムを記録した記録媒体を提供する。

【解決手段】アナログ音声信号を入力し(ステップS10)、増幅し(S20)、デジタル音声信号に変換する(S30)。次に、フレーム毎に分割し(S40)、大局的な周波数的特徴であるスペクトル傾斜を算出する(S50)。そして、最適な周波数伸縮係数を求め(S60)、周波数分解能を適応的に変化させたスペクトル包絡に対応した、適応線形予測係数を算出する(S70)。次に、周波数重みと(S80)、周波数軸を補正し(S90)、適応線形予測係数を、ケプストラム係数に変換する(S100)。次に、ケプストラム係数と複数の標準モデルとの間の類似度を算出し、音声認識結果として出力する(S110)。
【特許請求の範囲】
【請求項1】 入力音声のスペクトル包絡を表す特徴量を用いて認識を行う音声認識装置であって、前記入力音声の周波数的特徴に基づいて、その周波数分解能を適応的に変化させた前記スペクトル包絡に対応する特徴量を算出する特徴量算出部と、前記特徴量を用いて、予め設定された複数の標準モデルとの間の類似度を算出し、最も前記類似度が大きい前記モデルを認識する音声認識部とを備える、音声認識装置。
【請求項2】 前記特徴量算出部は、前記入力音声の前記周波数的特徴に基づいて、最適な周波数伸縮係数を算出し、前記周波数伸縮係数に基づいて、前記周波数分解能を適応的に変化させた前記スペクトル包絡に対応する前記特徴量を算出する、請求項1に記載の音声認識装置。
【請求項3】 前記特徴量算出部は、前記周波数的特徴として前記入力音声の大局的な特徴であるスペクトル傾斜を算出し、前記スペクトル傾斜に基づいて、前記周波数伸縮係数を算出する、請求項2に記載の音声認識装置。
【請求項4】 前記特徴量算出部は、前記スペクトル傾斜に、さらに人間の聴覚的な性質である聴覚感度特性に対応した周波数上の重み付けを加えて、前記周波数伸縮係数を算出する、請求項3に記載の音声認識装置。
【請求項5】 前記特徴量算出部は、前記スペクトル傾斜を、フーリエ変換を用いて算出することを特徴とする、請求項3に記載の音声認識装置。
【請求項6】 前記特徴量算出部は、前記スペクトル傾斜を、前記入力音声のスペクトルの傾斜の度合いを表すパラメータの比で算出することを特徴とする、請求項3に記載の音声認識装置。
【請求項7】 前記特徴量算出部は、前記パラメータの比として、0次の自己相関係数と1次の自己相関係数との比を用いることを特徴とする、請求項6に記載の音声認識装置。
【請求項8】 前記特徴量算出部は、前記スペクトル傾斜を、フォルマント周波数とそのエネルギとを用いて算出することを特徴とする、請求項3に記載の音声認識装置。
【請求項9】 前記特徴量算出部は、前記周波数伸縮係数に基づいて線形予測分析を行い、前記周波数分解能を適応的に変化させた前記スペクトル包絡に対応する前記特徴量を算出する、請求項2に記載の音声認識装置。
【請求項10】 前記特徴量算出部は、前記周波数伸縮係数に基づいたオールパスフィルタを用いて、前記周波数分解能を適応的に変化させ、前記線形予測分析を行うことを特徴とする、請求項9に記載の音声認識装置。
【請求項11】 前記特徴量算出部は、前記特徴量をさらにケプストラム変換を用いて算出することを特徴とする、請求項9に記載の音声認識装置。
【請求項12】 前記特徴量算出部は、周波数重みを補正し、周波数軸を伸縮し補正した後、前記特徴量をさらにケプストラム変換を用いて算出することを特徴とする、請求項9に記載の音声認識装置。
【請求項13】 前記特徴量算出部は、前記周波数伸縮係数に基づいて周波数伸縮された周波数軸上でフィルタバンク分析を行い、前記周波数分解能を適応的に変化させた前記スペクトル包絡に対応する前記特徴量を算出する、請求項2に記載の音声認識装置。
【請求項14】 前記音声認識部は、前記標準モデルを前記特徴量算出部で算出される前記特徴量を用いて予め設定する、請求項1に記載の音声認識装置。
【請求項15】 入力音声のスペクトル包絡を表す特徴量を用いて認識を行う音声認識方法であって、前記入力音声の周波数的特徴に基づいて、その周波数分解能を適応的に変化させた前記スペクトル包絡に対応する特徴量を算出する特徴量算出ステップと、前記特徴量を用いて、予め設定された複数の標準モデルとの間の類似度を算出し、最も前記類似度が大きい前記モデルを認識する音声認識ステップとを備える、音声認識方法。
【請求項16】 前記特徴量算出ステップは、前記入力音声の前記周波数的特徴に基づいて、最適な周波数伸縮係数を算出し、前記周波数伸縮係数に基づいて、前記周波数分解能を適応的に変化させた前記スペクトル包絡に対応する前記特徴量を算出する、請求項15に記載の音声認識方法。
【請求項17】 前記特徴量算出ステップは、前記周波数的特徴として前記入力音声の大局的な特徴であるスペクトル傾斜を算出し、前記スペクトル傾斜に基づいて、前記周波数伸縮係数を算出する、請求項16に記載の音声認識方法。
【請求項18】 前記特徴量算出ステップは、前記スペクトル傾斜に、さらに人間の聴覚的な性質である聴覚感度特性に対応した周波数上の重み付けを加えて、前記周波数伸縮係数を算出する、請求項17に記載の音声認識方法。
【請求項19】 前記特徴量算出ステップは、前記スペクトル傾斜を、フーリエ変換を用いて算出することを特徴とする、請求項17に記載の音声認識方法。
【請求項20】 前記特徴量算出ステップは、前記スペクトル傾斜を、前記入力音声のスペクトルの傾斜の度合いを表すパラメータの比で算出することを特徴とする、請求項17に記載の音声認識方法。
【請求項21】 前記特徴量算出ステップは、前記パラメータの比として、0次の自己相関係数と1次の自己相関係数との比を用いることを特徴とする、請求項20に記載の音声認識方法。
【請求項22】 前記特徴量算出ステップは、前記スペクトル傾斜を、フォルマント周波数とそのエネルギとを用いて算出することを特徴とする、請求項17に記載の音声認識方法。
【請求項23】 前記特徴量算出ステップは、前記周波数伸縮係数に基づいて線形予測分析を行い、前記周波数分解能を適応的に変化させた前記スペクトル包絡に対応する前記特徴量を算出する、請求項16に記載の音声認識方法。
【請求項24】 前記特徴量算出ステップは、前記周波数伸縮係数に基づいたオールパスフィルタを用いて、前記周波数分解能を適応的に変化させ、前記線形予測分析を行うことを特徴とする、請求項23に記載の音声認識方法。
【請求項25】 前記特徴量算出ステップは、前記特徴量をさらにケプストラム変換を用いて算出することを特徴とする、請求項23に記載の音声認識方法。
【請求項26】 前記特徴量算出ステップは、周波数重みを補正し、周波数軸を伸縮し補正した後、前記特徴量をさらにケプストラム変換を用いて算出することを特徴とする、請求項23に記載の音声認識方法。
【請求項27】 前記特徴量算出ステップは、前記周波数伸縮係数に基づいて周波数伸縮された周波数軸上でフィルタバンク分析を行い、前記周波数分解能を適応的に変化させた前記スペクトル包絡に対応する前記特徴量を算出する、請求項16に記載の音声認識方法。
【請求項28】 前記音声認識ステップは、前記標準モデルを前記特徴量算出ステップで算出される前記特徴量を用いて予め設定する、請求項15に記載の音声認識方法。
【請求項29】 入力音声のスペクトル包絡を表す特徴量を用いて認識を行う音声認識プログラムを記録した記録媒体であって、前記入力音声の周波数的特徴に基づいて、その周波数分解能を適応的に変化させた前記スペクトル包絡に対応する特徴量を算出する特徴量算出ステップと、前記特徴量を用いて、予め設定された複数の標準モデルとの間の類似度を算出し、最も前記類似度が大きい前記モデルを認識する音声認識ステップとを備える、音声認識プログラムを記録した記録媒体。
【請求項30】 前記特徴量算出ステップは、前記入力音声の前記周波数的特徴に基づいて、最適な周波数伸縮係数を算出し、前記周波数伸縮係数に基づいて、前記周波数分解能を適応的に変化させた前記スペクトル包絡に対応する前記特徴量を算出する、請求項29に記載の音声認識プログラムを記録した記録媒体。
【請求項31】 前記特徴量算出ステップは、前記周波数的特徴として前記入力音声の大局的な特徴であるスペクトル傾斜を算出し、前記スペクトル傾斜に基づいて、前記周波数伸縮係数を算出する、請求項30に記載の音声認識プログラムを記録した記録媒体。
【請求項32】 前記特徴量算出ステップは、前記スペクトル傾斜に、さらに人間の聴覚的な性質である聴覚感度特性に対応した周波数上の重み付けを加えて、前記周波数伸縮係数を算出する、請求項31に記載の音声認識プログラムを記録した記録媒体。
【請求項33】 前記特徴量算出ステップは、前記スペクトル傾斜を、フーリエ変換を用いて算出することを特徴とする、請求項31に記載の音声認識プログラムを記録した記録媒体。
【請求項34】 前記特徴量算出ステップは、前記スペクトル傾斜を、前記入力音声のスペクトルの傾斜の度合いを表すパラメータの比で算出することを特徴とする、請求項31に記載の音声認識プログラムを記録した記録媒体。
【請求項35】 前記特徴量算出ステップは、前記パラメータの比として、0次の自己相関係数と1次の自己相関係数との比を用いることを特徴とする、請求項34に記載の音声認識プログラムを記録した記録媒体。
【請求項36】 前記特徴量算出ステップは、前記スペクトル傾斜を、フォルマント周波数とそのエネルギとを用いて算出することを特徴とする、請求項31に記載の音声認識プログラムを記録した記録媒体。
【請求項37】 前記特徴量算出ステップは、前記周波数伸縮係数に基づいて線形予測分析を行い、前記周波数分解能を適応的に変化させた前記スペクトル包絡に対応する前記特徴量を算出する、請求項30に記載の音声認識プログラムを記録した記録媒体。
【請求項38】 前記特徴量算出ステップは、前記周波数伸縮係数に基づいたオールパスフィルタを用いて、前記周波数分解能を適応的に変化させ、前記線形予測分析を行うことを特徴とする、請求項37に記載の音声認識プログラムを記録した記録媒体。
【請求項39】 前記特徴量算出ステップは、前記特徴量をさらにケプストラム変換を用いて算出することを特徴とする、請求項37に記載の音声認識プログラムを記録した記録媒体。
【請求項40】 前記特徴量算出ステップは、周波数重みを補正し、周波数軸を伸縮し補正した後、前記特徴量をさらにケプストラム変換を用いて算出することを特徴とする、請求項37に記載の音声認識プログラムを記録した記録媒体。
【請求項41】 前記特徴量算出部は、前記周波数伸縮係数に基づいて周波数伸縮された周波数軸上でフィルタバンク分析を行い、前記周波数分解能を適応的に変化させた前記スペクトル包絡に対応する前記特徴量を算出する、請求項30に記載の音声認識装置。
【請求項42】 前記音声認識ステップは、前記標準モデルを前記特徴量算出ステップで算出される前記特徴量を用いて予め設定する、請求項29に記載の音声認識プログラムを記録した記録媒体。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は、音声認識に関し、より特定的には入力音声のスペクトル包絡を表す特徴量を用いて認識を行う音声認識方法および音声認識装置に関する。
【0002】
【従来の技術】従来、音声を機械やコンピュータに自動的に認識させる音声認識は、入力音声と標準モデルとの比較を用いて行われる。この比較方法は、予め基準となる音声データを用いて音韻あるいは単語毎の標準モデルが作成される。そして、入力音声を一定周期毎に抽出した時系列が分解されることによりスペクトル包絡が算出される。次に、上記スペクトル包絡に対応する特徴量が求められ、上記標準モデルとの類似度が計算され、この類似度が最も大きい上記標準モデルに対応する音韻あるいは単語が検出される。入力音声波形そのものを比較しないのは、その情報量が多いことや、入力音声波形の位相情報は伝送系や録音系により変化しやすい等からである。なお、上記標準モデルとの類似度を算出する方法としては、HMM(Hidden Markov Model:隠れマルコフモデル)やDPマッチング(Dynamic Programming Matching:動的計画法)等が用いられる。
【0003】上記スペクトル包絡の特徴量を抽出する方法は、様々な方法が考えられているが、その一つとしてケプストラム(Cepstrum)分析がある。このケプストラム分析は、入力音声信号をDFT(Discrete Fourier Transform:離散フーリエ変換)やバンドパスフィルタバンク等により一定周期の長さ(以下、フレームとする)毎のパワースペクトルに変換し、このパワースペクトルの対数を逆フーリエ(Fourier)変換することにより、上記特徴量としてケプストラム係数を算出する。
【0004】さらに、上記スペクトル包絡の特徴量を抽出する別の方法として、LPC(Linear Predictive Coding:線形予測符号化)分析がある。このLPC分析は、入力音声信号の時系列を線形予測分析することによりフレーム毎の線形予測係数に変換する方法である。この線形予測係数からLPCケプストラム係数を算出し、このLPCケプストラム係数を用いて、音声認識を行う。また、上記LPCケプストラム係数を、メル(mel)スケールの周波数軸上での線形予測分析により算出されるメルLPCケプストラム係数を用いて、音声認識を行う方法もある。
【0005】
【発明が解決しようとする課題】ところで、上述した音声認識で用いられる上記スペクトル包絡の特徴量を抽出する方法は、入力音声に対する周波数分解能が一定である場合が多く、その場合、少ない特徴量では十分な音声認識ができない場合があった。例えば、上記ケプストラム係数は、DFTやバンドパスフィルタバンク分析等から求められているが、その周波数分解能は一定である。また、上記LPCケプストラム係数も、通常の線形予測分析を用いて求められているため、同様にその周波数分解能は一定である。一方、メルスケールの周波数軸上での線形予測分析により算出される上記メルLPCケプストラム係数については、低域側の周波数分解能を固定して向上させているため、高域側の周波数分解能は低下しており、高域側にスペクトル包絡の特徴を持つ音声等に対しては、十分に認識できない場合があった。また、周波数伸縮されたフィルタを用いたメルフィルタバンク分析により求められたメルケプストラム係数を用いる方法もあるが、上記メルLPCケプストラム係数と同様に、高域側の周波数分解能は低下しており、高域側にスペクトル包絡の特徴を持つ音声等に対しては、十分に認識できない場合があった。
【0006】それ故に、本発明の目的は、入力音声のスペクトルの特徴に応じて、その周波数分解能を適応させる音声分析を行い、少ない特徴量でも効率的にスペクトル包絡の特徴を捉え、少ない処理量で高い認識性能を実現できる音声認識方法および音声認識装置を提供することである。
【0007】
【課題を解決するための手段および発明の効果】上記目的を達成するために、本発明は、以下に述べるような特徴を有している。第1の発明は、入力音声のスペクトル包絡を表す特徴量を用いて認識を行う音声認識装置であって、入力音声の周波数的特徴に基づいて、その周波数分解能を適応的に変化させたスペクトル包絡に対応する特徴量を算出する特徴量算出部と、特徴量を用いて、予め設定された複数の標準モデルとの間の類似度を算出し、最も類似度が大きいモデルを認識する音声認識部とを備える。
【0008】第1の発明によれば、入力音声の周波数的特徴に応じて、その周波数分解能を適応的に変化させたスペクトル包絡に対応する特徴量を算出するため、少ない上記特徴量でも効率的に上記スペクトル包絡を捉えることが可能である。さらに、上記特徴量を音声認識に用いることで、従来よりも少ない上記特徴量で高い音声認識性能を実現することができる。
【0009】第2の発明は、第1の発明に従属する発明であって、特徴量算出部は、入力音声の周波数的特徴に基づいて、最適な周波数伸縮係数を算出し、周波数伸縮係数に基づいて、周波数分解能を適応的に変化させたスペクトル包絡に対応する特徴量を算出する。
【0010】第2の発明によれば、入力音声の周波数的特徴に基づいて、最適な周波数伸縮係数を算出することにより、上記周波数的特徴に合わせた周波数の伸縮を行うことができるので、上記周波数的特徴に合わせてその周波数分解能を上げ、音声分析することができる。
【0011】第3の発明は、第2の発明に従属する発明であって、特徴量算出部は、周波数的特徴として入力音声の大局的な特徴であるスペクトル傾斜を算出し、スペクトル傾斜に基づいて、周波数伸縮係数を算出する。
【0012】第3の発明によれば、周波数的特徴として入力音声の大局的な特徴であるスペクトル傾斜を算出することにより、上記入力音声の周波数領域での全体的なエネルギ形状を求めることができるので、上記エネルギピークに合わせた周波数伸縮を行うことができる。
【0013】第4の発明は、第3の発明に従属する発明であって、特徴量算出部は、スペクトル傾斜に、さらに人間の聴覚的な性質である聴覚感度特性に対応した周波数上の重み付けを加えて、周波数伸縮係数を算出する。
【0014】第4の発明によれば、人間の聴覚上重要である低い周波数帯域側の周波数分解能を上げて音声分析することを可能とし、第3の発明に人間の聴覚的性質を加えた音声分析を行うことができる。
【0015】第5の発明は、第3の発明に従属する発明であって、特徴量算出部は、スペクトル傾斜を、フーリエ変換を用いて算出することを特徴とする。
【0016】第5の発明によれば、フーリエ変換により、上記入力音声を周波数分析した際の周波数領域で最も大きなエネルギを持つ周波数帯域を算出することができ、その中心周波数を用いて、簡単な計算で最適な周波数伸縮係数を求めることができる。
【0017】第6の発明は、第3の発明に従属する発明であって、特徴量算出部は、スペクトル傾斜を、入力音声のスペクトルの傾斜の度合いを表すパラメータの比で算出することを特徴とする。
【0018】第6の発明によれば、既に公知である音声スペクトルの傾斜の度合いを表すパラメータの比でスペクトル傾斜を求めるため、上記スペクトル傾斜の算出にあたっては、既に公知のパラメータを利用し容易に算出することができる。
【0019】第7の発明は、第6の発明に従属する発明であって、特徴量算出部は、パラメータの比として、0次の自己相関係数と1次の自己相関係数との比を用いることを特徴とする。
【0020】第7の発明によれば、入力音声のスペクトルから、既に公知の方法を用いて0次の自己相関係数と1次の自己相関係数との比を算出するため、容易にスペクトル傾斜を算出することができる。
【0021】第8の発明は、第3の発明に従属する発明であって、特徴量算出部は、スペクトル傾斜を、フォルマント周波数とそのエネルギとを用いて算出することを特徴とする。
【0022】第8の発明によれば、入力音声のスペクトルから、既に公知の方法を用いてフォルマント周波数とそのエネルギとを算出した後、上記フォルマント周波数の平均周波数を算出したり、最も上記エネルギが大きい上記フォルマント周波数を抽出したりすることで、容易にスペクトル傾斜を求めることができる。
【0023】第9の発明は、第2の発明に従属する発明であって、特徴量算出部は、周波数伸縮係数に基づいて線形予測分析を行い、周波数分解能を適応的に変化させたスペクトル包絡に対応する特徴量を算出する。
【0024】第9の発明によれば、線形予測分析により、上記スペクトル包絡に対応した特徴量を算出するため、人間の聴覚の特性とも一致するスペクトルのピークを包絡することができるため、合理的にスペクトル包絡を表すことができる。
【0025】第10の発明は、第9の発明に従属する発明であって、特徴量算出部は、周波数伸縮係数に基づいたオールパスフィルタを用いて、周波数分解能を適応的に変化させ、線形予測分析を行うことを特徴とする。
【0026】第10の発明によれば、周波数伸縮係数に応じて、オールパスフィルタの周波数特性を設定することにより、周波数分解能を、低域側の周波数分解能を上げたり高域側の周波数分解能を上げたりするように適応的に変化させることができる。
【0027】第11の発明は、第9の発明に従属する発明であって、特徴量算出部は、特徴量をさらにケプストラム変換を用いて算出することを特徴とする。
【0028】第11の発明によれば、さらにケプストラム変換を用いることにより、容易にスペクトル包絡の特徴量を算出することができる。
【0029】第12の発明は、第9の発明に従属する発明であって、特徴量算出部は、周波数重みを補正し、周波数軸を伸縮し補正した後、特徴量をさらにケプストラム変換を用いて算出することを特徴とする。
【0030】第12の発明によれば、特徴量算出部で重畳される周波数重みを補正し、周波数軸を伸縮し補正した後、さらにケプストラム変換により特徴量を算出することにより、上記特徴量を従来の方法で算出した特徴量と同様に取り扱うことができる。
【0031】第13の発明は、第1の発明に従属する発明であって、特徴量算出部は、周波数伸縮係数に基づいて周波数伸縮された周波数軸上でフィルタバンク分析を行い、周波数分解能を適応的に変化させたスペクトル包絡に対応する特徴量を算出する。
【0032】第13の発明によれば、周波数伸縮された周波数軸上でフィルタバンク分析を行うため、フィルタバンクを最適に設定することにより、上記周波数に対してリニアな周波数分解能の重み付けだけではなく、特定の周波数帯域に対してその分解能を上げたり、複数の上記周波数帯域に対してその分解能を上げる等、様々な形で重み付けを行うことができる。
【0033】第14の発明は、第1の発明に従属する発明であって、音声認識部は、標準モデルを特徴量算出部で算出される特徴量を用いて予め設定する。
【0034】第14の発明によれば、標準モデルの特徴量も本発明の音声分析により算出することにより、上記標準モデルも少ない上記特徴量でも効率的に上記スペクトル包絡を捉えることが可能となり、少ない上記特徴量でさらに高い音声認識性能を実現することができる。
【0035】第15の発明は、入力音声のスペクトル包絡を表す特徴量を用いて認識を行う音声認識方法であって、入力音声の周波数的特徴に基づいて、その周波数分解能を適応的に変化させたスペクトル包絡に対応する特徴量を算出する特徴量算出ステップと、特徴量を用いて、予め設定された複数の標準モデルとの間の類似度を算出し、最も類似度が大きいモデルを認識する音声認識ステップとを備える。
【0036】第16の発明は、第15の発明に従属する発明であって、特徴量算出ステップは、入力音声の周波数的特徴に基づいて、最適な周波数伸縮係数を算出し、周波数伸縮係数に基づいて、周波数分解能を適応的に変化させたスペクトル包絡に対応する特徴量を算出する。
【0037】第17の発明は、第16の発明に従属する発明であって、特徴量算出ステップは、周波数的特徴として入力音声の大局的な特徴であるスペクトル傾斜を算出し、スペクトル傾斜に基づいて、周波数伸縮係数を算出する。
【0038】第18の発明は、第17の発明に従属する発明であって、特徴量算出ステップは、スペクトル傾斜に、さらに人間の聴覚的な性質である聴覚感度特性に対応した周波数上の重み付けを加えて、周波数伸縮係数を算出する。
【0039】第19の発明は、第17の発明に従属する発明であって、特徴量算出ステップは、スペクトル傾斜を、フーリエ変換を用いて算出することを特徴とする。
【0040】第20の発明は、第17の発明に従属する発明であって、特徴量算出ステップは、スペクトル傾斜を、入力音声のスペクトルの傾斜の度合いを表すパラメータの比で算出することを特徴とする。
【0041】第21の発明は、第20の発明に従属する発明であって、特徴量算出ステップは、パラメータの比として、0次の自己相関係数と1次の自己相関係数との比を用いることを特徴とする。
【0042】第22の発明は、第17の発明に従属する発明であって、特徴量算出ステップは、スペクトル傾斜を、フォルマント周波数とそのエネルギとを用いて算出することを特徴とする。
【0043】第23の発明は、第16の発明に従属する発明であって、特徴量算出ステップは、周波数伸縮係数に基づいて線形予測分析を行い、周波数分解能を適応的に変化させたスペクトル包絡に対応する特徴量を算出する。
【0044】第24の発明は、第23の発明に従属する発明であって、特徴量算出ステップは、周波数伸縮係数に基づいたオールパスフィルタを用いて、周波数分解能を適応的に変化させ、線形予測分析を行うことを特徴とする。
【0045】第25の発明は、第23の発明に従属する発明であって、特徴量算出ステップは、特徴量をさらにケプストラム変換を用いて算出することを特徴とする。
【0046】第26の発明は、第23の発明に従属する発明であって、特徴量算出ステップは、周波数重みを補正し、周波数軸を伸縮し補正した後、特徴量をさらにケプストラム変換を用いて算出することを特徴とする。
【0047】第27の発明は、第16の発明に従属する発明であって、特徴量算出ステップは、周波数伸縮係数に基づいて周波数伸縮された周波数軸上でフィルタバンク分析を行い、周波数分解能を適応的に変化させたスペクトル包絡に対応する特徴量を算出する。
【0048】第28の発明は、第15の発明に従属する発明であって、音声認識ステップは、標準モデルを特徴量算出ステップで算出される特徴量を用いて予め設定する。
【0049】第29の発明は、入力音声のスペクトル包絡を表す特徴量を用いて認識を行う音声認識プログラムを記録した記録媒体であって、入力音声の周波数的特徴に基づいて、その周波数分解能を適応的に変化させたスペクトル包絡に対応する特徴量を算出する特徴量算出ステップと、特徴量を用いて、予め設定された複数の標準モデルとの間の類似度を算出し、最も類似度が大きいモデルを認識する音声認識ステップとを備える。
【0050】第30の発明は、第29の発明に従属する発明であって、特徴量算出ステップは、入力音声の周波数的特徴に基づいて、最適な周波数伸縮係数を算出し、周波数伸縮係数に基づいて、周波数分解能を適応的に変化させたスペクトル包絡に対応する特徴量を算出する。
【0051】第31の発明は、第30の発明に従属する発明であって、特徴量算出ステップは、周波数的特徴として入力音声の大局的な特徴であるスペクトル傾斜を算出し、スペクトル傾斜に基づいて、周波数伸縮係数を算出する。
【0052】第32の発明は、第31の発明に従属する発明であって、特徴量算出ステップは、スペクトル傾斜に、さらに人間の聴覚的な性質である聴覚感度特性に対応した周波数上の重み付けを加えて、周波数伸縮係数を算出する。
【0053】第33の発明は、第31の発明に従属する発明であって、特徴量算出ステップは、スペクトル傾斜を、フーリエ変換を用いて算出することを特徴とする。
【0054】第34の発明は、第31の発明に従属する発明であって、特徴量算出ステップは、スペクトル傾斜を、入力音声のスペクトルの傾斜の度合いを表すパラメータの比で算出することを特徴とする。
【0055】第35の発明は、第34の発明に従属する発明であって、特徴量算出ステップは、パラメータの比として、0次の自己相関係数と1次の自己相関係数との比を用いることを特徴とする。
【0056】第36の発明は、第31の発明に従属する発明であって、特徴量算出ステップは、スペクトル傾斜を、フォルマント周波数とそのエネルギとを用いて算出することを特徴とする。
【0057】第37の発明は、第30の発明に従属する発明であって、特徴量算出ステップは、周波数伸縮係数に基づいて線形予測分析を行い、周波数分解能を適応的に変化させたスペクトル包絡に対応する特徴量を算出する。
【0058】第38の発明は、第37の発明に従属する発明であって、特徴量算出ステップは、周波数伸縮係数に基づいたオールパスフィルタを用いて、周波数分解能を適応的に変化させ、線形予測分析を行うことを特徴とする。
【0059】第39の発明は、第37の発明に従属する発明であって、特徴量算出ステップは、特徴量をさらにケプストラム変換を用いて算出することを特徴とする。
【0060】第40の発明は、第37の発明に従属する発明であって、特徴量算出ステップは、周波数重みを補正し、周波数軸を伸縮し補正した後、特徴量をさらにケプストラム変換を用いて算出することを特徴とする。
【0061】第41の発明は、第30の発明に従属する発明であって、特徴量算出部は、周波数伸縮係数に基づいて周波数伸縮された周波数軸上でフィルタバンク分析を行い、周波数分解能を適応的に変化させたスペクトル包絡に対応する特徴量を算出する。
【0062】第42の発明は、第29の発明に従属する発明であって、音声認識ステップは、標準モデルを特徴量算出ステップで算出される特徴量を用いて予め設定する。
【0063】
【発明の実施の形態】(第1の実施形態)図1〜図4は、本発明の第1の実施形態に係る音声認識装置を示す図である。なお、図1は当該音声認識装置の回路ブロック図であり、図2は当該音声認識装置の全体の動作を示すフローチャート、図3は図2で示されたフローチャートのサブルーチンであり、図4はオールパスフィルタの周波数特性図である。以下、図1〜図4を参照して、第1の実施形態について説明する。
【0064】図1において、当該音声認識装置は、音声入力装置1、アンプ2、アナログデジタルコンバータ(以下ADCと称す)3、CPU4、ROM5、RAM6を備えている。なお、CPU4は、デジタルシグナルプロセッサ(DSP)でもかまわない。
【0065】音声入力装置1は、例えばマイクなどで構成され、入力されたアナログ音声信号をアンプ2に送る。アンプ2では、上記アナログ音声信号を増幅し、ADC3に出力する。ADC3は、増幅された上記アナログ音声信号をデジタル音声信号に変換し、CPU4に送る。ROM5は、後述する音声分析プログラムや音声標準モデル等を記憶しており、そのプログラムをRAM6に展開する。また、RAM6は、音声分析や音声認識等のワークエリアとして使われる。CPU4は、上記デジタル音声信号を音声認識し、結果をディスプレイ(図示せず)等に出力する。
【0066】次に、当該音声認識装置の全体の動作について、フローチャートを用いて説明する。なお、各ステップの詳細については後述で説明する。図2において、音声入力装置1は、音声をアナログ音声信号として入力し(ステップS10)、アンプ2で、上記アナログ音声信号を増幅する(ステップS20)。次に、ADC3は、増幅されたアナログ音声信号をデジタル音声信号に変換する(ステップS30)。そして、CPU4は、上記デジタル音声信号を一定周期の長さ(以下フレームとする)毎に分割し(ステップS40)、上記フレーム毎に入力されたデジタル音声信号の大局的な周波数的特徴であるスペクトル傾斜を算出する(ステップS50)。次に、CPU4は、ステップS50で算出された上記スペクトル傾斜から、最適な周波数伸縮係数を求める(ステップS60)。そして、CPU4は、上記デジタル音声信号とステップS60で算出された上記周波数伸縮係数とに基づいて、周波数分解能を適応的に変化させたスペクトル包絡に対応した線形予測係数(以下、適応線形予測係数とする)を算出する(ステップS70)。次に、CPU4は、上記適応線形予測係数に重畳されている周波数重み特性を補正し(ステップS80)、上記適応線形予測係数の周波数軸を補正する(ステップS90)。そして、CPU4は、ステップS80およびS90で補正された上記適応線形予測係数を、ケプストラム(Cepstrum)係数に変換する(ステップS100)。最後に、CPU4は、ステップS100で算出された上記ケプストラム係数と、ROM5に予め記憶された単語や音韻等の複数の標準モデルとの間の類似度を算出し、最も類似度の大きい単語や音韻を検出し、音声認識結果として出力する(ステップS110)。
【0067】次に、ステップS50以降について当該音声認識装置の詳細な動作を説明する。ステップS50では、CPU4は、フレーム毎に分解されたデジタル音声信号から、そのフレーム毎の音声の大局的な周波数的特徴であるスペクトル傾斜を算出する。ここで、上記スペクトル傾斜とは、上記フレーム内の周波数領域での全体的なスペクトル形状であり、上記フレーム内の音声信号の時系列を周波数分析することにより求めることができる。例えば、上記スペクトル傾斜は、周波数低域側にエネルギが大きく周波数高域側にエネルギが小さい周波数軸上の右下がりや、逆の右上がりや、ある周波数帯域にエネルギのピークを持った場合等がある。
【0068】上記スペクトル傾斜を求める方法としては、バンドパスフィルタを用いる方法がある。この方法は、入力されたデジタル音声信号を複数のバンドパスフィルタに通し、各フィルタの出力を分析することにより、各フィルタに対応する周波数帯域のエネルギが算出できるので、上記エネルギから上記スペクトル傾斜を算出することができる。
【0069】また、上記スペクトル傾斜を求める別の方法として、フーリエ(Fourier)変換を用いる方法もある。この方法は、入力されたデジタル音声信号の時系列をフーリエ変換することにより上記デジタル音声信号の周波数成分を算出し、各成分の大きさから上記スペクトル傾斜を算出することが可能である。このような方法の他にも、上記スペクトル傾斜を求める方法は考えられるが、ここではどのような方法を用いてもかまわない。
【0070】次に、ステップS60の動作について説明する。CPU4は、上述したステップS50で算出された上記スペクトル傾斜として、ある周波数領域でのスペクトルの傾きtが与えられた場合、最適周波数伸縮係数αを、変換関数f(t)を用いて次のように算出する。α=f(t)+α0ここで、α0はバイアス値で、人間の聴覚的な性質である聴覚感度特性に基づいて、低域側の周波数分解能を上げるために設けられた重み付けのための値である。
【0071】上記変換関数f(t)としては、例えば、最も単純な1次関数として、α=−a・t+α0が考えられる。ここで、aは上記最適周波数伸縮係数αの大きさを制御する感度係数である。
【0072】一方、上述したステップS50でフーリエ変換等を用いて、上記スペクトル傾斜が周波数成分として算出された場合について説明する。CPU4は、ステップS50で、入力されたデジタル音声信号の時系列をフーリエ変換することにより上記デジタル音声信号の周波数成分を算出し、その周波数領域の中で最も大きなエネルギを持つ周波数帯域を算出している。上記周波数帯域の中心周波数をfとすると、最適周波数伸縮係数αは、 α=a・{1−(2・f/fn)}+α0・・・・・・(1)
で算出することができる。ここで、aは上記最適周波数伸縮係数αの大きさを制御する感度係数で、fnはナイキスト(Nyquist)周波数である。また、α0は、前述と同様に、バイアス値で、人間の聴覚的な性質である聴覚感度特性に基づいて、低域側の周波数分解能を上げるために設けられた重み付けのための値である。なお、式(1)を用いて上記最適周波数伸縮係数αを算出する方法の他にも、上記フーリエ変換等によって算出された周波数成分を用いて上記最適周波数伸縮係数αを求める方法は考えられるが、ここではどのような方法を用いてもかまわない。このようにして、ステップS60で、CPU4は、最適周波数伸縮係数αを算出する。
【0073】次に、ステップS70の動作について説明する。なお、図3はステップS70のサブルーチンを示すフローチャートを示し、図4はオールパスフィルタの周波数特性図である。以下、図3および図4を参照して、ステップS70の説明を行う。
【0074】図3において、CPU4は、上記デジタル音声信号を入力信号として、長さNの有限長波形x(n){n=0、…、N−1}を得る(ステップS71)。次に、CPU4は、上記入力信号x(n)をi段のオールパスフィルターに通す(ステップS72)。ここで、上記オールパスフィルタは、次の式で表される。
【数1】

ただし、zは、z変換の演算子を表し、z-1は単位遅延である。また、αは前述したステップS60で算出された最適周波数伸縮係数である。なお、上記オールパスフィルタで置き換えた予測モデルは、【数2】

を用いる。ここで、【数3】

は適応線形予測係数であり、pは上記スペクトル包絡の特徴量の次元数である。
【0075】図4は、このようにして設定された上記オールパスフィルタの周波数特性図である。図4において、グラフの横軸は変換前の周波数軸で、縦軸は変換後の周波数軸を表している。このグラフは、最適周波数伸縮係数αに応じた変換前後の周波数特性を示しており、α=−0.5からα=0.8まで0.1単位で、最適周波数伸縮係数αを変化させた場合の上記周波数特性を示している。図4から、最適周波数伸縮係数αが正の場合、変換後の周波数特性は低周波数帯域が伸び、高周波数帯域が縮んでいることがわかる。また、最適周波数伸縮係数αが負の場合、変換後の周波数特性は高周波数帯域が伸び、低周波数帯域が縮んでいることがわかる。このように、最適周波数伸縮係数αを±1.0の範囲で変化させることにより、上記オールパスフィルタは、最適周波数伸縮係数αが正の場合、低域側の分解能を向上させ、最適周波数伸縮係数αが負の場合、高域側の分解能を向上させる変換を行うことができる。
【0076】次に、CPU4は、上記入力信号x(n)をi段の上記オールパスフィルタに通すことにより、出力信号yi(n)を算出する(ステップS73)。この出力信号yi(n)は、以下の式で表される。
【数4】

ここで、出力信号y0(n)は、上記オールパスフィルタを通していない信号を表しているので、y0(n)=x(n)・・・・・・(2)
である。
【0077】次に、CPU4は、出力波形yi(n)の予想値を、線形結合で算出する(ステップS74)。ここで、上記出力波形yi(n)の予想値は、次の式で表される。
【数5】

【0078】次に、CPU4は、ステップS71で算出された上記予想値と上記デジタル音声信号との誤差を、全2乗予測誤差で評価する(ステップS75)。まず、CPU4は、上記入力信号x(n)に対する上記予想値の予測誤差を、無限区間に亘る全2乗予測誤差δで評価する。ここで、説明を簡単にするために、上記式(2)により上記入力信号x(n)をy0(n)に置き換えると、全2乗予測誤差δは、【数6】

で算出される。また、全2乗予測誤差δを最小とする上記適応線形予測係数は、次のような連立方程式で表される。
【数7】

ここで、φijは、無限長波形yi(n)とyj(n)との共分散であるが、パーセバル(Parseval)の定理および上記オールパスフィルタをフーリエ変換した周波数軸上の表現を用いることにより、次のような有限回の積和演算で与えられる。
【数8】

ここで、式(4)により、φijは自己相関関数の性質を持っていることが分かるため、φij=r(i−j)とおくと、全極フィルタ【数9】

の安定性も保証される。
【0079】次に、CPU4は、上記自己相関関数φijを用いて、既に公知のアルゴリズム(例えば、Durbinの方法)等により、上記連立方程式(3)を解くことにより、上記適応線形予測係数を算出する(ステップS76)。
【0080】なお、式(4)は、その中辺で示される本来無限回の計算が必要である式が、その右辺で示される有限回の計算で終了する式になるため、膨大な計算量を必要としない。また、この式(4)の計算は、無限回の演算の代わりに有限回の演算で打ち切る処理として従来行われていた波形の打ち切り等の近似を必要とせず、その誤差も発生しない。したがって、本実施形態では、従来の自己相関係数の計算量に対して、数倍の計算量で算出することが可能であり、波形の打ち切り等に伴う誤差を削除することができる。
【0081】次に、図2における、ステップS80の動作について説明する。CPU4は、上記適応線形予測係数に重畳されている周波数重みを除去する(ステップS80)。当該実施形態では、上記適応線形予測係数には、推定スペクトルの周波数重み【数10】

が重畳されている。ここでは、上記周波数重みを除去するために、FIR(Finite Impulse Response:有限インパルス応答形)フィルタが用いられる。なお、上記FIRフィルタの特性は、以下の式で表される。
|W(z)・W(z-1)|-1すなわち、CPU4は、上記FIRフィルタを用いて、上記適応線形予測係数から上記周波数重みを除去し、ステップS90に進む。
【0082】次に、CPU4は、ステップS80で上記周波数重みが除去された適応線形予測係数の周波数軸を補正する(ステップS90)。ここで、上記適応線形予測係数は、上述したステップS70で、その周波数軸が周波数伸縮係数αに応じて伸縮されている。したがって、後述する標準モデルとの類似度を算出するために、CPU4は、上記適応線形予測係数の周波数軸を、上記標準モデルの周波数軸と合致するように変換する。すなわち、CPU4は、周波数伸縮係数αに応じて伸縮された周波数軸を、一定間隔の周波数軸に変換する。ここでは、上記変換の方法として、既に公知のオッペンハイム(Oppenheim)の漸化式によるメル変換を用いて、周波数軸の正規化を行う。上記変換の周波数伸縮係数αCは、次のように求められる。
αC=(αT−α)/(1−α・αT
ここで、αTは、当該分析手法全体の周波数伸縮の度合いを決定する値で、音声サンプリング周波数に応じた値を設定する。本発明者は、上記サンプリング周波数が8kHzではαT=0.31、10kHzではαT=0.35、12kHzではαT=0.41、16kHzではαT=0.45に設定し、上記正規化を行っている。
【0083】次に、ステップS100の動作について説明する。図1において、CPU4は、上述したように周波数重みと周波数軸とが補正された適応線形予測係数に対して、ケプストラム変換を行い、適応LPC(Linear Predictive Coding:線形予測符号化)ケプストラム係数を算出する(ステップS100)。上記適応LPCケプストラム係数への変換方法は、既に公知であり、CPU4は、上記適応線形予測係数を通常の線形予測係数と同じように扱うことにより、上記適応LPCケプストラム係数に変換することができる。
【0084】次に、CPU4は、算出された上記適応LPCケプストラム係数と予めROM5に記憶された単語や音韻等の複数の標準モデルとの間の類似度を算出することにより、最も類似度の大きい単語や音韻を認識し(ステップS110)、その結果を音声認識データとして出力する。
【0085】上記標準モデルを用いた類似度の算出方法としては、既に公知のHMM(Hidden Markov Model:隠れマルコフモデル)やDPマッチング(Dynamic Programming Matching:動的計画法)等を用いる。上記HMMは、予め個人差による音韻や単語の特徴量の時系列を学習し、入力音声が上記時系列に確率値としてどのくらい近いかを捉えて認識する方法である。なお、当該実施形態では、上記HMMの特徴量の時系列は、上述した音声分析方法と同様に算出された適応LPCケプストラム係数を用いて算出され、標準モデルとしてROM5に記憶させる。これは、同じ音声分析方法で算出したスペクトル包絡の特徴量同士で類似度を算出することにより、より高い音声認識性能を導くためである。
【0086】一方、上記DPマッチングは、予め決定した対応付けの規則に従って、音声パターン間の時間軸を整合し、時間的特徴量の時系列を正規化できる手法である。上述同様に、当該実施形態では、上記DPマッチングモデルの特徴量の時系列は、上述した音声分析方法と同様に算出された適応LPCケプストラム係数を用いて算出され、標準モデルとしてROM5に記憶させる。これも、同じ音声分析方法で算出したスペクトル包絡の特徴量同士で類似度を算出することにより、より高い音声認識性能を導くためである。なお、他の上記標準モデルとして、複数の認識対象語彙毎の特徴量の時系列の中の代表的な特徴量の時系列等をモデルとしてもかまわず、当該実施形態では、多種の標準モデルに対応することができる。
【0087】なお、上記標準モデルとの類似度が低い場合、予め上記最適周波数伸縮係数αを複数用意しておき、最も上記類似度や音声認識率が高くなる最適周波数伸縮係数αを選出する方法を用いることにより、より高い音声認識性能を導くことができる。
【0088】このように、当該実施形態では、入力音声の周波数的特徴に応じて、その周波数分解能を適応的に変化させたスペクトル包絡に対応する特徴量を算出するため、少ない上記特徴量でも効率的に上記スペクトル包絡を捉えることが可能である。さらに、上記特徴量を音声認識に用いることで、従来よりも少ない上記特徴量で高い音声認識性能を実現することができる。
【0089】なお、当該実施形態では、入力音声から求めた特徴量の時系列として、適応線形予測係数は適応LPCケプストラム係数に変換されているが、既に公知の手法を用いて、上記適応線形予測係数を適応PARCOR(Partial Auto−correlation:偏自己相関)係数や適応LSP(LinearSpectrum Pair:線スペクトル対)係数に変換し、音声認識に用いてもかまわない。また、上記適応線形予測係数をそのまま音声認識に用いてもかまわない。
【0090】また、前述したステップS70で算出される上記適応線形予測係数を、既に公知である音声合成や音声符号化等の方法を用いて変換することにより、音声認識だけでなく音声合成や音声符号化等の幅広い分野で用いてもかまわない。従来、主に音声信号の圧縮では、入力された音声信号のフレーム毎に線形予測分析することにより、LPC係数やLSP係数やPARCOR係数等のLPCスペクトル成分を表す特徴量を求め、上記特徴量を逆フィルタリングして正規化することにより残差信号を算出している。本発明では、上記適応線形予測係数を、上記同様の既に公知の方法を用いて、時間軸上で入力音声を逆フィルタリング処理することにより、スペクトル包絡成分と残差信号とに分離を行い、ベクトル量子化をすれば、音声信号の圧縮符号化が実現できる。
【0091】次に、本発明を音声信号の圧縮に用いる方法について、図5を用いて説明する。図5は、上述したステップS70で算出された適応線形予測係数を、量子化し出力するまでのフローチャートである。まず、CPU4は、上記適応線形予測係数を用いて、前述したステップS90と同様の方法で上記適応線形予測係数の周波数軸を補正する(ステップS200)。次に、CPU4は、入力音声を逆フィルタリング処理し(ステップS210)、スペクトル包絡成分の正規化を行い残差信号を算出する。そして、CPU4は、ステップS210で算出された上記残差信号を、パワーの最大値あるいは平均値等に基づいて、パワーの正規化を行う(ステップS220)。最後に、CPU4は、上記残差信号を、予め設定された残差コードブックを用いてベクトル量子化し、そのコードを出力する(ステップS230)。
【0092】このように、本発明では、上記適応線形予測係数を用いて、入力音声を逆フィルタリング処理して正規化することにより、残差信号を算出する構成としたので、正確に周波数特性信号系列が平坦化され、効率の良い量子化を行うことができる。また、入力音声の周波数的特徴に応じてスペクトル包絡が算出されるため、上記スペクトル包絡を用いることにより、上記特徴を効率よく信号圧縮することができる。なお、当該実施形態の量子化については、既に公知の方法を用いて、上記適応線形予測係数から適応PARCOR係数あるいは適応LSP係数を算出し、同様の方法で量子化を行ってもかまわない。
【0093】(第2の実施形態)前述した第1の実施形態とは異なったスペクトル傾斜のパラメータ算出方法として、第2の実施形態を説明する。図6は、本発明の第2の実施形態に係る音声認識装置の全体の動作を示すフローチャートである。以下、図6を参照して、当該音声認識装置について説明する。なお、当該音声認識装置の回路は、前述した第1の実施形態に係る音声認識装置の回路と同様であるので、説明を省略する。
【0094】当該音声認識装置の全体の動作について、フローチャートを用いて説明する。図6において、ステップS10〜S40の動作については、前述の第1の実施形態に係る音声認識装置と同様であるので、同一ステップには同一のステップ符号を付して、その詳細な説明を省略する。
【0095】CPU4は、ステップS40で分割されたデジタル音声信号のフレーム毎に、0次および1次の自己相関関数を求め、その比を算出する(ステップS51)。なお、上記自己相関関数の算出方法は、既に公知である。ここで、フレームi毎の上記0次の自己相関関数をri[0]とし、フレームi毎の上記1次の自己相関関数をri[1]とすると、CPU4は、0次と1次との自己相関関数の比を、フレームi毎に次のように算出する。
【数11】

この0次と1次との自己相関関数の比は、フレーム毎の音声の大局的な周波数的特徴である音声スペクトル傾斜の度合いを示している。例えば、上記スペクトル傾斜は、周波数低域側にエネルギが大きく周波数高域側にエネルギが小さい周波数軸上の右下がりや、逆の右上がり等があり、上記自己相関関数の比と相関を持った値である。
【0096】次に、CPU4は、ステップS51で算出された0次と1次との自己相関関数の比から、最適周波数伸縮係数αをフレーム毎に算出する(ステップS61)。この最適周波数伸縮係数αは、CPU4により次のように算出される。
【数12】

ここで、γは上記最適周波数伸縮係数αの大きさを制御する感度係数であり、α0はバイアス値で、人間の聴覚特性に基づいて低域側の周波数分解能を上げるために設けられている。このようにして、CPU4は、最適周波数伸縮係数αを算出し、ステップS70に進む。
【0097】図6において、ステップS70〜S110の動作については、前述の第1の実施形態に係る音声認識装置と同様であるので、同一ステップには同一のステップ符号を付して、その詳細な説明を省略する。
【0098】このようにして、第2の実施形態では、デジタル音声信号のフレーム毎に、0次および1次の自己相関関数を求め、その比からスペクトル傾斜を算出し、第1の実施形態と同様に音声分析することができる。よって、当該実施形態では、入力音声の周波数的特徴に応じて、その周波数分解能を適応的に変化させたスペクトル包絡に対応する特徴量を算出するため、少ない上記特徴量でも効率的に上記スペクトル包絡を捉えることが可能である。さらに、上記特徴量を音声認識に用いることで、従来よりも少ない上記特徴量で高い音声認識性能を実現することができる。
【0099】なお、第2の実施形態では、音声スペクトルの傾斜の度合いを表すパラメータとして、デジタル音声信号のフレーム毎に、0次および1次の自己相関関数を求め、その比から上記スペクトル傾斜を算出したが、他のパラメータを用いてもかまわない。例えば、2次以上の自己相関係数やケプストラム係数、線形予測係数、PARCOR係数、LSP係数、メル線形予測係数、メルPARCOR係数、メルLSP係数、メルLPCケプストラム係数、FFT(Fast Fourier Transform:高速フーリエ変換)ケプストラム係数、MFCC(Mel Frequency Cepstrum Coeffcient)係数等を上述同様に比を算出することにより、上記スペクトル傾斜を表すパラメータとして用いることができる。
【0100】また、当該実施形態では、第1の実施形態と同様に、入力音声から求めた特徴量の時系列として、適応線形予測係数は適応LPCケプストラム係数に変換されているが、既に公知の手法を用いて、上記適応線形予測係数を適応PARCOR係数や適応LSP係数に変換し、音声認識に用いてもかまわない。また、上記適応線形予測係数をそのまま音声認識に用いてもかまわない。
【0101】さらに、当該実施形態でも第1の実施形態と同様に、前述したステップS70で算出される上記適応線形予測係数を、既に公知である音声合成や音声符号化等の方法を用いて変換することにより、音声認識だけでなく音声合成や音声符号化等の幅広い分野で、本発明を適用することができることは言うまでもない。
【0102】(第3の実施形態)前述した第1および第2の実施形態とは異なったスペクトル傾斜のパラメータ算出方法として、第3の実施形態を説明する。図7は、本発明の第3の実施形態に係る音声認識装置の全体の動作を示すフローチャートである。以下、図7を参照して、当該音声認識装置について説明する。なお、当該音声認識装置の回路は、前述した第1の実施形態に係る音声認識装置の回路と同様であるので、説明を省略する。
【0103】当該音声認識装置の全体の動作について、フローチャートを用いて説明する。図7において、ステップS10〜S40の動作については、前述の第1の実施形態に係る音声認識装置と同様であるので、同一ステップには同一のステップ符号を付して、その詳細な説明を省略する。
【0104】CPU4は、ステップS40で分割されたデジタル音声信号のフレーム毎に、フォルマント(Formant)周波数とそのエネルギの大きさとを算出する(ステップS52)。なお、上記フォルマント周波数とそのエネルギの大きさとを算出する方法は、既に公知である。このフォルマント周波数とは、音声中の母音等のスペクトルにおいて、ある周波数帯域のみにエネルギのピークを持った周波数であり、特に音声中の母音等でその音韻性を特徴付ける重要なパラメータである。したがって、フォルマント周波数とそのエネルギの大きさとは、音声の大局的な周波数的特徴である音声スペクトルの最も重要な部分を表している。
【0105】次に、CPU4は、ステップS52で算出されたフォルマント周波数とそのエネルギの大きさとを用いて、フレーム毎に最適周波数伸縮係数αを算出する(ステップS62)。例えば、CPU4は、最も上記エネルギが大きい第1フォルマント周波数をfとし、前述した式(1)に代入することで、最適周波数伸縮係数αを算出する。あるいは、CPU4は、ステップS52で算出された第1〜第nフォルマント周波数を用いて、その平均周波数をfとして算出し、前述した式(1)に代入することで、最適周波数伸縮係数αを算出してもよい。なお、他の方法で、上記フォルマント周波数とそのエネルギの大きさとを用いた関数により、周波数fを算出し、最適周波数伸縮係数αを求めてもかまわない。
【0106】図7において、ステップS70〜S110の動作については、前述の第1の実施形態に係る音声認識装置と同様であるので、同一ステップには同一のステップ符号を付して、その詳細な説明を省略する。
【0107】このようにして、第3の実施形態では、デジタル音声信号のフレーム毎に、フォルマント周波数とそのエネルギの大きさとから最適周波数伸縮係数を算出し、第1の実施形態と同様に音声分析することができる。よって、当該実施形態では、入力音声の周波数的特徴に応じて、その周波数分解能を適応的に変化させたスペクトル包絡に対応する特徴量を算出するため、少ない上記特徴量でも効率的に上記スペクトル包絡を捉えることが可能である。さらに、上記特徴量を音声認識に用いることで、従来よりも少ない上記特徴量で高い音声認識性能を実現することができる。
【0108】なお、当該実施形態では、第1の実施形態と同様に、入力音声から求めた特徴量の時系列として、適応線形予測係数は適応LPCケプストラム係数に変換されているが、既に公知の手法を用いて、上記適応線形予測係数を適応PARCOR係数や適応LSP係数に変換し、音声認識に用いてもかまわない。また、上記適応線形予測係数をそのまま音声認識に用いてもかまわない。
【0109】さらに、当該実施形態でも第1の実施形態と同様に、前述したステップS70で算出される上記適応線形予測係数を、既に公知である音声合成や音声符号化等の方法を用いて変換することにより、音声認識だけでなく音声合成や音声符号化等の幅広い分野で、本発明を適用することができることは言うまでもない。
【0110】(第4の実施形態)前述した第1〜第3の実施形態で用いた線形予測分析とは異なった分析方法として、第4の実施形態を説明する。図8は、本発明の第4の実施形態に係る音声認識装置の全体の動作を示すフローチャートである。以下、図8を参照して、当該音声認識装置について説明する。なお、当該音声認識装置の回路は、前述した第1の実施形態に係る音声認識装置の回路と同様であるので、説明を省略する。
【0111】当該音声認識装置の全体の動作について、フローチャートを用いて説明する。図6において、ステップS10〜S40の動作については、前述の第1の実施形態に係る音声認識装置と同様であるので、同一ステップには同一のステップ符号を付して、その詳細な説明を省略する。
【0112】まず、CPU4は、ステップS40で分割されたデジタル音声信号のフレーム毎に、最適周波数伸縮係数αを算出する(ステップS53)。上記最適周波数伸縮係数αの算出方法は、前述した第1〜第3の実施形態で上記最適周波数伸縮係数αを算出した方法のいずれでもよく、すなわち、音声を周波数分析した際の周波数領域での全体的な形状であるスペクトル傾斜や、0次および1次の自己相関関数の比、あるいはフォルマント周波数とそのエネルギの大きさ等から算出すればよい。
【0113】次に、CPU4は、ステップS53で算出した上記最適周波数伸縮係数αに基づいて、最適なフィルタバンクを設定する(ステップS54)。このフィルタバンクとは、周波数軸上を複数のバンドパスフィルタで区分して、それぞれのバンドパスフィルタの出力から入力音声信号のパワースペクトルを求める方法である。従来、上記バンドパスフィルタを設定するときは、周波数軸上を等間隔に区分する方法や、人間の聴覚の特性に応じて設定する臨界帯域フィルタのように周波数軸上を不均一に区分する方法がある。図9は、人間の聴覚の特性に応じて設定した周波数軸上を不均一に区分したフィルタバンクの一例である。図9では、横軸は周波数軸を表し、縦軸は周波数応答を表している。このフィルタバンクは、次式により構成されている。
【数13】

ここで、Mel(f)は、通常の周波数軸fに対して伸縮された周波数軸上での周波数を表している。また、bとfbとはそれぞれ定数であり、b=2595fb=700の場合、式(5)はメル周波数軸にほぼ一致する。
【0114】当該実施形態では、ステップS53で算出された最適周波数伸縮係数αを変数として、上記定数bおよびfbを、b=B(α)
b=Fb(α)
のように最適周波数伸縮係数αの関数として定義することにより、上記最適周波数伸縮係数αに応じた上記フィルタバンクを設定することができる。すなわち、CPU4は、まず、周波数軸を等間隔で三角型のフィルタを構成し、そのフィルタの中心周波数と帯域幅とを式(5)で変換することにより、周波数軸を任意に伸縮することが可能となり、周波数分解能を適応的に変化させた上記フィルタバンクを設定することができる。なお、上記フィルタバンクを構成する各フィルタの中心周波数と帯域幅とを、予めテーブルの形で複数設定しておき、上記フィルタバンクを上記最適周波数伸縮係数αによって選択してもかまわない。
【0115】次に、CPU4は、フィルタバンク分析によりパワースペクトルを算出する(ステップS55)。まず、CPU4は、入力音声をフレーム毎にフーリエ変換することにより、上記入力音声から周波数成分を算出し、その後、上記フィルタバンクを用いて各周波数成分の重み付け線形和により、各フィルタからのパワースペクトルを求める。
【0116】次に、CPU4は、ステップS55で算出されたパワースペクトルに対して、対数的な圧伸処理を行い、対数パワースペクトルを算出する(ステップS56)。この対数的な圧伸処理には、上記パワースペクトルの対数を単純に算出する方法や、上記パワースペクトルのn乗根を算出する方法等がある。また、上記圧伸処理は、それらを周波数毎に組み合わせて算出する方法でもかまわない。
【0117】図8において、ステップS100〜S110の動作については、前述の第1の実施形態に係る音声認識装置と同様であるので、同一ステップには同一のステップ符号を付して、その詳細な説明を省略する。
【0118】このようにして、第4の実施形態では、フィルタバンク分析を用いて、第1の実施形態と同様に音声分析することができる。よって、当該実施形態では、入力音声の周波数的特徴に応じて、その周波数分解能を適応的に変化させたスペクトル包絡に対応する特徴量を算出するため、少ない上記特徴量でも効率的に上記スペクトル包絡を捉えることが可能である。また、上記特徴量を音声認識に用いることで、従来よりも少ない上記特徴量で高い音声認識性能を実現することができる。さらに、当該実施形態では、上記周波数的特徴に対してリニアな周波数分解能の重み付けのみではなく、特定の周波数帯域に対してその分解能を上げたり、複数の上記周波数帯域に対してその分解能を上げる等、様々な形で重み付けを行うことができるため、第1〜第3の実施形態より高い音声認識性能を実現することができる。
【0119】さらに、当該実施形態でも第1の実施形態と同様に、前述したステップS55で算出されるパワースペクトルを、既に公知である音声合成や音声符号化等の方法を用いて変換することにより、音声認識だけでなく音声合成や音声符号化等の幅広い分野で、本発明を適用することができることは言うまでもない。
【出願人】 【識別番号】000005821
【氏名又は名称】松下電器産業株式会社
【出願日】 平成12年9月18日(2000.9.18)
【代理人】 【識別番号】100098291
【弁理士】
【氏名又は名称】小笠原 史朗
【公開番号】 特開2002−91486(P2002−91486A)
【公開日】 平成14年3月27日(2002.3.27)
【出願番号】 特願2000−282480(P2000−282480)