トップ :: G 物理学 :: G10 楽器;音響




【発明の名称】 音声の類似度検出方法及びその検出値を用いた音声認識方法、並びに、振動波の類似度検出方法及びその検出値を用いた機械の異常判定方法、並びに、画像の類似度検出方法及びその検出値を用いた画像認識方法、並びに、立体の類似度検出方法及びその検出値を用いた立体認識方法、並びに、動画像の類似度検出方法及びその検出値を用いた動画像認識方法
【発明者】 【氏名】神内 教博

【氏名】山口 博司

【要約】 【課題】音声等の正確な類似度検出値を得る方法を提供する。

【解決手段】音声特徴量を成分とする標準、入力各パターン行列を作成し(S1〜S2) 、パターン行列の指定成分毎に異なる分散の値をもつ基準形状を作成し、基準形状の値を成分とする正負基準パターンベクトルを作成し、指定成分(基準形状の中心)を標準パターン行列のj1=1 〜 m1,j2=1〜m2各成分位置に順次合わせながら、標準、入力パターン行列間の形状変化を正負各基準パターンベクトルの形状変化に置換し、各基準パターンベクトルの尖度変化量を数値化して形状変化量Dj1j2 とし(S3)、Dj1j2 からパターン行列間の形状距離値を算出する(S4)。
【特許請求の範囲】
【請求項1】 (a)標準音声の特徴量を成分とする標準パターン行列と、入力音声の特徴量を成分とする入力パターン行列とを作成すること、(b)パターン行列の指定成分ごとに異なる分散の値をもつ正規分布を作成し、上記正規分布の値を成分とする基準パターン正ベクトル及び基準パターン負ベクトルを作成すること、(c)パターン行列の各成分について、パターン行列の指定成分と各成分との間の長さを求め、基準パターン正ベクトル及び基準パターン負ベクトルの中心から上記長さだけ離れた位置に最も近い基準パターン正ベクトル及び基準パターン負ベクトルの成分番号を算出し、入力パターン行列の成分値が標準パターン行列の成分値より大きいとき、その差の絶対値だけ基準パターン正ベクトルの上記成分番号の成分値を増加させ、入力パターン行列の成分値が標準パターン行列の成分値より小さいとき、その差の絶対値だけ基準パターン負ベクトルの上記成分番号の成分値を増加させること、(d)基準パターン正ベクトルの尖度と基準パターン負ベクトルの尖度との差の値を算出すること、(e)上記尖度の差の値を算出するに際し、パターン行列の指定成分を各成分の位置に移動しながら尖度の差の値を求めること、(f)上記尖度の差の値の2乗和、あるいは同2乗和の平方根を、標準パターン行列と入力パターン行列との間の形状距離値とすることを特徴とする音声の類似度検出方法。
【請求項2】 前記パターン行列の指定成分ごとに異なる分散の値をもつ正規分布に代えて、パターン行列の指定成分ごとに異なる分散の値をもつ矩形など任意の基準形状を作成し、上記基準形状の値を成分とする基準パターン正ベクトル及び基準パターン負ベクトルを作成することを特徴とする請求項1に記載の音声の類似度検出方法。
【請求項3】 請求項1または2に記載の音声の類似度検出方法で標準音声の特徴量を成分とする標準パターン行列と入力音声の特徴量を成分とする入力パターン行列との間の形状距離を求め、求めた形状距離値と任意に設定した許容値を比較し、形状距離値が許容値を越えたとき入力音声は標準音声でないと判定し、形状距離値が許容値内のとき入力音声が標準音声であると判定することを特徴とする音声認識方法。
【請求項4】 (a)標準振動波の特徴量を成分とする標準パターン行列と、入力振動波の特徴量を成分とする入力パターン行列とを作成すること、(b)パターン行列の指定成分ごとに異なる分散の値をもつ正規分布を作成し、上記正規分布の値を成分とする基準パターン正ベクトル及び基準パターン負ベクトルを作成すること、(c)パターン行列の各成分について、パターン行列の指定成分と各成分との間の長さを求め、基準パターン正ベクトル及び基準パターン負ベクトルの中心から上記長さだけ離れた位置に最も近い基準パターン正ベクトル及び基準パターン負ベクトルの成分番号を算出し、入力パターン行列の成分値が標準パターン行列の成分値より大きいとき、その差の絶対値だけ基準パターン正ベクトルの上記成分番号の成分値を増加させ、入力パターン行列の成分値が標準パターン行列の成分値より小さいとき、その差の絶対値だけ基準パターン負ベクトルの上記成分番号の成分値を増加させること、(d)基準パターン正ベクトルの尖度と基準パターン負ベクトルの尖度との差の値を算出すること、(e)上記尖度の差の値を算出するに際し、パターン行列の指定成分を各成分の位置に移動しながら尖度の差の値を求めること、(f)上記尖度の差の値の2乗和、あるいは同2乗和の平方根を、標準パターン行列と入力パターン行列との間の形状距離値とすることを特徴とする振動波の類似度検出方法。
【請求項5】 前記パターン行列の指定成分ごとに異なる分散の値をもつ正規分布に代えて、パターン行列の指定成分ごとに異なる分散の値をもつ矩形など任意の基準形状を作成し、上記基準形状の値を成分とする基準パターン正ベクトル及び基準パターン負ベクトルを作成することを特徴とする請求項4に記載の振動波の類似度検出方法。
【請求項6】 請求項4または5に記載の振動波の類似度検出方法で標準振動波の特徴量を成分とする標準パターン行列と入力振動波の特徴量を成分とする入力パターン行列との間の形状距離を求め、求めた形状距離値と任意に設定した許容値を比較し、形状距離値が許容値を越えたとき異常と判定し、形状距離値が許容値内のとき正常と判定することを特徴とする機械の異常判定方法。
【請求項7】 (a)標準画像の特徴量を成分とする標準パターン行列と、入力画像の特徴量を成分とする入力パターン行列とを作成すること、(b)パターン行列の指定成分ごとに異なる分散の値をもつ正規分布を作成し、上記正規分布の値を成分とする基準パターン正ベクトル及び基準パターン負ベクトルを作成すること、(c)パターン行列の各成分について、パターン行列の指定成分と各成分との間の長さを求め、基準パターン正ベクトル及び基準パターン負ベクトルの中心から上記長さだけ離れた位置に最も近い基準パターン正ベクトル及び基準パターン負ベクトルの成分番号を算出し、入力パターン行列の成分値が標準パターン行列の成分値より大きいとき、その差の絶対値だけ基準パターン正ベクトルの上記成分番号の成分値を増加させ、入力パターン行列の成分値が標準パターン行列の成分値より小さいとき、その差の絶対値だけ基準パターン負ベクトルの上記成分番号の成分値を増加させること、(d)基準パターン正ベクトルの尖度と基準パターン負ベクトルの尖度との差の値を算出すること、(e)上記尖度の差の値を算出するに際し、パターン行列の指定成分を各成分の位置に移動しながら尖度の差の値を求めること、(f)上記尖度の差の値の2乗和、あるいは同2乗和の平方根を、標準パターン行列と入力パターン行列との間の形状距離値とすることを特徴とする画像の類似度検出方法。
【請求項8】 前記パターン行列の指定成分ごとに異なる分散の値をもつ正規分布に代えて、パターン行列の指定成分ごとに異なる分散の値をもつ矩形など任意の基準形状を作成し、上記基準形状の値を成分とする基準パターン正ベクトル及び基準パターン負ベクトルを作成することを特徴とする請求項7に記載の画像の類似度検出方法。
【請求項9】 請求項7または8に記載の画像の類似度検出方法で標準画像の特徴量を成分とする標準パターン行列と入力画像の特徴量を成分とする入力パターン行列との間の形状距離を求め、求めた形状距離値と任意に設定した許容値を比較し、形状距離値が許容値を越えたとき入力画像は標準画像でないと判定し、形状距離値が許容値内のとき入力画像が標準画像であると判定することを特徴とする画像認識方法。
【請求項10】 (a)標準立体の特徴量を成分とする標準パターン行列層と、入力立体の特徴量を成分とする入力パターン行列層とを作成すること、(b)パターン行列層の指定成分ごとに異なる分散の値をもつ正規分布を作成し、上記正規分布の値を成分とする基準パターン正ベクトル及び基準パターン負ベクトルを作成すること、(c)パターン行列層の各成分について、パターン行列層の指定成分と各成分との間の長さを求め、基準パターン正ベクトル及び基準パターン負ベクトルの中心から上記長さだけ離れた位置に最も近い基準パターン正ベクトル及び基準パターン負ベクトルの成分番号を算出し、入力パターン行列層の成分値が標準パターン行列層の成分値より大きいとき、その差の絶対値だけ基準パターン正ベクトルの上記成分番号の成分値を増加させ、入力パターン行列層の成分値が標準パターン行列層の成分値より小さいとき、その差の絶対値だけ基準パターン負ベクトルの上記成分番号の成分値を増加させること、(d)基準パターン正ベクトルの尖度と基準パターン負ベクトルの尖度との差の値を算出すること、(e)上記尖度の差の値を算出するに際し、パターン行列層の指定成分を各成分の位置に移動しながら尖度の差の値を求めること、(f)上記尖度の差の値の2乗和、あるいは同2乗和の平方根を、標準パターン行列層と入力パターン行列層との間の形状距離値とすることを特徴とする立体の類似度検出方法。
【請求項11】 前記パターン行列層の指定成分ごとに異なる分散の値をもつ正規分布に代えて、パターン行列層の指定成分ごとに異なる分散の値をもつ矩形など任意の基準形状を作成し、上記基準形状の値を成分とする基準パターン正ベクトル及び基準パターン負ベクトルを作成することを特徴とする請求項10に記載の立体の類似度検出方法。
【請求項12】 請求項10または11に記載の立体の類似度検出方法で標準立体の特徴量を成分とする標準パターン行列層と入力立体の特徴量を成分とする入力パターン行列層との間の形状距離を求め、求めた形状距離値と任意に設定した許容値を比較し、形状距離値が許容値を越えたとき入力立体は標準立体でないと判定し、形状距離値が許容値内のとき入力立体が標準立体であると判定することを特徴とする立体認識方法。
【請求項13】 (a)標準動画像の特徴量を成分とする標準パターン行列層と、入力動画像の特徴量を成分とする入力パターン行列層とを作成すること、(b)パターン行列の指定成分ごとに異なる分散の値をもつ正規分布を作成し、上記正規分布の値を成分とする基準パターン正ベクトル及び基準パターン負ベクトルを作成すること、(c)パターン行列層の各成分について、パターン行列層の指定成分と各成分との間の長さを求め、基準パターン正ベクトル及び基準パターン負ベクトルの中心から上記長さだけ離れた位置に最も近い基準パターン正ベクトル及び基準パターン負ベクトルの成分番号を算出し、入力パターン行列層の成分値が標準パターン行列層の成分値より大きいとき、その差の絶対値だけ基準パターン正ベクトルの上記成分番号の成分値を増加させ、入力パターン行列層の成分値が標準パターン行列層の成分値より小さいとき、その差の絶対値だけ基準パターン負ベクトルの上記成分番号の成分値を増加させること、(d)基準パターン正ベクトルの尖度と基準パターン負ベクトルの尖度との差の値を算出すること、(e)上記尖度の差の値を算出するに際し、パターン行列層の指定成分を各成分の位置に移動しながら尖度の差の値を求めること、(f)上記尖度の差の値の2乗和、あるいは同2乗和の平方根を、標準パターン行列層と入力パターン行列層との間の形状距離値とすることを特徴とする動画像の類似度検出方法。
【請求項14】 前記パターン行列層の指定成分ごとに異なる分散の値をもつ正規分布に代えて、パターン行列層の指定成分ごとに異なる分散の値をもつ矩形など任意の基準形状を作成し、上記基準形状の値を成分とする基準パターン正ベクトル及び基準パターン負ベクトルを作成することを特徴とする請求項13に記載の動画像の類似度検出方法。
【請求項15】 請求項13または14に記載の動画像の類似度検出方法で標準動画像の特徴量を成分とする標準パターン行列層と入力動画像の特徴量を成分とする入力パターン行列層との間の形状距離を求め、求めた形状距離値と任意に設定した許容値を比較し、形状距離値が許容値を越えたとき入力動画像は標準動画像でないと判定し、形状距離値が許容値内のとき入力動画像が標準動画像であると判定することを特徴とする動画像認識方法。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は、標準情報と入力情報との間の類似度を検出する方法と、その類似度検出値を用いて入力情報が標準情報であるか否かの認識あるいは入力情報が異常であるか否かの判定を行う方法に関する。より詳しくは、本発明は、人間が発声する音声について標準音声と入力音声との間の類似度を検出する方法と、その検出値を用いて音声を認識する方法に関し、また、運転中の設備等が発する音や振動についての振動波の類似度検出方法と、その類似度検出値に基づいて機械の異常を判定する方法に関し、更に、文字や模様についての画像の類似度検出方法と、その類似度検出値を用いて画像を認識する方法にも関する。また、立体の類似度検出方法と、その類似度検出値を用いて立体を認識する方法に関し、更に、動画像の類似度検出方法と、その類似度検出値を用いて動画像を認識する方法にも関する。
【0002】
【従来の技術】人間が発声する音声をコンピュータが自動認識する音声認識装置においては、予めコンピュータに登録した既知の音声を標準音声とし、新たにコンピュータに入力した未知の音声を入力音声としたとき、標準音声と入力音声との間の類似度を検出し、その類似度の検出値により入力音声を認識する手段が装備されている。
【0003】従来の音声の類似度検出では、標準音声のパワースペクトルなどの特徴量を成分とする標準パターン行列を予め登録しておき、入力音声の特徴量を成分とする入力パターン行列を作成し、標準パターン行列と入力パターン行列との間のユークリッド距離や角度を算出する方法を採っている。また、従来の音声認識では、上記ユークリッド距離や角度の算出値と任意に設定した許容値とを比較して音声の認識を行う方法を採っている。即ち、特徴量の種類の数と同じ次元のパターン空間を考え、標準パターン行列の点と入力パターン行列の点との間の直線的な距離(ユークリッド距離)や角度を表す類似性尺度を用いて、2つのパターン行列の類似程度を数値化し、その数値に基づいて音声の認識を行っている。
【0004】第1の例として、図39、図40は、平坦なパワースペクトル形状を持つ標準音声20、及び、この標準音声と同じエネルギーを持つがパワースペクトル形状の特徴が異なる入力音声21、22、23について、標準音声20のパワースペクトルを成分とする7行9列の標準パターン行列20Aを予め登録しておき、各入力音声21、22、23のパワースペクトルを成分とする7行9列の入力パターン行列21A、22A、23Aを作成し、標準パターン行列20Aと各入力パターン行列21A、22A、23Aとの間の類似性尺度として、ユークリッド距離または角度の余弦e21、e22、e23を算出する様子を模式的に示したものである。
【0005】ここで、各入力音声21、22、23は、変数αについて、図40中に示されるγ、δ、ε、ζ、η、θの関係を持っているものとする。つまり、標準音声20のパワースペクトル形状に対する各入力音声21、22、23のパワースペクトル形状の変化が、図40に示す関係で、変数αにより規定されるものとしている。ユークリッド距離は標準パターン行列と入力パターン行列の各成分毎の差の2乗和の平方根として求められ、また、角度の余弦は2つのパターン行列の各成分ごとの積の和を、標準パターン行列の各成分の2乗和の平方根と入力パターン行列の各成分の2乗和の平方根で除算して求められる。
【0006】第2の例として、図41、図42は、パワースペクトル形状に2個のピークを持つ標準音声24、及び、この標準音声と同じエネルギーを持つがピークの位置が異なる入力音声25、26、27について、標準音声24のパワースペクトルを成分とする7行9列の標準パターン行列24Aを予め登録しておき、各入力音声25、26、27のパワースペクトルを成分とする7行9列の入力パターン行列25A、26A、27Aを作成し、標準パターン行列と各入力パターン行列との間の類似性尺度として、ユークリッド距離または角度の余弦e25、e26、e27を算出する様子を模式的に示したものである。
【0007】ここで、各入力音声25、26、27は、変数βについて、図42中に示されるω、φの関係を持っているものとする。つまり、標準音声24のパワースペクトル形状に対する各入力音声25、26、27のパワースペクトル形状の変化が、図42に示す関係で、変数βにより規定されるものとしている。
【0008】
【発明が解決しようとする課題】ところが、ユークリッド距離や角度などを類似性尺度に用いた場合、パワースペクトル形状が異なる複数の入力音声について、標準音声からのユークリッド距離や角度の算出値が同じになることがある。このような場合には、特徴が異なる入力音声を区別できなくなり、このことが音声の類似度検出を不正確にする要因となっている。以下、詳しく説明する。
【0009】第1の例として、図43は、図40における変数αの値を0から1まで増加させたときに、ユークリッド距離の算出値e21、e22、e23が変化する様子を示したものである。図44は、同じく図40における変数αの値を0から1まで増加させたときに、角度の余弦の算出値e21、e22、e23が変化する様子を示したものである。
【0010】図43と図44から、この例では、ユークリッド距離及び角度の余弦の値は常にe21=e22=e23であることが分かり、変数αの値が増加するにつれて、ユークリッド距離の値e21、e22、e23は増加し、また、角度の余弦の値e21、e22、e23は減少することが分かる。角度の余弦の値e21、e22、e23が減少することは、角度の値が増加することである。
【0011】ところで、一般に、白色雑音のパワースペクトル形状は平坦であり、音声の摩擦子音/s/についてもそのパワースペクトル形状が平坦に近いものが多い。ただし、摩擦子音/s/については、パワースペクトル形状が平坦に近いといっても、その形状が時間とともに少し変動する「スペクトル強度のゆらぎ」現象も観測される。
【0012】そこで、図39、図40において、変数αが小さい場合について、仮に、入力音声21、22は摩擦子音/s/の「スペクトル強度のゆらぎ」であり、入力音声23は摩擦子音/s/とは異なる音声であると考えてみる。
【0013】図43、図44から分かるように、入力音声を規定する変数αの値が同じときには、標準音声20からのユークリッド距離や角度の値は3個の入力音声21、22、23とも同じになるため、それらの値と任意に設定した許容値とを比較した場合、3個の入力音声がともに標準音声であると判定されるか、逆に、3個の入力音声ともに標準音声でないと判定されることになり、区別できない。
【0014】第2の例として、図45は、図42における変数βの値を0から1まで増加させたときに、ユークリッド距離の算出値e25、e26、e27が変化する様子を示したものである。図46は、同じく図42における変数βの値を0から1まで増加させたときに、角度の余弦の算出値e25、e26、e27が変化する様子を示したものである。
【0015】図45と図46から、この例では、ユークリッド距離及び角度の余弦の値は常にe25=e26=e27であることが分かり、変数βの値が増加するにつれて、ユークリッド距離の値e25、e26、e27は増加し、角度の余弦の値e25、e26、e27は減少することが分かる。角度の余弦の値e25、e26、e27が減少することは、角度の値が増加することである。
【0016】ところで、一般に、音声のパワースペクトル形状にはホルマントと呼ばれる複数のピークが観測される。ただし、音声のホルマントについては、同じ音声であっても、パワースペクトル形状のピーク周波数が少し変動する「周波数のずれ」現象やピーク位置が時間的に少し変動する「時間のずれ」現象も観測される。
【0017】そこで、図41、図42において、仮に、入力音声25は標準音声24と同じ音声であって、そのピークに「周波数のずれ」または「時間のずれ」が発生したものであり、入力音声26、27は標準音声24とは異なる音声であると考えてみる。
【0018】図45、図46から分かるように、標準音声及び入力音声を規定する変数βの値が同じときには、標準音声24からのユークリッド距離や角度の値は3個の入力音声25、26、27とも同じになるため、それらの値と任意に設定した許容値とを比較した場合、3個の入力音声がともに標準音声であると判定されるか、逆に、3個の入力音声ともに標準音声でないと判定されることになり、区別できない。
【0019】このように、従来の音声の類似度検出方法では、音声の類似度を正確に検出することができず、音声を認識する上で十分に満足のいく精度が得られないという問題がある。
【0020】その理由は、従来の音声の類似度検出方法では、2つのパターン行列のユークリッド距離あるいは角度の値を類似性尺度としているために、標準パターン行列がなす形状と入力パターン行列がなす形状との差を、形状距離として数値化できないからである。
【0021】一方で、標準音声のパワースペクトルを成分とする標準パターン行列を予め登録する場合、「スペクトル強度のゆらぎ」、「周波数のずれ」、「時間のずれ」のある個々の標準音声を多数の標準パターン行列として登録しておく方法が考えられるが、コンピュータの記憶容量や処理時間の問題から標準パターン行列の登録個数には制限があるため、この方法を用いて、標準音声の「スペクトル強度のゆらぎ」、または、標準音声の「周波数のずれ」、または、標準音声の「時間のずれ」と、標準音声とは異なる音声とを判別することには限界がある。
【0022】また、特開平10−253444号公報(特願平9−61007号:発明の名称:異常音の検出方法及びその検出値を用いた機械の異常判定方法、並びに、振動波の類似度検出方法及びその検出値を用いた音声認識方法)において、標準パターンベクトル(1次元)と入力パターンベクトル(1次元)との間の形状距離値の算出方法について説明しているが、標準パターン行列(2次元)と入力パターン行列(2次元)との間の形状距離値の算出方法、並びに、標準パターン行列層(3次元)と入力パターン行列層(3次元)との間の形状距離値の算出方法についての説明はない。
【0023】本発明は、上記問題を解決するためになされたものであり、第1の目的は標準パターン行列と入力パターン行列から、2つのパターン行列間の正確な形状距離値を求めることができる音声の類似度検出方法を提供することにある。また、本発明の第2の目的は音声の類似度検出値から高い精度で音声認識を行うことができる方法を提供することにある。
【0024】また、本発明の第3の目的は標準パターン行列と入力パターン行列から、2つのパターン行列間の正確な形状距離値を求めることができる振動波の類似度検出方法を提供することにある。また、本発明の第4の目的は振動波の類似度検出値から高い精度で機械の異常判定を行うことができる判定方法を提供することにある。
【0025】本発明の第5の目的は標準パターン行列と入力パターン行列から、2つのパターン行列間の正確な形状距離値を求めることができる画像の類似度検出方法を提供することにある。また、本発明の第6の目的は画像の類似度検出値から高い精度で画像認識を行うことができる方法を提供することにある。
【0026】本発明の第7の目的は標準パターン行列層と入力パターン行列層から、2つのパターン行列層間の正確な形状距離値を求めることができる立体の類似度検出方法を提供することにある。また、本発明の第8の目的は立体の類似度検出値から高い精度で立体認識を行うことができる方法を提供することにある。
【0027】本発明の第9の目的は標準パターン行列層と入力パターン行列層から、2つのパターン行列層間の正確な形状距離値を求めることができる動画像の類似度検出方法を提供することにある。また、本発明の第10の目的は動画像の類似度検出値から高い精度で動画像認識を行うことができる方法を提供することにある。
【0028】なお、本発明は、特開平10−253444号公報(特願平9−61007号)において説明されている形状距離値の算出方法を2次元に拡張して音声認識、機械の異常判定、及び、画像認識に適用できるようにし、更に、3次元に拡張して立体認識、及び、動画像認識に適用できるようにしたものである。
【0029】
【課題を解決するための手段】上記の課題を解決するため、請求項1に係る発明は音声の類似度検出方法であり、(a)標準音声の特徴量を成分とする標準パターン行列と、入力音声の特徴量を成分とする入力パターン行列とを作成すること、(b)パターン行列の指定成分ごとに異なる分散の値をもつ正規分布を作成し、上記正規分布の値を成分とする基準パターン正ベクトル及び基準パターン負ベクトルを作成すること、(c)パターン行列の各成分について、パターン行列の指定成分と各成分との間の長さを求め、基準パターン正ベクトル及び基準パターン負ベクトルの中心から上記長さだけ離れた位置に最も近い基準パターン正ベクトル及び基準パターン負ベクトルの成分番号を算出し、入力パターン行列の成分値が標準パターン行列の成分値より大きいとき、その差の絶対値だけ基準パターン正ベクトルの上記成分番号の成分値を増加させ、入力パターン行列の成分値が標準パターン行列の成分値より小さいとき、その差の絶対値だけ基準パターン負ベクトルの上記成分番号の成分値を増加させること、(d)基準パターン正ベクトルの尖度と基準パターン負ベクトルの尖度との差の値を算出すること、(e)上記尖度の差の値を算出するに際し、パターン行列の指定成分を各成分の位置に移動しながら尖度の差の値を求めること、(f)上記尖度の差の値の2乗和、あるいは同2乗和の平方根を、標準パターン行列と入力パターン行列との間の形状距離値とすることを特徴とする。
【0030】請求項2に係る発明の音声の類似度検出方法は、請求項1に係る発明において、前記パターン行列の指定成分ごとに異なる分散の値をもつ正規分布に代えて、パターン行列の指定成分ごとに異なる分散の値をもつ矩形など任意の基準形状を作成し、上記基準形状の値を成分とする基準パターン正ベクトル及び基準パターン負ベクトルを作成することを特徴とする。
【0031】また、請求項3に係る発明は音声認識方法であり、請求項1または2に係る発明の音声の類似度検出方法で標準音声の特徴量を成分とする標準パターン行列と入力音声の特徴量を成分とする入力パターン行列との間の形状距離を求め、求めた形状距離値と任意に設定した許容値を比較し、形状距離値が許容値を越えたとき入力音声は標準音声でないと判定し、形状距離値が許容値内のとき入力音声が標準音声であると判定することを特徴とする。
【0032】次に、請求項4に係る発明は振動波の類似度検出方法であり、(a)標準振動波の特徴量を成分とする標準パターン行列と、入力振動波の特徴量を成分とする入力パターン行列とを作成すること、(b)パターン行列の指定成分ごとに異なる分散の値をもつ正規分布を作成し、上記正規分布の値を成分とする基準パターン正ベクトル及び基準パターン負ベクトルを作成すること、(c)パターン行列の各成分について、パターン行列の指定成分と各成分との間の長さを求め、基準パターン正ベクトル及び基準パターン負ベクトルの中心から上記長さだけ離れた位置に最も近い基準パターン正ベクトル及び基準パターン負ベクトルの成分番号を算出し、入力パターン行列の成分値が標準パターン行列の成分値より大きいとき、その差の絶対値だけ基準パターン正ベクトルの上記成分番号の成分値を増加させ、入力パターン行列の成分値が標準パターン行列の成分値より小さいとき、その差の絶対値だけ基準パターン負ベクトルの上記成分番号の成分値を増加させること、(d)基準パターン正ベクトルの尖度と基準パターン負ベクトルの尖度との差の値を算出すること、(e)上記尖度の差の値を算出するに際し、パターン行列の指定成分を各成分の位置に移動しながら尖度の差の値を求めること、(f)上記尖度の差の値の2乗和、あるいは同2乗和の平方根を、標準パターン行列と入力パターン行列との間の形状距離値とすることを特徴とする。
【0033】請求項5に係る発明の振動波の類似度検出方法は、請求項4に係る発明において、前記パターン行列の指定成分ごとに異なる分散の値をもつ正規分布に代えて、パターン行列の指定成分ごとに異なる分散の値をもつ矩形など任意の基準形状を作成し、上記基準形状の値を成分とする基準パターン正ベクトル及び基準パターン負ベクトルを作成することを特徴とする。
【0034】また、請求項6に係る発明は機械の異常判定方法であり、請求項4または5に係る発明の振動波の類似度検出方法で標準振動波の特徴量を成分とする標準パターン行列と入力振動波の特徴量を成分とする入力パターン行列との間の形状距離を求め、求めた形状距離値と任意に設定した許容値を比較し、形状距離値が許容値を越えたとき異常と判定し、形状距離値が許容値内のとき正常と判定することを特徴とする。
【0035】次に、請求項7に係る発明は画像の類似度検出方法であり、(a)標準画像の特徴量を成分とする標準パターン行列と、入力画像の特徴量を成分とする入力パターン行列とを作成すること、(b)パターン行列の指定成分ごとに異なる分散の値をもつ正規分布を作成し、上記正規分布の値を成分とする基準パターン正ベクトル及び基準パターン負ベクトルを作成すること、(c)パターン行列の各成分について、パターン行列の指定成分と各成分との間の長さを求め、基準パターン正ベクトル及び基準パターン負ベクトルの中心から上記長さだけ離れた位置に最も近い基準パターン正ベクトル及び基準パターン負ベクトルの成分番号を算出し、入力パターン行列の成分値が標準パターン行列の成分値より大きいとき、その差の絶対値だけ基準パターン正ベクトルの上記成分番号の成分値を増加させ、入力パターン行列の成分値が標準パターン行列の成分値より小さいとき、その差の絶対値だけ基準パターン負ベクトルの上記成分番号の成分値を増加させること、(d)基準パターン正ベクトルの尖度と基準パターン負ベクトルの尖度との差の値を算出すること、(e)上記尖度の差の値を算出するに際し、パターン行列の指定成分を各成分の位置に移動しながら尖度の差の値を求めること、(f)上記尖度の差の値の2乗和、あるいは同2乗和の平方根を、標準パターン行列と入力パターン行列との間の形状距離値とすることを特徴とする。
【0036】請求項8に係る発明の画像の類似度検出方法は、請求項7に係る発明において、前記パターン行列の指定成分ごとに異なる分散の値をもつ正規分布に代えて、パターン行列の指定成分ごとに異なる分散の値をもつ矩形など任意の基準形状を作成し、上記基準形状の値を成分とする基準パターン正ベクトル及び基準パターン負ベクトルを作成することを特徴とする。
【0037】また、請求項9に係る発明は画像認識方法であり、請求項7または8に係る発明の画像の類似度検出方法で標準画像の特徴量を成分とする標準パターン行列と入力画像の特徴量を成分とする入力パターン行列との間の形状距離を求め、求めた形状距離値と任意に設定した許容値を比較し、形状距離値が許容値を越えたとき入力画像は標準画像でないと判定し、形状距離値が許容値内のとき入力画像が標準画像であると判定することを特徴とする。
【0038】次に、請求項10に係る発明は立体の類似度検出方法であり、(a)標準立体の特徴量を成分とする標準パターン行列層と、入力立体の特徴量を成分とする入力パターン行列層とを作成すること、(b)パターン行列層の指定成分ごとに異なる分散の値をもつ正規分布を作成し、上記正規分布の値を成分とする基準パターン正ベクトル及び基準パターン負ベクトルを作成すること、(c)パターン行列層の各成分について、パターン行列層の指定成分と各成分との間の長さを求め、基準パターン正ベクトル及び基準パターン負ベクトルの中心から上記長さだけ離れた位置に最も近い基準パターン正ベクトル及び基準パターン負ベクトルの成分番号を算出し、入力パターン行列層の成分値が標準パターン行列層の成分値より大きいとき、その差の絶対値だけ基準パターン正ベクトルの上記成分番号の成分値を増加させ、入力パターン行列層の成分値が標準パターン行列層の成分値より小さいとき、その差の絶対値だけ基準パターン負ベクトルの上記成分番号の成分値を増加させること、(d)基準パターン正ベクトルの尖度と基準パターン負ベクトルの尖度との差の値を算出すること、(e)上記尖度の差の値を算出するに際し、パターン行列層の指定成分を各成分の位置に移動しながら尖度の差の値を求めること、(f)上記尖度の差の値の2乗和、あるいは同2乗和の平方根を、標準パターン行列層と入力パターン行列層との間の形状距離値とすることを特徴とする。
【0039】請求項11に係る発明の立体の類似度検出方法は、請求項10に係る発明において、前記パターン行列層の指定成分ごとに異なる分散の値をもつ正規分布に代えて、パターン行列層の指定成分ごとに異なる分散の値をもつ矩形など任意の基準形状を作成し、上記基準形状の値を成分とする基準パターン正ベクトル及び基準パターン負ベクトルを作成することを特徴とする。
【0040】また、請求項12に係る発明は立体認識方法であり、請求項10または11に係る発明の立体の類似度検出方法で標準立体の特徴量を成分とする標準パターン行列層と入力立体の特徴量を成分とする入力パターン行列層との間の形状距離を求め、求めた形状距離値と任意に設定した許容値を比較し、形状距離値が許容値を越えたとき入力立体は標準立体でないと判定し、形状距離値が許容値内のとき入力立体が標準立体であると判定することを特徴とする。
【0041】次に、請求項13に係る発明は動画像の類似度検出方法であり、(a)標準動画像の特徴量を成分とする標準パターン行列層と、入力動画像の特徴量を成分とする入力パターン行列層とを作成すること、(b)パターン行列の指定成分ごとに異なる分散の値をもつ正規分布を作成し、上記正規分布の値を成分とする基準パターン正ベクトル及び基準パターン負ベクトルを作成すること、(c)パターン行列層の各成分について、パターン行列層の指定成分と各成分との間の長さを求め、基準パターン正ベクトル及び基準パターン負ベクトルの中心から上記長さだけ離れた位置に最も近い基準パターン正ベクトル及び基準パターン負ベクトルの成分番号を算出し、入力パターン行列層の成分値が標準パターン行列層の成分値より大きいとき、その差の絶対値だけ基準パターン正ベクトルの上記成分番号の成分値を増加させ、入力パターン行列層の成分値が標準パターン行列層の成分値より小さいとき、その差の絶対値だけ基準パターン負ベクトルの上記成分番号の成分値を増加させること、(d)基準パターン正ベクトルの尖度と基準パターン負ベクトルの尖度との差の値を算出すること、(e)上記尖度の差の値を算出するに際し、パターン行列層の指定成分を各成分の位置に移動しながら尖度の差の値を求めること、(f)上記尖度の差の値の2乗和、あるいは同2乗和の平方根を、標準パターン行列層と入力パターン行列層との間の形状距離値とすることを特徴とする。
【0042】請求項14に係る発明の動画像の類似度検出方法は、請求項13に係る発明において、前記パターン行列層の指定成分ごとに異なる分散の値をもつ正規分布に代えて、パターン行列層の指定成分ごとに異なる分散の値をもつ矩形など任意の基準形状を作成し、上記基準形状の値を成分とする基準パターン正ベクトル及び基準パターン負ベクトルを作成することを特徴とする。
【0043】また、請求項15に係る発明は動画像認識方法であり、請求項13または14に係る発明の動画像の類似度検出方法で標準動画像の特徴量を成分とする標準パターン行列層と入力動画像の特徴量を成分とする入力パターン行列層との間の形状距離を求め、求めた形状距離値と任意に設定した許容値を比較し、形状距離値が許容値を越えたとき入力動画像は標準動画像でないと判定し、形状距離値が許容値内のとき入力動画像が標準動画像であると判定することを特徴とする。
【0044】
【発明の実施の形態】以下、本発明の実施の形態を説明する。
【0045】[原理説明]基準形状として正規分布を用いる場合について、本発明の原理を説明する。
【0046】統計解析の分野において、正規分布は多くの現象のモデルとして使われている。そこで、注目する現象が正規分布に従っているか否かを確かめることが重要となり、このために「尖度」という統計量が用いられている。尖度値は、注目する現象が正規分布に従っているときは「3」に等しく、正規分布よりも尖った分布のときは「3」より大きく、反対に、正規分布よりもなだらかな分布のときは「3」より小さくなる。このことは、正規分布の分散の値にかかわらず、常に成り立つ。
【0047】そこで、標準パターン行列(或いは標準パターン行列層)と入力パターン行列(或いは入力パターン行列層)との間の形状変化を、正規分布の値を成分とする基準パターンベクトルの形状変化に置き換え、この基準パターンベクトルの形状変化の大きさを尖度の変化量として数値化することにより、標準パターン行列(或いは標準パターン行列層)と入力パターン行列(或いは入力パターン行列層)との類似の程度を形状距離値として算出することができる。ただし、一般に、ベクトル形状の尖度の計算式においては、ベクトルの成分値が負の場合には定義できない。つまり、標準パターン行列(或いは標準パターン行列層)の成分値と入力パターン行列(或いは入力パターン行列層)の成分値のあらゆる大小関係に対して、基準パターンベクトルの成分値が非負である必要がある。
【0048】そこで具体的には、パターン行列(或いはパターン行列層)の指定成分ごとに異なる分散の値をもつ正規分布を作成し、上記正規分布の値を成分とする基準パターン正ベクトルと、同正規分布の値を成分とする基準パターン負ベクトルを予め作成しておく。ここで、パターン行列に係わる上記分散の値の算出方法は、正規分布の中心線がパターン行列の指定成分の点を通り、かつ、パターン行列が成す平面に垂直になるようにし、上記中心線を軸として正規分布を回転したとき、正規分布の主要部分がパターン行列全体を覆うようにするものである。また、パターン行列層に係わる上記分散の値の算出方法は、パターン行列に係わる上記分散の値の算出方法を1次元だけ拡張する(パターン行列層に係わる上記分散の値の算出方法について幾何学的な表現はできない)。そして、パターン行列(或いはパターン行列層)の各成分について、パターン行列(或いはパターン行列層)の指定成分と各成分との間の長さを求め、基準パターン正ベクトル及び基準パターン負ベクトルの中心から上記長さだけ離れた位置に最も近い基準パターン正ベクトル及び基準パターン負ベクトルの成分番号を算出し、入力パターン行列(或いは入力パターン行列層)の成分値が標準パターン行列(或いは標準パターン行列層)の成分値より大きいときは、その差の絶対値だけ基準パターン正ベクトルの上記成分番号の成分値を増加させ、小さいときは、基準パターン負ベクトルの上記成分番号の成分値を増加させる。次に、形状変化した基準パターン正ベクトルと基準パターン負ベクトルについてそれぞれの尖度を算出し、2つの尖度の差の値を求める。
【0049】その際、正規分布の中心と標準パターン行列及び入力パターン行列(或いは標準パターン行列層及び入力パターン行列層)の各成分との位置関係により形状変化した基準パターン正ベクトルと基準パターン負ベクトルの各尖度が異なるので、正規分布の中心をパターン行列(或いはパターン行列層)各成分の位置に移動しながら尖度の差の値を求め、これらの差の値の2乗和の平方根、或いは、2乗和自身を標準パターン行列(或いは標準パターン行列層)と入力パターン行列(或いは入力パターン行列層)との間の形状距離値として検出する。
【0050】このような形状距離値は、標準音声と入力音声との間のパターン行列形状変化を正確に検出するものであり、標準振動波と入力振動波との間の類似度を正確に検出するものであり、標準画像と入力画像との間の類似度を正確に検出するものである。また、標準立体と入力立体との間のパターン行列層形状変化を正確に検出するものであり、標準動画像と入力動画像との間の類似度を正確に検出するものである。
【0051】従って、上記のように得られる形状距離値を用いて音声認識を行うことにより、標準パターン行列と入力パターン行列との間の形状変化を正確に検出することができ、音声認識の精度を著しく向上させることができる。また、このような形状距離値を用いて機械の異常判定を行うことにより、標準パターン行列と入力パターン行列との間の形状変化を正確に検出することができ、機械の異常検知の精度を著しく向上させることができる。また、このような形状距離値を用いて画像認識を行うことにより、標準パターン行列と入力パターン行列との間の形状変化を正確に検出することができ、画像認識の精度を著しく向上させることができる。また、このような形状距離値を用いて立体認識を行うことにより、標準パターン行列層と入力パターン行列層との間の形状変化を正確に検出することができ、立体認識の精度を著しく向上させることができる。また、このような形状距離値を用いて動画像認識を行うことにより、標準パターン行列層と入力パターン行列層との間の形状変化を正確に検出することができ、動画像認識の精度を著しく向上させることができる。
【0052】なお、基準形状が矩形など、正規分布以外のものであっても、上記の説明は成立する。
【0053】[実施例]以下、本発明の実施例を添付図面に基づいて説明する。本実施例では、2つのパターン行列(2次元)間の類似度検出値を用いた音声認識方法、機械の異常判定方法、画像認識方法について、更に、2つのパターン行列層(3次元)間の類似度検出値を用いた立体認識方法、動画像認識方法について順を追って説明する。
【0054】(I)音声認識方法音声の類似度検出方法及びその検出値を用いた音声認識方法について述べる。本実施例では、音声認識を行うために、音声の周波数分布の時間変化(声紋)を正規化して標準パターン行列と入力パターン行列とを作成し、これらパターン行列間の形状変化を、正規分布の値を成分とする基準パターンベクトルの形状変化に置き換え、この基準パターンベクトルの形状変化の大きさを尖度の変化量として数値化することにより音声の類似度を検出し、更に、その検出値を用いて音声認識を行うものとする。
【0055】図1は、音声の類似度を検出するための測定装置の構造を示しており、1はマイクロホンである。マイクロホン1は発声者の近傍の定位置に配置され、人間が発声する音声を測定し、信号として出力する。マイクロホン1の出力信号は、それぞれが異なる通過周波数帯域を持つ複数m1個の帯域通過フィルタ2に入力され、音声の周波数成分波が抽出されてAD変換器3に入力され、各AD変換器3において同時刻に且つ周期的にディジタル信号に変換されてコンピュータ等の演算装置4に入力される。また、演算装置4は、マイクロホン1の出力信号に基づき、以下のように音声の類似度検出処理を行うように構成されている。ここで、i1(i1=1,2,・・・,m1)番目の帯域通過フィルタ2の中心周波数はfi1に設定されており、その出力信号がi1番目のAD変換器3に入力されるものとする。
【0056】次に、図1の測定装置構造を用いて行う音声の類似度検出処理手順について説明する。
【0057】ただし、音声のパワースペクトルを抽出する方法として様々なものが考案されているが、本実施例では、歴史的にも古く、性能が安定しているアナログ帯域通過フィルタ群による方法を用いた場合について、処理手順を説明する。図2は、帯域通過フィルタ2群の周波数ゲイン特性の一例を示したものであり、音声をi1番目の帯域通過フィルタに通すことにより、中心周波数がfi1の帯域の周波数成分波を抽出できることが分かる。このように、それぞれの帯域通過フィルタを構成しておけば、音声の周波数分布の特徴が抽出できる。
【0058】図1に示すように、i1番目のAD変換器3の出力信号を時刻tの関数としてxi1(t)(i1=1,2,・・・,m1)とした時、関数xi1(t)はi1番目の帯域通過フィルタ2を通して抽出した音声の周波数成分波である。図3は、関数xi1(t)の一例を示したものである。図3に示すように、i2番目の時刻をti2(i2=1,2,・・・,m2)として、関数xi1(t)を各時刻ごとに区切って測定することにより音声の周波数分布の時間変化の特徴が抽出できる。そのため、i1番目の周波数帯域におけるi2番目の時刻のパワースペクトルPi12は次の数1により算出できる。ただし、数1において、関数xi1(t)の2乗和を計算する時間長Tは、時間的に変化する音声の特徴が顕著に現れるように任意に設定しておく。
【0059】
【数1】

【0060】本実施例では、正規化パワースペクトルを用いる。即ち、一般に、音声の類似度検出では、音量よりも音質が重要な要因になることが多い。この場合は、パワースペクトルの形状変化を検出することが重要であり、このためには、数1のパワースペクトルPi12 を全エネルギーで正規化して使用した方が都合が良い。1番目の周波数帯域におけるi2番目の時刻の正規化パワースペクトルpi12 は、次の数2により算出できる。
【0061】
【数2】

【0062】図4(a)は数1により算出したパワースペクトルの一例を示したものであり、図4(b)は同図(a)のパワースペクトルを数2を用いて正規化したものであるが、これらから、パワースペクトルと正規化パワースペクトルとは相似形であることが分かる。
【0063】次に、標準音声の正規化パワースペクトルpi12(i1=1,2,・・・,m1)(i2=1,2,・・,m2)を成分とする標準パターン行列Hと、入力音声の正規化パワースペクトルpi12(i1=1,2,・・,m1)(i2=1,2,・・・,m2)を成分とする入力パターン行列Nを作成する。この標準パターン行列H及び入力パターン行列Nを、次の数3のように表現しておく。ただし、数3は、標準音声及び入力音声の正規化パワースペクトルの形状を、パターン行列のm1×m2個の成分値で表現したものである。
【0064】
【数3】

【0065】また、図5(a)は、標準パターン行列Hを(周波数−時間)平面で表現したものであり、同図(b)は、入力パターン行列Nを同平面で表現したものである。更に、図6は、図5(a)、(b)における同平面の縦の長さと横の長さを1にした(周波数−時間)正規化平面を示している。従って、図6中に示すように、成分間の縦の長さは1/(m1−1)、成分間の横の長さは1/(m2−1)になる。
【0066】次の数4は、正規分布の確率密度関数の式である。ただし、μは平均値、σ2は分散である。
【0067】
【数4】

【0068】図7(a)は、平均値μ=0、分散σj122としたとき、数4の正規分布のグラフ(正規曲線)を示したものである。また、図7(b)、(c)において正規曲線の関数値に等しい高さの棒グラフを示しているが、この棒グラフの高さの値を成分とする基準パターン正ベクトルKj12(+)を図7(b)のように作成し、また、同棒グラフの高さの値を成分とする基準パターン負ベクトルKj12(-)を図7(c)のように作成し、次の数5のように表現しておく。数5は正規分布の形状をベクトルのm0個の成分値で表現したものであり、数3は行列(2次元)であるのに対し、数5はベクトル(1次元)である。図7から分かるように、これら一対の基準パターンベクトルKj12(+)、Kj12(-)は相等なベクトルである。なお、数5中の添数j12は、図6に示す点(j1,j2)に対応するものであり、数5中のm0は数3中のm1及びm2と異なる任意の自然数であってよい。
【0069】
【数5】

【0070】正規分布の平均値μ及び分散σj122は、正規分布の形状の特徴をベクトルのm0個の成分値で表現できる範囲の任意の値に設定して良いが、ここでは、平均値が基準パターンベクトル成分の中央の位置にあり、分散が以下に述べる値に等しい場合を考える。また、ここではm0が奇数の場合を考えているが、m0が偶数の場合にも同様の議論が成り立つ。
【0071】図8は、平均値μ=0、分散σ2としたとき、数4の正規曲線を示したものであり、その尖度値は「3」に等しい。ここで、図8中の記号(i)で示すyの範囲においてf(y)の値が正規曲線の値より増加したとき、尖度値は「3」より大きくなり、記号(ii)で示すyの範囲においてf(y)の値が正規曲線の値より増加したとき、尖度値は「3」より小さくなる。また、記号(i)と(ii)の境界部分のy(y=−0.7σの近傍、または、y=+0.7σの近傍)において、f(y)の値が正規曲線の値より増加したとき、尖度値の変化量は少なく、尖度値は「3」に近い値になる。一方、記号(iii)で示すyの範囲においてf(y)の値が正規曲線の値より増加したとき、尖度値は「3」より大きくなったり小さくなったりする不安定な動きになる。このことは、正規分布の分散σ2の値にかかわらず、常に成り立つ。
【0072】そこで、標準パターン行列と入力パターン行列との間の形状変化を、正規分布の値を成分とする基準パターンベクトルの形状変化に置き換え、この基準パターンベクトルの形状変化の大きさを尖度の変化量として数値化するためには、−2.1σ≦y≦+2.1σの範囲(図8中の記号(i)と(ii)で示すyの範囲)においてf(y)の値が増加するようにすれば、尖度値が安定したものとなる。本実施例では、尖度値が「3」より大きくなるyの範囲と、「3」より小さくなるyの範囲が同程度の割合になるように、−1.4σ≦y≦+1.4σの範囲を使用する。
【0073】一方、図6において、(周波数−時間)正規化平面上の点(j1,j2)、及び、点(i1,i2)を示している。また、同平面上のすべての点の中で、点(j1,j2)から最も遠い点(m1,1)も示している。従って、点(j1,j2)と点(i1,i2)との間の長さλi1212は、次の数6により算出できる。同様に、点(j1,j2)と点(m1,1)との間の長さλm11j12は、次の数7により算出できる。λm11j12は、点(j1,j2)と各点との間の長さの最大値である。
【0074】
【数6】

【0075】
【数7】

【0076】図9は、図6に示す(周波数−時間)正規化平面を3次元で表示したものである。図9において、正規分布の中心線が点(j1,j2)を通り、かつ、(周波数−時間)正規化平面に垂直であり、また、正規分布のy軸が点(m1,1)を通る正規曲線を示している。また、正規分布の中心線が点(j1,j2)を通り、かつ、上記平面に垂直であり、また、正規分布のy軸が点(i1,i2)を通る正規曲線も示している。ここで、これら2つの正規曲線の分散σj122は、同じ値であるものとする。従って、上記中心線を軸として正規曲線を回転したとき、これら2つの正規曲線は一致する。
【0077】また、図7(a)に示す正規曲線は、図9に示す2つの正規曲線を重ねて2次元で表示したものである。図7(a)において、点(j1,j2)をy=0に対応させ、点(m1,1)をy=−1.4σj12に対応させている。従って、点(i1,i2)はy=0とy=−1.4σj12の間のyの値に対応することになる。
【0078】また、点(j1,j2)と点(m1,1)との間の長さλm11j12は数7より算出できるが、図7(a)に示すy軸上の0と−1.4σj12との間の長さでもある。従って、次の数8より、正規分布の分散の値が算出できる。
【0079】
【数8】

【0080】上記の方法により正規分布の分散の値を算出すれば、正規分布の主要成分(数8の場合には−1.4σ≦y≦+1.4σの範囲)が(周波数−時間)正規化平面全体を覆うようにできる。即ち、数8より求めた正規分布の分散の値を数4に適用することにより正規曲線が決定され、更に、図7(b)、(c)、及び、数5に適用することにより基準パターン正ベクトルKj12(+)及び基準パターン負ベクトルKj12(-)が作成できる。
【0081】ここで、パターン行列の指定成分としてj12成分をj1=1〜m1、j2=1〜m2の中の一組の値に固定しておいた上で、パターン行列のi12成分(i1=1,2,・・・,m1)(i2=1,2,・・・,m2)のそれぞれについて考える。点(j1,j2)と点(i1,i2)との間の長さλi1212は数6より算出できるが、図7(a)に示すように、λi1212は正規分布の平均値からの偏差の値でもある。
【0082】一方、図7(c)に示すように、基準パターンベクトルの各成分番号の間の長さをΔyj12としたとき、成分番号i0(i0=1,2,・・・,m0)に対応する正規分布の平均値からの偏差の値Lj120は、次の数9により算出できる。なお、ここでは、基準パターンベクトルの各成分番号の間の長さが等間隔である場合を考える。また、数9において(m0+1)/2は基準パターンベクトルの中央の成分番号である。
【0083】
【数9】

【0084】図7(a)、(b)、(c)に、上記λi1212とLj120との関係を示す。同図(a)において、λi1212は点(j1,j2)と点(i1,i2)との間の長さであることを示している。また、同図(b)、(c)において、基準パターン正ベクトル及び基準パターン負ベクトルの中心からλi1212だけ離れた位置に最も近い基準パターン正ベクトル及び基準パターン負ベクトルの成分番号がi0であり、成分番号i0に対応する正規分布の平均値からの偏差の値がLj120であることを示している。
【0085】即ち、パターン行列のj12成分とi12成分が与えられたとき、数6よりこれら2点間の長さλi1212が算出され、次に、基準パターンベクトルについて成分番号i0、正規分布の平均値からの偏差の値Lj120、及び、成分値kj12(+)0とkj12(-)0が得られることになる。
【0086】ここで、基準パターンベクトルの成分の個数m0を十分に大きく(Δyj12を十分に小さく)しておけば、λi1212の値とLj120の値との間の誤差を十分に小さくすることができ、精度の高い計算結果が得られる。また、成分番号i0と成分番号(m0−i0+1)は正規分布の平均値に関して対称であるため、i0の代わりに(m0−i0+1)を用いてもよい。
【0087】次に、標準パターン行列Hと入力パターン行列Nとの間の形状変化を、基準パターン正ベクトルKj12(+)及び基準パターン負ベクトルKj12(-)の形状変化に置き換える。即ち、パターン行列のi12成分(i1=1,2,・・・,m1 )(i2=1,2,・・・,m2)について、標準パターン行列Hの成分値hi12と入力パターン行列Nの成分値ni12との間の変化量の絶対値は|ni12−hi12|であるが、次の数10に示すように、ni12がhi12より大きいとき基準パターン正ベクトルKj12(+)の成分値kj12(+)0をこの変化量の絶対値|ni12−hi12|だけ増加させ、ni12がhi12より小さいとき基準パターン負ベクトルKj12(-)の成分値kj12(-)0をこの変化量の絶対値|ni12−hi12|だけ増加させる。
【0088】
【数10】

【0089】従って、数8により正規分布の分散の値を算出し、数10により基準パターンベクトルの成分値kj12(+)0及びkj12(-)0を増加させるようにすれば、パターン行列のj12成分とi12成分のあらゆる組み合わせに対して、−1.4σ≦y≦+1.4σの範囲においてf(y)の値が増加するようにできる。
【0090】次に、図10〜図16の模式図に示す典型例を用いて、数10を説明する。これら図10〜図16の各(a)、(b)は、パターン行列のm1×m2個の成分値を行列形状として図形で表現したものであり、また、これら図10〜図16の各(c)は、ベクトルのm0個の成分値をベクトル形状として図形で表現したものである。なお、全体のパターン行列の中で1つの成分のパワースペクトルだけが増加した場合、数2により正規化を行うと、その成分の正規化パワースペクトルの増加とともに、他の成分の正規化パワースペクトルが相対的に減少することになるが、図10〜図16では、表示を簡単にし且つ理解を容易にするため、入力パターン行列形状の着目している成分についてのみ増減を表示し、他の成分については変化がないものとしている。また、基準パターン負ベクトル形状は、基準パターン正ベクトル形状との対比を容易にするため、上下を逆に表示している。
【0091】パターン行列の指定成分としてj12成分を図6及び図9に示す位置に固定し、正規分布の中心線がj12成分を通る場合について、図10〜図16を説明すると下記の通りである。
(1)図10は、標準パターン行列形状と入力パターン行列形状が等しい例を示したものである。この場合、基準パターン正ベクトル及び基準パターン負ベクトルは共に正規分布の形状から変化はない。
(2)図11は、標準パターン行列形状に対して入力パターン行列形状のj12成分だけがδ1増加した例を示したものである。この場合には、基準パターン正ベクトル形状の中央部分が同じ値δ1だけ増加し、基準パターン負ベクトル形状に変化はない。
(3)図12は、標準パターン行列形状に対して入力パターン行列形状のj12成分だけがδ2減少した例を示したものである。この場合には、基準パターン正ベクトル形状に変化はなく、基準パターン負ベクトル形状の中央部分が同じ値δ2だけ増加する。
(4)図13は、標準パターン行列形状に対して入力パターン行列形状のm11成分だけがδ3増加した例を示したものである。この場合には、同図(b)に示すように、j12成分とm11成分との間の長さはλm11j12であり、同図(c)に示すように、基準パターン正ベクトル形状の中心からλm11j12だけ離れた位置に最も近い基準パターン正ベクトル形状の成分番号は2であり、この基準パターン正ベクトル形状の成分番号2の成分値がδ3だけ増加している。一方、基準パターン負ベクトル形状に変化はない。
(5)図14は、標準パターン行列形状に対して入力パターン行列形状のm11成分だけがδ4減少した例を示したものである。この場合には、同図(b)に示すように、j12成分とm11成分との間の長さはλm11j12であり、同図(c)に示すように、基準パターン負ベクトル形状の中心からλm11j12だけ離れた位置に最も近い基準パターン負ベクトル形状の成分番号は2であり、この基準パターン負ベクトル形状の成分番号2の成分値がδ4だけ増加している。一方、基準パターン正ベクトル形状に変化はない。
(6)図15は、標準パターン行列形状に対して入力パターン行列形状のi12成分だけがδ5増加した例を示したものである。この場合にも、同図(b)に示すように、j12成分とi12成分との間の長さはλi1212であり、同図(c)に示すように、基準パターン正ベクトル形状の中心からλi1212だけ離れた位置に最も近い基準パターン正ベクトル形状の成分番号はi0であり、この基準パターン正ベクトル形状の成分番号i0の成分値がδ5だけ増加している。
(7)図16は、標準パターン行列形状に対して入力パターン行列形状のi12成分だけがδ6減少した例を示したものである。この場合にも、同図(b)に示すように、j12成分とi12成分との間の長さはλi1212であり、同図(c)に示すように、基準パターン負ベクトル形状の中心からλi1212だけ離れた位置に最も近い基準パターン負ベクトル形状の成分番号がi0であり、この基準パターン負ベクトル形状の成分番号i0の成分値がδ6だけ増加している。
【0092】図10〜図16においては標準パターン行列形状及び入力パターン行列形状の典型例を示したが、通常の場合には、標準パターン行列形状に対して入力パターン行列形状の殆どの部分が変化するので、数6は変化した全ての部分について長さの計算を行い、数10は変化した全ての部分について形状変化の計算を行うものである。また、数10は、絶対的な形状を問題にしているのではなく、相対的な形状変化を問題にしているため、任意形状の標準パターン行列及び入力パターン行列について適用が可能である。
【0093】次に、数10により形状変化した一対の基準パターンベクトル(基準パターン正ベクトルKj12(+)と基準パターン負ベクトルKj12(-) )について、それぞれの形状変化の大きさを、尖度の変化量として数値化する。
【0094】ここで、基準パターン正ベクトルKj12(+)の尖度Aj12(+)、及び、基準パターン負ベクトルKj12(-)の尖度Aj12(-)は、それぞれ次の数11により算出できる。ただし、数11中のLj120(i0=1,2,・・・,m0)は、図10に示すように、正規分布の平均値からの偏差の値であり、数9により正規分布の形状の特徴を表現できる範囲の任意の値に設定しておく。
【0095】
【数11】

【0096】数11より算出される尖度の値Aj12(+)及びAj12(-)は、正規分布の平均値(中心)のまわりの4次の積率と、2次の積率の2乗との比である。
【0097】なお、正規分布に限らず、数11より、任意の基準形状の尖度の値を算出できる。
【0098】前述したように、一般に、ベクトル形状の尖度の計算式においては、ベクトルの成分値が負の場合には定義できず、標準パターン行列の成分値と入力パターン行列の成分値のあらゆる大小関係に対して、基準パターンベクトルの成分値が非負である必要がある。
【0099】このため、初期値が同形状の基準パターン正ベクトルKj12(+)及び、基準パターン負ベクトルKj12(-)を作成しておき、数10ではそれらの成分値の変化が非減少になるようにし、数11においてそれぞれの尖度Aj12(+)、Aj12(-)を算出するようにしている。
【0100】次に、基準パターン正ベクトルの尖度Aj12(+)と基準パターン負ベクトルの尖度Aj12(-)の2つの変化量から、尖度の差の値(Aj12(+)−Aj12(-) )を以て、標準パターン行列と入力パターン行列の類似の程度を表す形状変化量Dj12とする。
【0101】例えば、数5により正規分布形状に初期設定された2つの基準パターンベクトルKj12(+)及びKj12(-)の尖度の値は、共に3に等しい。そのため、数10により形状変化した基準パターン正ベクトル及び基準パターン負ベクトルの尖度の変化量は、それぞれ{Aj12(+)−3}及び{Aj12(-)−3}となる。即ち、正方向の変化量は{Aj12(+)−3}、また負方向の変化量は{Aj12(-)−3}となり、全体の変化量はこの差の値となる。従って、次の数12より、形状変化量Dj12が算出できる。
【0102】
【数12】

【0103】次に、図10〜図16に示した標準パターン行列形状及び入力パターン行列形状の典型例それぞれの場合について、数12より算出される形状変化量Dj12が示す値について考えてみると、以下の通りである。
(1)図10に示すように、標準パターン行列形状と入力パターン行列形状が等しい場合には、Aj12(+)=3かつAj12(-)=3より、形状変化量Dj12=0になる。
(2)また、図11に示すように、標準パターン行列形状に対して入力パターン行列形状のj12成分が増加した場合には、Aj12(+)>3かつAj12(-)=3により、Dj12>0となる。
(3)図12に示すように、標準パターン行列形状に対して入力パターン行列形状のj12成分が減少した場合には、Aj12(+)=3かつAj12(-)>3により、Dj12<0になる。
(4)一方、図13に示すように、標準パターン行列形状に対して入力パターン行列形状のj12成分から遠く離れた部分が増加した場合には、Aj12(+)<3かつAj12(-)=3により、Dj12<0となる。
(5)図14に示すように、標準パターン行列形状に対して入力パターン行列形状のj12成分から遠く離れた部分が減少した場合には、Aj12(+)=3かつAj12(-)<3により、Dj12>0になる。
(6)図15に示すように、標準パターン行列形状に対して入力パターン行列形状のj12成分から中程度離れた部分が増加した場合には、図8における記号(i)と(ii)の境界部分のy(y=−0.7σの近傍、または、y=+0.7σの近傍)においてf(y)の値が正規曲線より増加することになり尖度値の変化量が少ないため、Aj12(+)≒3かつAj12(-)=3により、Dj12≒0となる。
(7)図16に示すように、標準パターン行列形状に対して入力パターン行列形状のj12成分から中程度離れた部分が減少した場合には、図8における記号(i)と(ii)の境界部分のy(y=−0.7σの近傍、または、y=+0.7σの近傍)においてf(y)の値が正規曲線より増加することになり尖度値の変化量が少ないため、Aj12(+)=3かつAj12(-)≒3により、Dj12≒0となる。
【0104】即ち、正規分布の中央付近(パターン行列形状のj12成分の近傍)において、入力音声の正規化パワースペクトルが標準音声の正規化パワースペクトルに対して相対的に強くなったときは、形状変化量Dj12は正の値で、かつ,相対強度に比例して増加する。逆に、正規分布の中央付近において、入力音声の正規化パワースペクトルが標準音声の正規化パワースペクトルに対して相対的に弱くなったときは、形状変化量Dj12は負の値で、かつ,相対強度に比例して減少する。
【0105】そこで、正規分布の平均値を標準パターン行列形状の各成分位置に順次移動させた場合について、各位置での形状変化量を求める。図17は標準パターン行列形状に対して入力パターン行列形状のi12成分だけが増加した例を示す。図18は、図17の例において、正規分布の平均値が点(j1,j2)(j1=1,2,・・・,m1 )(j2=1,2,・・・,m2)の位置に移動したときのそれぞれの場合について、異なる分散の値をもつ正規分布、及び、正規分布の平均値と点(i1,i2)との間の長さλi1212(j1=1,2,・・,m1 )(j2=1,2,・・・,m2)を示したものである。また、図19は、図18のそれぞれの場合について、基準パターン正ベクトル形状及び基準パターン負ベクトル形状を示したものである。
【0106】図18では、点(j1,j2)(j1=1,2,・・・,m1 )(j2=1,2,・・・,m2)のそれぞれの場合について、(周波数−時間)正規化平面上のすべての点の中で点(j1,j2)から最も遠い点を数7に適用して点(j1,j2)と各点との間の長さの最大値を求め、数8により点(j1,j2)ごとに異なる分散の値をもつ正規分布を作成している。従って、正規分布の中心線が点(j1,j2)を通り、かつ、上記平面に垂直になるようにし、上記中心線を軸として正規分布を回転したとき、正規分布の主要部分が正規分布の平均値の位置にかかわらず常に上記平面全体を覆うようにできる。これにともない、図19では、点(j1,j2)のそれぞれの場合に対応して、基準パターン正ベクトル形状及び基準パターン負ベクトル形状は異なるものになっている。
【0107】図17では、同図(a)の標準パターン行列形状に対して、同図(b)の入力パターン行列形状のi12成分がδ増加しているが、図18において、正規分布の平均値と点(i1,i2)との間の長さλi1212(j1=1,2,・・・,m1 )(j2=1,2,・・・,m2)を示し、図19においては、それぞれの基準パターン正ベクトル形状においてのみ、その中心からλi1212だけ離れた位置に最も近い基準パターン正ベクトル形状の成分番号に対応する部分が同じ値δだけ増加し、基準パターン負ベクトル形状に変化がないことを示している。
【0108】また、正規分布の平均値が標準パターン行列形状の中心位置から離れている場合、図18中の記号アで示す部分は、標準パターン行列及び入力パターン行列の成分番号(i1=1,2,・・・,m1 )(i2=1,2,・・・,m2)に対応していないため、これに対応する基準パターン正ベクトル形状においては、常に値の変化はない。
【0109】ここで、数11において、正規分布の平均値からの偏差の値Lj120は、2乗または4乗されている。一方、基準パターン正ベクトル形状及び基準パターン負ベクトル形状においては、成分番号i0と成分番号(m0−i0+1)は正規分布の平均値に関して対称である。このため、正規分布の平均値からの偏差の値Lj120の2乗の値または4乗の値は、Lj12(m0−i0+1)の2乗の値または4乗の値に等しい。従って、成分番号i0の代わりに成分番号(m0−i0+1)を用いてもよい。
【0110】なお、特開平10−253444号公報(特願平9−61007号)の段落[0066]においては「図11中の記号イで示す部分は、基準パターン正ベクトル及び基準パターン負ベクトルの値の作成範囲外であるため、破線で示す入力パターンベクトルの変化にかかわらず、常に値の変化はない」としているが、本発明においては、例えば数7及び数8により点(j1,j2)ごとに異なる分散の値をもつ正規分布を作成し、正規分布の主要部分が正規分布の平均値の位置にかかわらず常にパターン行列全体を覆うようにしたため、標準パターン行列及び入力パターン行列のすべての成分番号について常に値を変化させることが可能になった。これにより、標準パターン行列と入力パターン行列との間の形状変化のすべてが尖度の値に反映するようになり、類似度検出性能が向上する。
【0111】このようにして、正規分布の平均値を標準パターン行列形状のj12成分(j1=1,2,・・・,m1 )(j2=1,2,・・・,m2)の位置に移動させたときのそれぞれの場合について、前記と同様の数7,数8、数5、数9、数6、数10,数11,数12を順に用いた処理手順により形状変化量Dj12(j1=1,2,・・・,m1 )(j2=1,2,・・・,m2)を算出する。この様子が図18及び図19に示されている。ただし、図19に示すように、数11におけるLj120(i0=1,2,・・・,m0)は、移動した正規分布のそれぞれの平均値からの偏差の値であり、また、kj12(+)0及びkj12(-)0(i0=1,2,・・・,m0)は、このLj120に対応するものである。
【0112】図20は、数5〜数12を用いて、m1×m2 個の形状変化量Dj12を算出する処理手順を示したフローチャートである。ここでは、数3により標準パターン行列H及び入力パターン行列Nを作成した後の処理手順を示しており、図20中のステップS3−1〜S3−9は図24中のステップS3の詳細でもある。
【0113】図20において、最初のステップS3−1では、j1=1,j2=1と初期設定しておき、次のステップS3−2からステップS3−7では、j2=m2までj2を1ずつ増加し、ステップS3−2からステップS3−9では、j1=m1までj1を1ずつ増加して形状変化量Dj12を算出するループに入る。
【0114】この形状変化量算出ループ内のステップS3−2では、ループを回る毎に、1対の基準パターンベクトル(基準パターン正ベクトルKj12(+)と基準パターン負ベクトルKj12(-) )を数7、数8、数5、数9を順に用いて作成する。即ち、数7により点(j1,j2)と各点との間の長さの最大値を求め、数8により正規分布の分散の値を算出し、数5及び数9により正規分布の値を成分とする基準パターン正ベクトル及び基準パターン負ベクトルを作成する。次に、ステップS3−3からステップS3−5では、数6、数10、数11、数12を順に用いて形状変化量Dj12を算出する。即ち、ステップS3−3で、(周波数−時間)正規化平面上の各点について、数6により点(j1,j2)と各点との間の長さを求め、基準パターン正ベクトル及び基準パターン負ベクトルの中心から上記長さだけ離れた位置に最も近い基準パターン正ベクトル及び基準パターン負ベクトルの成分番号を算出し、数10により基準パターン正ベクトルKj12(+)及び基準パターン負ベクトルKj12(-)の形状を変化させ、ステップS3−4で、数11を用いて基準パターン正ベクトルの尖度Aj12(+)及び基準パターン負ベクトルの尖度Aj12(-)を算出し、ステップS3−5で、数12を用いて形状変化量Dj12を算出する。
【0115】このような処理手順により、j12成分(j1=1,2,・・・,m1 )(j2=1,2,・・・,m2)に対応するそれぞれの場合についてm1×m2個の形状変化量Dj12を算出することができる。
【0116】図21は、図17〜図19で示した標準パターン行列形状及び入力パターン行列形状について、図20の処理手順を用いて算出したパターン行列の成分別形状変化量の模式図である。
【0117】正規分布の平均値が、図18及び図19のように標準パターン行列形状に対して入力パターン行列形状が増加した部分と同じ位置に移動したとき、図21のように形状変化量は最大となり(同図中、Di12で示す部分)、離れた位置に移動したとき負の値になることが分かる。
【0118】なお、特開平10−253444号公報(特願平9−61007)の段落[0076]において、[また、さらに離れた位置に移動したときは、図11中の記号イで示す部分が現れるため、図13のように形状変化量は0となる(同図中、中心周波数f1の帯域に対応するもの)。」としているが、本発明においては、標準パターン行列及び入力パターン行列のすべての成分番号について常に値を変化させることを可能にしたため形状変化量が0に固定されることがなくなった。これにより、標準パターン行列と入力パターン行列との間の形状変化のすべてが尖度の値に反映するようになり、類似度検出性能が向上する。
【0119】このように、形状変化量Dj12 、即ち、形状変化した基準パターン正ベクトルの尖度と基準パターン負ベクトルの尖度との差(Aj12(+)−Aj12(-))は、標準パターン行列形状に対して入力パターン行列形状が増加した部分と同じ位置に基準形状の中心が移動した場合において、その値が増加することになる。
【0120】即ち、入力音声の正規化パワースペクトルが、標準音声の正規化パワースペクトルに対してパターン行列のどの成分においてどの程度強くなっているかを、形状変化量として検出することができる。
【0121】次に、上記のようにして得られたm1×m2個の形状変化量Dj12(j1=1,2,・・・,m1)(j2=1,2,・・・,m2)を用いて、標準パターン行列形状と入力パターン行列形状との差を、2つのパターン行列間の1個の形状距離値として数値化する。
【0122】この形状距離値はm1×m2個の形状変化量Dj12の積算であると考えられる。従って、次の数13より、形状距離値dを算出できる。
【0123】
【数13】

【0124】数13ではm1×m2個の形状変化量Dj12の2乗和の平方根を形状距離値としているが、次の数14のように、m1×m2個の形状変化量Dj12の2乗和自身を形状距離値dとすることもできる。
【0125】
【数14】

【0126】以上で形状距離値の算出方法を述べたが、次に、この方法を用いて図39、図40に示した標準音声20及び入力音声21、22、23について、標準パターン行列20Aと各入力パターン行列21A、22A、23Aとの間の形状距離値d21、d22,d23を算出することを考えてみる。
【0127】図22は、図40における変数αの値を0から1まで増加させたとき、形状距離値d21、d22、d23が変化する様子を示したものである。この図22から、図39、図40の例では、形状距離値は常にd21=d22<d23であり、αの値が増加するにつれて、形状距離値d21、d22、d23も増加することが分かる。
【0128】ここで、図39、図40の例で変数αが小さい場合について、仮に、入力音声21と入力音声22は摩擦子音/s/の「スペクトル強度のゆらぎ」であり、入力音声23は摩擦子音/s/とは異なる音声であるとする。
【0129】従来は標準音声からのユークリッド距離や角度の値を用いているため、図39、図40において入力音声21、22、23の変数αの値が同じときには、図43及び図44に示したように、入力音声21、22が標準音声であり、入力音声23は標準音声でないことを判定できなかった。
【0130】これに対し、本発明では、入力音声21、22、23のαの値が同じときでも、図22に2つの白丸印5、6で示すように、標準音声からの形状距離値d21、d22、d23と任意に設定した許容値とを比較することにより、白丸印6の入力音声は標準音声であり、白丸印5の入力音声は標準音声でないと判定することができる。つまり、摩擦子音/s/の入力音声21、22と、摩擦子音/s/とは異なる入力音声23とを区別できる。
【0131】更に、上記の形状距離値の算出方法を用いて図41、図42に示した標準音声24及び入力音声25、26、27について、標準パターン行列24Aと各入力パターン行列25A、26A、27Aとの間の形状距離値d25、d26、d27を算出することを考えてみる。
【0132】図23は、図42における変数βの値を0から1まで増加させたとき、形状距離値d25、d26、d27が変化する様子を示したものである。この図23から、図41、図42の例では、形状距離値は常にd25<d26<d27であり、βの値が増加するにつれて、形状距離値d25、d26、d27も増加することが分かる。
【0133】ここで、図41、図42の例で、仮に、入力音声25は標準音声24と同じ音声であって、そのピークに「周波数のずれ」または「時間のずれ」が発生したものであり、入力音声26と入力音声27は標準音声24とは異なる音声であるとする。
【0134】従来は標準音声からのユークリッド距離や角度の値を用いているため、図41、図42において入力音声25、26、27の変数βの値が同じときには、図45及び図46に示したように、入力音声25が標準音声であり、入力音声26、27は標準音声でないことを判定できなかった。
【0135】これに対し、本発明では、入力音声25、26、27のβの値が同じときでも、図23に3つの白丸印7、8、9で示すように、標準音声からの形状距離値d25、d26、d27と任意に設定した許容値とを比較することにより、白丸印9の入力音声は標準音声であり、白丸印7、8の入力音声は標準音声でないと判定することができる。つまり、標準音声24と同じ入力音声25と、標準音声24とは異なる入力音声26、27とを区別できる。
【0136】また、図41、図42において、標準音声24のピークに対する入力音声25、26、27のピークの[周波数のずれ」または「時間のずれ」の大きさは、入力音声25、26、27の順に大きくなっている。一方、図23において、形状距離値はd25<d26<d27となっており、形状距離値を用いれば、これらピークの[周波数のずれ」または「時間のずれ」の大きさも検出できる。
【0137】次に、以上で述べた音声の類似度検出方法を用いてコンピュータが連続的に音声の類似度を検出し、音声を認識する一例を図24を参照して説明する。
【0138】図24はコンピュータが音声を認識するためのフローチャートである。図24において、ステップS1では標準音声から標準パターン行列を予め作成しておく。次のステップS2では入力音声から入力パターン行列を作成し、ステップS3では形状変化量Dj12(j1=1,2,・・・,m1 )(j2=1,2,・・・,m2)を算出する。ここで、ステップS3の形状変化量の算出手順は、前述した図20におけるステップS3−1からステップS3−9により構成される。そして、ステップS4では形状距離値dを算出し、ステップS5では許容値と比較して判定を行う。判定の後、再び、ステップS2からの処理を繰り返す。
【0139】このような処理手順により、音声を連続的に認識することができる。形状距離値dが許容値を越えたとき、ステップS6で入力音声は標準音声でないと判定し、形状距離値dが許容値内のとき、ステップS7で入力音声は標準音声であると判定する。
【0140】ところで、一般に、音声認識においては、例えば/a/、/i/、/u/、/e/、/o/という音声のように、入力音声が複数の音声のうちのどれであるかを認識することが多い。このような場合には、/a/、/i/、/u/、/e/、/o/というそれぞれの音声を別々の標準音声と考え、これらの標準音声から5個の標準パターン行列を作成しておく。
【0141】次に、入力音声からは1個の入力パターン行列を作成し、この入力パターン行列と上記5個の各標準パターン行列との間の形状距離値を算出し、これらの形状距離値のうちの最小値と、任意に設定した許容値とを比較し、最小の形状距離値が許容値を越えていないときには、入力音声は最小の形状距離値を与える標準音声であると判定し、越えたときには入力音声は5個の標準音声のいずれでもないと判定する。
【0142】図25は、上記の処理手順を実現するため、音声の類似度検出装置としてブロック図で示したものである。図25において、10はパターンベクトル生成器、11はパターン行列生成器、12は比較器、13、14、15は計算器である。
【0143】パターンベクトル生成器10は、正規分布の値を成分とする基準パターン正ベクトルKj12(+)及び基準パターン負ベクトルKj12(-)を生成し、パターン行列生成器11は、標準音声の特徴量を成分とする標準パターン行列Hと、入力音声の特徴量を成分とする入力パターン行列Nとを生成する。比較器12は、パターン行列の各成分について、入力パターン行列の成分値が標準パターン行列の成分値より大きいか否かを比較する。計算器13は、パターン行列の指定成分と各成分との間の長さを求め、基準パターンベクトルの中心から上記長さだけ離れた位置に最も近い基準パターンベクトルの成分番号を算出し、入力パターン行列の成分値が標準パターン行列の成分値より大きいとき、その差の絶対値だけ基準パターン正ベクトルKj12(+)の上記成分番号の成分値を増加させ、入力パターン行列の成分値が標準パターン行列の成分値より小さいとき、その差の絶対値だけ基準パターン負ベクトルKj12(-)の上記成分番号の成分値を増加させる。計算器14は、上記増加手段13により生成された基準パターン正ベクトルKj12(+)の尖度と上記増加手段13により生成された基準パターン負ベクトルKj12(-)の尖度との差の値を算出する。ここで、尖度の差の値を算出するに際し、パターン行列の指定成分を各成分の位置に移動しながら尖度の差の値を求める。計算器15は、上記尖度の差の値の2乗和の平方根を算出することにより、標準パターン行列と入力パターン行列の間の形状距離値dを得る。
【0144】以上要するに、図24に示すよう、標準音声の特徴量を成分とする標準パターン行列と、入力音声の特徴量を成分とする入力パターン行列とを作成し(ステップS1〜S2)、パターン行列の指定成分ごとに異なる分散の値をもつ基準形状を作成し、上記基準形状の値を成分とする基準パターン正ベクトル及び基準パターン負ベクトルを作成し、パターン行列の指定成分(基準形状の中心)を標準パターン行列のj1=1 〜m1,j2=1〜m2各成分位置に順次合わせながら、標準パターン行列と入力パターン行列間の形状の変化を、基準パターン正ベクトルと基準パターン負ベクトルの形状変化に置き換え、これら基準パターン正ベクトルと基準パターン負ベクトルの尖度の変化量を数値化して形状変化量Dj12 とし(ステップS3)、形状変化量Dj12 (j1=1 ,2,…,m1)(j2=1,2,…,m2)から標準音声と入力音声のパターン行列形状についての形状距離値dを算出することにより(ステップS4)、正確な音声の類似度検出値を得ることができる。また、この音声類似度検出値(形状距離値d)を任意に設定した許容値と比較し(ステップS5)、形状距離値dが許容値を越えたとき入力音声は標準音声でないと判定し(ステップS6)、形状距離値dが許容値内のとき入力音声は標準音声であると判定する(ステップS7)ことのより、正確な音声認識結果を得ることができる。
【0145】(II)機械の異常判定方法次に、振動波の類似度検出方法及びその検出値を用いた機械の異常判定方法について述べる。本実施例では、機械の異常判定を行うために、振動波の周波数分布の時間変化を正規化して標準パターン行列と入力パターン行列とを作成し、これらパターン行列間の形状変化を、正規分布の値を成分とする基準パターンベクトルの形状変化に置き換え、この基準パターンベクトルの形状変化の大きさを尖度の変化量として数値化することにより振動波の類似度を検出し、更に、その検出値を用いて機械の異常判定を行うものとする。
【0146】図1において、マイクロホンの代わりに、適宜な振動センサにより機械の振動波を測定する。図1に示すように、i1番目のAD変換器3の出力信号を時刻tの関数としてxi1(t)(i1=1,2,・・・,m1)とした時、関数xi1(t)はi1番目の帯域通過フィルタ2を通して抽出した振動波の周波数成分波である。また、図3において、i2番目の時刻をti2(i2=1,2,・・・,m2)として、関数xi1(t)を各時刻ごとに区切って測定することにより振動波の周波数分布の時間変化の特徴が抽出できる。そのため、i1番目の周波数帯域におけるi2番目の時刻のパワースペクトルPi12は数1により算出できる。ただし、関数xi1(t)の2乗和を計算する時間長Tは、時間的に変化する振動波の特徴が顕著に現れるように任意に設定しておく。
【0147】以上で述べた音声の類似度検出処理手順を、上記で算出した振動波のパワースペクトルPi12に適用し、機械の異常判定を行う。
【0148】具体的には、標準振動波の特徴量を成分とする標準パターン行列と入力振動波の特徴量を成分とする入力パターン行列とを作成し、これらのパターン行列形状変化を基準パターン正ベクトル及び基準パターン負ベクトルの形状変化に置き換えて、この形状変化の大きさを尖度の変化量とし、基準パターン正ベクトルと基準パターン負ベクトルの尖度の差から、標準パターン行列と入力パターン行列との間の形状距離値を算出し、得られた形状距離値と任意に設定した許容値とを比較し、形状距離値が許容値を越えたとき機械は異常であると判定し、形状距離値が許容値内のとき正常であると判定する。
【0149】(III)画像認識方法次に、画像の類似度検出方法及びその検出値を用いた画像認識方法について述べる。本実施例では、画像認識を行うために、画像の濃度パターンを正規化して標準パターン行列と入力パターン行列とを作成し、これらパターン行列間の形状変化を、正規分布の値を成分とする基準パターンベクトルの形状変化に置き換え、この基準パターンベクトルの形状変化の大きさを尖度の変化量として数値化することにより画像の類似度を検出し、更に、その検出値を用いて画像認識を行うものとする。
【0150】図26は、アルファベット”E”の画像の一例である。同図に示されるように、画像はx方向及びy方向をそれぞれm1個及びm2個に区切ったm1×m2個の画素により構成される。ここで、x方向にi1番目、かつ、y方向にi2番目の画素における画像の濃度をPi12とすると、正規化濃度pi12は数2により算出できる。
【0151】次に、標準画像の正規化濃度pi12(i1=1,2,・・・,m1)(i2=1,2,・・・,m2)を成分とする標準パターン行列Hと、入力画像の正規化濃度pi12(i1=1,2,・・・,m1)(i2=1,2,・・,m2)を成分とする入力パターン行列Nを作成する。この標準パターン行列H及び入力パターン行列Nを、数3のように表現しておく。ただし、数3は、標準画像及び入力画像の正規化濃度の形状を、パターン行列のm1×m2個の成分値で表現したものであると読み替える。
【0152】また、図27(a)は、標準パターン行列Hを(x−y)平面で表現したものであり、同図(b)は、入力パターン行列Nを同平面で表現したものである。
【0153】先に述べた音声の類似度検出処理手順を、上記で作成した画像の標準パターン行列H及び入力パターン行列Nに適用し、画像認識を行う。
【0154】具体的には、標準画像の特徴量を成分とする標準パターン行列と入力画像の特徴量を成分とする入力パターン行列とを作成し、これらのパターン行列形状変化を基準パターン正ベクトル及び基準パターン負ベクトルの形状変化に置き換えて、この形状変化の大きさを尖度の変化量とし、基準パターン正ベクトルと基準パターン負ベクトルの尖度の差から、標準パターン行列と入力パターン行列との間の形状距離値を算出し、得られた形状距離値と任意に設定した許容値とを比較し、形状距離値が許容値を越えたとき入力画像は標準画像でないと判定し、形状距離値が許容値内のとき入力画像が標準画像であると判定する。
【0155】[実験例]次に、図28、図29及び図30(a)、(b)、(c)を参照して実験例を説明する。図28、図29は、記号”+”の濃度形状を持つ標準画像16、及び、この標準画像と全画素の濃度の合計が同じであるが横線の位置が異なる入力画像17、18、19について、標準画像16の濃度を成分とする7行9列の標準パターン行列16Aを予め登録しておき、また、各入力画像17、18、19の濃度を成分とする7行9列の入力パターン行列17A、18A、19Aを作成し、標準パターン行列16Aと各入力パターン行列17A、18A、19Aとの間の類似性尺度として、ユークリッド距離または角度の余弦e17、e18、e19、及び、本発明による形状距離d17、d18、d19を算出する様子を模式的に示したものである。なお、図29では、表示を簡単にするため、標準パターン行列H及び入力パターン行列Nの成分値を正規化しないで表示している。
【0156】図30(a)、(b)、(c)は、それぞれ実験で得られたユークリッド距離値e17、e18、e19、角度の余弦値e17、e18、e19、及び、形状距離値d17、d18、d19を棒グラフで示したものである。
【0157】上述の如く、図30(a)、(b)、(c)は同一の測定データからユークリッド距離値、角度の余弦値、及び、形状距離値を算出し、標準画像と入力画像との間のそれぞれの距離値を棒グラフで表したものであり、図30(a)、(b)、(c)によれば、以下のことがいえる。
(1)図28、図29において、標準画像16の横線に対する入力画像17、18、19の横線の「位置のずれ」の大きさは、入力画像17、18、19の順に大きくなっている。図30(a)、(b)においては、ユークリッド距離、角度の余弦ともにe17=e18=e19となっており、ユークリッド距離や角度の余弦を用いても、これら横線の「位置のずれ」の大きさを検出できない。一方、図30(c)において、形状距離はd17<d18<d19となっており、形状距離を用いれば、これら横線の「位置のずれ」の大きさを検出できる。
(2)図28、図29において、仮に、入力画像17は標準画像16と同じ画像であって、その横線に「位置のずれ」が発生したものであり、入力画像18と入力画像19は標準画像16とは異なる画像であるとする。ここで、ユークリッド距離や角度の余弦を用いたとき、図30(a)、(b)において許容値をどのような位置に設定しても、入力画像17が標準画像であり、入力画像18、19は標準画像でないことを判定できない。一方、形状距離を用いたとき、図30(c)に示す位置に許容値を設定したならば、入力画像17は標準画像であり、入力画像18、19は標準画像でないと判定することができる。
【0158】以上の実験結果より、ユークリッド距離または角度の余弦を用いるよりも形状距離を用いる方が、より正確に画像の類似度の検出が行えることが理解できる。
【0159】(IV)立体認識方法次に、立体の類似度検出方法及びその検出値を用いた立体認識方法について述べる。本実施例では、立体認識を行うために、立体の密度(単位体積の質量)パターンを正規化して標準パターン行列層と入力パターン行列層とを作成し、これらパターン行列層間の形状変化を、正規分布の値を成分とする基準パターンベクトルの形状変化に置き換え、この基準パターンベクトルの形状変化の大きさを尖度の変化量として数値化することにより立体の類似度を検出し、更に、その検出値を用いて立体認識を行うものとする。
【0160】ここでは、先に述べた音声、振動波、画像等、2つのパターン行列(2次元)間の類似度検出方法を、2つのパターン行列層(3次元)間の類似度検出方法に拡張する。
【0161】図31は、立体の密度(単位体積の質量)分布を示したものである。同図に示されるように、立体はx方向、y方向、z方向をそれぞれm1個、m2個、m3個に区切ったm1×m2×m3個の区画により構成される。ここで、x方向にi1番目、かつ、y方向にi2番目、かつ、z方向にi3番目の区画における立体の密度をPi123とすると、正規化密度pi123は、数2の代わりに、次の数15により算出できる。
【0162】
【数15】

【0163】次に、標準立体の正規化密度pi123(i1=1,2,・・・,m1)(i2=1,2,・・・,m2)(i3=1,2,・・・,m3)を成分とする標準パターン行列層Hと、入力立体の正規化密度pi123(i1=1,2,・・・,m1)(i2=1,2,・・・,m2)(i3=1,2,・・・,m3)を成分とする入力パターン行列層Nを作成する。この標準パターン行列層H及び入力パターン行列層Nを、数3の代わりに、次の数16、数17のように表現しておく。ただし、数16は標準立体の正規化密度の形状を、数17は入力立体の正規化密度の形状を、パターン行列層のm1×m2×m3個の成分値で表現したものである。
【0164】
【数16】

【0165】
【数17】

【0166】また、図32は、標準パターン行列層Hを(x−y−z)空間で表現したものであり、図33は、入力パターン行列層Nを同空間で表現したものである。更に、図34は、図32、図33における同空間の縦の長さと横の長さと高さの長さを1にした(x−y−z)正規化空間を示している。従って、図中に示すように、成分間の縦の長さは1/(m1−1)、成分間の横の長さは1/(m2−1)、成分間の高さの長さは1/(m3−1)になる。
【0167】図35(a)は、平均値μ=0、分散σj1232としたとき、数4の正規分布のグラフ(正規曲線)を示したものである。また、図35(b)、(c)において正規曲線の関数値に等しい高さの棒グラフを示しているが、この棒グラフの高さの値を成分とする基準パターン正ベクトルKj123(+)を図35(b)のように作成し、また、同棒グラフの高さの値を成分とする基準パターン負ベクトルKj123(-)を図35(c)のように作成し、数5の代わりに、次の数18のように表現しておく。数18は正規分布の形状をベクトルのm0個の成分値で表現したものであり、数16、数17は行列層(3次元)であるのに対し、数18はベクトル(1次元)である。図35から分かるように、これら一対の基準パターンベクトルKj123(+)、Kj123(-)は相等なベクトルである。なお、数18中の添数j123は、図34に示す点(j1,j2,j3)に対応するものであり、数18中のm0は数16、数17中のm1、m2及びm3と異なる任意の自然数であってよい。
【0168】
【数18】

【0169】一方、図34において、(x−y−z)正規化空間内の点(j1,j2,j3)、及び、点(i1,i2,i3)を示している。また、同空間内のすべての点の中で、点(j1,j2,j3)から最も遠い点(m1,1,1)も示している。従って、点(j1,j2,j3)と点(i1,i2,i3)との間の長さλi123123は、数6の代わりに、次の数19により算出できる。同様に、点(j1,j2,j3)と点(m1,1,1)との間の長さλm111j123は、数7の代わりに、次の数20により算出できる。λm111j123は、点(j1,j2,j3)と各点との間の長さの最大値である。
【0170】
【数19】

【0171】
【数20】

【0172】また、図7(a)に示す正規曲線は、図9に示す2つの正規曲線を重ねて2次元で表示したものであったが、図35(a)に示す正規曲線は、これと同様な考えで、図9を1次元だけ拡張したものである(これについて幾何学的な表現はできない)。図35(a)において、点(j1,j2,j3)をy=0に対応させ、点(m1,1,1)をy=−1.4σj123に対応させている。従って、点(i1,i2,i3)はy=0とy=−1.4σj123の間のyの値に対応することになる。
【0173】また、点(j1,j2,j3)と点(m1,1,1)との間の長さλm111j123は数20より算出できるが、図35(a)に示すy軸上の0と−1.4σj123との間の長さでもある。従って、数8の代わりに、次の数21より、正規分布の分散の値が算出できる。
【0174】
【数21】

【0175】上記の方法により正規分布の分散の値を算出すれば、正規分布の主要成分(数21の場合には−1.4σ≦y≦+1.4σの範囲)が(x−y−z)正規化空間全体を覆うようにできる。即ち、数21より求めた正規分布の分散の値を数4に適用することにより正規曲線が決定され、更に、図35(b)、(c)、及び、数18に適用することにより基準パターン正ベクトルKj123(+)及び基準パターン負ベクトルKj123(-)が作成できる。
【0176】ここで、パターン行列層の指定成分としてj123成分をj1=1〜m1、j2=1〜m2、j3=1〜m3の中の一組の値に固定しておいた上で、パターン行列層のi123成分(i1=1,2,・・・,m1)(i2=1,2,・・・,m2)(i3=1,2,・・・,m3)のそれぞれについて考える。点(j1,j2,j3)と点(i1,i2,i3)との間の長さλi123123は数19より算出できるが、図35(a)に示すように、λi123123は正規分布の平均値からの偏差の値でもある。
【0177】一方、図35(c)に示すように、基準パターンベクトルの各成分番号の間の長さをΔyj123としたとき、成分番号i0(i0=1,2,・・・,m0)に対応する正規分布の平均値からの偏差の値Lj1230は、数9の代わりに、次の数22により算出できる。なお、ここでは、基準パターンベクトルの各成分番号の間の長さが等間隔である場合を考える。また、数22において(m0+1)/2は基準パターンベクトルの中央の成分番号である。
【0178】
【数22】

【0179】図35(a)、(b)、(c)に、上記λi123123とLj1230との関係を示す。同図(a)において、λi123123は点(j1,j2,j3)と点(i1,i2,i3)との間の長さであることを示している。また、同図(b)、(c)において、基準パターン正ベクトル及び基準パターン負ベクトルの中心からλi123123だけ離れた位置に最も近い基準パターン正ベクトル及び基準パターン負ベクトルの成分番号がi0であり、成分番号i0に対応する正規分布の平均値からの偏差の値がLj1230であることを示している。
【0180】即ち、パターン行列層のj123成分とi123成分が与えられたとき、数19よりこれら2点間の長さλi123123が算出され、次に、基準パターンベクトルについて成分番号i0、正規分布の平均値からの偏差の値Lj1230、及び、成分値kj123(+)0とkj123(-)0が得られることになる。
【0181】ここで、基準パターンベクトルの成分の個数m0を十分に大きく(Δyj123を十分に小さく)しておけば、λi123123の値とLj1230の値との間の誤差を十分に小さくすることができ、精度の高い計算結果が得られる。また、成分番号i0と成分番号(m0−i0+1)は正規分布の平均値に関して対称であるため、i0の代わりに(m0−i0+1)を用いてもよい。
【0182】次に、標準パターン行列層Hと入力パターン行列層Nとの間の形状変化を、基準パターン正ベクトルKj123(+)及び基準パターン負ベクトルKj123(-)の形状変化に置き換える。即ち、パターン行列層のi123成分(i1=1,2,・・・,m1 )(i2=1,2,・・・,m2)(i3=1,2,・・・,m3)について、標準パターン行列層Hの成分値hi123と入力パターン行列層Nの成分値ni123との間の変化量の絶対値は|ni123−hi123|であるが、数10の代わりに,次の数23に示すように、ni123がhi123より大きいとき基準パターン正ベクトルKj123(+)の成分値kj123(+)0をこの変化量の絶対値|ni123−hi123|だけ増加させ、ni123がhi123より小さいとき基準パターン負ベクトルKj123(-)の成分値kj123(-)0をこの変化量の絶対値|ni123−hi123|だけ増加させる。
【0183】
【数23】

【0184】従って、数21により正規分布の分散の値を算出し、数23により基準パターンベクトルの成分値kj123(+)0及びkj123(-)0を増加させるようにすれば、パターン行列層のj123成分とi123成分のあらゆる組み合わせに対して、−1.4σ≦y≦+1.4σの範囲においてf(y)の値が増加するようにできる。
【0185】通常の場合には、標準パターン行列層形状に対して入力パターン行列層形状の殆どの部分が変化するので、数19は変化した全ての部分について長さの計算を行い、数23は変化した全ての部分について形状変化の計算を行うものである。また、数23は、絶対的な形状を問題にしているのではなく、相対的な形状変化を問題にしているため、任意形状の標準パターン行列層及び入力パターン行列層について適用が可能である。
【0186】次に、数23により形状変化した一対の基準パターンベクトル(基準パターン正ベクトルKj123(+)と基準パターン負ベクトルKj123(-) )について、それぞれの形状変化の大きさを、尖度の変化量として数値化する。
【0187】ここで、基準パターン正ベクトルKj123(+)の尖度Aj123(+)、及び、基準パターン負ベクトルKj123(-)の尖度Aj123(-)は、数11の代わりに、それぞれ次の数24により算出できる。ただし、数24中のLj1230(i0=1,2,・・・,m0)は、図10と同様に、正規分布の平均値からの偏差の値であり、数22により正規分布の形状の特徴を表現できる範囲の任意の値に設定しておく。
【0188】
【数24】

【0189】数24より算出される尖度の値Aj123(+)及びAj123(-)は、正規分布の平均値(中心)のまわりの4次の積率と、2次の積率の2乗との比である。
【0190】なお、正規分布に限らず、数24より、任意の基準形状の尖度の値を算出できる。
【0191】前述したように、一般に、ベクトル形状の尖度の計算式においては、ベクトルの成分値が負の場合には定義できず、標準パターン行列層の成分値と入力パターン行列層の成分値のあらゆる大小関係に対して、基準パターンベクトルの成分値が非負である必要がある。
【0192】このため、初期値が同形状の基準パターン正ベクトルKj123(+)及び、基準パターン負ベクトルKj123(-)を作成しておき、数23ではそれらの成分値の変化が非減少になるようにし、数24においてそれぞれの尖度Aj123(+)、Aj123(-)を算出するようにしている。
【0193】次に、基準パターン正ベクトルの尖度Aj123(+)と基準パターン負ベクトルの尖度Aj123(-)の2つの変化量から、尖度の差の値(Aj123(+)−Aj123(-) )を以て、標準パターン行列層と入力パターン行列層の類似の程度を表す形状変化量Dj123とする。
【0194】例えば、数18により正規分布形状に初期設定された2つの基準パターンベクトルKj123(+)及びKj123(-)の尖度の値は、共に3に等しい。そのため、数23により形状変化した基準パターン正ベクトル及び基準パターン負ベクトルの尖度の変化量は、それぞれ{Aj123(+)−3}及び{Aj123(-)−3}となる。即ち、正方向の変化量は{Aj123(+)−3}、また負方向の変化量は{Aj123(-)−3}となり、全体の変化量はこの差の値となる。従って、数12の代わりに、次の数25より、形状変化量Dj123が算出できる。
【0195】
【数25】

【0196】次に、数25より算出される形状変化量Dj123が示す値について考えてみる。即ち、正規分布の中央付近(パターン行列層形状のj123成分の近傍)において、入力立体の正規化密度が標準立体の正規化密度に対して相対的に強くなったときは、形状変化量Dj123は正の値で、かつ、相対強度に比例して増加する。逆に、正規分布の中央付近において、入力立体の正規化密度が標準立体の正規化密度に対して相対的に弱くなったときは、形状変化量Dj123は負の値で、かつ、相対強度に比例して減少する。
【0197】そこで、正規分布の平均値を標準パターン行列層形状の各成分位置に順次移動させた場合について、各位置での形状変化量を求める。即ち、正規分布の平均値を標準パターン行列層形状のj123成分(j1=1,2,・・・,m1 )(j2=1,2,・・・,m2)(j3=1,2,・・・,m3)の位置に移動させたときのそれぞれの場合について、前記と同様の数20、数21、数18、数22、数19、数23、数24、数25を順に用いた処理手順により形状変化量Dj123(j1=1,2,・・・,m1 )(j2=1,2,・・・,m2)(j3=1,2,・・・,m3)を算出する。
【0198】ただし、点(j1,j2,j3)(j1=1,2,・・・,m1 )(j2=1,2,・・・,m2)(j3=1,2,・・・,m3)のそれぞれの場合について、(x−y−z)正規化空間内のすべての点の中で点(j1,j2,j3)から最も遠い点を数20に適用して点(j1,j2,j3)と各点との間の長さの最大値を求め、数21により点(j1,j2,j3)ごとに異なる分散の値をもつ正規分布を作成し、上記正規分布の値を成分とする基準パターン正ベクトルKj123(+)及び基準パターン負ベクトルKj123(-)を作成する。
【0199】また、数24におけるLj1230(i0=1,2,・・・,m0)は、移動した正規分布のそれぞれの平均値からの偏差の値であり、また、kj123(+)0及びkj123(-)0(i0=1,2,・・・,m0)は、このLj1230に対応するものである。
【0200】このような処理手順により、j123成分(j1=1,2,・・・,m1 )(j2=1,2,・・・,m2)(j3=1,2,・・・,m3)に対応するそれぞれの場合についてm1×m2×m3個の形状変化量Dj123を算出することができる。
【0201】このようにして算出した形状変化量Dj123 、即ち、形状変化した基準パターン正ベクトルの尖度と基準パターン負ベクトルの尖度との差(Aj123(+)−Aj123(-) )は、標準パターン行列層形状に対して入力パターン行列層形状が増加した部分と同じ位置に基準形状の中心が移動した場合において、その値が増加することになる。
【0202】即ち、入力立体の正規化密度が、標準立体の正規化密度に対してパターン行列層のどの成分においてどの程度強くなっているかを、形状変化量として検出することができる。
【0203】次に、上記のようにして得られたm1×m2×m3個の形状変化量Dj123(j1=1,2,・・・,m1)(j2=1,2,・・・,m2)(j3=1,2,・・・,m3)を用いて、標準パターン行列層形状と入力パターン行列層形状との差を、2つのパターン行列層間の1個の形状距離値として数値化する。
【0204】この形状距離値はm1×m2×m3個の形状変化量Dj123の積算であると考えられる。従って、数13の代わりに、次の数26より、形状距離値dを算出できる。
【0205】
【数26】

【0206】数26ではm1×m2×m3個の形状変化量Dj123の2乗和の平方根を形状距離値としているが、数14の代わりに、次の数27のように、m1×m2×m3個の形状変化量Dj123の2乗和自身を形状距離値dとすることもできる。
【0207】
【数27】

【0208】以上のようにして算出した標準パターン行列層と入力パターン行列層との間の形状距離値を用いて、立体認識を行う。
【0209】具体的には、標準立体の特徴量を成分とする標準パターン行列層と入力立体の特徴量を成分とする入力パターン行列層とを作成し、これらのパターン行列層形状変化を基準パターン正ベクトル及び基準パターン負ベクトルの形状変化に置き換えて、この形状変化の大きさを尖度の変化量とし、基準パターン正ベクトルと基準パターン負ベクトルの尖度の差から、標準パターン行列層と入力パターン行列層との間の形状距離値を算出し、得られた形状距離値と任意に設定した許容値とを比較し、形状距離値が許容値を越えたとき入力立体は標準立体でないと判定し、形状距離値が許容値内のとき入力立体が標準立体であると判定する。
【0210】(V)動画像認識方法動画像の類似度検出方法及びその検出値を用いた動画像認識方法について述べる。本実施例では、動画像認識を行うために、動画像の濃度パターンを正規化して標準パターン行列層と入力パターン行列層とを作成し、これらパターン行列層間の形状変化を、正規分布の値を成分とする基準パターンベクトルの形状変化に置き換え、この基準パターンベクトルの形状変化の大きさを尖度の変化量として数値化することにより動画像の類似度を検出し、更に、その検出値を用いて動画像認識を行うものとする。
【0211】図36は、アルファベット”E”を筆記するペンの動きを時間を追って撮影した動画像の一例である。同図に示されるように、動画像は時間を追って撮影したm3枚の画像により構成され、各画像はx方向及びy方向をそれぞれm1個及びm2個に区切ったm1×m2個の画素により構成される。ここで、x方向にi1番目、かつ、y方向にi2番目、かつ、i3番目の時刻の画素における動画像の濃度をPi123とすると、正規化濃度pi123は数15により算出できる。
【0212】次に、標準動画像の正規化濃度pi123(i1=1,2,・・・,m1)(i2=1,2,・・・,m2)(i3=1,2,・・・,m3)を成分とする標準パターン行列層Hと、入力動画像の正規化濃度pi123(i1=1,2,・・・,m1)(i2=1,2,・・・,m2)(i3=1,2,・・・,m3)を成分とする入力パターン行列層Nを作成する。この標準パターン行列層H及び入力パターン行列層Nを、数16、数17のように表現しておく。ただし、数16、数17はそれぞれ、標準動画像及び入力動画像の正規化濃度の形状を、パターン行列層のm1×m2×m3個の成分値で表現したものである。
【0213】また、図37は、標準パターン行列層Hを(x−y−時間)空間で表現したものであり、図38は、入力パターン行列層Nを同空間で表現したものである。
【0214】以上に述べた立体の類似度検出処理手順を、上記で作成した動画像の標準パターン行列層H及び入力パターン行列層Nに適用し、動画像認識を行う。
【0215】具体的には、標準動画像の特徴量を成分とする標準パターン行列層と入力動画像の特徴量を成分とする入力パターン行列層とを作成し、これらのパターン行列層形状変化を基準パターン正ベクトル及び基準パターン負ベクトルの形状変化に置き換えて、この形状変化の大きさを尖度の変化量とし、基準パターン正ベクトルと基準パターン負ベクトルの尖度の差から、標準パターン行列層と入力パターン行列層との間の形状距離値を算出し、得られた形状距離値と任意に設定した許容値とを比較し、形状距離値が許容値を越えたとき入力動画像は標準動画像でないと判定し、形状距離値が許容値内のとき入力動画像が標準動画像であると判定する。
【0216】以上で、2つのパターン行列(2次元)間の類似度検出値を用いた音声認識方法、機械の異常判定方法、画像認識方法、また、2つのパターン行列層(3次元)間の類似度検出値を用いた立体認識方法、動画像認識方法のそれぞれについての説明を終わる。
【0217】なお、以上の各実施例は、パターン行列(或いはパターン行列層)の指定成分ごとに異なる分散の値をもつ正規分布を作成して、形状距離値を算出したものであったが、コンピュータの記憶容量の節約や処理時間の短縮のため、パターン行列(或いはパターン行列層)の指定成分のすべてにおいて同じ分散の値をもつ1個の代表的な正規分布を作成して、形状距離値を算出しても良い。
【0218】この場合、パターン行列のj12成分とi12成分(或いはパターン行列層のj123成分とi123成分)のあらゆる組み合わせに対して、図8に示す正規分布の−2.1σ≦y≦+2.1σの範囲(図8中の記号(i)と(ii)で示すyの範囲)においてf(y)の値が増加するようにしておく。
【0219】また、以上の各実施例は、基準形状として正規分布を用いて形状距離値を算出したものであったが、基準形状として矩形など任意の形状を用いて形状距離値を算出しても良い。
【0220】このことは、形状変化量Dj12(或いは形状変化量Dj123)は基準形状の初期化時の尖度に影響されないことが数12(或いは数25)から分かることにより、理解されよう。
【0221】また、以上の各実施例は、アナログ帯域通過フィルタ群を用いて音声、または、振動波のパワースペクトルを抽出したものであったが、高速フーリエ変換等を用いてパワースペクトルを抽出しても良い。
【0222】また、以上の各実施例は、音声、または、振動波の特徴量としてパワースペクトルを用いて、形状距離値を算出したものであったが、音声、または、振動波の特徴量として複数個の線形予測係数等を用いて、形状距離値を算出しても良い。
【0223】また、以上の各実施例は、立体の特徴量として密度を用いて、形状距離値を算出したものであったが、立体の特徴量として3次元CT(コンピュータ断層撮影)画像の濃度等を用いて、形状距離値を算出しても良い。
【0224】更に、以上の各実施例は、音声、振動波、画像、立体、動画像について標準パターン行列(或いは標準パターン行列層)と入力パターン行列(或いは入力パターン行列層)との間の形状距離値を算出したものであったが、一般には、平面、空間を問わず任意の図形や模様について標準パターン行列(或いは標準パターン行列層)と入力パターン行列(或いは入力パターン行列層)との間の形状距離値を算出し、得られた形状距離値を以って図形や模様の類似度検出を行うことができる。また、この類似度検出値に基づいて図形や模様に関する解析等、各種処理を行うことができる。
【0225】
【発明の効果】以上のように、この発明の音声の類似度検出方法では、標準パターン行列と入力パターン行列との間の形状変化を、基準形状の値を成分とする基準パターンベクトルの形状変化に置き換え、この形状変化の大きさを尖度の変化量として数値化し形状距離値として算出するので、ユークリッド距離や角度など従来の類似性尺度では区別できない音声でも、パターン行列の形状差からこれらの区別を行うことができ、正確な音声の類似度検出値を得ることができる。
【0226】また、本発明の音声認識方法では、正確な音声の類似度検出値に基づいて音声認識を行うので、判定の基準が信頼性の高いものとなり、音声認識の精度を著しく向上できる利点がある。
【0227】更に、本発明の振動波の類似度検出方法では、標準パターン行列と入力パターン行列との間の形状変化を、基準形状の値を成分とする基準パターンベクトルの形状変化に置き換え、この形状変化の大きさを尖度の変化量として数値化し形状距離値として算出するので、ユークリッド距離や角度など従来の類似性尺度では区別できない振動波でも、パターン行列の形状差からこれらの区別を行うことができ、正確な振動波の類似度検出値を得ることができる。
【0228】また、本発明の機械の異常判定方法では、正確な振動波の類似度検出値に基づいて異常の判定を行うので、判定の基準が信頼性の高いものとなり、機械の異常検知の精度を著しく向上できる利点がある。
【0229】更に、本発明の画像の類似度検出方法では、標準パターン行列と入力パターン行列との間の形状変化を、基準形状の値を成分とする基準パターンベクトルの形状変化に置き換え、この形状変化の大きさを尖度の変化量として数値化し形状距離値として算出するので、ユークリッド距離や角度など従来の類似性尺度では区別できない画像でも、パターン行列の形状差からこれらの区別を行うことができ、正確な画像の類似度検出値を得ることができる。
【0230】また、本発明の画像認識方法では、正確な画像の類似度検出値に基づいて画像認識を行うので、判定の基準が信頼性の高いものとなり、画像認識の精度を著しく向上できる利点がある。
【0231】更に、本発明の立体の類似度検出方法では、標準パターン行列層と入力パターン行列層との間の形状変化を、基準形状の値を成分とする基準パターンベクトルの形状変化に置き換え、この形状変化の大きさを尖度の変化量として数値化し形状距離値として算出するので、ユークリッド距離や角度など従来の類似性尺度では区別できない立体でも、パターン行列層の形状差からこれらの区別を行うことができ、正確な立体の類似度検出値を得ることができる。
【0232】また、本発明の立体認識方法では、正確な立体の類似度検出値に基づいて立体認識を行うので、判定の基準が信頼性の高いものとなり、立体認識の精度を著しく向上できる利点がある。
【0233】更に、本発明の動画像の類似度検出方法では、標準パターン行列層と入力パターン行列層との間の形状変化を、基準形状の値を成分とする基準パターンベクトルの形状変化に置き換え、この形状変化の大きさを尖度の変化量として数値化し形状距離値として算出するので、ユークリッド距離や角度など従来の類似性尺度では区別できない動画像でも、パターン行列層の形状差からこれらの区別を行うことができ、正確な動画像の類似度検出値を得ることができる。
【0234】また、本発明の動画像認識方法では、正確な動画像の類似度検出値に基づいて動画像認識を行うので、判定の基準が信頼性の高いものとなり、動画像認識の精度を著しく向上できる利点がある。
【出願人】 【識別番号】593159855
【氏名又は名称】株式会社エントロピーソフトウェア研究所
【出願日】 平成12年9月13日(2000.9.13)
【代理人】 【識別番号】100078499
【弁理士】
【氏名又は名称】光石 俊郎 (外2名)
【公開番号】 特開2002−91481(P2002−91481A)
【公開日】 平成14年3月27日(2002.3.27)
【出願番号】 特願2000−277749(P2000−277749)