トップ :: G 物理学 :: G10 楽器;音響




【発明の名称】 音声信号分離方法及び装置
【発明者】 【氏名】近藤 多伸

【要約】 【課題】非音声信号側の経時的な変化に追従可能で、且つ子音部分も精度良く分離可能にする。

【解決手段】母音処理部1は、混合信号Iに含まれる基本周波数fに基づいて混合信号Iから音声信号の母音部分を検出し、母音信号Vvと、その他の信号O1とに分離する。子音処理部2では、混合信号Iのスペクトル包絡の特徴や特定帯域のパワー等に基づいて混合信号Iから音声信号に含まれる子音部分を検出し、混合信号Iを子音信号Vcとその他の信号O2とに分離する。母音・子音判定部3は、母音処理部1からの母音/非母音判定結果v/oと子音処理部2からの子音/非子音判定結果c/oとに基づいて、母音区間、子音区間及び非音声区間を判定し、切替部4の切替制御を行う。切替部4は、母音・子音判定部3により切替制御され、母音区間では母音処理部1で分離された母音信号Vvとその他の信号O1とを、また非母音区間では子音処理部2で分離された子音信号Vcとその他の信号O2とを選択し、それぞれ音声信号V及びその他の信号Oとして出力する。
【特許請求の範囲】
【請求項1】 音声信号とその他の信号とが混合された混合信号から音声信号を分離して前記音声信号及びその他の信号の少なくとも一方を抽出する音声信号分離方法において、前記混合信号から整数次倍音構造に基づいて前記音声信号のうちの母音部分を検出して分離する母音処理ステップと、前記混合信号又は前記混合信号から前記母音部分を分離した残りの信号を子音判定対象信号とし、この子音判定対象信号から子音の特性に基づいて前記音声信号のうちの子音部分を検出して分離する子音処理ステップと、前記母音処理ステップで検出された音声信号の母音部分と前記子音処理ステップで検出された音声信号の子音部分とによって音声信号を分離して前記音声信号及びその他の信号の少なくとも一方を抽出する出力ステップとを備えたことを特徴とする音声信号分離方法。
【請求項2】 前記子音処理ステップは、前記子音の特性として前記子音判定対象信号のスペクトル包絡に基づいて前記音声信号のうちの子音区間を検出するステップであることを特徴とする請求項1記載の音声信号分離方法。
【請求項3】 前記子音処理ステップは、前記混合信号から前記母音部分を分離した残りの信号のうち非子音区間のスペクトル包絡を経時的に蓄積し、この経時的に蓄積した非子音区間のスペクトル包絡と前記子音判定対象信号のスペクトル包絡との距離を定量的に評価して前記音声信号のうちの子音区間を検出するステップであることを特徴とする請求項2記載の音声信号分離方法。
【請求項4】 前記子音処理ステップは、予め学習された代表的な子音のスペクトル包絡と前記子音判定対象信号のスペクトル包絡との距離を定量的に評価して前記音声信号のうちの子音区間を検出するステップであることを特徴とする請求項2記載の音声信号分離方法。
【請求項5】 前記子音処理ステップは、前記子音判定対象信号の特定帯域のパワーに基づいて前記音声信号のうちの子音区間を検出するステップであることを特徴とする請求項1〜4のいずれか1項記載の音声信号分離方法。
【請求項6】 前記子音処理ステップは、前記混合信号から前記母音部分を分離した残りの信号のうち非子音区間のスペクトル包絡を経時的に蓄積し、この経時的に蓄積した非子音区間のスペクトル包絡と前記子音判定対象信号のスペクトル包絡との間で顕著に異なる帯域を分離する帯域として特定することを特徴とする請求項1〜5のいずれか1項記載の音声信号分離方法。
【請求項7】 前記子音処理ステップは、前記混合信号から前記母音部分を分離した残りの信号のうち非子音区間のスペクトル包絡を経時的に蓄積し、この経時的に蓄積した非子音区間のスペクトル包絡を現在対象としている前記子音判定対象信号のパワーで正規化したスペクトル包絡と前記子音判定対象信号のスペクトル包絡との間で所定の閾値以上の関係を有する帯域を分離する帯域として特定することを特徴とする請求項1〜5のいずれか1項記載の音声信号分離方法。
【請求項8】 音声信号とその他の信号とが混合された混合信号から音声信号を分離して前記音声信号及びその他の信号の少なくとも一方を抽出する音声信号分離装置において、前記混合信号から整数次倍音構造に基づいて前記音声信号のうちの母音部分を検出して分離する母音処理手段と、前記混合信号又は前記混合信号から前記母音部分を分離した残りの信号を子音判定対象信号とし、この子音判定対象信号から子音の特性に基づいて前記音声信号のうちの子音部分を検出して分離する子音処理手段と、前記母音処理手段で検出された音声信号の母音部分と前記子音処理手段で検出された音声信号の子音部分とによって音声信号を分離して前記音声信号及びその他の信号の少なくとも一方を抽出する出力手段とを備えたことを特徴とする音声信号分離装置。
【請求項9】 前記子音処理手段は、前記子音の特性として前記子音判定対象信号のスペクトル包絡に基づいて前記音声信号のうちの子音区間を検出する手段であることを特徴とする請求項8記載の音声信号分離装置。
【請求項10】 前記子音処理手段は、前記混合信号から前記母音部分を分離した残りの信号のうち非子音区間のスペクトル包絡を経時的に蓄積し、この経時的に蓄積した非子音区間のスペクトル包絡と前記子音判定対象信号のスペクトル包絡との距離を定量的に評価して前記音声信号のうちの子音区間を検出する手段であることを特徴とする請求項9記載の音声信号分離装置。
【請求項11】 前記子音処理手段は、予め学習された代表的な子音のスペクトル包絡と前記子音判定対象信号のスペクトル包絡との距離を定量的に評価して前記音声信号のうちの子音区間を検出する手段であることを特徴とする請求項9記載の音声信号分離装置。
【請求項12】 前記子音処理手段は、前記子音判定対象信号の特定帯域のパワーに基づいて前記音声信号のうちの子音区間を検出する手段であることを特徴とする請求項8〜11のいずれか1項記載の音声信号分離装置。
【請求項13】 前記子音処理手段は、前記混合信号から前記母音部分を分離した残りの信号のうち非子音区間のスペクトル包絡を経時的に蓄積し、この経時的に蓄積した非子音区間のスペクトル包絡と前記子音判定対象信号のスペクトル包絡との間で顕著に異なる帯域を分離する帯域として特定することを特徴とする請求項8〜12のいずれか1項記載の音声信号分離装置。
【請求項14】 前記子音処理手段は、前記混合信号から前記母音部分を分離した残りの信号のうち非子音区間のスペクトル包絡を経時的に蓄積し、この経時的に蓄積した非子音区間のスペクトル包絡を現在対象としている前記子音判定対象信号のパワーで正規化したスペクトル包絡と前記子音判定対象信号のスペクトル包絡との間で所定の閾値以上の関係を有する帯域を分離する帯域として特定することを特徴とする請求項8〜12のいずれか1項記載の音声信号分離装置。
【発明の詳細な説明】【0001】
【発明の属する技術分野】この発明は、音声信号を含む混合信号から音声信号のみを分離して音声信号及びその他の信号の少なくとも一方を抽出する音声信号分離方法及び装置に関する。
【0002】
【従来の技術】複数の音響信号が混在した信号から、特定の信号を強調・抑圧したり分離抽出する技術が知られている。音声信号に対しては、雑音と音声信号が混在した音響信号から雑音のみを抑圧する雑音抑圧方式(例えば特開平9−153769号、特開平9−212196号等)が、音楽に対しては演奏に含まれる旋律の分離や除去に関する方式(特開平11−143460号等)が様々に提案されている。
【0003】雑音抑圧方式は、例えば信号増幅器などの音響処理装置において、聴取したい音声信号が雑音に埋もれてしまい、目的の音声信号が聴き難いといった問題に対処する。また、音楽に対する分離や除去の方式は、例えばある旋律だけを除いてカラオケのようなものを作成したりする。
【0004】特開平9−212196号では、スペクトラルサブトラクションと呼ばれる手法によって雑音抑圧を実現している。これは、入力信号中の音声/非音声を検出し、非音声区間で代表的な雑音振幅スペクトルを求め、音声区間でこれを入力信号の振幅スペクトルから差し引くことで雑音を抑圧する。合成時の位相成分については、混合された状態のときのものを用いる。ここでは、音声の母音が整数次倍音構造を持っていることを利用して、基本周波数とその倍音成分のパワーを加算したものを指標として、非音声の検出をしている。特開平9−212196号では、この指標に対する閾値を小さくすることで、確実に雑音であると思われる区間から代表的な雑音スペクトルを求め、音声の子音の影響を小さくしている。
【0005】特開平11−143460号では、楽器音が整数次倍音構造を持っているものが多いことから、基本周波数とその倍音成分を同一楽器からの音であると判断している。そして、これらの周波数成分の時刻、振幅、位相の情報に基づいて波形を加算合成することで抽出や除去後の音を合成している。
【0006】
【発明が解決しようとする課題】雑音抑圧方式では、非音声信号とは雑音のことであり、これは不要なものである。従って、基本的には音声の抑圧された非音声側の信号を得ることはない。特開平9−212196号に開示されたスペクトラルサブトラクション法では、子音部分でも母音部分でも同じ抑圧処理をしている。ここでは、経時的に平均した代表的雑音スペクトルを用いているため、音声とその他の信号の混在区間で雑音抑圧方式に変更を加えずに非音声側の信号を出力しようと思った場合、常に代表的雑音スペクトルが出力されることになってしまい、非音声信号側の経時的な変化に追従できない。
【0007】また、音楽に対する分離や除去の方式では、整数次倍音構造を持たない信号は、全てその他の信号として処理されてしまうため、基本周波数の存在しない音声の子音部分に関しては、非音声信号に残留してしまう。非音声信号に対して適切な効果を与える場合に、残留した子音部分によってその効果が損なわれてしまう。例えばテレビのスポーツ実況に残響を付加し、臨場感を高める場合、実況音声と環境音信号とを分離し、環境音のみに残響付加することが望ましい。しかし、環境音側に子音部分だけが残ると、この子音にも残響付加され、高めたいはずの臨場感を損なってしまう。
【0008】この発明は、このような問題点に鑑みなされたもので、非音声信号側の経時的な変化に追従可能で、且つ子音部分も精度良く分離可能な音声分離方法及び装置を提供することを目的とする。
【0009】
【課題を解決するための手段】この発明に係る音声信号分離方法は、音声信号とその他の信号とが混合された混合信号から音声信号を分離して前記音声信号及びその他の信号の少なくとも一方を抽出する音声信号分離方法において、前記混合信号から整数次倍音構造に基づいて前記音声信号のうちの母音部分を検出して分離する母音処理ステップと、前記混合信号又は前記混合信号から前記母音部分を分離した残りの信号を子音判定対象信号とし、この子音判定対象信号から子音の特性に基づいて前記音声信号のうちの子音部分を検出して分離する子音処理ステップと、前記母音処理ステップで検出された音声信号の母音部分と前記子音処理ステップで検出された音声信号の子音部分とによって音声信号を分離して前記音声信号及びその他の信号の少なくとも一方を抽出する出力ステップとを備えたことを特徴とする。
【0010】また、この発明に係る音声信号分離装置は、音声信号とその他の信号とが混合された混合信号から音声信号を分離して前記音声信号及びその他の信号の少なくとも一方を抽出する音声信号分離装置において、前記混合信号から整数次倍音構造に基づいて前記音声信号のうちの母音部分を検出して分離する母音処理手段と、前記混合信号又は前記混合信号から前記母音部分を分離した残りの信号を子音判定対象信号とし、この子音判定対象信号から子音の特性に基づいて前記音声信号のうちの子音部分を検出して分離する子音処理手段と、前記母音処理手段で検出された音声信号の母音部分と前記子音処理手段で検出された音声信号の子音部分とによって音声信号を分離して前記音声信号及びその他の信号の少なくとも一方を抽出する出力手段とを備えたことを特徴とする。
【0011】この発明によれば、音声信号とその他の信号とが混合された混合信号から整数次倍音構造に基づいて音声信号のうちの母音部分を抽出すると共に、混合信号又は混合信号から母音部分を分離した残りの信号を子音対象信号として、この子音対象信号から子音の特性に基づいて子音部分を検出してこれを分離するようにしているので、母音部分と子音部分とが分離された残りの非音声信号は、経時的変化が反映されたものとなる。また、子音部分を含んで音声信号が混合信号から分離されるので、非音声信号に子音部分が含まれることがなく、非音声信号を処理する場合にも、精度の良い処理が可能になる。
【0012】なお、ここで“母音”とは、この明細書では、母音のみならず、整数次倍音構造を持つ有声子音も含む。また、“子音”とは、整数次倍音構造を持たない無声子音を意味する。子音処理時において子音区間を検出するために使用される子音の特性としては、例えば子音判定対象信号のスペクトル包絡、特定帯域のパワー(例えば4〜10kHz程度)等を使用することができる。スペクトル包絡を使用する場合、子音処理では、例えば混合信号から母音部分を分離した残りの信号のうち非子音区間のスペクトル包絡を経時的に蓄積し、この経時的に蓄積した非子音区間のスペクトル包絡と子音判定対象信号のスペクトル包絡との距離を定量的に評価して子音区間を検出する様にすればよい。また、予め学習された代表的な子音のスペクトル包絡と子音判定対象信号のスペクトル包絡との距離を定量的に評価するようにしても良い。スペクトル包絡間の距離尺度としては、例えば線形予測係数に対する最尤スペクトル距離、LPC(線形予測)ケプストラム距離等を使用することができる。更に、特定帯域のパワーを使用する場合には、特定帯域のパワーと所定の閾値との比較を行えば良い。
【0013】また、子音処理では、混合信号から母音部分を分離した残りの信号のうち非子音区間のスペクトル包絡を経時的に蓄積し、この経時的に蓄積した非子音区間のスペクトル包絡と子音判定対象信号のスペクトル包絡との間で顕著に異なる帯域を分離する帯域として特定するようにすればよい。この他、混合信号から母音部分を分離した残りの信号のうち非子音区間のスペクトル包絡を経時的に蓄積し、この経時的に蓄積した非子音区間のスペクトル包絡を現在対象としている子音判定対象信号のパワーで正規化したスペクトル包絡と子音判定対象信号のスペクトル包絡との間で所定の閾値以上の関係を有する帯域を分離する帯域として特定するようにしても良い。
【0014】なお、子音部分の分離は、時間領域の信号に対しては、例えばバンドパスフィルタやノッチフィルタによる特定帯域のゲイン処理によって行うことができ、周波数領域の信号に対しては、例えばスペクトラルサブトラクションにより行うことができる。
【0015】
【発明の実施の形態】以下、図面を参照して、この発明の好ましい実施の形態について説明する。図1は、この発明の一実施例に係る音声信号分離システムの構成を示すブロック図である。音声信号とその他の信号(環境音、背景音、雑音等)とを含む混合信号Iは、母音処理部1と子音処理部2とに入力されている。母音処理部1では、混合信号Iに含まれる基本周波数fに基づいて混合信号Iから音声信号の母音部分を検出し、母音信号Vvと、その他の信号O1とに分離する。子音処理部2では、混合信号Iのスペクトル包絡の特徴や特定帯域のパワー等に基づいて混合信号Iから音声信号に含まれる子音部分を検出し、混合信号Iを子音信号Vcとその他の信号O2とに分離する。母音・子音判定部3は、母音処理部1からの母音/非母音判定結果v/oと子音処理部2からの子音/非子音判定結果c/oとに基づいて、母音区間、子音区間及び非音声区間を判定し、切替部4の切替制御を行う。切替部4は、母音・子音判定部3により切替制御され、母音区間では母音処理部1で分離された母音信号Vvとその他の信号O1とを、また非母音区間では子音処理部2で分離された子音信号Vcとその他の信号O2とを選択し、それぞれ音声信号V及びその他の信号Oとして出力する。また、非子音区間では母音処理部1で分離された母音信号Vvとその他の信号O1とを、子音区間では子音処理部2で分離された子音信号Vcとその他の信号O2とを選択し、それぞれ音声信号V及びその他の信号Oとして出力するようにしても良い。
【0016】図2は、この発明の他の実施例に係る音声分離システムの構成を示すブロック図である。母音処理部1、子音処理部2及び母音・子音判定部3は、上述した実施例と同様のものであるが、この実施例では、子音処理部2が母音処理部1で母音信号Vvを抑圧したその他の信号O1を子音判定対象信号として入力し、母音信号成分が除去された状態で子音部分と非子音部分とを検出し、子音信号Vcとその他の信号O2とに分離する点が異なっている。この場合には、母音信号成分が除去された信号に対して子音検出を行うため、先の実施例よりも検出精度は上がる。子音処理部2で分離された子音信号Vcは、母音処理部1で分離された母音信号Vvに加算器5で加算されて音声信号Vとして出力される。また、母音処理部1で分離されたその他の信号O1と子音処理部2で分離されたその他の信号O2とは、母音・子音判定部3での切替制御に従って切替器6よって切り替え他の信号Oとして出力される。
【0017】これらの実施例において、母音処理部1は、例えば図3に示すように構成されている。混合信号Iは、先ず周波数分析部11に入力される。周波数分析部11は、ハニング窓部111とFFT(高速フーリエ変換)部112とからなる。混合信号Iは、ハニング窓部111でフレーム分割されたのち、FFT部112により周波数分析される。FFT部112での周波数分析結果は、基本周波数検出部12と母音分離部13とに入力されている。基本周波数検出部12では、FFT部112による周波数分析結果から整数次倍音構造を評価して基本周波数f′を推定する。母音分離部13では、基本周波数検出部12で検出された基本周波数f′から整数次倍音構造の各周波数成分の振幅を振幅推定部1311,1312,…,131nで推定する。各周波数成分の振幅は、例えば複素スペクトル内挿法によって推定することができる。複素スペクトル内挿法は、複素平面上でピークに隣接する複素ベクトルから内積によって真のピークを求める手法であり、これによりハニング窓対応補正された基本周波数f及びその倍音周波数2f,3f,…,nfと、その振幅とが求められる。各補正周波数f,2f,3f,…,nfは、位相推定部1321,1322,…,132nに入力されここで、ハニング窓の特性と該当周波数成分の前後の周波数サンプル値とから位相を推定することができる。これにより線スペクトルが推定され、そこからハニング窓による影響(メインローブ、サイドローブ)を排除することができる。このようにして求められた整数次倍音構造は、FFT部112の周波数分析結果から減算器133によって減算されると共に、IFFT(逆FFT)部134によって時間領域の信号に戻される。また、減算器133の減算結果もIFFT部135によって時間領域の信号に戻される。これらは、フレーム間のつなぎ部分を滑らかにするため、加算器136,137においてオーバーラップ/アド用データ138,139とそれぞれ加算されて、加算器136からは混合信号Iから母音信号成分のみ強調された母音信号Vvが、また加算器137混合信号Iから母音信号成分が抑圧されたその他の信号O1が生成出力される。
【0018】図4は、図1及び図2の実施例における子音処理部2の構成例を示すブロック図、図5は、この子音処理部2における子音区間検出処理を示すフローチャートとである。混合信号I(図2の実施例では他の信号O1)は、子音特徴量計算手段であるLPC(線形予測)分析部21に与えられ、ここで特徴量計算が実行される。ここでは、子音のうち特に目立つ無声子音の特徴量として、スペクトル包絡特性を計算する。スペクトル包絡特性にて特徴量評価を行うためには、まず、LPC係数を計算する(S1,S2,S3)。LPC分析部21では、過去の標本値から現時点での標本値を予測する。このときの予測係数をLPC係数という。LPC分析では、共分散法や自己相関法にて直接LPC係数を求める方法もあるが、PARCOR分析によるPARCOR係数、LSP(線スペクトル対)分析によるLSP係数と、LPC係数とは相互に変換可能である。ここで、PARCOR分析、LSP分析は、いずれもLPC分析法の一種であるが、より性能の改善された手法である。
【0019】特徴量評価部22では、次にLPCケプストラム距離計算部221において、非無声子音区間に経時的に平均したLPC係数222との間のLPCケプストラム距離Dcepを計算する(S6,S7,S8)。LPC係数を経時的に平均化する場合には、求めたLPC係数(S4)をLSP係数(S14)に変換して、平均を計算すると良い(S15,S16,S17)。LSP係数はLPC係数やPARCOR係数よりも補間性能が良いため、平均操作に適している。そして平均化後のLSP係数をLPC係数に戻す。これにより、平均化後のLPC係数を得る。また、ここで言う経時的な平均化とは、信号の入力の開始から現在までのLPC係数の全てを重み付け加算することを言う。具体的には、以下のような計算を行えば良い。
【0020】
【数1】avg(i)=w*cur(i)+(1−w)*avg(i−1)
【0021】なお、ここで、cur(i)は現在のLPC係数、avg(i)は経時平均LPC係数、wは重み関数である。また、経時的に平均化したLPC係数222の算出精度を高めるため、母音処理部1からの他の信号O1をLPC分析部21に供給してピッチが存在する母音検出区間においても、平均化処理を続行することが望ましい(S5,S14,S15,S16)。
【0022】なお、このとき、経時的に平均したLPC係数222ではなく、予め求めておいた代表的な無声子音のLPC係数との距離を計算するようにしても良い。予め求めておく代表的な無声子音のLPC係数は、音声認識データベース等から流用可能である。また、LPCケプストラム距離やここでは用いていないが最尤スペクトル距離等は、音声認識においてLPC係数間(スペクトル包絡間)の距離尺度として用いられているものである。
【0023】また、無声子音には、有声音と比較して比較的高い4kHz以上の周波数成分が多く含まれていることが一般に知られている。このため、子音判定部223は、LPC分析部21で求めた入力信号のスペクトル包絡特性224から4kHz以上の帯域の振幅を閾値と比較し、高いレベルにある帯域を検出する。これは、あまり高い周波数帯域まで調べる必要はなく、10kHz程度までで十分である。比較結果をパラメータDspecとして数値化する(S9,S10,S11)。
【0024】子音判定部223は、計算されたDcep及びDspecと、それぞれ事前に調査して求めた閾値ThDcep及びThDspecとを比較する(S12)。これらの総合判定結果から、当該区間が無声子音であるかどうかの判定を行う(S13)。なお、閾値ThDcepやThDspecは入力信号に適応して動的に制御することも可能である。無声子音と判定された場合には、入力信号I又はO1と経時的平均LPC係数222とからそれぞれのスペクトル包絡特性224,225を求め、これを各周波数成分に対して比較する(S9,S18,S19)。このとき、信号パワーへの依存性を減らすため、スペクトル包絡は正規化したものを用いると良い。比較によって経時的平均スペクトル包絡特性225に対して、入力の方が高い周波数を特定する(S20)。これは、音声信号Vのミックスレベルがその他の信号Oよりも高いレベルにある場合に相当する。一般の実況放送等では、この条件は十分満たされている。
【0025】子音分離部24では、特定された帯域に、FFT部23でのFFT結果の振幅スペクトルのゲイン操作を行ったり、時間軸上でフィルタリングすることで、無声子音の強調・抑圧が可能となる。振幅スペクトルのゲイン操作を行った場合、得られた無声子音信号とその他の信号とをIFFT部25,26でそれぞれ時間軸上の信号に戻すことで子音信号Vvとその他の信号O2とが得られる。
【0026】図1において説明したように、出力時には、ピッチ周波数の有無による母音区間判定、上述した子音区間判定の結果を用いて、母音処理部1からの出力Vv,O1を用いるか、子音処理部2からの出力Vc,O2を用いるかを切替部4で切り替えるが、このとき、図6に示すように、母音区間、子音区間及び非音声区間の信号を滑らかに接続するため、ハニング窓等のオーバーラップ/アドデータ41,42を用いて加算器43,44にて信号Vv/Vc,O1/O2をオーバーラップ/アド処理して出力信号V,Oを得ることが望ましい。
【0027】図7は、上述したシステムの適用例を示すものである。同図(a)は混合信号Iを音声信号Vと他の信号Oとに分離する強調・抑圧部501にこの発明を適用している。分離された音声信号Vと他の信号Oには、信号処理部502,503によってそれぞれ別々の信号処理が施され、音声信号V′及び他の信号O′として出力される。同図(b)は、非音声信号である他の信号Oに対する処理の例として、テレビの実況中継における音場制御の例を示している。テレビ601から出力される実況中継の音響信号(混合信号I)は、この発明に係る強調・抑圧部602で実況音声(V)と、環境音(O)とに分離される。実況音声については視聴者603の前方のフロントスピーカ604から出力される。環境音については、残響付加部605で残響成分が付加されて、視聴者603の前後左右に配置された4つのスピーカ606,607,608,609から出力される。これにより臨場感が向上する。同図(c)は、音声認識の例である。即ち、音声強調部701は、入力音響信号Iから音声信号V以外の他の信号(雑音)Oを抑圧して、これにより音声信号Vを分離抽出する。音声認識部702は、分離抽出された音声信号Vに対して音声認識処理を実行する。このように音声認識において不要な周囲雑音を取り除くことで音声認識精度が向上する。この場合、他の信号Oは、不要な雑音成分なので、音声強調部701は音声信号Vのみを抽出する。
【0028】
【発明の効果】以上述べたように、この発明によれば、音声信号とその他の信号とが混合された混合信号から整数次倍音構造に基づいて音声信号のうちの母音部分を抽出すると共に、混合信号又は混合信号から母音部分を分離した残りの信号を子音対象信号として、この子音対象信号から子音の特性に基づいて子音部分を検出してこれを分離するようにしているので、母音部分と子音部分とが分離された残りの非音声信号は、経時的変化が反映されたものとなり、且つ子音部分を含んで音声信号が混合信号から分離されるので、非音声信号に子音部分が含まれることがなく、非音声信号を処理する場合にも、精度の良い処理が可能になるという効果を奏する。
【出願人】 【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
【出願日】 平成12年12月19日(2000.12.19)
【代理人】 【識別番号】100092820
【弁理士】
【氏名又は名称】伊丹 勝
【公開番号】 特開2002−182689(P2002−182689A)
【公開日】 平成14年6月26日(2002.6.26)
【出願番号】 特願2000−384745(P2000−384745)