| 【発明の名称】 |
雑音推定装置、雑音除去装置及び記憶媒体 |
| 【発明者】 |
【氏名】尾上 和穂
【氏名】安藤 彰男
【氏名】今井 亨
【氏名】佐藤 庄衛
【氏名】世木 寛之
【氏名】小早川 健
|
| 【要約】 |
【課題】雑音の推定精度が高く、簡易で且つ高速な処理が可能な雑音推定装置、雑音除去装置を提供することを目的とする。
【解決手段】本発明は、音声信号における雑音を推定する雑音推定装置であり、所定期間の入力信号を抽出する時間領域抽出部12と、抽出された所定期間の入力信号を周波数領域信号に変換する時間・周波数変換部13と、周波数領域信号を所定周波数帯域毎に周波数領域分割する周波数領域分割部14と、雑音を推定する雑音推定部15とを有し、前記雑音推定部15は、分割された周波数領域毎に、過去の所定期間の周波数領域信号を参照して雑音を推定することを特徴とする。 |
【特許請求の範囲】
【請求項1】 入力信号における雑音を推定する雑音推定装置において、所定期間の入力信号を抽出する時間領域抽出手段と、抽出された所定期間の入力信号を周波数領域信号に変換する時間・周波数変換手段と、前記時間・周波数変換手段により周波数領域信号に変換された入力信号を所定周波数帯域毎に周波数領域分割する周波数領域分割手段と、雑音を推定する雑音推定手段とを有し、前記雑音推定手段は、分割された周波数領域毎に、過去の1又は複数の所定期間の周波数領域信号を参照して雑音を推定することを特徴とする雑音推定装置。 【請求項2】 請求項1記載の雑音推定装置において、前記雑音推定装置は、周波数領域信号の振幅値に基づいて推定することを特徴とする雑音推定装置。 【請求項3】 請求項1又は2記載の雑音推定装置において、前記雑音推定装置は、過去の1又は複数の所定期間における特定の周波数領域信号の内、最小の振幅値の周波数領域信号を、該特定の周波数領域の雑音と推定することを特徴とする雑音推定装置。 【請求項4】 入力信号から雑音除去する雑音除去装置において、所定期間の入力信号を抽出する時間領域抽出手段と、抽出された所定期間の入力信号を周波数領域信号に変換する時間・周波数変換手段と、前記時間・周波数変換手段により周波数領域信号に変換された入力信号を所定周波数帯域毎に周波数領域分割する周波数領域分割手段と、雑音を除去する雑音除去手段とを有し、前記雑音除去手段は、分割された周波数領域毎に推定された雑音を引き算して、雑音を除去することを特徴とする雑音除去装置。 【請求項5】 入力信号における雑音を推定するプログラムを記憶した記憶媒体において、コンピュータを、所定期間の入力信号を抽出する時間領域抽出手段と、抽出された所定期間の入力信号を周波数領域信号に変換する時間・周波数変換手段と、前記時間・周波数変換手段により周波数領域信号に変換された入力信号を所定周波数帯域毎に周波数領域分割する周波数領域分割手段と、分割された周波数領域毎に、過去の1又は複数の所定期間の周波数領域信号を参照して雑音を推定する前記雑音推定手段として、機能させるプログラムを記憶した記憶媒体。 【請求項6】 入力信号から雑音除去するプログラムを記憶した記憶媒体において、コンピュータを、所定期間の入力信号を抽出する時間領域抽出手段と、抽出された所定期間の入力信号を周波数領域信号に変換する時間・周波数変換手段と、前記時間・周波数変換手段により周波数領域信号に変換された入力信号を所定周波数帯域毎に周波数領域分割する周波数領域分割手段と、分割された周波数領域毎に推定された雑音を引き算して、雑音を除去する雑音除去手段として、機能させるプログラムを記憶した記憶媒体。
|
【発明の詳細な説明】【0001】 【発明の属する技術分野】本発明は、雑音推定装置、雑音除去装置及び記憶媒体に関する。 【0002】 【従来の技術】従来の雑音除去方法としては、スペクトル上で雑音成分のスペクトルを減算するスペクトルサブトラクション法がある。 【0003】スペクトルサブトラクション法は、簡易な方法でありながら、雑音除去効果が大きく、一般に広く用いられている。時間kにおける音声信号s(k)に雑音信号n(k)が加算されて、信号y(k)は生じたとする。 【0004】つまり、 y(k)=s(k)+n(k) …(1) とする。 【0005】このとき、s(k)とn(k)が独立であれば、フーリエ変換して、 Y(f)=S(f)+N(f) …(2) と表すことができる。なお、Y(f)、S(f)及びN(f)は、y(k)、s(k)及びn(k)をフーリエ変換したものである。フーリエ変換を行う信号の区間(フレーム)を長く、例えば、25ms程度の長さに設定することにより、実用上、s(k)とn(k)を独立と見なすことが可能となる。 【0006】上記(2)式は、 S(f)=Y(f)−N(f) …(3) と表すことができる。 【0007】これによれば、スペクトル領域において、Y(f)からN(f)を引くことにより、元の音声信号S(f)を得て、それを逆フーリエ変換することで、雑音のない音声信号s(k)を得ることができる。 【0008】ところで、正確なN(f)を得ることが難しいので、実用上は、あらかじめ、推定したN(f)を用いる。N(f)は、雑音のスペクトルを対象フレームの直前数フレームの平均値や、無音声区間と思われる部分の平均値を使用して推定する。 【0009】このように、雑音とミックスされた音声信号から、直接、雑音のスペクトルを推定するのは難しいので、上記のような平均値を雑音スペクトルの値として代用するのが一般的である。 【0010】また、実際上は、N(f)を1より少し大きめのα倍して、差し引くと良いことが分かっている。 【0011】つまり、上記(3)式に代えて、次の(4)式を用いる。 【0012】 S(f)=Y(f)−αN(f) …(4) 但し、α≧1である。 【0013】 【発明が解決しようとする課題】しかしながら、従来の雑音推定方法である対象フレームの直前数フレームの平均値や、無音声区間と思われるフレームの平均値を使用して行う雑音スペクトル推定方法では、推定された雑音値は、数フレーム又は無音声区間と思われるフレームの平均値をも使用して行うために、局所的な誤差を含むという問題がある。また、従来の雑音推定方法で推定した雑音の値が小さく、雑音スペクトルを引き算しても効果のない場合が生じたり、推定した雑音の値の方が、実際の音声の信号より大きくなり、雑音スペクトルを引き算した結果、マイナスになる場合が生じるという問題がある(特に、上記(4)式を用いた場合に、顕著となる。)。 【0014】そこで、実際の処理では、雑音値として推定値よりやや大きめの値を用いて、引き算を行い、引き算した値に対して、最低のレベルを設定し、それ以下にはしないフロアリング処理等を行うことが必要となる。 【0015】また、直前数フレームを使用しその平均値を雑音として扱う場合では、雑音の無い音声に対してこの処理を行うと、逆に処理後の値を劣化させてしまう要因にもなる。 【0016】本発明は、上記問題に鑑みなされたものであり、雑音の推定精度が高く、簡易で且つ高速な処理が可能な雑音推定装置、雑音除去装置を提供することを目的とするものである。 【0017】 【課題を解決するための手段】上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。 【0018】請求項1に記載された発明は、入力信号における雑音を推定する雑音推定装置において、所定期間の入力信号を抽出する時間領域抽出手段(例えば、図1における時間領域抽出部12)と、抽出された所定期間の入力信号を周波数領域信号に変換する時間・周波数変換手段(例えば、図1における時間・周波数変換部13)と、前記時間・周波数変換手段により周波数領域信号に変換された入力信号を所定周波数帯域毎に周波数領域分割する周波数領域分割手段(例えば、図1における周波数領域分割部14)と、雑音を推定する雑音推定手段(例えば、図1における雑音推定部15)とを有し、前記雑音推定手段は、分割された周波数領域毎に、過去の1又は複数の所定期間の周波数領域信号を参照して雑音を推定することを特徴とする。 【0019】これにより、雑音の推定精度が高く、簡易で且つ高速な処理が可能な雑音推定装置を提供することができる。 【0020】請求項2に記載された発明は、請求項1記載の雑音推定装置において、前記雑音推定装置は、周波数領域信号の振幅値に基づいて推定することを特徴とする。 【0021】これにより、周波数領域毎に、かつ、その振幅値に基づいて雑音を推定しているので、高精度の雑音スペクトルの推定を行うことができる。 【0022】請求項3に記載された発明は、請求項1又は2記載の雑音推定装置において、前記雑音推定装置は、過去の1又は複数の所定期間における特定の周波数領域信号の内、最小の振幅値の周波数領域信号を、該特定の周波数領域の雑音と推定することを特徴とする。 【0023】これにより、周波数領域信号の振幅値の内、最小の振幅値の周波数領域信号を雑音と推定しているので、雑音の無い音声に対して処理を行っても処理後劣化がほとんどない。 【0024】請求項4に記載された発明は、入力信号から雑音除去する雑音除去装置において、所定期間の入力信号を抽出する時間領域抽出手段と、抽出された所定期間の入力信号を周波数領域信号に変換する時間・周波数変換手段と、前記時間・周波数変換手段により周波数領域信号に変換された入力信号を所定周波数帯域毎に周波数領域分割する周波数領域分割手段と、雑音を除去する雑音除去手段とを有し、前記雑音除去手段は、分割された周波数領域毎に推定された雑音を引き算して、雑音を除去することを特徴とする。 【0025】これにより、雑音の推定精度が高く、簡易で且つ高速な処理が可能な雑音除去装置を提供することができる。 【0026】請求項5に記載された発明は、入力信号における雑音を推定するプログラムを記憶した記憶媒体において、コンピュータを、所定期間の入力信号を抽出する時間領域抽出手段と、抽出された所定期間の入力信号を周波数領域信号に変換する時間・周波数変換手段と、前記時間・周波数変換手段により周波数領域信号に変換された入力信号を所定周波数帯域毎に周波数領域分割する周波数領域分割手段と、分割された周波数領域毎に、過去の1又は複数の所定期間の周波数領域信号を参照して雑音を推定する前記雑音推定手段として、機能させるプログラムを記憶した記憶媒体である。 【0027】これにより、雑音の推定精度が高く、簡易で且つ高速な処理が可能な雑音を推定するプログラムを記憶した記憶媒体を提供することができる。 【0028】請求項6に記載された発明は、入力信号から雑音除去するプログラムを記憶した記憶媒体において、コンピュータを、所定期間の入力信号を抽出する時間領域抽出手段と、抽出された所定期間の入力信号を周波数領域信号に変換する時間・周波数変換手段と、前記時間・周波数変換手段により周波数領域信号に変換された入力信号を所定周波数帯域毎に周波数領域分割する周波数領域分割手段と、分割された周波数領域毎に推定された雑音を引き算して、雑音を除去する雑音除去手段として、機能させるプログラムを記憶した記憶媒体である。 【0029】これにより、雑音の推定精度が高く、簡易で且つ高速な処理が可能な雑音を除去するプログラムを記憶した記憶媒体を提供することができる。 【0030】 【発明の実施の形態】次に、本発明の実施の形態について図面と共に説明する。本実施の形態における雑音推定装置10は、所定期間の入力信号を抽出する時間領域抽出部12、抽出された所定期間の入力信号を周波数領域信号に変換する時間・周波数変換部13、周波数領域信号を所定周波数帯域毎に周波数領域分割する周波数領域分割部14、雑音を推定する雑音推定部15を有する。また、雑音推定部15は、周波数領域分析部16と最低値検出部17から構成されている。 【0031】雑音推定装置10は、雑音が混入され入力信号(音声データ)11から雑音を除去する装置である。時間・周波数変換部13がFFT(Fast Fourier Transform)を用いて周波数軸の信号(データ)に変換できるように、時間領域抽出部12は、時間軸の信号(データ)である入力信号(音声データ)11を、所定期間(フレーム)毎に入力信号を抽出する。図2(A)に示すように、例えば、25ms間の信号(フレーム)を10ms毎に抽出する。時間・周波数変換部13は、FFTにより、10ms毎に抽出された、25ms間の信号(フレーム)を、周波数軸の信号(データ)に変換する。周波数領域分割部14は、周波数領域信号を、時間・周波数変換部13から得て、図2(B)に示すように、所定周波数帯域(フィルタバンク)毎に周波数領域分割する。各バンクは、図2(C)に示すような、振幅スペクトルを有し、そのスペクトル数は同一である。 【0032】なお、バンクは、各バンクが一部重複するものでもよく、人間の特性に合わせて、周波数が高くなるに従い、帯域を拡大したバンク(メル・スケール・フィルタ・バンク)としてもよい。 【0033】前記雑音推定部15の周波数領域分析部16は、フィルタバンク毎に、フィルタバンクの値(振幅スペクトルの重み付き和)を求めて、フィルタバンク値データベース18に格納する。 【0034】図3に、各バンクが一部重複したメル・スケール・フィルタ・バンクに対して、バンクの中心が最大のウエイトでバンクの端が零になる△状のウエイトにより、各バンクのスペクトルを乗算し、その結果の振幅値(1、2…Bi(t)…)を示す。 【0035】ここで、iチャネルのフィルタバンクの値Bi(t)とする。最低値検出部17は、各バンク毎に、過去のTフレーム前までのフィルタバンクの値をフィルタバンク値データベース18から読み出して、最低のフィルタバンクの値を検出する。前記雑音推定部15は、この最低のフィルタバンク値を現在の雑音Ni(t)と推定する。 【0036】つまり、【0037】 【数1】
とする。ここで、Tは、処理対象フレームからTフレーム前迄を雑音の推定に使用することを意味している。 【0038】次いで、雑音除去装置について、図4を用いて説明する。 【0039】本実施の形態における雑音除去装置20は、所定期間の入力信号を抽出する時間領域抽出部22、抽出された所定期間の入力信号を周波数領域信号に変換する時間・周波数変換部23、周波数領域信号を所定周波数帯域毎に周波数領域分割する周波数領域分割部24、雑音を除去する雑音除去部25を有する。 【0040】時間領域抽出部22、時間・周波数変換部23、周波数領域分割部24は、図1の時間領域抽出部12、時間・周波数変換部13、周波数領域分割部14と同じであるので、説明を省略する。 【0041】雑音除去部25において、音声信号の雑音がバンク毎に除去される。つまり、バンクに分割された雑音を有する音声信号から、バンク毎に、推定された雑音を除去する。 【0042】雑音除去部25では、次の(6)式の処理を行う。 【0043】 【数2】
対象フレームにおいて、雑音成分を差し引いたフィルタバンクの値Bi(t)’を雑音除去装置20の出力とする。 【0044】(6)式において、Ni(t)=Bi(t)の場合に、0.5Bi(t)としたが、0でもよい。本実施の形態では、実際には、Ni(t)=Bi(t)の場合であっても、雑音でない可能性もあるので、Bi(t)’を0.5Bi(t)とした。 【0045】次いで、音響分析装置について、図5を用いて説明する。 【0046】本実施の形態における音響分析装置30は、図1の雑音推定装置と図4の雑音除去装置を合体したものである。 【0047】所定期間の入力信号を抽出する時間領域抽出部32、抽出された所定期間の入力信号を周波数領域信号に変換する時間・周波数変換部33、周波数領域信号を所定周波数帯域毎に周波数領域分割する周波数領域分割部34、雑音を推定する雑音推定部35及び雑音を除去する雑音除去部35を有する。 【0048】雑音除去部36は、(6)式に従って、バンクに分割された雑音を有する音声信号を、バンク毎に推定された雑音を除去する。 【0049】音響分析装置30の出力は、音声認識装置に入力されて音声認識される。音響分析装置30の出力を音声認識した単語正解精度を図6に示す。中継現場レポート及び背景音のあるアナウンサーの読み上げた音声についての、音声認識の結果である。これによれば、高速な処理による雑音除去を行っているにも拘わらず、単語正解精度は高い。 【0050】本実施の形態によれば、バンク毎に雑音を推定することにより、高精度の雑音スペクトルの推定を行うことができる。 【0051】また、最低のフィルタバンクの値を雑音と推定しているので、雑音の無い音声に対して処理を行っても処理後劣化がほとんどない。 【0052】また、フィルタバンク上で行うことによりパラメータ数を削減し処理量を少なくすることができる。 【0053】 【発明の効果】上述の如く本発明によれば、雑音の推定精度が高く、簡易で且つ高速な処理が可能な雑音推定装置、雑音除去装置を提供することができる。
|
| 【出願人】 |
【識別番号】000004352 【氏名又は名称】日本放送協会
|
| 【出願日】 |
平成13年2月28日(2001.2.28) |
| 【代理人】 |
【識別番号】100070150 【弁理士】 【氏名又は名称】伊東 忠彦
|
| 【公開番号】 |
特開2002−258893(P2002−258893A) |
| 【公開日】 |
平成14年9月11日(2002.9.11) |
| 【出願番号】 |
特願2001−55700(P2001−55700) |
|