| 【発明の名称】 |
雑音抑圧方法および雑音抑圧装置 |
| 【発明者】 |
【氏名】佐々木 誠司
【氏名】麓 照夫
|
| 【要約】 |
【課題】定常的な雑音のみでなく、非定常的な雑音も抑圧可能とする。
【解決手段】FFT部11で、入力信号a1をフレーム毎に時間領域から周波数領域に変換する。サイレン音抑圧情報設定部12は、変換されたスペクトルからサイレン音の有無を検出してサイレン音有無フラグを出力していると共に、サイレン音の基本周波数を抽出して出力する。サイレン音抑圧部13では、サイレン音有無フラグが“有”を示している場合、スペクトルG0(k)から基本周波数F1’およびその第r高調波成分を抑圧することにより、非定常的な雑音を抑圧する。非定常的な雑音が抑圧されたサイレン音抑圧部13の出力は、IFFT部14において時間領域に戻されて出力される。 |
【特許請求の範囲】
【請求項1】 周波数領域変換手段において、音声信号に雑音が重畳されている入力信号を、予め定められた時間長のフレーム毎に時間領域から周波数領域に変換し、雑音抑圧情報設定手段において、周波数領域に変換された入力信号から抑圧対象とする雑音の有無を検出すると共に、該雑音の基本周波数を抽出し、該雑音抑圧情報設定手段において抑圧対象とする雑音が有りと判定された場合、抑圧手段において、周波数領域に変換された入力信号から、抽出された前記基本周波数成分及びその高調波成分を抑圧し、時間領域変換手段において、前記抑圧手段により抑圧された結果を時間領域に変換するようにしたことを特徴とする雑音抑圧方法。 【請求項2】 定常雑音抑圧手段において、音声信号に雑音が重畳されている前記入力信号から定常的な性質を持つ雑音が抑圧された後に、前記周波数領域変換手段において周波数領域に変換されるようにしたことを特徴とする請求項1に記載の雑音抑圧方法。 【請求項3】 前記抑圧手段により抑圧された結果を時間領域に変換した信号から、定常雑音抑圧手段において、定常的な性質を持つ雑音が抑圧されることを特徴とする請求項1に記載の雑音抑圧方法。 【請求項4】 前記抑圧手段と前記時間領域変換手段との間において、入力信号の無い雑音区間で定常的な性質を持つ雑音の定常雑音スペクトルを推定し、前記抑圧手段から出力された信号から前記定常雑音スペクトルを差し引くことにより、定常的な性質を持つ雑音を抑圧するようにしたことを特徴とする請求項1に記載の雑音抑圧方法。 【請求項5】 前記雑音抑圧情報設定手段においては、前記周波数領域変換手段により周波数領域に変換された入力信号に対し、予め設定された抑圧対象の雑音における基本周波数の変動周期に対応する時間間隔でスペクトル振幅の長期平均値を算出し、該算出されたスペクトル振幅の長期平均値を用いて、予め設定された範囲の候補周波数のうち、それ自身及びその高調波のスペクトル振幅の総和が最大となる周波数を、基本周波数として抽出し、パターンメモリ手段に、抑圧対象とされる雑音の基本周波数の代表的な変動軌跡の少なくとも1周期分の代表パターンを予め記憶しておき、前記パターンメモリ手段から読み出した代表パターンと、前記基本周波数の系列との自乗平均誤差を、該代表パターンを巡回シフトしながら算出し、算出された自乗平均誤差の最小値が予め設定された閾値より小さければ、雑音有りと判定すると共に、そうでなければ雑音無しと判定し、さらに、自乗平均誤差が最小となる代表パターンのシフト位置情報を出力し、該出力された代表パターンのシフト位置情報に基づいて、前記代表パターンを用いて前記基本周波数を補正するようにしたことを特徴とする請求項1に記載の雑音抑圧方法。 【請求項6】 前記雑音抑圧情報設定手段においては、パターンメモリ手段に、雑音の基本周波数の代表的な変動軌跡の少なくとも1周期分からなる代表パターンを、数種類の雑音について予め記憶しておき、該パターンメモリ手段から数種類の代表パターンを切り替えて読み出すと共に、読み出された各代表パターンに対応する基本周波数の変動周期情報、及び候補周波数の範囲情報を出力し、前記周波数領域変換手段により周波数領域に変換された入力信号に対し、前記出力された基本周波数の変動周期情報に対応する時間間隔で、スペクトル振幅の長期平均値を算出し、該算出されたスペクトル振幅の長期平均値を用いて、前記出力された前記範囲情報に基づく候補周波数のうち、それ自身及びその高調波のスペクトル振幅の総和が最大となる周波数を、基本周波数として抽出し、前記パターンメモリ手段から読み出した代表パターンと前記基本周波数の系列との自乗平均誤差を、該代表パターンを巡回シフトしながら計算し、その最小値が予め設定された閾値より小さければ、雑音有りと判定すると共に、そうでなければ雑音無しと判定し、さらに、自乗平均誤差が最小となる代表パターンのシフト位置情報を出力し、該代表パターンのシフト位置情報に基づいて、前記代表パターンを用いて前記基本周波数を補正するようにしたことを特徴とする請求項1に記載の雑音抑圧方法。 【請求項7】 あるフレームで、前記パターンメモリ手段から読み出した代表パターンと前記基本周波数の系列との自乗平均誤差の最小値が予め設定された閾値より小さくなった場合、後続のフレームでは、該自乗平均誤差の最小値が該閾値以上になるまで、同一の代表パターンのみを使用し続けるように、代表パターンの切り替えを制御するようにしたことを特徴とする請求項6に記載の雑音抑圧方法。 【請求項8】 音声信号に雑音が重畳されている入力信号を、予め定められた時間長のフレーム毎に時間領域から周波数領域に変換する周波数領域変換手段と、抑圧対象とする雑音の有無を検出すると共に、該雑音の基本周波数を抽出する雑音抑圧情報設定手段と、該雑音抑圧情報設定手段において抑圧対象とする雑音が有りと判定された場合、前記周波数領域変換手段により周波数領域に変換された入力信号から、前記雑音抑圧情報設定手段により抽出された基本周波数成分及びその高調波成分を抑圧する抑圧手段と、該抑圧手段により抑圧された結果を時間領域に変換する時間領域変換手段と、を備えることを特徴とする雑音抑圧装置。 【請求項9】 定常的な性質を持つ雑音を抑圧する定常雑音抑圧手段が、前記周波数領域変換手段に前置して設けられていることを特徴とする請求項8に記載の雑音抑圧装置。 【請求項10】 定常的な性質を持つ雑音を抑圧する定常雑音抑圧手段が、前記時間領域変換手段に後置して設けられていることを特徴とする請求項8に記載の雑音抑圧装置。 【請求項11】 前記抑圧手段と時間領域変換手段との間に、入力信号の無い雑音区間で定常的な性質を持つ雑音の定常雑音スペクトルを推定し、前記抑圧手段から出力された信号から前記定常雑音スペクトルを差し引くことにより、定常的な性質を持つ雑音を抑圧するようにした定常雑音抑圧手段が挿入されていることを特徴とする請求項8に記載の雑音抑圧装置。 【請求項12】 前記雑音抑圧情報設定手段が、前記周波数領域変換手段により周波数領域に変換された入力信号に対し、予め設定された抑圧対象の雑音における基本周波数の変動周期に対応する時間間隔でスペクトル振幅の長期平均値を算出する演算手段と、該演算手段により算出されたスペクトル振幅の長期平均値を用いて、予め設定された範囲の候補周波数のうち、それ自身及びその高調波のスペクトル振幅の総和が最大となる周波数を、基本周波数として抽出する基本周波数抽出手段と、抑圧対象とされる雑音の基本周波数の代表的な変動軌跡の少なくとも1周期分の代表パターンを予め記憶しておくためのパターンメモリ手段と、該パターンメモリ手段から読み出した代表パターンと、前記基本周波数抽出手段において抽出された基本周波数の系列との自乗平均誤差を、該代表パターンを巡回シフトしながら算出し、算出された自乗平均誤差の最小値が予め設定された閾値より小さければ、雑音有りと判定すると共に、そうでなければ雑音無しと判定し、自乗平均誤差が最小となる代表パターンのシフト位置情報を出力する雑音検出手段と、該雑音検出手段が出力する代表パターンのシフト位置情報に基づいて、前記代表パターンを用いて前記基本周波数抽出手段により抽出された基本周波数を補正する補正手段と、から構成されていることを特徴とする請求項8に記載の雑音抑圧装置。 【請求項13】 前記雑音抑圧情報設定手段が、雑音の基本周波数の代表的な変動軌跡の少なくとも1周期分からなる代表パターンを、数種類の雑音について予め記憶しておくためのパターンメモリ手段と、該パターンメモリ手段から数種類の代表パターンを切り替えて読み出すと共に、読み出された各代表パターンに対応する基本周波数の変動周期情報、及び候補周波数の範囲情報を出力する切替制御手段と、前記周波数領域変換手段により周波数領域に変換された入力信号に対し、前記切替制御手段から出力される基本周波数の変動周期情報に対応する時間間隔でスペクトル振幅の長期平均値を算出する演算手段と、該演算手段により算出されたスペクトル振幅の長期平均値を用いて、前記切替制御手段から出力される前記範囲情報に基づく候補周波数のうち、それ自身及びその高調波のスペクトル振幅の総和が最大となる周波数を、基本周波数として抽出する基本周波数抽出手段と、前記切替制御手段から出力される代表パターンと前記基本周波数抽出手段において抽出された基本周波数の系列との自乗平均誤差を、該代表パターンを巡回シフトしながら計算し、その最小値が予め設定された閾値より小さければ、雑音有りと判定すると共に、そうでなければ雑音無しと判定し、自乗平均誤差が最小となる代表パターンのシフト位置情報を出力する雑音検出手段と、該雑音検出手段が出力する代表パターンのシフト位置情報に基づいて、前記代表パターンを用いて前記基本周波数抽出手段により抽出された基本周波数を補正する補正手段と、からされていることを特徴とする請求項8に記載の雑音抑圧装置。 【請求項14】 あるフレームで、前記切替制御手段から出力される代表パターンと前記基本周波数抽出手段により抽出された基本周波数系列との自乗平均誤差の最小値が予め設定された閾値より小さくなった場合、後続のフレームでは、該自乗平均誤差の最小値が該閾値以上になるまで、同一の代表パターンのみを使用し続けるように、前記切替制御手段が代表パターンの切り替えを制御するようにしたことを特徴とする請求項13に記載の雑音抑圧装置。
|
【発明の詳細な説明】【0001】 【発明の属する技術分野】本発明は、音声信号に重畳した雑音を抑圧するための雑音抑圧方法および雑音抑圧装置に関するものである。 【0002】 【従来の技術】音声符号化の前処理として使用される代表的な雑音抑圧方式としては、スペクトルサブストラクション法(例えば、STEVEN F. BOLL氏による論文"SUPPRESSIONOF ACOUSTIC NOISE IN SPEECH USING SPECTRAL SUBTRACTION"、IEEE TRANSACTIONS ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL.ASSP-27, NO.2, APRIL1979 参照)がある。これは、音声の無い雑音区間で雑音のスペクトルを推定し、周波数領域で入力スペクトルから雑音スペクトルを差し引く方式である。米国のCDMA(Code Division Multiple Access)方式の携帯電話(TIA/EIA/IS-95)における標準音声符号化方式であるEVRC(Enhanced Variable Rate Codec)(TIA/EIA/IS-127)では、前処理として、スペクトルサブストラクション法を用いることにより、入力信号に重畳されている雑音の低減を図っている。一方、日本のPDC(Personal Digital Cellular)ハーフレート方式の標準(RCR(ARIB) STD-27F, “デジタル方式自動車電話システム”参照)では、カルマンフィルタを用いた雑音抑圧方式がオプションとして採用されている。この雑音抑圧方式では、時間領域において雑音抑圧処理を行っている。上記した従来の雑音抑圧方式を音声符号化の前処理として使用した場合、音声符号化後の再生音声の自然性および了解性・明瞭性は、雑音抑圧処理を行わない場合に比べ改善されることが報告されている。 【0003】 【発明が解決しようとする課題】上述した従来の雑音抑圧方式は、白色雑音、自動車走行音、空調機器等の定常的な雑音に対しては抑圧可能であるが、時間と共に周波数特性やエネルギが変動する雑音である非定常的な雑音に関しては抑圧することが出来ない。一方、業務用移動通信では、騒音環境下において通話の明瞭性および了解性の確保が必要とされる。すなわち、消防、警察で使用される移動通信の場合は、サイレン音の混入により低ビットレートでの音声符号化後の再生音声の品質が著しく影響を受けるため、音声符号化の前処理として雑音抑圧が必須であるといえる。しかし、サイレン音、特に、消防車、パトカーのサイレン音(ウーウー音)は非定常な雑音であるため、従来のスペクトルサブストラクション法等を用いても抑圧することが出来ないという問題点があった。この場合、非定常的な雑音のみをセカンドマイクで受音し、この受音した雑音信号を差し引くことにより、重畳されている非定常的な雑音の低減を図ることが考えられる。しかし、この方法ではセカンドマイク等のハードウェアが必要になると共に、非定常的な雑音のみを受音できる位置にセカンドマイクを取り付けなければならず、特に携帯移動局においてはその取付設定が困難になるという問題点があった。 【0004】そこで、本発明は、自動車走行音等の定常的な雑音のみでなく、消防車、パトカー等のサイレン音(ウーウー音)、救急車のサイレン(ピーポー音)等を、セカンドマイク等のハードウェアの追加を必要とせずに、抑圧することができる雑音抑圧方法および雑音抑圧装置を提供することを目的としている。 【0005】 【課題を解決するための手段】上記目的を達成するために、本発明の雑音抑圧方法は、周波数領域変換手段において、音声信号に雑音が重畳されている入力信号を、予め定められた時間長のフレーム毎に時間領域から周波数領域に変換し、雑音抑圧情報設定手段において、周波数領域に変換された入力信号から抑圧対象とする雑音の有無を検出すると共に、該雑音の基本周波数を抽出し、該雑音抑圧情報設定手段において抑圧対象とする雑音が有りと判定された場合、抑圧手段において、周波数領域に変換された入力信号から、抽出された前記基本周波数成分及びその高調波成分を抑圧し、時間領域変換手段において、前記抑圧手段により抑圧された結果を時間領域に変換するようにしている。この雑音抑圧方法によれば、例えばサイレン音のように、周期性を持った非定常的な雑音を抑圧することが可能となる。 【0006】また、上記本発明の雑音抑圧方法において、定常雑音抑圧手段において、音声信号に雑音が重畳されている前記入力信号から定常的な性質を持つ雑音が抑圧された後に、前記周波数領域変換手段において周波数領域に変換されるようにしてもよい。さらに、上記本発明の雑音抑圧方法において、前記抑圧手段により抑圧された結果を時間領域に変換した信号から、定常雑音抑圧手段において、定常的な性質を持つ雑音が抑圧されるようにしてもよい。このようにすると、周期性を持った非定常的な雑音に加え、定常的な雑音も抑圧することが可能となる。 【0007】さらにまた、上記本発明の雑音抑圧方法において、前記抑圧手段と前記時間領域変換手段との間において、入力信号の無い雑音区間で定常的な性質を持つ雑音の定常雑音スペクトルを推定し、前記抑圧手段から出力された信号から前記定常雑音スペクトルを差し引くことにより、定常的な性質を持つ雑音を抑圧するようにしてもよい。これにより、構成の一部を兼用して周波数領域で効率良く雑音を抑圧することが出来るようになる。 【0008】さらにまた、上記本発明の雑音抑圧方法において、前記雑音抑圧情報設定手段においては、前記周波数領域変換手段により周波数領域に変換された入力信号に対し、予め設定された抑圧対象の雑音における基本周波数の変動周期に対応する時間間隔でスペクトル振幅の長期平均値を算出し、該算出されたスペクトル振幅の長期平均値を用いて、予め設定された範囲の候補周波数のうち、それ自身及びその高調波のスペクトル振幅の総和が最大となる周波数を、基本周波数として抽出し、パターンメモリ手段に、抑圧対象とされる雑音の基本周波数の代表的な変動軌跡の少なくとも1周期分の代表パターンを予め記憶しておき、前記パターンメモリ手段から読み出した代表パターンと、前記基本周波数の系列との自乗平均誤差を、該代表パターンを巡回シフトしながら算出し、算出された自乗平均誤差の最小値が予め設定された閾値より小さければ、雑音有りと判定すると共に、そうでなければ雑音無しと判定し、さらに、自乗平均誤差が最小となる代表パターンのシフト位置情報を出力し、該出力された代表パターンのシフト位置情報に基づいて、前記代表パターンを用いて前記基本周波数を補正するようにしてもよい。 【0009】さらにまた、上記本発明の雑音抑圧方法において、前記雑音抑圧情報設定手段においては、パターンメモリ手段に、雑音の基本周波数の代表的な変動軌跡の少なくとも1周期分からなる代表パターンを、数種類の雑音について予め記憶しておき、該パターンメモリ手段から数種類の代表パターンを切り替えて読み出すと共に、読み出された各代表パターンに対応する基本周波数の変動周期情報、及び候補周波数の範囲情報を出力し、前記周波数領域変換手段により周波数領域に変換された入力信号に対し、前記出力された基本周波数の変動周期情報に対応する時間間隔で、スペクトル振幅の長期平均値を算出し、該算出されたスペクトル振幅の長期平均値を用いて、前記出力された前記範囲情報に基づく候補周波数のうち、それ自身及びその高調波のスペクトル振幅の総和が最大となる周波数を、基本周波数として抽出し、前記パターンメモリ手段から読み出した代表パターンと前記基本周波数の系列との自乗平均誤差を、該代表パターンを巡回シフトしながら計算し、その最小値が予め設定された閾値より小さければ、雑音有りと判定すると共に、そうでなければ雑音無しと判定し、さらに、自乗平均誤差が最小となる代表パターンのシフト位置情報を出力し、該代表パターンのシフト位置情報に基づいて、前記代表パターンを用いて前記基本周波数を補正するようにしてもよい。このようにすると、複数種類の周期性を持った非定常的な雑音の抑圧が可能となる。 【0010】さらにまた、上記本発明の雑音抑圧方法において、あるフレームで、前記パターンメモリ手段から読み出した代表パターンと前記基本周波数の系列との自乗平均誤差の最小値が予め設定された閾値より小さくなった場合、後続のフレームでは、該自乗平均誤差の最小値が該閾値以上になるまで、同一の代表パターンのみを使用し続けるように、代表パターンの切り替えを制御するようにしている。このようにすると、演算量を節約することができる。 【0011】次に、上記目的を達成することのできる本発明にかかる雑音抑圧装置は、上記した本発明の雑音抑圧方法をハードウェアとして具現化したものである。 【0012】 【発明の実施の形態】本発明の雑音抑圧方法を具現化した本発明の雑音抑圧装置における第1の実施の形態の構成を図1に示す。但し、以下の説明では、抑圧対象とする非定常的な雑音として、消防車のサイレン音(ウーウー音)に限定して説明する。他の周期性を持つ非定常的な雑音についても、いくつかの設定値を変更するのみで同様の構成により抑圧可能である。図1に示す本発明の雑音抑圧装置において、FFT(Fast Fourier Transform)部11では、音声信号に雑音が重畳されている入力信号a1を予め定められた時間長のフレーム毎(例えば、10ms毎)に時間領域から周波数領域に変換し、周波数領域に変換された結果であるスペクトルG0(k)が出力される(b1)。ただし、k=0,1,2・・・,(K/2)−1であり、スペクトルG0(k)は複素数とされており、K(例えば、512)はFFTポイント数である。 【0013】また、サイレン音抑圧情報設定部12では、FFT部11において周波数領域に変換されたスペクトルG0(k)(b1)が入力され、このスペクトルG0(k)からサイレン音の有無が検出されてサイレン音有無フラグd1を出力していると共に、サイレン音の基本周波数が抽出され、抽出された基本周波数F1’(c1)が出力されている。サイレン音抑圧部13では、サイレン音抑圧情報設定部12から出力されたサイレン音有無フラグd1、及び基本周波数F1’(c1)が入力され、サイレン音有無フラグd1が“有”を示している場合、入力されているスペクトルG0(k)(b1)から、例えば次に示す(1)式のように、基本周波数F1’(c1)およびその第r高調波成分を抑圧している。 【数1】
この(1)式において、K(例えば512)はFFTポイント数であり、fsは標本化周波数、int(x)はxに最も近い整数である。なお、(1)式における第2式および第3式は、基本周波数F1’およびその第r高調波成分に隣接するスペクトルを振幅を1/2として抑圧しており、音声信号のスペクトルにほぼ影響を与えることなく雑音を抑制するようにしている。その後、次に示す(2)式の通り、振幅は偶関数に、位相は奇関数となるように折り返し、その結果であるスペクトルG(k)(e1)を出力する。これにより、スペクトルG(k)はサイレン音のスペクトル成分が抑圧されている音声信号のスペクトルとなる。 【数2】
この(2)式において、*は複素共役を示す。 【0014】サイレン音抑圧部13から出力されたサイレン音のスペクトル成分が抑圧されたスペクトルG(k)は、IFFT(Inverse Fast Fourier Transform)部14に供給され、ここでスペクトルG(k)(e1)が時間領域に変換され、雑音抑圧された音声信号f1が出力される。このように、本発明の雑音抑圧方法および雑音抑圧装置においては、サイレン音等の非定常雑音がある場合に、非定常雑音の基本周波数F1’を検出し、検出された基本周波数F1’とその高調波成分を、入力信号から周波数領域において差し引くことにより非定常雑音を抑圧するようにしている。これにより、音声信号等に混入されている非定常雑音を抑圧することが可能となる。 【0015】次に、サイレン音抑圧情報設定部12の詳細な構成を図2に示す。図2に示すサイレン音抑圧情報設定部12において、長期平均スペクトル振幅更新部31では、FFT部11において入力信号を周波数領域に変換した結果であるスペクトルG0(k)(a3)が入力され、次に示す(3)式により、長期平均スペクトル振幅|Nm modM(k)|の更新が行われ、更新された長期平均スペクトル振幅b3が出力される。この長期平均スペクトル振幅更新部31における長期平均スペクトル振幅更新処理は、後述するサイレン音基本周波数の抽出が正確に実行できるようにするため、スペクトル中のサイレン音成分を強調する処理である。 【数3】
この(3)式において、k=0,1,2・・・,(K/2)−1であり、Gmaxは現フレームおけるスペクトルの内の最大の振幅を有するスペクトルにおけるスペクトル振幅であり、各スペクトル振幅|G(k)|がスペクトル振幅Gmaxにより正規化されている。また、K(例えば512)はFFTポイント数、mはフレーム番号、Mはサイレン音吹鳴周期(基本周波数の変動周期に対応)であり、例えば消防車のウーウー音の場合は、M=600フレーム=6secと設定される。係数αはm<600の時「0」、その他は「0.5」に設定される。これは、フレーム番号mが「600」に達していない際には、1周期を超えていないので平均化する必要がないからである。 【0016】サイレン音基本周波数抽出部32では、長期平均スペクトル振幅更新部31から出力される更新後の長期平均スペクトル振幅|Nm modM(k)|(b3)を用いて、次に示す(4)式の演算を行う。(4)式においては、予め設定された範囲の候補周波数(ウーウー音の場合は、例えばf=187.5〜1000Hz)のうち、それ自身及びその第r高調波のスペクトル振幅の総和Afが最大となる周波数fを、基本周波数F1(c3)として抽出して出力する。 【数4】
この(4)式において、fsは標本化周波数、int(x)はxに最も近い整数、Lは加算される高調波スペクトル振幅の数である。 【0017】そして、サイレン音基本周波数代表パターンメモリ34は、サイレン音の基本周波数の代表的な変動軌跡の1周期分(または、数周期分)を記憶しておくためのメモリであり、記憶された代表パターンd3はサイレン音基本周波数代表パターンメモリ34から読み出されて、サイレン音検出部33および補正部35に供給されている。サイレン音基本周波数代表パターンメモリ34に記憶されているサイレン音(消防車のウーウー音)の基本周波数の代表パターン(1周期=6秒)の一例を図3に示す。図3に示す1周期が6秒とされているサイレン音の代表パターンでは、基本周波数が時間の経過に従って降下する休止期間が2秒間とされ、基本周波数が時間の経過に従って一定値に達するまで上昇する発音期間が4秒間とされている。 【0018】サイレン音基本周波数代表パターンメモリ34から読み出されたサイレン音の代表パターンが供給されるサイレン音検出部33では、その代表パターンd3を巡回シフトしながら、サイレン音基本周波数抽出部32において抽出された基本周波数F1の系列との自乗平均誤差が計算される。そして、算出された自乗平均誤差が予め設定された閾値より小さければ、雑音有りと判定され、算出された自乗平均誤差が予め設定された閾値を超えていれば雑音無しと判定する。この判定結果はサイレン音有無フラグe3として出力されると共に、自乗平均誤差が最小になる代表パターンのシフト位置を示す位置情報g3が出力される。 【0019】また、サイレン音基本周波数代表パターンメモリ34から読み出されたサイレン音の代表パターンd3が供給される補正部35では、入力された位置情報g3に応じて時間軸上の位置合わせをした代表パターンd3における周波数と、抽出された基本周波数F1との周波数差を検出する。そして、検出された周波数差が所定の閾値より大きい場合には、代表パターンの周波数で基本周波数F1を置き換え、このように補正した補正後の基本周波数F1’(f3)が出力されている。 【0020】次に、サイレン音抑圧情報設定部12の他の詳細な構成を図4に示す。図4に示す構成のサイレン音抑圧情報設定部12においては、数種類のサイレン音の抑圧を可能とすることができる。このため、図2に示すサイレン音抑圧情報設定部12の構成に比して、複数個のサイレン音基本周波数代表パターンメモリ84,85,・・・を備えていると共に、複数のサイレン音基本周波数代表パターンメモリ84,85,・・・を切り替える切替制御部86を追加している。他の構成は、図2に示す構成と同様とされているので、以下の説明では追加された構成について主に説明する。 【0021】サイレン音基本周波数代表パターンメモリ84,85,・・・は、数種類のサイレン音の基本周波数の代表パターンのそれぞれが予め記憶されている。このメモリ数を増やすほど、多種類のサイレン音を抑圧することが可能となる。切替制御部86は、複数種類の代表パターンd8,e8,・・・のいずれかに切り替えて、切り替えた代表パターンをサイレン音検出部83および補正部87に出力している。さらに、切替制御部86から出力される代表パターンに対応する基本周波数の変動周期情報i8を長期平均スペクトル振幅更新部81に出力すると共に、候補周波数の範囲情報j8をサイレン音基本周波数抽出部82に出力している。 【0022】長期平均スペクトル振幅更新部81は、切替制御部86から与えられる基本周波数の変動周期情報i8を上記(3)式におけるサイレン音吹鳴周期Mの値として用いて、上述したように長期平均スペクトル振幅の更新処理を行っている。また、サイレン音基本周波数抽出部82は、切替制御部86から与えられる候補周波数の範囲情報j8を上記(4)式における候補周波数fの範囲として用いて、上述したように基本周波数の抽出処理を行っている。さらに、サイレン音検出部83及び補正部87は、切替制御部86から出力された代表パターンf8を用いて、上述したようにサイレン音の有無を判定してサイレン音有無フラグg8を出力すると共に、自乗平均誤差が最小になる代表パターンのシフト位置を示す位置情報k8を出力している。 【0023】この場合、サイレン音検出部83において、基本周波数F1の系列のパターンが、複数の代表パターンメモリ出力のうちのどれか1つと一致した場合、サイレン音有無フラグg8を“有”にセットすることにより、複数のサイレン音に対応可能となる。さらに、切替制御部86は、あるフレームで、どれか1つの代表パターンと抽出された基本周波数F1の系列のパターンとの自乗平均誤差の最小値が、予め設定された閾値より小さくなった場合、後続のフレームでは、自乗平均誤差の最小値が該閾値以上になるまで、同一の代表パターンのみを使用し続けるように制御することができる。このようにすると、演算量を節約することが可能となる。なお、複数のサイレン音基本周波数代表パターンを1つのメモリに記憶するようにしてもよい。 【0024】次に、本発明の雑音抑圧方法を具現化した本発明の雑音抑圧装置における第2の実施の形態の構成を図5に示す。但し、以下の説明では、抑圧対象とする非定常的な雑音として、消防車のサイレン音(ウーウー音)に限定して説明する。他の周期性を持つ非定常的な雑音についても、いくつかの設定値を変更するのみで同様の構成により抑圧可能である。図5に示す第2の雑音抑圧装置において、サイレン音抑圧器21は、図1に示す雑音抑圧装置と同様の構成とされており、上述したように音声信号に雑音が重畳されている入力信号a2を予め定められた時間長のフレーム毎(例えば、10ms毎)にサイレン音が抑圧され、サイレン音が抑圧されている信号b2を出力している。この信号b2においては、非定常的な雑音であるサイレン音は抑圧されているが、他の定常的な雑音は抑圧されずに残っている。そこで、定常的な性質を持つ雑音を抑圧することのできる雑音抑圧器22を、サイレン音抑圧器21に後続させて、信号b2中の自動車走行音等の定常的な雑音を抑圧している。これにより雑音抑圧器22からは、周期性を有する非定常的な雑音および定常的な雑音が抑圧されている音声信号c2が出力されるようになる。 【0025】図5に示す雑音抑圧装置では、周期性を持った非定常的な雑音に加え、定常的な雑音を抑圧することが可能であり、この場合、サイレン音抑圧器21を雑音抑圧器22の後段に置くようにしても同様の作用を奏することができる。なお、雑音抑圧器22は、スペクトルサブストラクション(SS)法やカルマンフィルタを用いた方式の雑音抑圧器とすることができる。一例として、サブストラクション法とした雑音抑圧器22の構成例を図6に示す。図6に示す雑音抑圧器22において、FFT部92では、音声信号に雑音が重畳されている入力信号b9を予め定められた時間長のフレーム毎(10ms毎)に時間領域から周波数領域に変換し、周波数領域に変換された結果であるスペクトルG1(k)が出力されている(c9)。ただし、k=0,1,2・・・,(K/2)−1であり、スペクトルG1(k)は複素数とされており、K(例えば、128)はFFTポイント数である。 【0026】スペクトルG1(k)は、16個の不均一な周波数帯域(チャネルと呼ぶ)に分割され、チャネルゲイン計算部101により計算された各チャネルのゲイン{γch}(l9)が、乗算器102により各チャネルのスペクトルに乗算される。ここで、{x}はxがチャネル数(=16ch)分の次元を持つベクトルであることを示す。また、乗算は、正負の周波数スペクトルについて実行される。乗算器102から出力されるスペクトルH(k)(m9)は、IFFT部103により時間領域に変換され、定常的な雑音が抑圧された音声信号n9が出力される。チャネルゲイン{γch}(l9)は、次のようにして計算されている。 【0027】チャネルエネルギ推定部93は、フレーム毎に各チャネルのエネルギを更新して、更新されたチャネルエネルギ{Ech(m)}(d9)を出力する。ここで、mはフレーム番号を示す。チャネルSNR推定部94は、チャネルエネルギ{Ech(m)}(d9)と背景雑音推定部98からの出力である背景雑音推定値{En(m)}(j9)を用いて、チャネルSNR推定値{σq}(e9)を計算する。また、ボイスメトリック計算部96は、チャネルSNR推定値{σq}(e9)より、現フレームに音声が存在する確率を示すパラメータであるボイスメトリックV(m)(g9)を計算する。さらに、スペクトル偏差推定部95は、入力されたチャネルエネルギ{Ech(m)}(d9)の長期平均値を計算し、計算された長期平均値とチャネルエネルギ{Ech(m)}との偏差ΔE(m)及び全チャネルのエネルギの総和Etot(m)(f9)を計算して出力する。 【0028】さらにまた、雑音更新決定部97は、ボイスメトリックV(m)(g9)と、偏差ΔE(m)及び全チャネルのエネルギの総和Etot(m)(f9)の値に基づいて、背景雑音推定部98において背景雑音推定値{En(m)}(j9)を更新するかしないかを決定する。ここでは、現フレームが雑音のみのフレームである確率が高い場合に、更新と決定される。更新と決定された場合、update#flagh9により、背景雑音推定部98にチャネルエネルギ{Ech(m)}(d9)が入力されるようにスイッチ99が切り替えられ、背景雑音推定部98は、背景雑音推定値{En(m)}(j9)を更新する。チャネルSNR修正部100では、ボイスメトリックV(m)(g9)に基づき、チャネルSNR推定値{σq}(e9)を修正し、修正後のチャネルSNR推定値{σ”q}(k9)を出力している。 【0029】チャネルゲイン計算部101は、背景雑音推定値{En(m)}(j9)と固定の雑音フロア値(=1)を用いて最小ゲインを計算する。最小ゲインは、−13〜0dBの範囲の値をとる。その後、修正後のチャネルSNR推定値{σ”q}(k9)の関数として、チャネルゲイン{γch}(l9)を計算し出力する。この計算では、修正後のチャネルSNR推定値{σ”q}(k9)に応じた値を、上記の最小ゲイン〔dB〕に加算した後(ここでの最大値は0dB)、その結果を対数領域〔dB〕から線形領域に変換したものをチャネルゲイン{γch}(l9)として出力する。このようにしてチャネルゲイン計算部101により計算された各チャネルのゲイン{γch}(l9)が、乗算器102によりスペクトルG1(k)における各チャネルのスペクトルに乗算されている。これにより、定常的な性質を有する雑音が抑制されるようになる。 【0030】次に、本発明の雑音抑圧方法を具現化した本発明の雑音抑圧装置における第3の実施の形態の構成を図7に示す。但し、以下の説明では、抑圧対象とする非定常的な雑音として、消防車のサイレン音(ウーウー音)に限定して説明する。他の周期性を持つ非定常的な雑音についても、いくつかの設定値を変更するのみで同様の構成により抑圧可能である。図7に示す第3の雑音抑圧装置において、FFT部51では、音声信号に雑音が重畳された入力信号a5を予め定められた時間長のフレーム毎(例えば、10ms毎)に時間領域から周波数領域に変換し、周波数領域に変換された結果であるスペクトルG0(k)が出力される(b5)。ただし、k=0,1,2・・・,(K/2)−1であり、スペクトルG0(k)は複素数とされており、K(例えば、512)はFFTポイント数である。 【0031】サイレン音抑圧情報設定部52では、入力されたスペクトルG0(k)からサイレン音の有無が検出されてサイレン音有無フラグd5を出力していると共に、サイレン音の基本周波数が抽出され、抽出された基本周波数F1’(c5)が出力されている。SS法による雑音抑圧器53では、音声信号に雑音が重畳されている入力信号a5から定常的な性質を持つ雑音を周波数領域において抑圧している。さらに、サイレン音抑圧情報設定部52から雑音“有り”を示すサイレン音有無フラグd5が供給されている場合、サイレン音抑圧情報設定部52から供給されている基本周波数F1’(c5)に基づいて、上記した(1)式に示すように、入力信号a5から基本周波数F1’およびその第r高調波成分を周波数領域において抑圧するようにしている。これにより、SS法による雑音抑圧器53から定常的な雑音および非定常的な雑音が抑圧された音声信号e5が出力されるようになる。なお、サイレン音抑圧情報設定部52は、前述した図2あるいは図4に示す構成とすることができる。 【0032】図7に示す第3の雑音抑圧装置では、雑音の抑圧を周波数領域で実行するSS法の雑音抑圧器53において、サイレン音の抑圧も行うことにより、構成の規模を小さくすることができる。さらに、効率良く雑音を抑圧することができるようになる。そこで、図7に示す本発明にかかる第3の雑音抑圧装置におけるSS法による雑音抑圧器53の詳細な構成を図8に示す。図8に示すSS法による雑音抑圧器53は、図6に示すサブストラクション法とした雑音抑圧器22に、サイレン音抑圧部62が追加されている構成とされている。他の構成は、図6に示す構成と同様とされているので、以下の説明では追加された構成について主に説明する。 【0033】図8に示すSS法による雑音抑圧器53において、FFT部61では、音声信号に雑音が重畳されている入力信号a6を予め定められた時間長のフレーム毎(10ms毎)に時間領域から周波数領域に変換し、周波数領域に変換された結果であるスペクトルG0(k)が出力される(b6)。ただし、k=0,1,2・・・,(K/2)−1であり、スペクトルG0(k)は複素数とされており、K(例えば、128)はFFTポイント数である。サイレン音抑圧部62には、サイレン音抑圧情報設定部52からサイレン音有無フラグd5、及び基本周波数F1’(c5)が入力されており、このサイレン音有無フラグd5が雑音“有”を示している場合、スペクトルG0(k)(b6)から、上記した(1)式に示すように、基本周波数F1’(c5)およびその第r高調波成分が抑圧される(但し、K=128として実行する)。その後、上記(2)式に示すように、振幅は偶関数に、位相は奇関数となるように折り返され、その結果であるスペクトルG(k)(c6)が出力される。 【0034】スペクトルG(k)(c6)は、16個の不均一な周波数帯域(チャネルと呼ぶ)に分割され、チャネルゲイン計算部71により計算された各チャネルのゲイン{γch}(l6)が、乗算器72により各チャネルのスペクトルに乗算される。ここで、{x}はxがチャネル数(=16ch)分の次元を持つベクトルであることを示す。また、乗算は、正負の周波数スペクトルについて実行される。乗算器72から出力されるサイレン音等の非定常的な雑音に加えて定常的な雑音が抑圧されたスペクトルH(k)(m6)は、IFFT部73により時間領域に変換され、非定常的な雑音に加えて定常的な雑音が抑圧された音声信号S’(n)(n6)が出力される。チャネルゲイン{γch}(l6)は、図6において説明したようにして計算される。図7に示す本発明の第3の雑音抑圧装置においては、図7に示すFFT部51と図8に示すFFT部61は、FFTポイント数が同じである場合、または、これらのFFTポイント数を一致させる処理(図7のFFT部51の出力の間引き等)を施す場合には共用化することができる。このようにすることにより、雑音抑圧装置の構成をより小さな規模とすることができると共に、効率良く雑音を抑圧することができるようになる。 【0035】次に、以上説明した本発明にかかる雑音抑圧法補および雑音抑圧装置の作用を説明するために、背景雑音が重畳した音声を雑音抑圧後に音声符号化処理した再生音声に対する明瞭度評価の結果を図9に示す。この場合の雑音抑圧装置は、図7に示す第3の雑音抑圧装置において、サイレン音抑圧情報設定部52を図2に示す構成としている。また、音声符号化器としては、本出願人による特願平11−223804号で提案されている符号化速度1.6kbit/sの方式を用いている。背景雑音としてサイレン音(ウーウー音、siren)と、それに加えてトラック走行音(car)を同パワーで加えた雑音を用い、音声データとしては音節の順番が異なる4文書(男女各2名、1文書は日本語100音節で構成)を用いている。また、比較用として雑音抑圧(Noise Cancel:NC)無し(1.6kbps Codec (NC無し))及び従来のスペクトルサブストラクション法のみを使用した場合(1.6kbps Codec (SS法))、並びに、原音、2.4kbpsの標準方式であるMELP(L.M. Supplee et al.,"MELP: The New Federal Standard at 2400 bps," Proc. ICASSP97, pp.1591-1594, 1997.)のNC無しでの再生音声(FS MELP(NC無))についても評価している。 【0036】図8に示す一般人の被験者7名による単音明瞭度評価結果において、横軸は、入力音声の信号対雑音比(SNR)を示しており、cleanは雑音無し(SNR=∞)を示している。図8を参照すると、本発明にかかる雑音抑制装置を使用することにより、明瞭度評価が大幅に改善されていることを確認することができる。なお、通話の了解性の良さを測定するには、主として明瞭度が用いられている。この明瞭度は、送話者が一連の無意味な音節(例えば、レパ、ロピャ、ピャキョ)を送話した時、受話者がその何パーセントを正しく受聴できたかを示すもので、送話音節に対する受聴音節の正聴率をとったものを音節明瞭度(syllable articulation)といい、音節を単音(子音と母音)に分解して単音についての正聴率をとったものを単音明瞭度(sound articulation)という。図9の縦軸は、この単音明瞭度とされている。 【0037】以上説明した本発明にかかる雑音抑圧装置は、該雑音抑制装置を構成している各ブロックの処理を、DSP(Digital Signal Processor)により行うようにしてもよい。また、本発明にかかる雑音抑圧方法を、上述したように雑音を抑制することのできる雑音抑制装置を構成している各ブロックの処理を実行するプログラムにより構成するようにしてもよい。 【0038】 【発明の効果】本発明は以上説明したように、セカンドマイク等のハードウェアの追加を必要とすることなく自動車走行音等の定常的な雑音のみでなく、消防車、パトカー等のサイレン音(ウーウー音)等の周期性を持つ非定常的な雑音を、信号処理技術のみにより抑圧することが可能な雑音抑圧方法および装置を実現することができる。また、定常的な雑音を抑圧対象とする従来の雑音抑圧方法および装置に本発明にかかる雑音抑圧方法および装置を組み込んでも、アルゴリズム遅延の増加はない。そして、本発明を低ビットレート音声コーデックの前段に入れることにより、再生音声の了解性・明瞭性を改善することができるようになる。
|
| 【出願人】 |
【識別番号】399004577 【氏名又は名称】株式会社ワイ・アール・ピー高機能移動体通信研究所
|
| 【出願日】 |
平成13年3月2日(2001.3.2) |
| 【代理人】 |
【識別番号】100102635 【弁理士】 【氏名又は名称】浅見 保男 (外3名)
|
| 【公開番号】 |
特開2002−258899(P2002−258899A) |
| 【公開日】 |
平成14年9月11日(2002.9.11) |
| 【出願番号】 |
特願2001−58134(P2001−58134) |
|