| 【発明の名称】 |
音像定位強調再生方法、及びその装置とそのプログラムと、その記憶媒体 |
| 【発明者】 |
【氏名】青木 真理子
【氏名】古家 賢一
【氏名】片岡 章俊
|
| 【要約】 |
【課題】2個のマイクロホンが音源に対して左右非対称の位置に置かれた場合でも正確な音の定位方向を提供できるようにした音像定位強調再生方法、及びその置の提供。
【構成】帯域別チャネル間パラメータ値差検出手段4から入力されるチャネル間パラメータ値差ΔLev(ωi)のヒストグラムを、ヒストグラム算出部30で作成する。作成したヒストグラムの最大階級をヒストグラム最大階級算出部31で算出する。ヒストグラム最大階級算出部31で算出された最大階級は、ヒストグラム最大階級保存部32に保存される。保存された複数個の最大階級の値から、音源位置偏り判定部33が、その最大階級の値から違う位置にある音源として識別すべきかを判定する。識別すべきと判定された場合、閾値算出部34が新たな閾値LevTh1とLevTh2を算出して音源信号判定手段6に出力する。 |
【特許請求の範囲】
【請求項1】 複数の音源からの音を収音して再生する装置であって、 互いに離して配置された2個のマイクロホンから上記音源に対する収音信号が入力され、それら各収音信号をそれぞれ複数の周波数帯域に分割し、各帯域の周波数帯域信号が主として一つの音源からの信号成分になる程度に分割する帯域分割手段と、 上記帯域分割手段から上記各複数の周波数帯域信号が入力され、それら両周波数帯域信号の同一帯域毎に、上記2個のマイクロホンの位置に起因して生ずる上記音のパラメータの値の差を帯域別チャネル間パラメータ値差として検出する帯域別チャネル間パラメータ値差検出手段と、 上記帯域別チャネル間パラメータ値差検出手段から入力された上記帯域別チャネル間パラメータ値差に基づき上記周波数帯域信号がいずれの上記音源から入力された信号であるかを判定する閾値を生成する閾値推定手段と、 上記帯域別チャネル間パラメータ値差検出手段から入力された上記帯域別チャネル間パラメータ値差と、上記閾値推定手段から入力された閾値に基づき、上記周波数帯域信号の各帯域がいずれの上記音源から入力された音を主に含むかを判定してその音源方向領域を判定し、その判定情報を出力する音源信号判定手段と、 上記判定情報及び上記各複数の周波数帯域信号が入力され、上記判定情報に基づき、それら周波数帯域信号に重み値を乗算して、上記判定された音源方向領域の音源からの音が強調された出力用音源帯域信号を生成する重み乗算手段と、 上記重み乗算手段で重み付けされた上記出力用音源帯域信号が入力され、出力用音源帯域信号を、判定された同一音源方向領域ごとに時間波形に戻して受聴者に上記音源方向領域を区別できる様に配置された拡声手段へ出力する音源信号合成手段と、 を具備することを特徴とする音像定位強調再生装置。 【請求項2】 請求項1に記載の音像定位強調再生装置において、 上記閾値推定手段は、上記音源の中央と上記2個のマイクロホンの中央とが対向している状態において、互いに区別されるべき音源方向領域に属する音源が、隣接する一方の音源領域に含まれる状態を検出すると、それら音源の音源方向領域を区別するための閾値を推定するものであることを特徴とする音像定位強調再生装置。 【請求項3】 請求項1又は2に記載の音像定位強調再生装置において、 上記閾値推定手段は、上記音源方向領域の一つの音源方向領域内に上記帯域別チャネル間パラメータ値差が所定値以上の音源が複数ある場合に、上記複数の音源間で音源方向領域を区別する閾値を生成し、上記閾値を逐次修正するものであることを特徴とする音像定位強調再生装置。 【請求項4】 請求項1乃至3の何れかに記載の音像定位強調再生装置において、 上記閾値推定手段は、上記帯域別チャネル間パラメータ値差検出手段から入力される帯域別チャネル間パラメータ値差のヒストグラムを算出するヒストグラム算出部と、 上記ヒストグラムの最大値をとる階級を算出するヒストグラム最大階級算出部と、 上記ヒストグラム最大階級算出手段が算出する最大階級を複数個保存するヒストグラム最大階級保存部と、 上記ヒストグラム最大階級保存部に保存された複数の最大階級の値から、音源位置の偏りを判定する音源位置偏り判定部と、 上記音源位置偏り判定の判定結果と上記複数の最大階級とから上記2本のマイクロホンに対する左側音源方向領域と中央領域を決定するための閾値LevTh1と、上記2本のマイクロホンに対する右側音源方向領域と中央音源方向領域を決定するための閾値LevTh2を算出する閾値算出部と、 を具備することを特徴とする音像定位強調再生装置。 【請求項5】 請求項4に記載の音像定位強調再生装置において、 上記音源信号偏り判定部は、上記帯域別チャネル間パラメータ値差検出手段から入力される同一帯域毎の帯域別チャネル間パラメータ値差と、上記閾値推定手段から入力される閾値LevTh1と閾値LevTh2とを比較して、帯域毎のチャネル間パラメータ値差が閾値LevTh1より大、小の一方であれば音源Ls、閾値LevTh2よりも大、小の他方であれば音源Rs、そのどちらでもなければ音源Cs、のそれぞれの音源の信号を主に含むと判定するものであることを特徴とする音像定位強調再生装置。 【請求項6】 請求項1乃至5の何れかに記載の音像定位強調再生装置において、 上記重み乗算手段は、上記音源信号判定手段において判定された音源と対応付けされた上記周波数帯域信号に重み値1を乗算し、その判定された音源以外の音源と対応付けされた上記周波数帯域信号に重み値0.1乃至0.3を乗算するものであることを特徴とする音像定位強調再生装置。 【請求項7】 請求項1乃至6の何れかに記載の音像定位強調再生装置において、 上記閾値推定手段は、上記帯域別チャネル間パラメータ値差を所定の帯域間で平滑化するレベル差帯域間平滑部を備え、上記平滑化された帯域別チャネル間パラメータ値差のヒストグラムを算出するものであることを特徴とする音像定位強調再生装置。 【請求項8】 請求項1乃至7の何れかに記載の音像定位強調再生装置において、 上記閾値推定手段は、帯域別チャネル間パラメータ値差をフレーム間で平滑化するレベル差フレーム間平滑化部を備え、上記平滑化された帯域別チャネル間パラメータ値差のヒストグラムを算出するものであることを特徴とする音像定位強調再生装置。 【請求項9】 請求項1乃至8の何れかに記載の音像定位強調再生装置において、 上記帯域別チャネル間パラメータ値差は、所定帯域以下の低い帯域では位相差であり、上記所定帯域より高い帯域ではレベル差であることを特徴とする音像定位強調再生装置。 【請求項10】 複数の音源からの音を2本のマイクロホンで収音する収音過程と、 帯域分割手段が、上記収音過程で収音された各収音信号をそれぞれ複数の周波数帯域に分割する帯域分割過程と、 帯域別チャネル間パラメータ値差検出手段が、2本のマイクロホンの位置に起因して生ずる上記収音信号のパラメータの値の差を帯域別チャネル間パラメータ値差として検出する帯域別チャネル間パラメータ値差検出過程と、 閾値推定手段が、上記帯域別チャネル間パラメータ値差検出過程で検出された帯域別チャネル間パラメータ値差から上記周波数帯域信号の各帯域がいずれの上記音源から入力された信号であるかを判定する閾値を生成する閾値推定過程と、 音源信号判定手段が、上記帯域別チャネル間パラメータ値差検出過程で検出された上記帯域別チャネル間パラメータ値差と、上記閾値推定過程で生成された閾値に基づき、上記周波数帯域信号の各帯域がいずれの上記音源から入力された音を主に含むかを判定して判定情報を出力する音源信号判定過程と、 重み乗算手段が、上記音源信号判定過程で判定された判定情報に基づき、上記帯域分割過程で分割された各帯域信号に重み値を乗算することで、対応付けされた音源からの音が強調された出力用音源信号を生成する音源生成過程と、 音源信号合成手段が、上記出力用音源信号をそれぞれ時間波形に戻して出力信号とする音源信号合成過程と、 拡声手段が、入力された上記出力信号を再生する再生過程と、 を有する音像定位強調再生方法。 【請求項11】 請求項10に記載の音像定位強調再生方法において、 上記閾値推定過程は、上記閾値を逐次生成するものであることを特徴とする音像定位強調再生方法。 【請求項12】 請求項10又は11に記載の音像定位強調再生方法において、 上記閾値推定過程は、ヒストグラム算出部が上記帯域別チャネル間パラメータ値差検出手段から入力される帯域別チャネル間パラメータ値差のヒストグラムを算出するヒストグラム算出過程と、 ヒストグラム最大階級保存部が、上記ヒストグラム算出過程で算出されたヒストグラムの最大値を算出するヒストグラム最大階級算出過程と、 ヒストグラム最大階級保存部が、上記ヒストグラム最大階級算出部が算出する最大階級を複数個保存するヒストグラム最大階級保存過程と、 閾値算出部が、上記ヒストグラム最大階級保存部に保存された複数の最大階級の値から、上記2本のマイクロホンに対する左側音源方向領域と中央音源方向領域を決定するための閾値LevTh1と、上記2本のマイクロホンに対する右側音源方向領域と中央音源方向領域を決定するための閾値LevTh2を算出する閾値算出過程と、 から成ることを特徴とする音像定位強調再生方法。 【請求項13】 請求項10乃至12の何れかに記載の音像定位強調再生方法において、 上記閾値推定過程は、上記帯域別チャネル間パラメータ値差を所定の帯域間で平滑化し、上記平滑化された帯域別チャネル間パラメータ値差のヒストグラムを算出する過程を含むものであることを特徴とする音像定位強調再生方法。 【請求項14】 請求項10乃至13の何れかに記載の音像定位強調再生方法において、 上記閾値推定過程は、上記帯域別チャネル間パラメータ値差をフレーム間で平滑し、上記フレーム間で平滑化された帯域別チャネル間パラメータ値差のヒストグラムを算出する過程を含むものであることを特徴とする音像定位強調再生方法。 【請求項15】 請求項10乃至14の何れかに記載の音像定位強調再生方法において、 上記音源信号判定過程は、上記帯域別チャネル間パラメータ値差検出手段から入力される同一帯域毎の帯域別チャネル間パラメータ値差と、上記閾値推定手段から入力される閾値LevTh1と閾値LevTh2とを比較して、帯域毎のチャネル間パラメータ値差が閾値LevTh1より大、小の一方であれば音源Ls、閾値LevTh2よりも大、小の他方であれば音源Rs、そのどちらでもなければ音源Cs、のそれぞれの音源の信号を主に含むと判定する過程であることを特徴とする音像定位強調再生方法。 【請求項16】 請求項10乃至15の何れかに記載の音像定位強調再生方法において、 上記重み乗算過程は、上記音源信号判定手段において判定された音源と対応付けされた上記周波数帯域信号に重み値1を乗算し、その判定された音源以外の音源と対応付けされた上記周波数帯域信号に重み値0.1乃至0.3を乗算する過程であることを特徴とする音像定位強調再生方法。 【請求項17】 請求項1乃至9に記載した各装置としてコンピュータを機能させるための装置プログラム。 【請求項18】 請求項17に記載した何れかのプログラムを記憶したコンピュータで読み取り可能な記憶媒体。
|
【発明の詳細な説明】【技術分野】 【0001】 この発明は、異なる位置に配置されている複数の発話音源をステレオ収音して再生する際に、聴取者の位置によらず全ての聴取者に音源の方向が認識できるように強調再生する音像定位強調再生方法、及びその装置、そのプログラムとそのプログラムを記憶する記憶媒体に関する。 【背景技術】 【0002】 従来、電話会議等の通信会議システムでステレオ収音された信号を、聴取者の座る位置によらずに全ての聴取者に良好な音の定位方向を与えるものとしては、非特許文献1に開示されている。この従来技術を図12を参照して説明する。0.7mの等間隔を空けた3つの音源LsとCsとRsとが横一列に並び、中央の音源Csに正対して1.4m離れてステレオマイクロホン120が配置されている。 ステレオマイクロホン120の信号Lと信号Rは、それぞれFFT121で周波数帯域信号XL(ωi)とXR(ωi)とに変換・分割される。これら両周波数帯域信号の同一帯域毎に、ステレオマイクロホン120の位置に起因して生ずる信号Lと信号Rの音のパラメータの値の差を、帯域別チャネル間パラメータ値差検出手段122で算出する。算出された音のパラメータ値差に基づき、判定手段123が周波数帯域信号の各帯域に、いずれの音源から入力された音が主に含まれるかを判定する。その判定情報に基づき各周波数帯域信号XL(ωi)とXR(ωi)に重み値を乗算して、各音源と対応付けされた周波数帯域信号YL(ωi)とYC(ωi)とYR(ωi)を生成する。 【0003】 この判定の基準値は、ステレオマイクロホン120を音源に対して左右対称の位置に配置して、各音源を発音させた時のパラメータ値差の平均値と分散から設定されるもので、固定である。 音源と対応付けされた周波数帯域信号YL(ωi)とYC(ωi)とYR(ωi)は、それぞれIFFT124で時間領域の信号に変換されて、音源の位置と対応付けられたそれぞれの拡声手段Sp.L、Sp.C、Sp.Rから再生される。したがって聴取者の位置によらず、全ての聴取者に音の方向を正しく知覚させることができる。 【非特許文献1】青木、古屋、片岡、クローストークキャンセラを用いたステレオ再生の受聴位置拡大、日本音響学会秋季研究発表会、1‐2‐15、2005.9 【発明の開示】 【発明が解決しようとする課題】 【0004】 しかしながら従来の方法では、音源に対してステレオマイクロホンを左右対称の位置に配置する前提で、音源方向を判定して再生音の重み付けをするので、その前提が崩れると、音の方向が分からなくなる問題があった。 通信会議システムでは、マイクロホンは一般に会議机上に置かれるが、発話者に対してマイクロホンを左右対称の位置に正確に配置することは、机上に置かれる物との関係で難しい場合が多い。図13に、70cmの間隔を空けて横一列に並んだ3人の発話者La、Cb、Rcに対して、発話者と50cmの間隔を空けて並行に配置される2個のマイクロホンMic.LとMIC.Rが、一方の発話者Rc側に偏って配置された場合を示す。 【0005】 上記した従来の方法ではマイクロホンMic.LとMIC.Rとが音源に対して左右対称の位置に配置された前提で、両マイクロホンからの音のパラメータ値差に基づいて音源方向領域を判定している。しかし、75cmの間隔を空けたマイクロホンMic.LとMic.Rが、中央の発話者Cbと正対する位置から、一方の発話者La側に25cm離れてマイクロホンMic.Lが配置され、他方の発話者Rc側に50cm離れてマイクロホンMic.Rが配置されると、マイクロホンMic.Lに入力される発話者Cbの声のレベルが、マイクロホンMic.Rに対して大きくなる。 【0006】 その結果、本来であればパラメータ値差がLevTh1とLevTh2の範囲の値を示す一点鎖線の音源方向領域境界線BLとBRとの間の音源方向領域Cfからの音源と判定されるべき発話者Cbの声が、左側の音源方向領域Lfからの音とみなされてしまう。その誤判定の結果、発話者Cbの収音された声は、音源方向領域Lfに対応した拡声手段Sp.Lから強調されて再生されるので、中央の位置の聴取者も発話者Cbが左側の音源方向領域Lfの方向から発言しているように聞こえてしまう。以降、この音の方向感のことを音像定位感と称する。 【0007】 この発明は、このような問題点に鑑みてなされたものであり、例えば図13のようにマイクロホンが音源に対して左右非対称の位置に置かれたとしても、音のパラメータ値差から音源方向領域を判定するためのパラメータ値差の閾値LevTh1を変更して音源方向領域境界線BLを図13に示す様に一点鎖線から実線に修正することで、正確な定位感を提供できるようにした音像定位強調再生方法、及び音像定位強調再生装置を提供することを目的とする。 【課題を解決するための手段】 【0008】 この発明による音像定位強調再生装置には、複数の音源に対して、互いに離して配置された2個のマイクロホンで収音された2個の収音信号が入力される。 それら各収音信号を帯域分割手段により、各帯域の周波数帯域信号が主として一つの音源からの信号成分になる程度にそれぞれ複数の周波数帯域に分割する。 帯域分割手段で分割された2個の収音信号の同一帯域毎に、2個のマイクロホンの位置に起因して生ずる音のパラメータの値の差を帯域別チャネルパラメータ値差として帯域別チャネル間パラメータ値差検出手段により検出する。 【0009】 閾値推定手段により、帯域別チャネル間パラメータ値差検出手段から入力された帯域別チャネル間パラメータ値差に基づき周波数帯域信号の各帯域がいずれの音源から入力された信号であるかを判定する閾値を生成する。 音源信号判定手段により、帯域別チャネル間パラメータ値差検出手段から入力された帯域別チャネル間パラメータ値差と、閾値推定手段から入力された閾値に基づき、周波数帯域信号の各帯域がいずれの音源から入力された音を主に含むかを判定してその音源方向領域を判定し、その判定情報を重み乗算手段に出力する。 【0010】 重み乗算手段により、音源信号判定手段からの判定情報と、帯域分割手段からの2個の収音信号に基づく周波数帯域信号とから、判定情報に基づいて各帯域の周波数帯域信号に重み値を乗算し、音源方向領域を強調した出力用音源帯域信号を生成する。 音源信号合成手段により、重み乗算手段で重み付けされた出力用音源帯域信号が、判定音源方向領域ごとに時間波形に戻され、受聴者に音源方向領域を区別できる様に配置された拡声手段へ、音源信号として出力される。 【発明の効果】 【0011】 この発明によれば、2個のマイクロホンが複数の音源に対して左右非対称の位置に配置され、一つの音源方向領域内に複数の音源が存在する状況になっても、それまでの音源方向領域を区別する閾値を、閾値推定手段が新たな帯域別チャネル間パラメータ値差に基づいて更新するので、音源方向領域を区別することができ、聴取者に音源の位置に対応した音像定位感を提供することが出来る。 【発明を実施するための最良の形態】 【0012】 以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。 【実施例1】 【0013】 この発明の音像定位強調再生装置の実施例1の機能構成ブロックを図1に示す。この例では、音源を3個として説明する。マイクロホンMLとMRとで収音された収音信号XL(n)とXR(n)(nは離散的時間)は、それぞれ帯域分割手段3のL帯域分割部3aとR帯域分割部3bとで所定区間(フレームという)ごとに、例えば短時間高速フーリエ変換などで周波数分割されて周波数領域信号XL(ωi),(i=1,…,N)とXR(ωi),(i=1,…,N)とに変換される。更に、これら周波数領域信号XL(ωi)、XR(ωi)はそれぞれ予め決めた複数のN個の帯域に分割される。この分割された各帯域は、主として一つの音源からの音響信号成分のみが含まれるように細かく行われる。例えば、スペクトルごとに取り出せるように、帯域分割された各帯域の周波数帯域信号がXL(ωi)、XR(ωi)になるようにされる。周波数帯域信号XL(ωi)とXR(ωi)は、重み乗算手段7と帯域別チャネル間パラメータ値差検出手段4に出力される。 【0014】 帯域別チャネル間パラメータ値差検出手段4は、周波数帯域信号XL(ωi)とXR(ωi)の同一帯域毎に、マイクロホンMLとMRの位置に起因して生ずる音のパラメータの値の差を帯域別チャネル間パラメータ値差ΔPa(ωi),(i=1,…,N)として検出して、閾値推定手段5と音源信号判定手段6に出力する。詳しくは後述するが、帯域別チャネル間パラメータ値差にはレベル差若しくは位相差、又はその双方が用いられる。 【0015】 図1では帯域別チャネル間パラメータ値差ΔPa(ωi)としてレベル差ΔLev(ωi),(i=1,…,N)を用いた場合を示し、このレベル差ΔLev(ωi),(i=1,…,N)が、帯域別チャネル間パラメータ値差検出手段4のレベル差部4aで算出される。なお、チャネル間パラメータ値差を位相差とした場合は、帯域別チャネル間パラメータ値差検出手段4の位相差部4bで算出される。その場合でも、以降の説明における信号名はΔLev(ωi)を用いる。 【0016】 閾値推定手段5は、帯域別チャネル間パラメータ値差から各帯域の周波数帯域信号XL(ωi)とXR(ωi)がいずれの音源から入力された信号であるかを判定する閾値LevTh1とLevTh2を生成し、音源信号判定手段6に出力する。 音源信号判定手段6は、各帯域別チャネル間パラメータ値差ΔLev(ωi)と閾値LevTh1及び閾値LevTh2とをそれぞれ比較して、各帯域ごとに周波数帯域信号XL(ωi)とXR(ωi)がいずれの音源から入力された音を主に含むかを判定してその音源方向領域を判定し、その判定情報Res(ωi),(i=1,…,N)を重み乗算手段7に出力する。 【0017】 重み乗算手段7は、帯域分割手段3から入力される周波数帯域信号XL(ωi),(i=1,…,N)とXR(ωi),(i=1,…,N)に対し、帯域毎に、判定情報Res(ωi)に基づいて重み値を乗算して、その音源方向領域の周波数帯域信号を強調した出力用音源帯域信号として出力する。この例では、重み乗算手段7内におけるL出力用音源帯域信号生成部7aで左側音源方向領域と判定された出力用音源帯域信号YL(ωi),(i=1,…,N)を、C出力用音源帯域信号生成部7bで中央音源方向領域と判定された出力用音源帯域信号YC(ωi),(i=1,…,N)を、R出力用音源帯域信号生成部7cで右側音源方向領域と判定された出力用音源帯域信号YR(ωi),(i=1,…,N)を、それぞれ生成して音源信号合成手段8へ出力する。 【0018】 音源信号合成手段8においては、L出力用音源帯域信号生成部7aで左側音源方向領域として強調された出力用音源帯域信号YL(ωi)を、L音源信号合成部8aで時間波形に戻して拡声手段9aに出力する。同様に出力音源帯域信号YC(ωi)とYR(ωi)を、それぞれC音源信号合成部8bとR音源信号合成部8cとで時間波形に戻して、拡声手段9bと、拡声手段9cとにそれぞれ出力する。受聴者が音源方向領域を区別できる様に拡声手段9a、9b、9cが配置されている。なお、帯域分割手段3としては、各収音信号XL(n)、XR(n)をそれぞれのフィルタバンクにより周波数帯域信号XL(ωi)、XR(ωi)に変換・分割してもよい。 【0019】 以上述べた構成にすることで、収音信号XL(n)とXR(n)をフレームごとに複数の周波数帯域信号に分割し、これら周波数帯域信号XL(ωi)とXR(ωi)に対し、帯域毎に、閾値推定手段5が生成した閾値LevTh1とLevTh2に基づいて重み値を乗算して音源方向を強調するので、音源に対するマイクロホンMLとMRとが音源に対して左右対称の位置に配置されなくても、聴取者に正確な音像定位感を提供することが可能になる。つまり、音源に対するマイクロホンMLとMRの配置の自由度を高めることができ、また複数の発話者がマイクロホンMLとMRに対し偏って位置している場合でも、これら発話者の音声を分離して音像定位させることができる。 【0020】 〔全体の動作フロー〕 図2に実施例1の音像定位強調再生装置の全体の動作フローを示して動作の流れを説明する。 音像定位強調再生装置が動作を開始すると、最初に音源方向領域Lfと音源方向領域Cfとを区別する閾値LevTh1と、音源方向領域Rfと音源方向領域Cfとを区別する閾値LevTh2と、に初期値が設定される。この初期値は、マイクロホンMLとMRとが、例えば音源に対して左右対称で所定の距離離れた位置に配置された場合の閾値LevTh1とLevTh2である(ステップS20)。 閾値LevTh1とLevTh2が設定された後に、帯域分割手段3は、マイクロホンMLとMRの収音信号を周波数帯域の信号XL(ωi)とXR(ωi)に変換・分割する帯域分割処理を行う(ステップS21)。 【0021】 これら周波数帯域信号XL(ωi)とXR(ωi)の同一帯域毎に、マイクロホンMLとMRの配置された位置に起因して生ずる帯域別チャネル間パラメータ値差ΔLev(ωi)を検出する。つまり帯域別チャネル間パラメータ値差検出処理を行う(ステップS22)。 次に帯域別チャネル間パラメータ値差ΔLev(ωi)に基づいて閾値推定処理を行う(ステップS23)。この実施例1では、閾値推定処理が逐次行われ、新たな閾値LevTh1,LevTh2が求まればその都度、閾値は更新される(ステップS23b)。閾値計算が終了するまでは、前の閾値LevTh1,LevTh2で動作する(ステップS23a)。したがって、動作開始直後は、上記した初期値の閾値LevTh1,LevTh2で動作する。 【0022】 次に音源信号判定手段6が、帯域別チャネル間パラメータ値差ΔLev(ωi)と閾値LevTh1及びLevTh2とをそれぞれ比較して、各帯域の周波数帯域信号XL(ωi),XR(ωi)がいずれの音源から入力された音を主に含むかを判定してその音源方向領域を示す判定情報Res(ωi)を生成する。つまり音源信号判定処理を行う(ステップS24)。 【0023】 次に重み乗算手段7が、帯域毎に、判定情報Res(ωi)に基づいて重み値を周波数帯域信号XL(ωi),XR(ωi)に乗算し、判定された音源方向領域の音源からの音が強調された出力用音源帯域信号を生成する。つまり音源生成処理を行う(ステップS25)。なお、判別される音源方向領域の数と同数の拡声手段が配列され、受聴者が音源方向を区別できるようにされる。したがって、上記出力用音源帯域信号は、上記拡声手段の数だけ生成される。 【0024】 次に音源信号合成手段8が、各音源方向領域と対応した出力音源帯域信号を時間波形に戻す、音源信号合成処理を行う(ステップS26)。 以上述べた動作フローの中で、実施例1は、従来技術として示した非特許文献1に開示された技術に対して、閾値推定処理S23が、閾値を更新する点が新しい。したがって、マイクロホンMLとMRとが音源に対して左右非対称に配置されたとしても、そのマイクロホンの配置に合わせて閾値が更新されるので、聴取者に正確な定位感を提供することが出来る。 【0025】 更に実施例1によれば、帯域分割処理(ステップS21)〜音源信号合成処理(ステップS26)は、逐次連続的に動作する。したがって、音源である発話者が隣接する音源方向領域に移動したとしても、また、発話者方向の偏りが時間的に変動しても、その状況における閾値を生成して更新し、その閾値に基づいて音源方向領域を区別するので、音源の配置に近い音像定位感を聴取者に提供することが可能である。 以降にこの発明の新しい部分に関する動作を更に詳しく説明する。 【0026】 〔マイクロホンの配置と帯域別チャネル間パラメータ値差〕 図1を参照して音源とマイクロホンとの位置関係を説明する。 所定の間隔を空けて配置されたマイクロホンMLとMRの前方に距離を置いて、それぞれ所定間隔を空けて横方向に3個の音源LsとCsとRsが並んでいる。マイクロホンML側にある音源を音源Lsとし、マイクロホンMLに収音される信号をsLL(n)、マイクロホンMRに収音される信号をsLR(n)とする。マイクロホンMR側にある音源を音源Rsとし、マイクロホンMLに収音される信号をsRL(n)、マイクロホンMRに収音される信号をsRR(n)とする。マイクロホンMLとMRとの間にある音源を音源Csとし、マイクロホンMLに収音される信号をsCL(n)、マイクロホンMRに収音される信号をsCR(n)とする。 【0027】 音源Lsからの信号sLL(n)と信号sLR(n)を比較すると、信号sLL(n)の方が信号sLR(n)より振幅が大きく、かつ早い位相でマイクロホンMLとMRに収音される。音源Rsからの信号sRR(n)と信号をsRL(n)を比較すると、信号sRR(n)の方が信号sRL(n)より振幅が大きく早い位相でマイクロホンMRとMLに収音される。音源Csからの信号sCL(n)とsCR(n)は、双方のマイクロホンML,MRに同振幅、同位相で収音される。 このような関係をもって収音される2個のマイクロホンMLとMRからの収音信号XL(n)とXR(n)を、帯域分割手段3でそれぞれN個の帯域に分割する。 【0028】 その各帯域について、帯域別チャネル間パラメータ値差検出手段4において式(1)で定義されるチャネル間パラメータ値差として、この例ではレベル差ΔLev(ωi)を算出する。 【数1】
このΔLev(ωi)が取る値の範囲は、部屋の広さと音源とマイクロホン間の距離とから、あらかじめ予想することが出来る。例えば、通信会議システムを利用するような一般の会議室ならば−20dBから20dBの範囲の値になる。 【0029】 このΔLev(ωi)の値から、その帯域(ωi)の音を発する音源が、マイクロホンML,MRに対しどの辺りに位置するかを判定することが出来る。その帯域(ωi)の音を発する音源がマイクロホンMLに近ければ、|XL(ωi)|/|XR(ωi)|なのでΔLev(ωi)の値は大きくなる(正の値を取る)。その帯域(ωi)の音を発する音源がマイクロホンMRに近ければ、ΔLev(ωi)の値は小さくなる(負の値を取る)。その帯域(ωi)の音を発する音源が両マイクロホンMLとMRの間に位置していれば、ΔLev(ωi)は0に近い値を示す。 このΔLev(ωi)の大小関係を利用することで、閾値推定手段5が閾値を算出する。その閾値推定手段5の機能構成ブロック図を図3に示して更に詳しく動作を説明する。 【0030】 〔閾値推定手段〕 閾値推定手段5は、まず始めにチャネル間パラメータ値差ΔLev(ωi)のヒストグラムを、ヒストグラム算出部30で算出する。次に作成したヒストグラムの最大階級をヒストグラム最大階級算出部31で生成する。 ヒストグラム最大階級算出部31で算出された最大階級は、ヒストグラム最大階級保存部32に保存される。保存された複数の最大階級の値から、音源位置偏り判定部33が、音源がマイクロホンML,MRに対して偏っているか否かを判定する。音源が偏っていると判定された場合は、その偏りの判定に用いた最大階級の値を用いて閾値推定手段5が新たな閾値LevTh1又は及びLevTh2を算出して音源信号判定手段6に出力する。その新たな閾値LevTh1又は及び LevTh2を用いて、音源信号判定手段6が音源方向領域を区分けするので、音源位置に対応した音像定位感を提供することが可能になる。 閾値推定手段5の機能構成ブロックの各ブロックの動作を順に説明する。 【0031】 〔ヒストグラム算出部〕 ヒストグラム算出部30の動作フローを図4に示す。チャネル間パラメータ値差ΔLev(ωi)がチャネル間レベル値差ΔLev(ωi)の場合であり、このチャネル間レベル値差ΔLev(ωi)は、上記したように一般の会議室であれば、−20dB〜20dBの範囲に分布するので、ヒストグラムの階級を例えば1dBとしてΔLev(ωi)のヒストグラムを算出する。 【0032】 フレームごとに単純に頻度を加算するだけでは、過去のフレームの情報が残ってしまい、瞬間瞬間の発話状態をヒストグラムに反映することができなくなる。そこで、フレーム毎に過去の頻度の値が一律に小さくなるように1以下の、例えば0.7をヒストグラムの各階級に乗算する処理を行う。その処理を図4のステップS40〜S43に示す。ステップS42に示すhmat0[h]が、階級hのヒストグラムの頻度である。0.7を乗算する場合は、7フレーム処理すると、7フレーム前のチャネル間パラメータ値差ΔLev(ωi)の頻度を約10分の1に減少させることになる。このように過去の発話状態に影響されることなくヒストグラムを算出することが可能となる。 【0033】 次に−20dB〜20dBに分布するチャネル間パラメータ値差ΔLev(ωi)のヒストグラムを算出する。ヒストグラムはチャネル間パラメータ値差ΔLev(ωi)の帯域毎に頻度を累積してもよいが、図4のフローチャートが複雑になって分かり難くなるので、ここでは、図3中に破線で示すレベル差帯域間平滑部35でチャネル間パラメータ値差、この例ではチャネル間レベル値差ΔLev(ωi)を帯域間で平滑化し、その平滑化後のチャネル間レベル差ΔLev00を用いてヒストグラムを算出する場合を説明する。平滑化後のチャネル間レベル差ΔLev00を式(2)に示す。 【数2】
【0034】 その処理を図4のステップS44〜S48に示す。hはヒストグラムの階級を表す。0≦h≦40に対して、平滑化後のチャネル間レベル値差ΔLev00が−20+(h−1)より大で、且つ−20+h以下の値であるかが評価され(アウテップS46)、その各評価ごとにステップS47でヒストグラムの頻度の度数が+1される。このようにしてヒストグラムが算出される。 全帯域間で平滑化したチャネル間レベル差ΔLev00でヒストグラムを算出する例を説明したが、このように全ての帯域のチャネル間パラメータ値差ΔLev(ωi)でヒストグラムを算出しても良いし、音声のパワーの大きな例えば100Hz〜4KHzの範囲、あるいは代表的な複数の帯域について平滑化した値を用いても良い。平滑化することで、雑音等の影響を受け難くすることが出来る。 【0035】 平滑化の方法としては、図3中に破線で示すレベル差フレーム間平滑部36で、帯域間で平滑化したチャネル間レベル差ΔLev00を、更にフレーム間で平滑化しても良い。このフレーム間で平滑化したチャネル間レベル差ΔLev00を式(3)に示す。 【数3】
式(3)はP個のフレーム間で平滑化するものである。このようにフレーム間で平滑化することで、更にヒストグラムを安定して算出することが可能である。これら平滑手段は、図3中に破線で示す様に両者を直列にして用いても良いし、レベル差帯域間平滑部35だけを用いてもよい。 【0036】 また逆に、音声のパワーが比較的に大きな例えば500Hz〜1KHzの特定の帯域を平滑しないで、帯域を限定してヒストグラムを算出しても良い。その場合、安定性はやや劣るが、処理速度を速くする効果がある。 このように帯域別チャネル間パラメータ値差検出手段4が出力するチャネル間パラメータ値差ΔLev(ωi)は、種々の変更が可能である。 そのチャネル間パラメータ値差ΔLev(ωi)のヒストグラムがヒストグラム算出部30で算出されると、次にヒストグラム最大階級算出部31が動作する。 【0037】 〔ヒストグラム最大階級算出部〕 ヒストグラム最大階級算出部31は、ヒストグラム算出部30で算出されたヒストグラムが最大値をとる階級SSを算出する。ヒストグラム最大階級算出部31の動作フローを図5に示す。 ステップS50で変数hとXXを0に初期化する。ステップS52で、ヒストグラムの階級0〜40の頻度が順に読み出され、その都度、頻度hmat0[h]は、変数ddata0に代入される。そして変数ddata0は、その都度、ヒストグラムの最大値であるXXと比較され、ddata0がXXより大きい場合にXXはddata0に書き換えられる(ステップS54)。そして、この時のヒストグラムの階級を表すhがSSに代入される(ステプS55)。 この動作をhが40になるまで繰り返す(ステップS51〜S56)と、ヒストグラムの最大値をとる階級を表す変数SS=ヒストグラムが最大値をとる階級hとなる。ヒストグラムの最大頻度の階級を表す変数SSが確定すると、ヒストグラム最大階級保存部32が動作する。ヒストグラム最大階級算出部31は、フレーム毎に動作する。 【0038】 〔ヒストグラム最大階級保存部〕 ヒストグラム最大階級保存部32は、ヒストグラム最大階級を複数個保存する。保存する個数は、音源方向領域を区別する数と同じ、または、1〜2個多い位の値で良い。例えば、音源方向領域を3分割する場合には、保存する個数は3乃至5個程度でよい。 【0039】 ヒストグラム最大階級保存部32の動作フローを図6に示す。SSはフレーム毎に書き換わる可能性があり、そのSSは時系列にSmax1、Smax2、Smax3の順番でシフトして記憶される(ステップS60、S61、S62)。そして、最初のSSとその次のSSがステップS63で比較され、Smax3とSmax2が等しく無いとき、すなわち、異種の音源が存在することが確認されると、音源位置偏り判定部33が動作する。帯域分割手段3において周波数分析された各帯域の出力信号は、主として一つの音響信号成分になる程度に細かく分割されているので、SSが異なるということは異なる音源であることを意味する。 【0040】 つまり、ヒストグラム最大階級算出部31は、ヒストグラムの最大階級を出力するので一回に出力する階級は、一人の発話者(音源)に対するものである。しかし、他の発話者が発言すると、ヒストグラム最大階級算出部31は異なる階級をヒストグラム最大階級保存部32に出力する。2人の発話者が同時に発話する場合は、一般的に極短時間であり、ある程度の時間に渡って収音すれば各音源(発話者)Ls,Cs,Rsに対応した1個のヒストグラムの階級を得ることになる。したがって、異なる2人が続けて発話すると時間的にずれて2個最大階級を得ることが出来る。 Smax3=Smax2の場合は、1個の音源しか存在しないので、次のフレームの処理へ移行して(ステップS63)、図4〜図6の動作を繰り返す。 【0041】 〔音源位置偏り判定部〕 図7に音源位置偏り判定部33と閾値算出部34の動作フローを示す。Smax3≠Smax2ということは、音源が2個観測されたことを意味する。そしてそのSmax3とSmax2の値から、音源の位置を推定することが出来る。Smax3及びSmax2が例えば5dB以上20dB未満の値のとき、その2個の音源はマイクロホン対して左側に偏っていることを示す。同様に、例えば−20dB以上−5dB以下程度の値の時は、逆に右側に偏っていることを示す。Smax3及びSmax2が例えば−5dBより大きく5dB未満程度の値のときは、2個の音源はマイクロホンに対して真ん中付近に位置していることを示す。 上記した説明では、Smax1乃至Smax3はヒストグラムの階級である0〜40であるが、これはチャネル間パラメータ値差ΔLev(ωi)の−21dB〜20dBに一対一に対応している。図7は、Smax3とSmax2がチャネル間パラメータ値差ΔLev(ωi)であるとして書かれている。 【0042】 2個の音源がマイクロホンに対して左に偏っている場合は、ステップS70でYesと判定され、さらにSmax3とSmax2が2dB以上離れた値であるかがステップS71で判定される。この2dBは、一般的な会議室において、マイクロホンと発話者の距離を50cm〜1mとした場合に、横に並んだ発話者間の間隔の約60cmに相当する値である。したがって、Smax3とSmax2が2dB以上離れていればその間で音源方向領域を区切った方が良いので、音源方向領域をマイクロホンから見て左側の音源方向領域Lfと中央の音源方向領域Cfとの間を区別する閾値LevTh1を、Smax3とSmax2の間(LevTh1=(Smax3+Smax2)/2)の値に設定する(ステップS72)。この場合は、音源方向領域Cfと右側の音源方向領域Rfとを区別する閾値LevTh2は、図2のステップS20で設定された初期値のままにして、次のフレームの処理に移行する。 【0043】 2個の音源がマイクロホンに対して右に偏っている場合は、ステップS73でYesと判定され、左側と同様にSmax3とSmax2が2dB以上離れているか否かがステップS74で判定され、2dB以上の差があれば音源方向領域Cfと音源方向領域Rfとを区分けする閾値LevTh2が、Smax3とSmax2の間(LevTh2=(Smax3+Smax2)/2)の値に設定される(ステップS75)。この場合は、音源方向領域Cfと左側の音源方向領域Lfとを区分けする閾値LevTh1は、初期値のままにして、次のフレームの処理に移行する。 【0044】 2個の音源がマイクロホンに対して中央付近に偏っている場合は、ステップS76でYesと判定される。中央付近に2個の音源が偏っている場合には、それぞれを音源方向領域Lfと音源方向領域Rfに区別する必要から、上記した2dBの倍の4dBの差をSmax3とSmax2が持つかが、ステップS77で評価される。Smax3とSmax2との差が4dB未満の時は、両閾値LevTh1,LevTh2は更新されない。 【0045】 4dB以上の差がある場合は、ステップS78でSmax3とSmax2の大小関係が評価される。Smax3がSmax2より大きければSmax3の音源は、マイクロホンに対して左側に位置するので閾値LevTh1を例えばSmax3より1小さな値(dmax1=1)に設定する(ステップS79)。そして閾値LevTh2を例えばSmax2より1大きな値(dmin1=1)に設定する(ステップS80)。こうすることで、Smax3の音源は音源方向領域Lfに、Smax2の音源は音源方向領域Rfに区別される。 Smax2がSmax3より大きい場合は、Smax2の音源がマイクロホンに対して左側に位置するので、閾値LevTh1,LevTh2は逆に操作される(ステップS81、S82)。この場合は、Smax2の音源が音源方向領域Lfに、Smax3の音源が音源方向領域Rfに区別される。 【0046】 以上、音源が2個の場合で説明したが、次に音源が3個の場合について簡単に説明する。音源が3個の場合も2個の場合と考え方は同じである。 3個の音源がマイクロホンに対して左に偏っている場合は、Smax3、Smax2、Smax1の中の最大値と最小値の間に、音源方向領域Cfと音源方向領域Rfとを区別する閾値LevTh1を式(4)に示すように設定する。 LevTh1=(max(Smax1,Smax2,Smax3)+min(Smax1,Smax2,Smax3))/2 式(4) この時、音源方向領域Cfと音源方向領域Rfを区別する閾値LevTh2は初期値のままとされる。 【0047】 3個の音源がマイクロホンに対して右に偏っている場合は、今までの説明で明らかであるので説明は省略する。 3個の音源がマイクロホンに対して中央付近に偏っている場合は、Smax3、Smax2、Smax1の中の最大値に当たるものが、マイクロホンに対して最も左側に位置する音源である。したがって、音源方向領域Cfと音源方向領域Lfを区別する閾値LevTh1を、式(5)に示す様にその最大値よりも例えば1小さな値に設定する。例えばdmax1=1とする。 【0048】 そして音源方向領域Cfと音源方向領域Rfを区別する閾値LevTh2を、式(6)に示す様にその最大値よりも例えば1大きな値に設定する。 LevTh1=max(Smax1,Smax2,Smax3)−dmax1 式(5) LevTh2=min(Smax1,Smax2,Smax3)+dmax1 式(6) このようにすると、Smax3〜Smax1の中の最大値を示す音源は音源方向領域Lfに、最小値を示す音源は音源方向領域Rfに、中間の値を示す音源は音源方向領域Cfにそれぞれ区別される。 以上述べたように閾値推定手段5が動作することで、逐次連続的に音源方向領域を区別する閾値LevTh1とLevTh2が更新される。 【0049】 〔音源信号判定手段〕 音源信号判定手段6及び重み乗算手段7及び音源信号合成手段8の動作は、従来技術で説明した非特許文献1に開示された発明と同一であるので、説明は簡単に行う。 音源信号判定手段6の動作フローを図8に示す。音源信号判定手段6は、閾値推定手段5で逐次更新される閾値を用いて、帯域別チャネル間パラメータ値差検出手段4が出力する帯域(ωi)ごとのチャネル間パラメータ値差ΔLev(ωi)を評価し、各帯域がいずれの音源の信号を主に含むか判定する。 【0050】 チャネル間パラメータ値差ΔLev(ωi)は、ループ83でΔLev(ω1)〜ΔLev(ωN)まで掃引され、iが更新される度にΔLev(ωi)が閾値LevTh1より大きいかが判定され(ステップS84)、大きければステップS85でその帯域(ωi)は音源Lsの音を主に含むと判定される(Res(ωi)=L、ステップS85)。 ステップS84でΔLev(ωi)が閾値LevTh1より小さいと判定されると、次にステップS86で閾値LevTh2より小さいか判定され、小さい場合その帯域(ωi)は音源Rsの音を主に含むと判定される(Res(ωi)=R、ステップS87)。 ステップS86でΔLev(ωi)が閾値LevTh2より小さく無いと判定された帯域は、音源Csの音を主に含むと判定される(Res(ωi)=C、ステップS88)。 音源方向領域が判定された全帯域(ω1)〜(ωN)の判定結果Res(ω1)〜Res(ωN)は重み乗算手段7に出力される。 【0051】 〔重み乗算手段〕 実施例1の場合、重み乗算手段7は、音源信号判定手段6の出力する帯域毎の判定結果に基づき、3個の拡声手段9a〜9cそれぞれに対する出力用音源帯域信号を生成する。 重み乗算手段7の動作フローを図9に示す。 収音信号XL(n)とXR(n)を、帯域分割手段3で周波数帯域信号に変換・分割したXL(ωi),(i=1,…,N)とXR(ωi),(i=1,…,N)の各帯域の信号に対して、音源信号判定手段6から同一帯域の判定結果Res(ω1)〜Res(ωN)を参照して出力用音源帯域信号を生成する。 【0052】 重み付けは、XL(ωi)とXR(ωi)のどちらの方に高いSNで受音されているかに依存する。例えば、音源Lsからの音は、マイクロホンMLに近いのでXL(ωi)の方のSN比が高くなる。したがって、ステップS90で音源方向領域がRes(ωi)=Lと判定された帯域XL(ωi)は、そのまま、つまり重みとしては1とされ、聴取者から見て左側に配置される拡声手段9a用の出力音源帯域信号YL(ωi)=XL(ωi)とされる(ステップS91)。 【0053】 聴取者から見て右側に配置される拡声手段9c用の同帯域の出力音源帯域信号YR(ωi)は、音源Lsからの音を主に含まないので、XL(ωi)に対する重みを0にしても良いが、そうすると出力音源帯域信号YRのその帯域の周波数成分が無くなるために歪が生じ易くなる。そこでXR(ωi)に対する重み値αを例えば0.1や0.3程度として出力音源帯域信号YR(ωi)を生成する(ステップS92)。 聴取者から見て中央に配置される拡声手段9b用の同帯域の出力音源帯域信号YC(ωi)は、マイクロホンMLとMRに同じ大きさで受音されるため、XL(ωi)とXR(ωi)に重み値αの半分の値を乗算して出力音源帯域信号YC(ωi)を生成する(ステップS93)。 【0054】 ステップS94で音源方向領域がRes(ωi)=Cと判定された帯域の出力音源帯域信号YL(ωi)とYR(ωi)には、重み値αが乗算される(ステップS95とS97)。YC(ωi)については、マイクロホンMLとMRにほぼ同じ大きさで受音されるためXL(ωi)とXR(ωi)を、2分の1した値を用いる(ステップS96)。 音源方向領域がRes(ωi)=Rと判定された帯域については、Res(ωi)=Lと判定された場合と同じ考え方で、上記したRes(ωi)=Lの場合のYL(ωi)とYR(ωi)の関係が逆転する。 【0055】 以上のように重み付けされて、拡声手段9a用の出力音源帯域信号YL(ωi)がL出力用音源帯域信号生成部7aで生成される。拡声手段9b用の出力音源帯域信号YC(ωi)と、拡声手段9c用の出力音源帯域信号YR(ωi)は、それぞれC出力用音源帯域信号生成部7b、R出力用音源帯域信号生成部7cで生成される。生成された各拡声手段9a〜9cの出力用音源帯域信号は音源信号合成手段8に出力される。 【0056】 〔音源信号合成手段〕 音源信号合成手段8は、各拡声手段9a〜9c用に重み付けされた出力音源帯域信号を時間波形に変換して各拡声手段9a〜9cに出力する。L出力用音源帯域信号生成部7aで重み付けされたL出力用音源帯域信号YL(ωi),(i=1,…,N)は、L音源信号合成部8aで逆フーリエ変換により時間波形に戻され、聴取者の左側前方に配置される拡声手段9aの駆動信号とされる。 【0057】 C出力用音源帯域信号生成部7bで重み付けされたC出力用音源帯域信号YC(ωi),(i=1,…,N)は、C音源信号合成部8bで逆フーリエ変換により時間波形に戻され、聴取者の中央前方に配置される拡声手段9bの駆動信号とされる。 R出力用音源帯域信号生成部7cで重み付けされたR出力用音源帯域信号YR(ωi),(i=1,…,N)は、R音源信号合成部8cで逆フーリエ変換により時間波形に戻され、聴取者の左側前方に配置される拡声手段9cの駆動信号とされる。 【0058】 以上述べたように閾値推定手段5が、複数の音源間で音源方向領域を区別する閾値に更新するので、2個のマイクロホンを複数の音源に対して左右非対称の位置に置かれたり、又は発話者が移動して隣接する音源方向領域に複数の音源が分布するような状態になっても、音源方向領域を区別することができるので、聴取者に発話者の位置に対応した音像定位感を提供することが出来る。 【実施例2】 【0059】 帯域別チャネル間パラメータ値差として、レベル差又は位相差のどちらでも良いことは既に述べたが、2個のマイクロホンの間隔が狭いとチャネル間パラメータ値差をレベル差で測定することが難しくなる。 例えば無指向性マイクを2本用い、2本のマイクの間隔を広げられない場合は、信号の差がレベル差に現れ難くなる。一方、マイクロホンの間隔が音の1波長を越えない周波数帯においては、位相の方が信号の差を求め易い。 そこで低い周波数帯域では位相差、高い帯域ではレベル差をチャネル間パラメータ値差として用いるこの発明の実施例2を図10に示す。図10は先に説明した実施例1の動作フローに対して、帯域別チャネル間パラメータ値差検出処理S22が低い帯域では位相差で、高い帯域ではレベル差で行われる点だけが異なる。位相差とレベル差を切替える帯域は、マイクロホンMLとMRの間隔に依存する。 【0060】 音速を340m/Sとすると周波数1KHzの音の波長は34cmである。マイクロホンMLとMRの間隔を例えば34cmにすると、1KHz以上の音は1波長以上含まれてしまうので、位相差は使い難くなる。そこで、2個のマイクロホンの間隔に相当する波長よりも、小さな波長の高い周波数帯はレベルでチャネル間パラメータ値差を算出し、それよりも大きな波長の低い周波数帯は位相でチャネル間パラメータ値差を算出する。 その切替えを、マイクロホンMLとMRの間隔に相当する周波数の帯域を所定値に設定してステップS221で行うことで、低い周波数帯域は位相差検出(ステップS222)、高い周波数帯域はレベル差検出(ステップS223)でチャネル間パラメータ値差が算出される。 このように周波数帯域によって、チャネル間パラメータ値差の算出方法を切替えることによって、音源方向領域の検出精度を高めることが可能である。 【0061】 〔評価実験〕 この発明の音像定位強調再生方法で、音源方向領域を適切に分割でき、良好な定位感が得られるかを調べるために主観評価実験を行った。 【0062】 〔実験条件〕 残響時間が300msの屋内に、3個の音源を横一列に互いに70cm離して配置し、2個のバウンダリーマイクロホンを使用した。被験者は、3個の音源に対応する位置に配置された左右のスピーカを両端として、その間を5分割した箇所に貼られたラベルを目安に、音像が聞こえて来た位置をそのラベルを選択して回答した。音源は、16bit32KHzサンプリングで収録された男性話者2名、女性話者1名の音声(各5秒程度)をスピーカから再生して行い、繰り返し回数は4回とした。被験者は聴力の正常な男性4名、女性4名である。 【0063】 「基準特性」を、従来方法で閾値LevTh1=2dB、LevTh2=−2dBの固定とし、3個の音源の中央の音源に正対して50cmの距離離れて、音源と並行に左右対称の位置に2個のマイクロホンを配置した場合とした。 「従来方法」として、図13に示したように右側の音源方向に2個のマイクロホンを12.5cm並行に移動させ、かつ、閾値もLevTh1=2dB、LevTh2=−2dBの固定にした場合とした。 「この発明」として、マイクロホンの位置を従来方法と同じ音源に対して左右非対称の位置とした状態で、閾値推定処理を行わせた場合とした。 【0064】 〔実験結果〕 実験結果を図11に示す。横軸は音源位置を示し、縦軸は被験者から見て右側を+、左側を−として得られた回答を距離で示す。「基準特性」は、音源位置と受聴位置が一致している。「従来方法」は、中央の音源の音が左側のスピーカから大きく再生されるため、受聴者には中央の音源からの音が左側から発せられたように聞こえてしまう。この「従来方法」の実験では、中央の音源の位置が左側のマイクロホンに近いために、従来の閾値固定による音源方向強調処理によって、左側のスピーカから中央の音源の音が強調されて再生されるからである。 【0065】 「この発明」では、マイクロホンの位置を左右非対称の位置に配置しても音源位置と受聴位置が一致している。図11では「基本特性」の記号×と「この発明」の記号◆とが重なっている。これは、閾値推定手段が閾値を更新することにより「従来方法」で左側の音源方向領域と判定された中央の音源が、本来の中央の音源方向領域にあると判定されるからである。 このようにこの発明の音像定位強調再生方法は、有効であり、マイクロホンの配置が音源に対して左右対称の位置に配置されなくとも、良好な音像定位感を聴取者に提供することが出来る。 【0066】 なお、実施例1では閾値推定手段5を逐次連続的に動作する例で説明したが、この発明はこの実施例に限定されない。音像定位強調再生装置の電源を入れた時や、マイクロホンの配置を変えた時に一度だけ閾値推定手段5を動作させるようにしても良い。 なお、帯域別チャネル間パラメータ値差としては、レベル差を例に説明を行ったが、周波数分析の結果で振幅と同時に得られる位相スペクトルからチャネル間位相差Δang(ωi)=angXL(ωi)−angXR(ωi)を求め、これを帯域別チャネル間パラメータ値差としても良い。上記したようにマイクロホンの配置と音源配置との関係は位相差でも得られるので、帯域別チャネル間パラメータ値差検出手段4はレベル差の場合と同様の考え方で実現することが可能である。 【0067】 以上の各実施例の他、この発明である各装置及び方法は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。 また、上記各装置における処理機能をコンピュータによって実現する場合、音像定位強調再生装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記音像定位強調再生装置における処理機能がコンピュータ上で実現される。 【0068】 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記憶媒体に記憶しておくことができる。コンピュータで読み取り可能な記憶媒体としては、例えば、磁気記憶装置、光ディスク、光磁気記憶媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記憶装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記憶媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 【0069】 また、このプログラムの流通は、例えば、そのプログラムを記憶したDVD、CD−ROM等の可搬型記憶媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記憶媒体に記憶されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記憶媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、この形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 【0070】 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 【図面の簡単な説明】 【0071】 【図1】この発明の音像定位強調再生装置の実施例1の機能構成ブロックを示す図。 【図2】実施例1の音像定位強調再生装置の全体の動作フロー図。 【図3】閾値推定手段5の機能構成ブロックを示す図。 【図4】ヒストグラム算出部30の動作フロー図。 【図5】ヒストグラム最大階級算出部31の動作フロー図。 【図6】ヒストグラム最大階級保存部32の動作フロー図。 【図7】音源位置偏り判定部33と閾値算出部34の動作フロー図。 【図8】音源信号判定手段6の動作フロー図。 【図9】重み乗算手段7の動作フロー図。 【図10】この発明の音像定位強調再生装置の実施例2の動作フロー図。 【図11】この発明の主観評価実験の結果を示す図。 【図12】非特許文献1に開示された従来の収音装置を示す図。 【図13】横一列に並んだ3人の発話者La、Cb、Rcに対して、2個のマイクロホンが左右非対称に配置された場合の例を示す図。
|
| 【出願人】 |
【識別番号】000004226 【氏名又は名称】日本電信電話株式会社
|
| 【出願日】 |
平成18年8月29日(2006.8.29) |
| 【代理人】 |
【識別番号】100121706 【弁理士】 【氏名又は名称】中尾 直樹
【識別番号】100066153 【弁理士】 【氏名又は名称】草野 卓
【識別番号】100128705 【弁理士】 【氏名又は名称】中村 幸雄
|
| 【公開番号】 |
特開2008−60725(P2008−60725A) |
| 【公開日】 |
平成20年3月13日(2008.3.13) |
| 【出願番号】 |
特願2006−232598(P2006−232598) |
|