| 【発明の名称】 |
収音装置 |
| 【発明者】 |
【氏名】▲高▼橋 拓弥
|
| 【要約】 |
【課題】収音した音声から、装置周囲の任意の位置に存在する話者の音声だけを的確に話速変換し、背景音は話速変換しない収音装置を提供する。
【構成】音声信号処理部4は、各マイク2で収音した音声信号に所定の遅延を付与し、マイク2の周囲に収音ビームを形成する。コントローラ8は、最もレベルの高い収音ビームに対応する領域に基づいて、話者の存在領域を示す情報(話者位置情報)を生成し、これを記憶部3に出力して記録させる。話者位置情報に対応する収音ビームを話者音声信号として話速変換部5に出力し、これ以外の収音ビームを背景音声信号としてミキサ6に出力する。これにより、話者の音声だけを話速変換し、背景音は話速変換しないで音声を放音、録音することができる。 |
【特許請求の範囲】
【請求項1】 複数のマイクを配列してなるマイクアレイと、 複数のユーザ方向に対して収音ビームを形成するとともに、該収音ビーム強度を比較することで話者方位を同定する収音制御部と、 前記話者方位の収音ビームを発話音声信号として選択するとともに、話者方位の収音ビーム以外の収音ビームを背景音声信号として選択する音声信号選択手段と、 前記発話音声信号を話速変換する話速変換手段と、 前記話速変換手段で変換された発話音声信号と、前記音声信号選択手段が選択した背景音声信号と、をミキシングするミキサと、 を備えた収音装置。 【請求項2】 前記音声信号選択手段は、前記発話音声信号として選択した収音ビーム以外の方向ついて、所定レベル以上の収音ビームが存在する場合、その方向の収音ビームのみを背景音声信号として選択する請求項1に記載の収音装置。 【請求項3】 前記音声信号選択手段は、前記発話音声信号として選択された収音ビームと、前記発話音声信号として選択された収音ビームに隣接する方向の収音ビームと、の差分信号を発話音声信号として前記話速変換手段に入力する請求項1、または請求項2に記載の収音装置。 【請求項4】 前記収音制御部が形成した複数の収音ビームから発話音声の音声信号を抽出する発話音声信号抽出手段をさらに備え、 前記収音制御部は、複数の収音ビームのうち最もレベルが高く、かつ前記発話音声信号抽出手段が発話音声の音声信号を抽出した収音ビームの方向を話者方位と判定する請求項1、請求項2、または請求項3に記載の収音装置。
|
【発明の詳細な説明】【技術分野】 【0001】 この発明は、会議などに用いられ、会議参加者の発話音声を収音する収音装置に関するものである。 【背景技術】 【0002】 従来から、入力音声信号を時間軸に伸長し、話速変換をすることで、発言内容を聴きとり易くする装置が提案されている。しかし、入力音声信号を伸長すると、話者の音声以外の音(例えばBGM)も同時に伸長されてしまう。また、話者の音声が入力されていない場合にもBGMが伸長されてしまう。聴者が、話者の音声と同時に(並行して)そのBGMも聞いている場合、BGMまで伸長されてしまうと、元の楽音の雰囲気を感じることができないという問題が発生する。 【0003】 そこで、入力音声信号を分析し、話者音声と判断した場合にのみ話速変換処理を行う装置が提案されている(例えば特許文献1参照)。 【0004】 また、マイクを複数設置し、各マイクから距離が等しい地点からの(同位相の)収音音声を発話音声とし、それ以外の収音音声を背景音として分離する装置が提案されている(例えば特許文献2参照)。 【0005】 また、音声と背景音を独立した複数のチャンネルで扱い、音声チャンネルのみ話速変換処理を行うように構成した装置も提案されている(例えば特許文献3参照)。 【特許文献1】特開2000−152394号公報 【特許文献2】特開2005−208173号公報 【特許文献3】特開2004−244081号公報 【発明の開示】 【発明が解決しようとする課題】 【0006】 しかしながら、特許文献1の装置では、発話音声と同タイミングで収音される背景音については、発話音声と同様に話速変換されてしまうという問題が有った。 【0007】 また、特許文献2の装置では、各マイクからの距離が等しい地点からの音声しか発話音声として処理できないため、この地点以外に発話者が存在した場合に、その話者の音声について話速変換できないという問題点が有った。 【0008】 また、特許文献3の装置では、録音するときに発話音声と背景音を別チャンネルで録音する必要があり、発話者には特定チャンネルに割り当てられたマイクに対し発声する必要があった。 【0009】 本発明は、収音した音声から、装置周囲の任意の位置に存在する話者の音声だけを的確に話速変換し、背景音は話速変換しない収音装置を提供することを目的とする。 【課題を解決するための手段】 【0010】 この発明の収音装置は、複数のマイクを配列してなるマイクアレイと、 複数のユーザ方向に対して収音ビームを形成するとともに、該収音ビーム強度を比較することで話者方位を同定する収音制御部と、前記話者方位の収音ビームを発話音声信号として選択するとともに、話者方位の収音ビーム以外の収音ビームを背景音声信号として選択する音声信号選択手段と、前記発話音声信号を話速変換する話速変換手段と、前記話速変換手段で変換された発話音声信号と、前記音声信号選択手段が選択した背景音声信号と、をミキシングするミキサと、を備えたことを特徴とする。 【0011】 この発明では、各マイクの収音音声信号にそれぞれ所定の遅延を付与し、特定の方向に強い指向性を有する収音ビームを複数形成する。これらの収音ビームのレベルを比較することで話者方位を同定する。例えば、最もレベルが高い収音ビームの方向を話者方位とする。話者方位の収音ビームを発話者音声信号として、これを話速変換してからミキサに出力し、他の方向の収音ビームは話速変換せずにそのままミキサに出力する。 【0012】 また、この発明の収音装置は、前記音声信号選択手段は、前記発話音声信号として選択した収音ビーム以外の方向ついて、所定レベル以上の収音ビームが存在する場合、その方向の収音ビームのみを背景音声信号として選択することを特徴とする。 【0013】 この発明では、発話者が存在すると判定した方向以外に高いレベルの収音ビームが存在する場合、その方向に背景音声の音源が存在するとして、その方向の収音ビームを背景音声信号としてミキサに出力する。これにより、背景音声についても的確に収音することができる。 【0014】 また、この発明の収音装置は、前記音声信号選択手段は、前記発話音声信号として選択された収音ビームと、前記発話音声信号として選択された収音ビームに隣接する方向の収音ビームと、の差分信号を発話音声信号として前記話速変換手段に入力することを特徴とする。 【0015】 この発明では、発話者音声信号として選択した収音ビームから、隣接する方向の収音ビームを差分する。これにより、発話者音声信号として選択した収音ビームに含まれていた背景音声のレベルを低減し、より的確に発話者の音声のみを話速変換することができる。 【0016】 また、この発明の収音装置は、前記収音制御部が形成した複数の収音ビームから発話音声の音声信号を抽出する発話音声信号抽出手段をさらに備え、前記収音制御部は、複数の収音ビームのうち最もレベルが高く、かつ前記発話音声信号抽出手段が発話音声の音声信号を抽出した収音ビームの方向を話者方位と判定することを特徴とする。 【0017】 この発明では、各収音ビームから発話音声の音声信号を抽出する。例えば収音ビームの音声特徴量を抽出し、予め記憶してある発話音声の音声特徴量と比較し、一致すれば発話音声と推定する。収音制御部は、最もレベルが高く、かつ発話音声と推定される音声信号が含まれる収音ビームについて発話者音声信号として選択するので、より的確に発話者の音声のみを話速変換することができる。 【発明の効果】 【0018】 この発明によれば、マイクアレイにより形成した収音ビームで発話者の方向を判定し、発話者の方向に対する収音ビームについてのみ話速変換し、他の方向の収音ビームについてそのまま出力することで、発話者の音声だけを的確に話速変換し、背景音は話速変換しないで音声を収音することができる。 【発明を実施するための最良の形態】 【0019】 図面を参照して、本発明の実施形態に係る放収音装置について説明する。この放収音装置は、会議において、拡声機、録音機等として用いられる。図1は、放収音装置の構成を示すブロック図である。同図に示すように、この放収音装置は、スピーカ1、複数のマイク2A〜2M、記憶部3、音声信号処理部4、話速変換部5、ミキサ6、録音・再生部7、コントローラ8、および入出力I/F9を備えている。 【0020】 複数のマイク2A〜2Mは、一定の間隔で直線状(またはマトリクス状、ハニカム状)に配列され、マイクアレイを構成する。各マイク2は、一般的にはダイナミックマイクを用いるが、コンデンサマイク等、その他の形式を用いてもよい。また、マイク配列個数、配列間隔は、この放収音装置を設置する環境や、必要とする周波数帯域等により適宜設定する。 【0021】 マイク2A〜2Mの周囲のある位置で音声が発せられると、各マイク2がこれを収音する。マイク2は、収音した音声から音声信号を音声信号処理部4に出力する。なお、図1においてはフロントエンドのアンプやアナログ音声信号をディジタル音声信号に変換するA/D変換器等は省略している。各マイク2から出力される音声信号は、音声信号処理部4にて合成され、話速変換部5、またはミキサ6に出力される。音声信号処理部4は、コントローラ8の指示に従って、各マイク2から出力された音声信号を選択的に出力する。各マイク2で音声を収音した際、音声は各マイク2と音源との距離に応じた伝搬時間で伝搬されるので、各マイク2では収音タイミングに時間差が生じる。 【0022】 ここで、例えば全てのマイク2に前方から同タイミングで音波が到来したとすると、各マイク2から出力された音声信号は、合成によって強められる。一方で、これ以外の方向から音波が到来すると、各マイク2から出力される音声信号はそれぞれ位相が異なるために合成されることによって弱められる。したがって、アレイマイクの感度はビーム状に絞り込まれて前方にのみ主感度(収音ビーム)を形成する。 【0023】 音声信号処理部4は、各マイク2が出力した音声信号にそれぞれ所定の遅延時間を付与することで収音ビームを斜めに向けることができる。収音ビームを斜めにする場合、一方の端部マイク2から所定時間が経過する毎に順次隣のマイク2から音声信号を出力するように設定する。例えば音源がマイクアレイの一方の端部前方に存在する場合、音源に最も近い一方の端部から音波が到来し、反対の端部に最後に音波が到来するが、音声信号処理部4は、この伝搬時間差を補正するように各マイク2の音声信号に遅延時間を付与した後合成する。これにより、この方向の音声信号を合成によって強められる。したがって、一列に並んでいるマイク2から出力する音声信号を一端から他端に向けて順次遅延することにより、収音ビームは、その遅延時間に応じて傾斜する。 【0024】 また、この収音ビームは複数を同時に形成することも可能である。図2は、音声信号処理部4のうち、マイク2に接続される主要部の構成を示すブロック図である。マイク2A〜2Mは、それぞれ音声信号処理部4のディジタルフィルタ41A〜41Mに接続される。マイク2A〜2Mで収音した音声は、ディジタル音声信号としてディジタルフィルタ41A〜41Mに入力される。なお、図2においては、ディジタルフィルタ41A〜41Mの内、ディジタルフィルタ41Aについてのみ詳細なブロック図を図示するが、他のディジタルフィルタ41B〜41Mについても同様の構造であり、同様の動作を行うものである。 【0025】 ディジタルフィルタ41Aは、複数段の出力を有するディレイバッファ42Aを備えている。ディレイバッファ42Aの各段の遅延量は、マイクアレイのマイク2の配置、およびマイクアレイ前方の領域(発話者を検出する領域)に応じて設定される。この例においてディレイバッファ42Aは4段の出力を有しており、これらの出力信号がFIRフィルタ431A〜434Aに入力される。 【0026】 ディレイバッファ42Aは、マイク2Aが出力した音声信号に対してそれぞれ異なる遅延時間を付与した音声信号を各段にバッファし、FIRフィルタ431A〜434Aに各遅延音声信号を出力する。ここでFIRフィルタ431A〜434Aに出力する遅延音声信号は、マイクアレイ前方の各領域に対応するものである。図3は音源方向検出方法の例を示す図である。同図(A)は音源とマイクとの位置関係と、音源から発生した音が各マイクで収音される際のディレイとの関係を示した図であり、同図(B)、(C)は収音された音声信号のディレイに基づくディレイ補正量の形成概念を示す図である。 【0027】 同図に示すように、この放収音装置においてはマイクアレイ前方に4つの部分領域101〜104を設定している。部分領域101で発生した音は最も近いマイク2Aで最初に収音される。そして、部分領域101とマイク2との距離に応じて順に、各マイクで収音され、最も遠いマイク(同図においてマイク2L)で最後に収音される。一方、部分領域104で発生した音は最も近いマイク2Lで最初に収音され、部分領域104とマイク2との距離に応じて順に、各マイクで収音され、最も遠いマイク2Aで最後に収音される。このように、各領域で発生する音はマイクとの距離に応じた遅延時間(ディレイ)で収音される。 【0028】 ここで、部分領域101に対しては、図3(B)に示すように、各マイク2A〜2Lで収音される音声信号を遅延処理する。すなわち、図3(A)に示すディレイを補正するように対応するディレイ補正量を設定する。一方で部分領域104に対しては、図3(C)に示すように各マイク2A〜2Lで収音される音声信号を遅延処理する。 【0029】 部分領域101に対応する収音ビームを構成するための遅延音声信号がディレイバッファ42Aにおいて生成され、FIRフィルタ431Aに出力される。また、部分領域102に対応する収音ビームを構成するための遅延音声信号がFIRフィルタ432Aに出力される。同様に、部分領域103に対応する収音ビームを構成するための遅延音声信号がFIRフィルタ433Aに出力され、部分領域104に対応する収音ビームを構成するための遅延音声信号がFIRフィルタ434Aに出力される。これらの遅延音声信号の遅延量は、図3に示すようにマイク2と各領域との距離に応じて設定される。例えば部分領域101に対応する遅延音声信号は、マイク2Aと部分領域101との距離が近いため遅延量が大きく、部分領域104に対応する遅延音声信号は、マイク2Aと部分領域104との距離が最も遠いために遅延量が小さい。 【0030】 図2において、FIRフィルタ431A〜434Aは全て同じ構成からなり、それぞれに入力された遅延音声信号をフィルタリングして出力する。FIRフィルタ431A〜434Aは、ディレイバッファ42Aでは実現できない詳細な遅延時間を設定することができる。すなわち、FIRフィルタのサンプリング周期とタップ数とを所望の値に設定することにより、例えばディレイバッファ42Aでのサンプリング周期を遅延時間の整数部分とする場合にこの遅延時間の小数点部分を実現することができる。 【0031】 FIRフィルタ431A〜434Aから出力された遅延音声信号は、それぞれのアンプ441A〜444Aで増幅されて、加算器45A〜45Dに入力される。他のディジタルフィルタ41B〜41Mにおいてもディジタルフィルタ41Aと同じ構成からなり、それぞれに予め設定された遅延条件にしたがって遅延音声信号を加算器45A〜45Dに出力する。 【0032】 加算器45Aは、各ディジタルフィルタ41A〜41Mから入力される遅延音声信号を合成して、図3における部分領域101に対応する収音ビームを生成する。同様に、加算器45Bは、各ディジタルフィルタ41A〜41Mから入力される遅延音声信号を合成して、図3における部分領域102に対応する収音ビームを生成し、加算器45Cは、各ディジタルフィルタ41A〜41Mから入力される遅延音声信号を合成して、図3における部分領域103に対応する収音ビームを生成する。また、加算器45Dは、各ディジタルフィルタ41A〜41Mから入力される遅延音声信号を合成して、図3における部分領域104に対応する収音ビームを生成する。 【0033】 各加算器45A〜45Dから出力される収音ビームは、バンドパスフィルタ(BPF)46に出力される。BPF46は、各収音ビームをフィルタリングして所定の周波数帯域の収音ビームをレベル判定部47に出力する。ここで、BPF46は、マイクアレイの幅やマイク2の設置間隔に応じてビーム化される周波数帯域が異なることを利用し、各収音ビームで収音したい音声に対応する周波数帯域を通過帯域に設定する。例えば収音したい音声が話者の発話音声であれば、人の音声帯域に相当する周波数帯域を通過帯域に設定すればよい。 【0034】 レベル判定部47は、各収音ビームのレベルを示す情報をコントローラ8に出力する。コントローラ8は、入力された各収音ビームのレベルを比較し、最もレベルが高い収音ビームを選択する。収音ビームのレベルが高いということは、この収音ビームに対応する領域に音源(話者)が存在することとなり、図3において示した4つの領域に区分した場合における話者の存在領域を検出することができる。 【0035】 ここで、コントローラ8は、最もレベルの高い収音ビームに対応する領域に基づいて、話者の存在領域を示す情報(以下、話者位置情報と言う。)を生成する。なお、コントローラ8は、最もレベルの高い収音ビームのレベル(絶対レベル)が所定の閾値(例えば一般的な発話音声のレベル)未満である場合は、話者が存在しないとして話者位置情報を生成しないようにしてもよい。 【0036】 コントローラ8は、生成した話者位置情報に基づいて、信号選択部48に、話者位置情報に対応する収音ビームを選択してこれを話者音声信号として話速変換部5に出力するように設定する。また、コントローラ8は、信号選択部48に、話者位置情報の示す領域以外の方向に対応する収音ビームのうちいずれかを選択してこれを背景音声信号としてミキサ6に出力するように設定する。なお、コントローラ8は、信号選択部48に、話者位置情報の示す領域以外の方向に対応する収音ビームを複数選択し、これらを合成してミキサ6に出力するように設定してもよい。無論、話者位置情報の示す領域以外の方向に対応する収音ビームを全て合成してミキサ6に出力するようにしてもよい。 【0037】 ここで、各収音ビームのレベルによって、出力される話者音声信号、および背景音声信号には以下の2パターンが考えられる。 (1)背景音が点音源である場合 この場合、話者位置情報の示す領域以外の方向に対応する収音ビームのうちいずれか1つについて、高いレベルを示すものが含まれる。従って、コントローラ8は、各収音ビームのレベルを比較した結果、話者位置情報の示す領域以外の方向に対応する収音ビームのうちいずれか1つに所定値以上のレベル(ただし、上記所定の閾値未満のレベル)を検出した場合、この方向の収音ビームを背景音声信号として出力するように信号選択部48に設定する。 (2)背景音が無定位である場合 この場合、話者位置情報の示す領域以外の方向に対応する収音ビームの複数について高いレベルを示す。従って、コントローラ8は、各収音ビームのレベルを比較した結果、話者位置情報の示す領域以外の方向に対応する収音ビームで、所定数以上(例えば過半数以上)に所定値以上のレベル(ただし、上記所定の閾値未満)を検出した場合、これらの収音ビームのうち最もレベルの高いものを背景音声信号として出力するように信号選択部48に設定する。このとき、話者位置情報に対応する収音ビームにも当該背景音の成分が含まれているため、コントローラ8は、話者位置情報に対応する収音ビームと、隣接する収音ビームとの差分について話者音声信号として出力するように信号選択部48に設定する。 【0038】 以上のようにして、音声信号処理部4は、話者の音声と、それ以外の音声とを分離して後段に出力することができる。 【0039】 なお、図2においては、マイクアレイ前方に4つの部分領域101〜104を設定し、各領域について収音ビームを形成する例を示したが、図2に示したディレイバッファ42の出力段数を増やし、FIRフィルタ、アンプ、加算器をディレイバッファ42の出力段数分設定することで、さらに多数の領域について収音ビームを形成することができる。また、マイクアレイを2列背反に配列し、それぞれの列に図2に示した音声信号処理部を接続することで、各マイクアレイの正面方向に対して収音ビームを形成し、マイクアレイ両面方向(すなわち略360度方向)に収音ビームを形成することも可能である。 【0040】 また、コントローラ8は、各収音ビームから音声特徴量を抽出し、発話音声、楽音音声(例えば歌声等も含まれる)の区別をするようにしてもよい。音声特徴量は、典型的には話者のフォルマント、ピッチ等を表し、音声データをフーリエ変換した周波数スペクトル(パワースペクトル)、およびこのパワースペクトルを対数変換後に逆フーリエ変換したケプストラムから抽出する。発話音声の音声特徴量、楽音音声の音声特徴量を予め記憶部3に記録しておき、各収音ビームの音声特徴量が発話音声の音声特徴量に一致するようであればこれを話者音声信号として選択し、楽音音声の音声特徴量に一致するようであればこれを背景音声信号として選択すればよい。また、レベルの高い収音ビームが複数存在した場合、各収音ビームの音声特徴量を分析し、発話音声の音声特徴量と一致するものについて、発話者の収音ビームとして判定すればよい。 【0041】 なお、会議に先立って、議長などが放収音装置を操作し、各会議参加者に発言してもらうことで事前に話者位置情報を生成し、記憶部3に記録しておくようにしてもよい。この場合、コントローラ8は、会議中には、記憶部3に記憶されている話者位置情報に基づいて、信号選択部48に、話者位置情報に対応する収音ビームを選択してこれを話者音声信号として話速変換部5に出力するように設定する。また、コントローラ8は、信号選択部48に、記憶部3に記憶されている話者位置情報の示す領域以外の方向に対応する収音ビームのうちいずれかを選択してこれを背景音声信号としてミキサ6に出力するように設定する。 【0042】 次に、話速変換部5は、コントローラ8の指示に従って、入力された話者音声信号について話速変換処理を行う。話速変換処理は、単に音声を低速で出力するのではなく、以下のようにして行う。すなわち、話速変換処理は、音声信号を1周期の波形に切りわけ、各周期波形の前後1区間を合成した新たな周期波形を生成し、各周期波形の間に新たに合成した周期波形を挿入することで信号の周期波形数を増やして、音程を保ちつつ信号を時間軸伸長する処理である。 【0043】 図4(A)は伸長処理の手順を示すフローチャートである。また、同図(B)は伸長方法を説明する図である。同図(A)において、まず入力音声信号の先頭部分の1周期のサンプル数(サンプリング周波数×1/信号周波数)を検出する(S91)。この1周期分のサンプルデータである周期波形を2つ取り出して、同図(B)に示すように、1つめの周期波形Aに対して減衰利得係数を乗算することによって減衰波を作成し、2つめの周期波形Bに対して増加利得係数を乗算することによって増加波を作成する(S92)。そして、これらを加算合成することによってAとBの中間の形状の周期波形を合成する(S93)。この合成波形を図5(A)に示すように周期波形Aと周期波形Bとの間に挿入して出力する(S94)することによって音響的に自然な時間軸伸長を行う。 【0044】 なお、音声データを圧縮する場合には、図5(B)に示すように、上記S93で合成したAとBの中間の形状の合成波形を周期波形A,Bに代えて出力することにより、音声データを時間軸方向に1/2倍に圧縮することができる。 【0045】 また、この話速変換処理を行う周期を規定することで、変換速度を可変とすることができる。例えば、図5(C)に示すように、周期毎に周期波形を2つ合成し、各周期波形の間に挿入することで、音声データを時間軸方向に2倍に伸長することができ、同図(D)に示すように、2周期毎に周期波形を2つ合成することで、3/2倍に伸長することができる。 【0046】 また、話速変換は、音声区間の先頭部分(例えば700msec)のみを伸長して、それ以後を通常速度で出力するようにし、必要以上に伸長しないようにする。なお、先頭部分を伸長し、それ以後を圧縮するようにしてもよい。音声区間、雑音区間の区別は、音声信号の周期性から判断すればよい。例えば、音声信号を所定長に分割して対応するサンプルデータを乗算または減算するなどして相関値を算出する。図6に示すように、この相関値が所定閾値よりも低い場合に雑音区間、高い場合に音声区間と判断する。音声等の周期性の多い音声信号の場合相関値は高くなり、雑音等の周期性の少ない音声信号の場合相関値は低くなる。 【0047】 なお、本実施形態では、音声区間の先頭部分700msecについて話速変換する例を示したが、さらに長い区間長を話速変換するようにしてもよいし、短い区間長を話速変換するようにしてもよい。また、話速変換を行う区間中に伸長率を変更するようにしてもよい。例えば、区間長が700msecであった場合に、最初の600msecを2倍伸長、続く100msecを3/2倍伸長といった伸長率で話速変換するようにしてもよい。 【0048】 以上のようにして話速変換部5で話速変換された話者音声信号は、ミキサ6に入力され、ミキサ6において音声信号処理部4から入力される背景音声信号とミキシングされる。このミキシングされた音声信号が録音・再生部7に入力される。録音・再生部7は、入力された音声信号をスピーカ1、および入出力I/F9に供給するとともに、音声信号を音声データ(例えばMP3等の圧縮データ)に変換して記憶部3に入力する。また、録音・再生部7は、記憶部3に記録されている音声データを読み出し、この音声データに基づく音声信号をスピーカ1、および入出力I/F9に供給する。 【0049】 スピーカ1は、録音・再生部7から入力された音声信号を放音する。スピーカ1には、一般的にはコーン型スピーカを用いるが、ホーン型スピーカ等、その他の形式を用いてもよい。なお、図1においては、ディジタル音声信号をアナログ音声信号に変換するD/A変換器や信号を増幅するアンプ等は省略している。 【0050】 記憶部3は、録音・再生部7から入力された音声データを記録する。また、上述したようにコントローラ8から入力される話者位置情報も記録する。 【0051】 これにより、放収音装置が収音した音声のうち、発話者の音声のみが話速変換され、背景音は話速変換されずにそのまま放音、または録音される。 【0052】 入出力I/F9は、音声信号を他の機器に供給する。入出力I/F9は、供給先の機器に応じたインタフェースを備えており、例えば音声信号をネットワーク送信に適した情報に変換し、ネットワークインタフェース、およびネットワークを介して接続される他の放収音装置に音声信号を出力する。また、入出力I/F9は、ネットワークを介して接続される他の放収音装置から音声信号を入力し、これを録音・再生部7に入力する。録音・再生部7は、自装置で収音した音声と、他装置から入力した音声と、を記憶部3に記録する。 【0053】 なお、上記実施形態では、放音側として単一のスピーカ1を示したが、スピーカ1を直線状に複数配列して、スピーカアレイを構成するようにしてもよい。この場合、各スピーカに供給する音声信号を順次遅延させることにより、音声ビームに焦点を持たせることができ、音声が発話者の位置から発せられたかのような音像定位をさせることができる。 【0054】 また、収音した音声信号を他の装置に出力し、他の装置側においてスピーカアレイを構成する場合、上述の話者位置情報も出力することで、他の装置においても音声が発話者の位置から発せられたかのような音像定位をさせることができる。 【0055】 また、ネットワークを介して、上記実施形態の放収音装置を複数接続する場合、以下のような応用例が可能である。図7は、ネットワークを介して上記実施形態の放収音装置を複数接続し、音声会議システムを構成する例について示す図である。この音声会議システムは、ネットワーク100を介して接続される放収音装置111A〜111Cを有する。放収音装置111A〜111Cは、上記実施形態で説明した放収音装置と同一の構成、機能を有するため、それぞれの構成、および機能の詳細な説明は省略する。 【0056】 放収音装置111A〜111Cは、それぞれ離れた地点a〜cに配置されている。地点aには放収音装置111Aが配置され、地点bには放収音装置111Bが配置され、地点cには放収音装置111Cが配置されている。 【0057】 地点aでは、会議者A、Bが、放収音装置111Aに対してそれぞれ方位Dir11、Dir13で在席している。地点bでは、音源Aが、放収音装置111Bに対して、方位Dir22で存在している。地点cでは、会議者C、Dが放収音装置111Cに対して、それぞれ方位Dir31、Dir32で在席している。なお、方位Dir11〜Dir14、方位Dir21〜Dir24、および方位Dir31〜Dir34は、それぞれ、上記実施形態における4つの部分領域101〜104に対応し、放収音装置は、これらの方位の音声を収音する。 【0058】 この音声会議システムでは、各放収音装置は、自身の装置で収音した音声を他の全ての放収音装置に送信する。また、各放収音装置は、自身の装置で収音した音声とともに、他の装置から送信された音声を記録する。 【0059】 放収音装置111Aは、会議者A、および会議者Bが発話した場合、これらの音声を話速変換してから他装置に送信する。また、放収音装置111Cは、会議者C、および会議者Dが発話した場合、これらの音声を話速変換してから他装置に送信する。 【0060】 ここで、放収音装置111Bは、音源Aが発する楽音を話速変換せずに他装置に出力する。この際、放収音装置111Bは、音源Aが発する楽音のレベルが非常に大きい場合であっても話速変換せずに送信する。例えば、上述した所定の閾値(一般的な発話音声のレベル)を超えるレベルであっても話速変換しない。すなわち、図1において、コントローラ8は、図示しない操作部等から話速変換をしない旨の指示を与えられると、音声信号処理部4に対し、収音した音声を常にミキサ6に出力するように設定する。これにより、この放収音装置においては、常に話速変換しない音声が出力されることとなる。この場合、コントローラ8は、最もレベルが高い収音ビームを出力するため、収音ビームのレベルの絶対値(一般的な発話音声のレベル以上であるか)を判定しなくともよい。 【0061】 なお、コントローラ8は、音声信号処理部4に対し、収音した音声を常に話速変換部5に出力するように設定してもよい。この場合、この放収音装置においては、常に話速変換済みの音声が出力されることとなる。 【0062】 このように、音声会議システム内の任意の放収音装置を背景音出力専用の装置(話速変換しない放収音装置)とすることでも、各地点の会議者は、楽音等の背景音は通常の速度で聴きながら、話者の音声だけをゆっくりと聴くことができる。また、各音声会議装置では、背景音は通常速度で記録され、発話者の音声のみが話速変換されて記録される。 【図面の簡単な説明】 【0063】 【図1】本発明の実施形態の放収音装置の構成を示すブロック図 【図2】音声信号処理部の主要部の構成を示すブロック図 【図3】音源検出領域を示す図 【図4】話速変換処理を示す図 【図5】伸長率を変更する場合の話速変換処理を示す図 【図6】入力音声データの相関値の計算例を示す図 【図7】ネットワークを介して上記実施形態の放収音装置を複数接続し、音声会議システムを構成する例について示す図 【符号の説明】 【0064】 1−スピーカ 2−マイク 3−記憶部 4−音声信号処理部 5−話速変換部 6−ミキサ 7−録音・再生部 8−コントローラ
|
| 【出願人】 |
【識別番号】000004075 【氏名又は名称】ヤマハ株式会社
|
| 【出願日】 |
平成18年8月21日(2006.8.21) |
| 【代理人】 |
【識別番号】100084548 【弁理士】 【氏名又は名称】小森 久夫
|
| 【公開番号】 |
特開2008−48342(P2008−48342A) |
| 【公開日】 |
平成20年2月28日(2008.2.28) |
| 【出願番号】 |
特願2006−224405(P2006−224405) |
|