トップ :: G 物理学 :: G10 楽器;音響




【発明の名称】 ピッチポストフィルタ
【発明者】 【氏名】ビアリック,レオン

【氏名】フロメン,フェリックス

【要約】 【課題】サブフレームの少なくともいくつかに対して将来及び過去の情報を使用するピッチポストフィルタ及び方法を提供する。

【解決手段】本発明に係るピッチポストフィルタは、合成された音声のフレームを受け入れ、合成された音声のフレームの各サブフレームに対して、現在サブフレーム並びに先行及び未来の合成音声のウインドの関数である信号を発生する。各ウインドは、それがサブフレームに対して許容できる一致を与えるときにだけ使用される。
【特許請求の範囲】
【請求項1】 複数のサブフレームに分解される合成音声のフレームとフレームに付随するピッチ値を受信し、合成音声の前記フレームの前記サブフレームに対して、前記ピッチ値に基づく遅れインデックスによって現在のサブフレームから遅延した合成音声の先行データおよび前記ピッチ値に基づく進みインデックスによって現在のサブフレームから進んだ合成音声の未来データ、ならびに合成音声の該未来データから構成されるグループの選択された一つでフィルタされた現在のサブフレームのピッチポストフィルタされたものである出力信号を発生するステップを具備する合成された音声のピッチポストフィルタリング方法。
【請求項2】 複数のサブフレームに分解される合成音声のフレームとフレームに付随するピッチ値とを受信する手段と、合成音声の前記フレームの前記サブフレームに対して、前記ピッチ値に基づく遅れインデックスによって現在サブフレームから遅延した合成音声の先行データ及び前記ピッチ値に基づく進みインデックスによって現在のサブフレームから進んだ未来データ、ならびに合成音声の該未来データから構成されるグループの選択された一つでフィルタされた現在のサブフレームのピッチポストフィルタされたものである出力信号を発生する発生手段を具備する合成された音声のピッチポストフィルタリングするためのピッチポストフィルタ。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は、一般的には音声処理装置に関連し、特にポストフィルタリング装置に関連する。
【0002】
【従来の技術】音声処理は当該技術分野において周知であり、記憶あるいは伝送のために入力音声信号を圧縮するためにしばしば使用される。この処理は典型的には入力音声信号のフレームへの分割と、フレームの要素を決定するための各フレームの解析を含んでいる。そして、要素は記憶あるいは伝送のために符号化される。
【0003】原音声信号の復調が要求されるときには、各フレームは解読され、典型的には近似的な逆解析操作である合成が実行される。このようにして生成された合成音声は、通常は原信号と完全に同一ではない。従って、信号音声を“より改善”するために通常はポストフィルタリング操作が実行される。
【0004】ポストフィルタリングの一形式は、合成された信号をフィルタするために解読器から出力されるピッチ情報が使用されるピッチポストフィルタリングである。先行技術のピッチポストフィルタにおいては、合成された音声信号の一部であるピッチ値p0 の早期サンプルが検討されている。現在のサブフレームと最も良く一致するより早期の音声のサブフレームは、典型的には1:0.25の比で(即ち、過去信号は3/4減衰されて)現在のサブフレームと結合される。
【0005】不幸にして、音声信号は常に内部にピッチを有していはいない。これは単語の終わりあるいは始まりの単語間の場合であり、ピッチが変わり得る。先行技術のピッチポストフィルタは早期の音声を現在の音声と混合するために、また早期の音声は現在のサブフレームと同一のピッチを有していないために、単語の始めにおいて、このようなピッチポストフィルタの出力は貧弱なものとなり得る。話された単語が終了するサブフレームに対しても上記は正しい。もしサブフレームの大部分が沈黙あるいは雑音であれば(即ち、単語が終了していれば)、過去の信号のピッチは意味を持たない。
【0006】
【発明が解決しようとする課題】出願人は、ピッチポストフィルタは音声信号のサブフレームに対してだけ作用するけれども、音声解読器は通常その効力を有する要素間で音声フレームを出力することを承知している。従って、サブフレームのいくつかに対しては、将来音声パターンに関する情報が利用可能である。
【0007】従って、サブフレームの少なくともいくつかに対して将来及び過去の情報を使用するピッチポストフィルタ及び方法を提供することが本発明の目的である。
【0008】
【課題を解決するための手段】本発明の好ましい実施例によれば、ピッチポストフィルタは、合成された音声のフレームを受け入れ、合成された音声のフレームの各サブフレームに対してサブフレーム並びに早期及び後期の合成音声のウインドの関数である信号を発生する。各ウインドは、それがサブフレームに対して許容できる一致を与えるときにだけ使用される。
【0009】特に本発明の好ましい実施例によれば、ピッチポストフィルタは早期の合成音声のウインドをサブフレームと一致させ、サブフレームとウインドの重み付けされたものとの誤差が小さいときだけ早期の合成音声の一致ウインドを受け入れる。もし十分に遅れの大きい合成音声があれば、ピッチポストフィルタはまた後期の合成音声を一致させ、誤差が小さければそれを受け入れる。従って、出力信号はサブフレームと、それらが受け入れられたならばより早期及びより後期の合成音声のウインドの関数である。
【0010】さらに、本発明の好ましい実施例によれば、マッチングは、より早期及びより後期の合成音声のウインドのそれぞれに対する早期及び後期の利得の決定を含んでいる。
【0011】さらにまた、本発明の好ましい実施例によれば、出力信号に対する関数は、サブフレーム、早期の利得及び第一の可能化荷重によって重み付けされた合成音声のより早期のウインド及び後期の利得及び第二の可能化荷重によって重み付けされた合成された音声の後期のウインドの合計である。
【0012】最後に、本発明の好ましい実施例によれば、第一及び第二の可能化荷重は受け入れのステップの結果に依存する。
【0013】
【発明の実施の形態】本発明に係るピッチポストフィルタの動作を理解するために有効な図1、2及び3〜5が今参照される。
【0014】図1に示すように、10が付されている本発明に係るピッチポストフィルタは、線型予測係数(LPC)合成フィルタのような合成フィルタ12からの合成音声のフレームを受け入れる。ピッチポストフィルタ10はまた、音声符号化器から受信されたピッチ値も受け入れる。ピッチポストフィルタ10は最初のポストフィルタであるべきではなく、ポストフィルタされた合成音声フレームを受け入れることができる。フィルタ10は、現在フレームバッファ25、先行フレームバッファ26、進み/遅れ決定器27及びポストフィルタ28から構成される。現在フレームバッファ25は合成音声の現在フレームを記憶し、サブフレームに分割する。先行フレームバッファ26は合成音声の先行フレームを記憶する。進み/遅れ決定器27はピッチ値p0 から進み及び遅れインデックスを決定する。ポストフィルタ28は現在フレームバッファ25からサブフレームs〔n〕と未来ウインドs〔n+LEAD〕を受け入れ、過去フレームバッファ26から過去ウインドs〔n−LAG〕を受け入れ、それらからポストフィルタされた信号を発生する。
【0015】合成フィルタ12は合成音声のフレームを合成し、ピッチポストフィルタ10にそれらを出力することが望ましい。本発明に係るフィルタは、先行技術のピッチポストフィルタのように、合成音声のサブフレームに作用する。しかし、出願人が実現したように、サブフレームを処理したときに合成音声の全フレームが現在フレームバッファ25で利用可能であるため、本発明に係るピッチポストフィルタ10は、さらにサブフレームの少なくともいくつかに対して未来情報を使用する。
【0016】これは、それぞれ現在フレームバッファ25及び先行フレームバッファ26に記憶されている2つのフレーム22a及び22bの8つのサブフレーム20a−20hを示す図2に描かれている。さらに、データの類似サブフレームが後期サブフレーム20e−20hに対して取られ得る位置も示されている。矢印24eで示されているように、第一のサブフレーム20eに対してデータは、過去サブフレーム20d、20c及び20bと未来サブフレーム20e、20f及び20gから取られる。矢印24fで示されているように、第二のサブフレーム20fに対してデータは、先行サブフレーム20e、20d及び20cと未来サブフレーム20f、20g及び20hから取られる。未来サブフレーム20g及び20hに対しては使用され得る未来データは少なくなり(実際サブフレーム20hに対してはなにもない)が、使用され得る過去のデータは同量であることが承知される。
【0017】本発明の進み/遅れ決定器27は、過去及び未来の合成された音声信号を探索し、それらに対し遅れおよび進みサンプルで始まる過去及び未来の信号のサブフレーム長さウインドが現在のサブフレームに最もよく一致する遅れ及び進みサンプル位置あるいはインデックスを決定する。よく一致していなければ、ウインドは使用されない。典型的には探索範囲は、矢印24に示されるように現在フレームの前後20−146サンプル以内である。探索範囲は、未来データ(即ち、サブフレーム20g及び20h)に対しては少なくなる。
【0018】そしてポストフィルタ28は、一致されたウインドの一方あるいは両方を使用して合成された音声信号をポストフィルタする。
【0019】本発明に係るピッチポストフィルタの一実施例は、一つのサブフレームに対する作用のフローチャートである図3〜5に示されている。ステップ30−74は進み/遅れ決定器27によって実行され、ステップ76及び78はポストフィルタ28によって実行される。
【0020】本方法は初期化(ステップ30)から始まるが、そこで最小及び最大遅れ/進み値が最小標準値として設定される。本実施例においては、最小遅れ/進みは(ピッチ値−デルタ,20)の最小値、最大遅れ/進みは(ピッチ値+デルタ,146)の最大値である。本実施例では、デルタは3である。
【0021】ステップ34−44は遅れ値を決定し、ステップ60−70はそれがあれば進み値を決定する。両方のセクションは同様の操作を行うが、前者は先行フレームバッファ26に記憶された過去のデータに、後者は現在フレームバッファ25に記憶された未来データに操作を行う。従って以下では操作は一度だけ記載される。しかしながら、式は以下に述べるように相違する。
【0022】ステップ32において遅れインデックスM gは最小値に設定され、ステップ34及び36において遅れインデックスM gに対応する利得g g及びその遅れインデックスに対する標準値E gが決定される。利得g gは以下に示すように、サブフレームs〔n〕と先行ウインドs〔n−M g〕の相互相関と先行ウインドs〔n−M g〕の自己関相の比である。
【0023】
【数1】

【0024】標準値E gは、以下のように誤差信号s〔n〕−g g*s〔n−M g〕中のエネルギである。
【0025】
【数2】

【0026】もし結果として生じる標準値が以前に決定された最小値よりも小であれば(ステップ38)、現在の遅れインデックスM g及び利得g gは記憶され、最小値は現在の利得に設定される(ステップ40)。遅れインデックスは1増加され(ステップ42)、そしてこの処理は最大遅れ値に到達するまで繰り返される。
【0027】ステップ46−50において、遅れ決定の結果はステップ34−44で決定された遅れ利得が、例えば0.625である予め定められたしきい値以上であるときにだけ受け入れられる。ステップ46において遅れ可能化フラグは0に初期化され、ステップ48において遅れ利得g gがしきい値に対して検査される。ステップ50において、遅れ可能化フラグを1に設定することによって、結果は受け入れられる。このように現在のサブフレームと同一でない過去音声信号に対して、例えば現在サブフレームが音声を有しており過去サブフレームが音声を有していなければ、過去サブクレームからのデータは使用されない。
【0028】ステップ52−56において、進み可能化フラグは、現在位置N、サブフレームの長さ(典型的には60サンプル長)及び最大遅れ/進み値の合計がフレーム長(典型的には240サンプル長)以下であるときにだけ設定される。この方法において、将来データは、その大部分が利用可能であるときだけ使用される。ステップ52は進み可能化フラグを0に設定し、ステップ54は合計が許容できれるか否かを検査し、もし許容できればステップ56は進み可能化フラグを1に設定する。
【0029】ステップ58において、最小値が再初期化され、進みインデックスは最小遅れ値に設定される。上述したように、ステップ60−70はステップ34−44と同一であり、対象のサブフレームに最もよく一致する進みインデックスを決定する。進みはM dと記述され、利得はg dと記述され、基準値はE dと記述され、それらは以下に示すように式3及び式4で定義される。
【0030】
【数3】

【0031】
【数4】

【0032】ステップ60は利得g dを決定し、ステップ62は基準値E dを決定し、ステップ64は基準値E dが最小値より小さいかを検査し、ステップ66は進みM d及び進み利得g dを記憶し、最小値をE dに更新する。ステップ68は進みインデックスを1増加し、ステップ70は進みインデックスが最大インデックス値以上であるか否かを決定する。
【0033】ステップ72及び74において、もしステップ60−70で決定された進み利得がステップ72で実行される検査で非常に小であれば(即ち予め定められたしきい値以下であれば)、進み可能化フラグは不可能化される(ステップ74)。
【0034】ステップ76において、遅れ及び進み荷重w g及びw dが遅れ及び進み可能化フラグからそれぞれ決定される。荷重w g及びw dは、もしあれば、将来及び過去のデータによって与えられる寄与を定義する。
【0035】本実施例において、遅れ荷重w gは(遅れ可能−(0.5*進み可能))と0の最大値の0.25倍である。進み荷重w dは(進み可能−(0.5*遅れ可能))と0の最大値の0.25倍である。言い換えれば、荷重w g及びwdは、将来及び過去のデータがともに利用可能であり現在のサブフレームと一致していれば0.125であり、一方のみが一致しているときは0.25であり、一致していないときは0である。
【0036】ステップ78において、信号s〔n〕の関数である出力信号p〔n〕、早期ウインドs〔n−M g〕及び未来ウインドs〔n+M g〕が生成される。Mg及びM dは、記憶されている遅れ及び進みインッデクスである。式5及び6は本実施例において信号p〔n〕に対する関数を与える。
【0037】
【数5】

【0038】
【数6】

【0039】ステップ30−70は、各サブフレームに対して繰り返される。
【0040】本発明は将来及び過去の情報を使用するすべてのピッチポストフィルタを包含することが望ましい。
【0041】本発明がいままでに記述され示されたものに限定されないことが当該技術分野において技術を有する者にとって望ましい。
【0042】なお、以上の実施形態から以下の実施態様も導出される。
【0043】1. 複数のサブフレームに分解される合成音声のフレームとフレームに付随するピッチ値を受信し、合成音声の前記フレームの前記サブフレームに対して、前記ピッチ値に基づく遅れインデックスによって現在のサブフレームから遅延した合成音声の先行データおよび前記ピッチ値に基づく進みインデックスによって現在のサブフレームから進んだ合成音声の未来データならびに合成音声の該未来データから構成されるグループの選択された一つでフィルタされた現在のサブフレームのピッチポストフィルタされたものである出力信号を発生するステップを具備する合成された音声のピッチポストフィルタリング方法であって、該発生ステップが、前記遅れインデックスにおいて始まる、前記合成音声のサブフレーム長の先行ウインドを前記サブフレームに一致させ、前記サブフレームと前記先行ウインドの重み付けされたものとの差が所定のしきい値以下であるときだけ、前記一致した先行ウインドを受け入れ、もし十分な未来の合成された音声があるならば、前記進みインデックスにおいて始まる、前記合成音声のサブフレーム長の未来ウインドを前記サブフレームに一致させ、前記サブフレームと前記未来ウインドの重み付けされたものとの差が所定のしきい値以下であるときだけ、前記一致した未来ウインドを受け入れ、前記先行および未来ウインドならびに前記未来ウインドから構成されるグループの選択された一つで前記サブフレームをポストフィルタリングすることによって出力信号を生成するステップを具備する合成された音声のピッチポストフィルタリング方法。
【0044】2. 前記一致ステップが、先行および未来ウインドのそれぞれに対し先行および未来利得を決定するものである態様1に記載の方法。
【0045】3. 前記生成ステップが、前記サブフレーム、前記先行利得および第一の可能化荷重によって重み付けされた合成音声の前記先行ウインド、ならびに前記未来利得および第二の可能化荷重によって重み付けされた合成音声の前記未来ウインドの和である信号を決定するものである態様2に記載の方法。
【0046】4. 前記第一および第二の可能化荷重が前記受け入れステップの出力に依存するものである態様3に記載の方法。
【0047】5. 複数のサブフレームに分解される合成音声のフレームとフレームに付随するピッチ値とを受信する手段と、合成音声の前記フレームの前記サブフレームに対して、前記ピッチ値に基づく遅れインデックスによって現在サブフレームから遅延した合成音声の先行データ及び前記ピッチ値に基づく進みインデックスによって現在のサブフレームから進んだ未来データ、ならびに合成音声の該未来データから構成されるグループの選択された1つでフィルタされた現在のサブフレームのピッチポストフィルタされたものである出力信号を発生する発生手段を具備する合成された音声のピッチポストフィルタリングするためのピッチポストフィルタであって、該発生手段が、前記遅れインデックスにおいて始まる、前記合成音声のサブフレーム長の先行ウインドを前記サブフレームに一致させる第一の一致手段と、前記サブフレームと前記先行ウインドの重み付けされたものとの差が所定のしきい値以下であるときだけ、前記一致させられた先行ウインドを受け入れるための第一の比較手段と、もし十分な未来の合成された音声があるならば、前記進みインデックスにおいて始まる、前記合成音声のサブフレーム長の未来ウインドを前記サブフレームに一致させる第二の一致手段と、前記サブフレームと前記未来ウインドの重み付けされたものとの差が所定のしきい値以下であるときだけ、前記一致させられた未来ウインドを受け入れるための第二の比較手段と、前記先行および未来ウインドならびに前記未来ウインドから構成されるグループの選択された一つで前記サブフレームをポストフィルタリングすることによって前記出力信号を生成するフィルタリング手段と、を具備する合成された音声のピッチポストフィルタリングするためのピッチポストフィルタ。
【0048】6. 前記第一および第二の一致手段が、先行および未来ウインドのそれぞれに対し先行および未来利得を決定する利得決定手段である態様5に記載のフィルタ。
【0049】7. 前記フィルタリング手段が、前記サブフレーム、前記先行利得によって重み付けされた合成された音声の前記先行ウインドおよび先行荷重、ならびに前記未来利得によって重み付けされた合成された音声の前記未来ウインドおよび未来荷重の和である信号を決定する手段である態様6に記載のフィルタ。
【0050】8. 前記先行および未来荷重が前記第一および第二の比較手段の出力に依存するものである態様7に記載のフィルタ。
【出願人】 【識別番号】501364690
【氏名又は名称】オーディオコーズ リミティド
【出願日】 平成7年4月27日(1995.4.27)
【代理人】 【識別番号】100077517
【弁理士】
【氏名又は名称】石田 敬 (外2名)
【公開番号】 特開2002−182697(P2002−182697A)
【公開日】 平成14年6月26日(2002.6.26)
【出願番号】 特願2001−319680(P2001−319680)