トップ :: G 物理学 :: G10 楽器;音響




【発明の名称】 声質変換装置および声質変換方法およびプログラム記憶媒体
【発明者】 【氏名】三木 一浩

【氏名】森尾 智一

【要約】 【課題】音質のよい声質変換ができる声質変換装置および声質変換方法およびプログラム記憶媒体を提供する。

【解決手段】母音および子音のスペクトル包絡変換テーブル109a,109bから、変換元話者の入力音声を構成する音素の母音,子音に対応するスペクトル包絡変換テーブルを変換テーブル選択部108により選択する。選択されたスペクトル包絡変換テーブルに基づいて、変換元話者の入力音声を構成する音素間のスペクトル包絡変換テーブルを音素間変換テーブル推定部107により推定する。上記選択されたスペクトル包絡変換テーブルと、推定された音素間のスペクトル包絡変換テーブルとに基づいて、変換元話者の入力音声からスペクトル包絡抽出部101により抽出されたスペクトル包絡をスペクトル包絡変換部102により変換し、変換されたスペクトル包絡から変換先話者の声質の音声を音声合成部103により合成する。
【特許請求の範囲】
【請求項1】 変換元話者の音声から変換先話者の音声に変換する声質変換装置において、上記変換元話者の音声から変換先話者の音声に変換するための母音のスペクトル包絡変換規則および子音のスペクトル包絡変換規則が予め記憶されたスペクトル包絡変換規則記憶部と、上記スペクトル包絡変換規則記憶部に記憶された上記母音のスペクトル包絡変換規則および上記子音のスペクトル包絡変換規則から、上記変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則を選択する変換規則選択部と、上記変換規則選択部により選択された上記変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則に基づいて、上記変換元話者の入力音声を構成する音素間のスペクトル包絡変換規則を推定する音素間変換規則推定部と、上記変換元話者の入力音声からスペクトル包絡を抽出するスペクトル包絡抽出部と、上記変換規則選択部により選択された上記変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則と、上記音素間変換規則推定部により推定された上記変換元話者の入力音声を構成する音素間のスペクトル包絡変換規則とに基づいて、上記スペクトル包絡抽出部により上記変換元話者の入力音声から抽出されたスペクトル包絡を上記変換先話者の音声のスペクトル包絡に変換するスペクトル包絡変換部と、上記スペクトル包絡変換部により変換されたスペクトル包絡から音声を合成する音声合成部とを備えたことを特徴とする声質変換装置。
【請求項2】 請求項1に記載の声質変換装置において、上記変換元話者の入力音声を構成する音素およびその音素の開始時刻と終了時刻を表す音声ラベル情報を付与する音声ラベル付与部と、上記音声ラベル付与部により付与された上記音声ラベル情報を記憶する音声ラベル情報記憶部と、上記音声ラベル情報記憶部に記憶された上記音声ラベル情報および所定の規則に基づいて音素間のわたり区間を決定し、上記入力音声を構成する音素のスペクトル包絡の変換を行う区間を制御する変換ラベルを作成する変換ラベル作成部とを備え、上記変換規則選択部は、上記変換ラベル作成部により作成された変換ラベルに基づいて、上記スペクトル包絡変換規則記憶部から上記変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則を選択することを特徴とする声質変換装置。
【請求項3】 請求項2に記載の声質変換装置において、上記変換ラベル作成部の上記所定の規則として、音素中心間で上記音素間のわたり区間を決定するモードと音素境界の周辺のみで上記音素間のわたり区間を決定するモードのいずれか一方を上記変換ラベル作成部に指示するモード切り替え部を備えることを特徴とする声質変換装置。
【請求項4】 請求項1に記載の声質変換装置において、上記子音のスペクトル包絡変換規則は、全ての子音に対して同じスペクトル包絡変換規則、有声子音,無声子音のグループ毎に作成されたスペクトル包絡変換規則、または、音素の音響的特性でカテゴリ分けされたグループ毎のスペクトル包絡変換規則のうちのいずれか1つであることを特徴とする声質変換装置。
【請求項5】 変換元話者の音声から変換先話者の音声に変換する声質変換方法において、上記変換元話者の音声から変換先話者の音声に変換するための母音のスペクトル包絡変換規則および子音のスペクトル包絡変換規則をスペクトル包絡変換規則記憶部に記憶するスペクトル包絡変換規則記憶ステップと、上記スペクトル包絡変換規則記憶ステップにおいて上記スペクトル包絡変換規則記憶部に記憶された母音のスペクトル包絡変換規則および子音のスペクトル包絡変換規則から、上記変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則を選択する変換規則選択ステップと、上記変換規則選択ステップにおいて選択された上記変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則に基づいて、上記変換元話者の入力音声を構成する音素間のスペクトル包絡変換規則を推定する音素間変換規則推定ステップと、上記変換元話者の入力音声からスペクトル包絡を抽出するスペクトル包絡抽出ステップと、上記変換規則選択ステップにおいて選択された上記変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則と、上記音素間変換規則推定ステップにおいて推定された上記変換元話者の入力音声を構成する音素間のスペクトル包絡変換規則とに基づいて、上記スペクトル包絡抽出ステップにおいて上記変換元話者の入力音声から抽出されたスペクトル包絡を上記変換先話者の音声のスペクトル包絡に変換するスペクトル包絡変換ステップと、上記スペクトル包絡変換ステップにおいて変換されたスペクトル包絡から音声を合成する音声合成ステップとを有することを特徴とする声質変換方法。
【請求項6】 請求項5に記載の声質変換方法を実行する制御プログラムを記憶したことを特徴とするプログラム記憶媒体。
【発明の詳細な説明】【0001】
【発明の属する技術分野】この発明は、ある話者の発声した音声を別のある話者の音声に変換する声質変換装置および声質変換方法およびプログラム記憶媒体に関する。
【0002】
【従来の技術】従来、第1の声質変換装置としては、スペクトル包絡を表現するパラメータ(例えば線形予測係数)のセットをベクトルと考え、変換元話者と変換先話者のベクトルに対してベクトル量子化を行い、2話者のコードブック間の対応付けを行うコードブックマッピングを用いたものがある(特開平7−104792号公報参照)。
【0003】また、第2の声質変換装置としては、スペクトル包絡からホルマントピークを抽出し、2話者のホルマントピーク間の包絡成分を(N+1)等分してN点の代表値を作成した後、それらの代表値を対応付けるような変換テーブルを5母音に対して作成し、その変換テーブルにより声質を変換するものがある(特開平9−244694号公報参照)。この第2の声質変換装置では、変換される部分が母音である場合にはそのままの変換テーブルが用いられ、変換部分が母音間のわたりの部分である場合には前後母音の変換テーブルの線形補間から得られる変換テーブルが用いられる。
【0004】
【発明が解決しようとする課題】ところが、上記第1の声質変換装置では、コードブックの学習およびコードブック間の対応付けに際し、大量の発声データが必要となり、学習時間が長く多くの記憶容量を確保しなければならないという問題がある。また、上記第2の声質変換装置では、ホルマントピーク間の包絡成分を変換の対象としており、ホルマントピークの検出が比較的簡単な母音および母音間のわたりに関しては対応できるが、ホルマントピークの検出が難しい子音や子音を含むわたり区間が存在する場合には適用するのが難しいという問題がある。このように、上記第2声質変換装置は、子音の処理や音素間のわたり区間の処理(特に子音を含むわたりの部分に関しての処理)が行われず、そのため、その部分でスペクトル包絡の時間的な変化が急激に起こることにより変換後の音声に歪が生じるという問題がある。
【0005】そこで、この発明の目的は、大量の発声データを必要とすることなく、変換後の音声を低歪化でき、音質のよい声質変換ができる声質変換装置および声質変換方法およびプログラム記憶媒体を提供することにある。
【0006】
【課題を解決するための手段】上記目的を達成するため、この発明の声質変換装置は、変換元話者の音声から変換先話者の音声に変換する声質変換装置において、上記変換元話者の音声から変換先話者の音声に変換するための母音のスペクトル包絡変換規則および子音のスペクトル包絡変換規則が予め記憶されたスペクトル包絡変換規則記憶部と、上記スペクトル包絡変換規則記憶部に記憶された上記母音のスペクトル包絡変換規則および上記子音のスペクトル包絡変換規則から、上記変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則を選択する変換規則選択部と、上記変換規則選択部により選択された上記変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則に基づいて、上記変換元話者の入力音声を構成する音素間のスペクトル包絡変換規則を推定する音素間変換規則推定部と、上記変換元話者の入力音声からスペクトル包絡を抽出するスペクトル包絡抽出部と、上記変換規則選択部により選択された上記変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則と、上記音素間変換規則推定部により推定された上記変換元話者の入力音声を構成する音素間のスペクトル包絡変換規則とに基づいて、上記スペクトル包絡抽出部により上記変換元話者の入力音声から抽出されたスペクトル包絡を上記変換先話者の音声のスペクトル包絡に変換するスペクトル包絡変換部と、上記スペクトル包絡変換部により変換されたスペクトル包絡から音声を合成する音声合成部とを備えたことを特徴としている。
【0007】上記構成の声質変換装置によれば、上記変換元話者の音声から変換先話者の音声に変換するために母音のスペクトル包絡変換規則および子音のスペクトル包絡変換規則を予め作成する。例えば、変換元話者と変換先話者がそれぞれ発声した音声を構成する音素の母音,子音に基づいて、線形予測分析等を用いてスペクトル包絡変換規則を作成する。そうして、作成された母音のスペクトル包絡変換規則および子音のスペクトル包絡変換規則をスペクトル包絡変換規則記憶部に記憶する。そして、上記スペクトル包絡変換規則記憶部に記憶された母音のスペクトル包絡変換規則および子音のスペクトル包絡変換規則の中から、変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則を変換規則選択部により選択する。上記変換規則選択部により選択された変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則に基づいて、変換元話者の入力音声を構成する音素間のスペクトル包絡変換規則を音素間変換規則推定部により子音とその前後の母音のそれぞれのスペクトル包絡変換テーブルとの線形補間等を用いて推定する。また、上記変換元話者の入力音声からスペクトル包絡抽出部によりスペクトル包絡を抽出する。そうして、上記変換規則選択部により選択された変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則と、音素間変換規則推定部により推定された変換元話者の入力音声を構成する音素間のスペクトル包絡変換規則とに基づいて、上記スペクトル包絡抽出部により変換元話者の音声から抽出されたスペクトル包絡をスペクトル包絡変換部により変換先話者の音声のスペクトル包絡に変換した後、その変換されたスペクトル包絡から音声合成部により変換先話者の声質の音声を合成する。
【0008】このようにして、母音から子音、子音から母音への音素間のわたり区間に対して音素間変換規則推定部により推定されたスペクトル包絡変換規則を用いてスペクトル包絡変換を行うことによって、スペクトル包絡を時間的に滑らかに変化させて、変換後の音声を低歪化でき、音質のよい声質変換処理を行うことができる。
【0009】また、一実施形態の声質変換装置は、上記変換元話者の入力音声を構成する音素およびその音素の開始時刻と終了時刻を表す音声ラベル情報を付与する音声ラベル付与部と、上記音声ラベル付与部により付与された上記音声ラベル情報を記憶する音声ラベル情報記憶部と、上記音声ラベル情報記憶部に記憶された上記音声ラベル情報および所定の規則に基づいて音素間のわたり区間を決定し、上記入力音声を構成する音素のスペクトル包絡の変換を行う区間を制御する変換ラベルを作成する変換ラベル作成部とを備え、上記変換規則選択部は、上記変換ラベル作成部により作成された変換ラベルに基づいて、上記スペクトル包絡変換規則記憶部から上記変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則を選択することを特徴としている。
【0010】上記実施形態の声質変換装置によれば、上記音声ラベル付与部により付与された上記変換元話者の入力音声を構成する音素およびその音素の開始時刻と終了時刻を表す音声ラベル情報を音声ラベル情報記憶部に記憶し、その音声ラベル情報記憶部に記憶された音声ラベル情報および所定の規則に基づいて音素間のわたり区間を決定し、上記変換ラベル作成部によって、変換元話者の入力音声を構成する音素のスペクトル包絡の変換を行う区間を制御する変換ラベルを作成する。そうして、上記変換ラベル作成部により作成された変換ラベルに基づいて、上記変換規則選択部は、上記スペクトル包絡変換規則記憶部から上記変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則を選択する。したがって、上記変換元話者の入力音声から声質変換に最適なスペクトル包絡変換規則を得ることができる。
【0011】また、一実施形態の声質変換装置は、上記変換ラベル作成部の上記所定の規則として、音素中心間で上記音素間のわたり区間を決定するモードと音素境界の周辺のみで上記音素間のわたり区間を決定するモードのいずれか一方を上記変換ラベル作成部に指示するモード切り替え部を備えることを特徴としている。
【0012】上記実施形態の声質変換装置によれば、上記モード切り替え部によって、上記変換ラベル作成部の所定の規則として、音素中心間で上記音素間のわたり区間を決定するモードと音素境界の周辺のみで上記音素間のわたり区間を決定するモードのいずれか一方を上記変換ラベル作成部に指示することによって、最適な音質に調整することができる。
【0013】また、一実施形態の声質変換装置は、上記子音のスペクトル包絡変換規則が、全ての子音に対して同じスペクトル包絡変換規則、有声子音,無声子音のグループ毎に作成されたスペクトル包絡変換規則、または、音素の音響的特性でカテゴリ分けされたグループ毎のスペクトル包絡変換規則のうちのいずれか1つであることを特徴としている。
【0014】上記実施形態の声質変換装置によれば、上記子音のスペクトル包絡変換規則として、全ての子音に対して同じスペクトル包絡変換規則、有声子音,無声子音のグループ毎に作成されたスペクトル包絡変換規則、または、音素の音響的特性でカテゴリ分けされたグループ毎のスペクトル包絡変換規則のうちのいずれか1つを用いることによって、少ない変換規則で子音のスペクトル包絡を変換することができる。
【0015】また、この発明の声質変換方法は、変換元話者の音声から変換先話者の音声に変換する声質変換方法において、上記変換元話者の音声から変換先話者の音声に変換するための母音のスペクトル包絡変換規則および子音のスペクトル包絡変換規則をスペクトル包絡変換規則記憶部に記憶するスペクトル包絡変換規則記憶ステップと、上記スペクトル包絡変換規則記憶ステップにおいて上記スペクトル包絡変換規則記憶部に記憶された母音のスペクトル包絡変換規則および子音のスペクトル包絡変換規則から、上記変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則を選択する変換規則選択ステップと、上記変換規則選択ステップにおいて選択された上記変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則に基づいて、上記変換元話者の入力音声を構成する音素間のスペクトル包絡変換規則を推定する音素間変換規則推定ステップと、上記変換元話者の入力音声からスペクトル包絡を抽出するスペクトル包絡抽出ステップと、上記変換規則選択ステップにおいて選択された上記変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則と、上記音素間変換規則推定ステップにおいて推定された上記変換元話者の入力音声を構成する音素間のスペクトル包絡変換規則とに基づいて、上記スペクトル包絡抽出ステップにおいて上記変換元話者の入力音声から抽出されたスペクトル包絡を上記変換先話者の音声のスペクトル包絡に変換するスペクトル包絡変換ステップと、上記スペクトル包絡変換ステップにおいて変換されたスペクトル包絡から音声を合成する音声合成ステップとを有することを特徴としている。
【0016】上記声質変換方法によれば、上記変換元話者の音声から変換先話者の音声に変換するために母音のスペクトル包絡変換規則および子音のスペクトル包絡変換規則を予め作成する。例えば、変換元話者と変換先話者がそれぞれ発声した音声を構成する音素の母音,子音に基づいて、線形予測分析等を用いてスペクトル包絡変換規則を作成する。そうして、作成された母音のスペクトル包絡変換規則および子音のスペクトル包絡変換規則をスペクトル包絡変換規則記憶ステップにおいてスペクトル包絡変換規則記憶部に記憶する。そして、上記スペクトル包絡変換規則記憶部に記憶された母音のスペクトル包絡変換規則および子音のスペクトル包絡変換規則の中から、変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則を変換規則選択ステップで選択する。上記変換規則選択ステップで選択された変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則に基づいて、変換元話者の入力音声を構成する音素間のスペクトル包絡変換規則を音素間変換規則推定ステップにおいて子音とその前後の母音のそれぞれのスペクトル包絡変換テーブルとの線形補間等を用いて推定する。また、上記変換元話者の入力音声からスペクトル包絡抽出ステップにおいてスペクトル包絡を抽出する。そうして、上記変換規則選択ステップにおいて選択された変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則と、音素間変換規則推定ステップにおいて推定された変換元話者の入力音声を構成する音素間のスペクトル包絡変換規則とに基づいて、スペクトル包絡抽出ステップにおいて変換元話者の音声から抽出されたスペクトル包絡をスペクトル包絡変換ステップにおいて変換先話者の音声のスペクトル包絡に変換した後、その変換されたスペクトル包絡から音声合成ステップで変換先話者の声質の音声を合成する。
【0017】このようにして、母音から子音、子音から母音への音素間のわたり区間に対して、音素間変換規則推定ステップにおいて推定されたスペクトル包絡変換規則を用いてスペクトル包絡変換を行うことによって、スペクトル包絡を時間的に滑らかに変化させて、変換後の音声を低歪化でき、音質のよい声質変換処理を行うことができる。
【0018】また、この発明のプログラム記憶媒体は、上記声質変換方法を実行する制御プログラムを記憶したことを特徴としている。
【0019】上記プログラム記憶媒体によれば、記憶された制御プログラムをマイクロコンピュータ等の情報処理装置に読み込んで、その制御プログラムを実行することによって、母音から子音、子音から母音への音素間のわたり区間に対して推定されたスペクトル包絡変換規則を用いてスペクトル包絡変換を行うことによって、スペクトル包絡を時間的に滑らかに変化させて、変換後の音声を低歪化でき、音質のよい声質変換処理を行うことができる。
【0020】
【発明の実施の形態】以下、この発明の声質変換装置および声質変換方法およびプログラム記憶媒体を図示の実施の形態により詳細に説明する。
【0021】図1はこの発明の実施の一形態の声質変換装置の基本構成を示すブロック図であり、101は変換元話者の入力音声からスペクトル包絡を抽出するスペクトル包絡抽出部、102は上記スペクトル包絡抽出部101により抽出されたスペクトル包絡を変換するスペクトル包絡変換部、103は上記スペクトル包絡変換部102により変換されたスペクトル包絡から変換先話者の音声を合成する音声合成部、104は音声ラベル情報を与える音声ラベル付与部、105は上記音声ラベル付与部104により与えられる上記音声ラベル情報を記憶する音声ラベル情報記憶部、106は上記音声ラベル情報記憶部105に記憶された上記音声ラベル情報に基づいてスペクトル包絡を変換するための制御情報を表す変換ラベルを作成する変換ラベル作成部、107は変換元話者の入力音声を構成する音素間のスペクトル包絡変換テーブルを推定する音素間変換規則推定部としての音素間変換テーブル推定部、108は上記変換ラベル作成部106により作成された変換ラベルに基づいて、後述するスペクトル包絡変換テーブル記憶部109からスペクトル包絡変換テーブルを選択する変換規則選択部としての変換テーブル選択部、109は学習済みの母音のスペクトル包絡変換規則としての母音スペクトル包絡変換テーブル109aおよび子音のスペクトル包絡変換規則としての子音スペクトル包絡変換テーブル109bが記憶されたスペクトル包絡変換規則記憶部としてのスペクトル包絡変換テーブル記憶部である。
【0022】上記スペクトル包絡変換部102は、母音スペクトル包絡変換テーブル109aおよび子音のスペクトル包絡変換規則としての子音スペクトル包絡変換テーブル109bと、音素間変換テーブル推定部107により推定された変換元話者の入力音声を構成する音素間のスペクトル包絡変換テーブルとに基づいて、スペクトル包絡抽出部101により抽出されたスペクトル包絡を変換先話者の音声を合成するためのスペクトル包絡に変換する。
【0023】また、図2は図1に示す声質変換装置にモード切り替え部201を付加した構成を示すブロック図である。このモード切り替え部201は、音素中心モードであるか音素境界モードであるかを変換ラベル作成部106に音素間のわたり区間を決定するための規則として指示する。
【0024】次に、図3は、図2に示す声質変換装置の音声ラベル付与部104として変換元話者の音声を認識する音声認識部301を用いた場合のブロック図である。以下、この発明の実施の形態として図3に示す声質変換装置について説明する。
【0025】まず、全体の処理について説明する前に、この発明の特徴である母音と子音のわたり区間に関する処理について説明する。
【0026】上記声質変換装置では、予め変換元話者の音声から変換先話者の音声に変換するための5母音のスペクトル包絡変換テーブルおよび子音のスペクトル包絡変換テーブルを作成し、それらのスペクトル包絡テーブルを用いた声質変換を行う。
【0027】図4は上記スペクトル包絡変換テーブル記憶部109に記憶される母音スペクトル包絡変換テーブル109aと子音スペクトル包絡変換テーブル109bの作成手順を示している。
【0028】図4に示すように、変換元話者および変換先話者が5母音(/a/,/i/,/u/,/e/,/o/)を発声し、それぞれ発声した各母音からスペクトル包絡抽出部401,402において線形予測分析により線形予測係数を求める。ここで、線形予測係数に対してフーリエ変換を行うことにより入力音声のパワースペクトルに対する包絡成分を抽出する。これら抽出したスペクトル包絡に対してDP(Dynamic Programming)マッチング部403では、それぞれの母音間でスペクトル包絡のDPマッチングを行うことにより5母音に対してスペクトル包絡の対応を取り,各々のスペクトル包絡変換テーブルを作成する(DPマッチングを用いた周波数軸の非線形変換については特開平4−147300号公報を参照)。このようにして作成された各母音のスペクトル包絡変換テーブルを母音スペクトル包絡変換テーブル109aとしてスペクトル包絡変換テーブル記憶部109に記憶する。
【0029】また、子音については、母音に比べてスペクトル包絡が一定して得られないため、全ての子音に対して同じ無変換を表すスペクトル包絡変換テーブルや子音を有声子音と無声子音などの複数のカテゴリに分けて母音と同様の処理によりそのカテゴリ毎の変換テーブルを作成する。そうして作成された子音のスペクトル包絡変換テーブルを、母音のスペクトル包絡変換テーブルと同様に子音スペクトル包絡変換テーブル109bとしてスペクトル包絡変換テーブル記憶部109に記憶する。
【0030】このとき、スペクトル包絡変換テーブル作成のための発声は必ずしも人間が行う必要はなく、人間が発声する代わりに音声合成の技術を用いて作成された音声など、スペクトル包絡の抽出できる音声であれば変換テーブルの作成は可能である。
【0031】このようにして音素毎に作られた変換テーブル(109a,109b)を用いて、変換元話者の音声を変換先話者の音声に声質変換を行う手順について、図3を参照しながら説明する。ここでは説明のために入力音声として雨(/ame/)を用いる。
【0032】まず、入力された変換元話者の音声は、音声認識器301によって発話音声の認識処理が行われる。認識処理の出力は、表1に示すように、時間とその音素を表す音声ラベル情報となる。表1の第3列は音素を表しており、第1列はその音素の開始時刻(msec)を表し、第2列は音素の終了時刻(msec)を表している。例えば2行目は、400(msec)から599(msec)が音素/m/であることを示している。
【0033】
【表1】

【0034】このようにして得られた音声ラベル情報が音声ラベル情報記憶部105に与えられて記憶される。この実施形態では、人間による発話音声を変換しているため、認識処理によりラベル情報を与えたが、テキスト音声合成などの合成音声を作成する場合には、その発声内容を指定するのが一般的であるため、種々の合成音声に対して声質の変換を行う場合には、認識処理を行わず、音声合成時の音素情報そのものを用いることができる。
【0035】上記変換ラベル作成部106では、モード切り替え部201によって与えられるモード情報と音声ラベル情報から、実際にスペクトル包絡の変換を行う区間を制御する変換ラベルを作成する。
【0036】図5は上記変換ラベル作成部106による変換ラベルの作成方法を説明する図である。上記モード切り替え部201により音素中心モードが選択された場合、図5に示す変換ラベル1のように、音声ラベル情報から各音素の中心時刻を計算し、音素中心間の区間に対してスペクトル包絡変換テーブルの推定を行うように変換ラベルを作成する。
【0037】一方、上記モード切り替え部201により音素境界モードの場合、図5の変換ラベル2のように、各音素の終了時刻前の数msecから開始時刻後の数msecの間に対してスペクトル包絡変換テーブルの推定を行うように変換ラベルを作成する。なお、変換ラベル2の場合に対しては任意に変換区間を設定することもできる。このようにして得られた変換区間の情報は、表2に示すような時刻とそのスペクトル包絡変換テーブルで表され、変換テーブル選択部108に与えられる。
【0038】
【表2】

【0039】上記表2において、第1,第2列目はスペクトル包絡変換テーブルの開始時刻,終了時刻を夫々示しており、第3,第4列目はその各時刻のスペクトル包絡変換テーブルを表している。例えば2行目は、200(msec)から499(msec)の間にスペクトル包絡変換テーブルがaからmに遷移することを示している。
【0040】上記変換テーブル選択部108では、変換ラベル作成部106で与えられた変換ラベルにより、遷移前半のスペクトル包絡変換テーブルと遷移後半のスペクトル包絡変換テーブルを選択する。このとき、母音のスペクトル包絡変換テーブルは、そのまま同じ母音のスペクトル包絡変換テーブルが選ばれ、子音のスペクトル包絡変換テーブルに関しては、無変換を表す変換テーブルやその他いくつかの変換テーブルの中からその子音の含まれるグループの変換テーブルが選ばれる。この実施形態では、子音のスペクトル包絡変換テーブルとして、全ての子音に対して同じ無変換を表すスペクトル包絡変換テーブルを選んだが、子音のスペクトル包絡変換テーブルとしては、例えば、子音を有声子音と無声子音等の複数のカテゴリに分けて、そのカテゴリ毎に作成されたスペクトル包絡変換テーブルや、音素の音響的特性でカテゴリ分けされたグループ毎のスペクトル包絡変換テーブルをもっている場合には、それらの中から最適なスペクトル包絡変換テーブルを選択してもよい。
【0041】こうして得られた2つの音素のスペクトル包絡変換テーブルは、音素間変換テーブル推定部107に与えられる。上記音素間変換テーブル推定部107では、2つ時刻のスペクトル包絡変換テーブルから、処理を行う単位であるフレームに対して、その区間の各フレーム時刻におけるスペクトル包絡変換テーブルを推定する。
【0042】図6は上記スペクトル包絡変換テーブルの推定方法を示している。上記音素間変換テーブル推定部107(図3に示す)は、最初に変換テーブル選択部108(図3に示す)から与えられた情報に基づき、遷移前半のスペクトル包絡変換テーブルおよび遷移後半のスペクトル包絡変換テーブルをセットする。図6では、遷移前半のスペクトル包絡変換テーブルが/a/のスペクトル包絡変換テーブル601となり、遷移後半のスペクトル包絡変換テーブルが/m/のスペクトル包絡変換テーブル602(この実施形態では無変換)となっている。このとき、時刻taと時刻tmとの間のわたり区間の各フレーム時刻t1,t2におけるスペクトル包絡変換テーブルは、2つのスペクトラム包絡変換テーブルの対応する周波数での値同士を直線で結び、直線上の時刻t1,t2に対応する時刻のデータの補間によって作成される(時刻t1の変換テーブル603,時刻t2の変換テーブル604)。図6に示すように、母音から子音へのわたり区間においても、スペクトル包絡が滑らかに変換されるようにスペクトル包絡変換テーブルが作成されるため、スペクトル包絡変換後の音声に不連続感(ノイズ)は生じない。このようにして、音素間のわたり区間に対するスペクトル包絡変換テーブルを作成する。
【0043】次に、上記推定されたスペクトル包絡変換テーブルを使用した声質変換全体の処理について説明を行う。
【0044】変換元話者の発声した音声は、スペクトル包絡抽出部101によって、スペクトル包絡変換テーブル作成時と同様の方法である線形予測分析により、そのスペクトル包絡と予測残差信号が抽出される。ここで得られたスペクトル包絡は、スペクトル包絡変換部102に送られ、変換先話者のスペクトル包絡にむけて変換される。上記スペクトル包絡変換部102では、入力されたスペクトル包絡に対して、非線形の変換テーブルを用いて、周波数方向に非線形変換を行う。
【0045】図7は上記非線形変換の方法を示しており、入力されたスペクトル包絡は、非線形の変換テーブル701によって周波数方向に変換される(図7に示す破線は無変換を表す変換テーブル702である)。上記各変換テーブルは、変換元話者と変換先話者の周波数の対応を示しており、変換元話者の各周波数における値は変換先話者の対応する周波数に変換される。
【0046】例えば、変換元話者の周波数a1の値は、変換テーブル701によって変換先話者の対応する周波数b1に変換される。このとき、a1−b1、a2−b2、a3−b3の変換のように変換テーブルが無変換を表す傾き1の直線702より上部にある場合は、変換前スペクトル包絡703と変換後スペクトル包絡704を比べて分かるようにスペクトル包絡は高周波数方向にシフトする。一方、a4−b4、a5−b5、a6−b6の変換のように変換テーブルが無変換を表す傾き1の直線702より下部にある場合は、そのスペクトル包絡は低周波数方向にシフトする。
【0047】このようにして、与えられたスペクトル包絡は、非線形のスペクトル包絡変換テーブルを用いて周波数方向に変換される。このとき、上記変換テーブル推定部107では、音素間のわたり区間のスペクトル包絡変換テーブルは滑らかに変形しながらスペクトル包絡変換部102に与えられるので、スペクトル包絡変換結果も同様に時間的に滑らかに変形される。ここまで、変換テーブルという表現を用いたが、変換関数など、任意のスペクトル包絡変換規則によってスペクトル包絡の変換を行う場合に対しても同様の処理を行うことができる。
【0048】そして、上記音声合成部103では、以上の操作によって変換された変換後スペクトル包絡に対して音声信号を合成する。この音声信号の合成方法としては、例えば、逆フーリエ変換を行うことで線形予測係数を計算し、得られた線形予測係数とスペクトル包絡抽出部101で得られる予測残差信号から変換先話者の音声を出力する。
【0049】このように、上記声質変換装置によれば、音素間変換テーブル推定部107により、母音から子音、子音から母音への音素間のわたり区間に対して推定されたスペクトル包絡変換テーブルを用いてスペクトル包絡変換部102によりスペクトル包絡変換を行うことによって、スペクトル包絡を時間的に滑らかに変化させて、変換後の音声を低歪化でき、音質のよい声質変換処理を行うことができる。
【0050】また、上記変換ラベル作成部106によって、音声認識部301により認識された変換元話者の入力音声の音声ラベル情報および所定の規則に基づいて音素間のわたり区間を決定して変換ラベルを作成し、その変換ラベルに基づいて、上記変換規則選択部108によって、スペクトル包絡変換テーブル記憶部109から変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換テーブルを選択するので、変換元話者の入力音声から声質変換に最適なスペクトル包絡変換テーブルを得ることができる。
【0051】また、上記モード切り替え部201によって、音素中心間でその音素間のわたり区間を決定する音素中心モードと音素境界の周辺のみで音素間のわたり区間を決定する音素境界モードのいずれか一方を変換ラベル作成部106に指示することによって、最適な音質に調整することができる。
【0052】また、上記子音のスペクトル包絡変換テーブル109bとして、全ての子音に対して同じスペクトル包絡変換テーブル、有声子音,無声子音のグループ毎に作成されたスペクトル包絡変換テーブル、または、音素の音響的特性でカテゴリ分けされたグループ毎のスペクトル包絡変換規則のうちのいずれか1つを用いることによって、大量の発声データを必要とすることなく、母音に比べて一定なスペクトルが得にくい子音について適切な変換テーブルを用いることができる。
【0053】上記実施の形態における音質変換装置としての機能は、プログラム記憶媒体に記憶された音質変換方法を実行するプログラムによって実現される。上記プログラム記憶媒体は、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク,ハードディスク等の磁気ディスクやCD−ROM(コンパクトディスク−リード・オンリー・メモリー),MO(光磁気)ディスク,MD(ミニディスク),DVD(デジタル・バーサタイル・ディスク)等の光ディスクのディスク系、IC(集積回路)カードや光カード等のカード系、マスクROM,EPROM(紫外線消去型ROM),EEPROM(電気的消去型ROM),フラッシュROM等の半導体メモリ系を含めた固定的にプログラムを坦持する媒体である。
【0054】
【発明の効果】以上より明らかなように、この発明の声質変換装置および声質変換方法およびプログラム記憶媒体によれば、母音から子音、子音から母音へのわたり区間に対して、子音とその前後の母音のそれぞれのスペクトル包絡変換テーブルとの線形補間等により推定された音素間のわたり区間のスペクトル包絡変換テーブルを用いてスペクトル包絡変換を行うことによって、スペクトル包絡が時間的に滑らかに変化し、音質のよい声質変換処理を行うことができる。
【出願人】 【識別番号】000005049
【氏名又は名称】シャープ株式会社
【出願日】 平成13年1月16日(2001.1.16)
【代理人】 【識別番号】100062144
【弁理士】
【氏名又は名称】青山 葆 (外1名)
【公開番号】 特開2002−215198(P2002−215198A)
【公開日】 平成14年7月31日(2002.7.31)
【出願番号】 特願2001−7615(P2001−7615)