| 【発明の名称】 |
音声補完方法、装置および記録媒体 |
| 【発明者】 |
【氏名】後藤 真孝
【氏名】伊藤 克亘
|
| 【要約】 |
【課題】一般の音声認識システムによる音声入力では、入力したい内容を正確にすべて発声しなければ入力できず、うろ覚えの単語や文章は入力できなかった。また、入力したい内容が長くて複雑なときに、人間同士ならば、その内容を特定するのに十分な部分まで発声すれば伝わるのに、音声認識システムに対しては最後まですべて発声する必要があった。
【解決手段】有声休止をトリガーとして採用することにより音声補完を可能とした。 |
【特許請求の範囲】
【請求項1】 ユーザの発声をシステムが認識するものにおいて、ユーザの発する言語の断片に対し、システムが残りの部分を補う音声補完方法。 【請求項2】 請求項1における音声補完方法において、ユーザの意図的な有声休止をトリガーとして、システムが残りの部分を補う音声補完方法。 【請求項3】 請求項1における音声補完方法において、ユーザの意図的な有声休止を含む特定のキーワードの発声により、該キーワードを任意の文字列とみなし、システムがその前後の関係より前記キーワード部分を置き換える音声補完方法。 【請求項4】 請求項1ないし3のいずれかに記載された音声補完方法において、補完候補が複数ある場合には、システムが補完候補一覧を画面に表示又は音声で読み上げ、ユーザが音声、キーボード又はその他のデバイスを用いて選択し、補完候補が一つの場合には、システムがユーザに画面表示や音声合成等により確認を求めるか、あるいは、自動的に最後まで入力する音声補完方法。 【請求項5】 ユーザの発声をシステムが認識するものにおいて、ユーザの発する言語の断片に対し、システムが残りの部分を補完する音声補完装置。 【請求項6】 請求項5における音声補完装置において、ユーザの意図的な有声休止をトリガーとして、システムが残りの部分を補う音声補完装置。 【請求項7】 請求項5における音声補完装置において、ユーザの意図的な有声休止を含む特定のキーワードの発声により、該キーワードを任意の文字列とみなし、システムがその前後の関係より前記キーワード部分を置き換える音声補完装置。 【請求項8】 請求項5ないし7のいずれかに記載された音声補完装置において、補完候補が複数ある場合には、システムが補完候補一覧を画面に表示又は音声で読み上げ、ユーザが音声、キーボード又はその他のデバイスを用いて選択し、補完候補が一つの場合には、システムがユーザに画面表示や音声合成等により確認を求めるか、あるいは、自動的に最後まで入力する音声補完装置。 【請求項9】 補完装置で実行されるプログラムを記録した記録媒体において、前記プログラムは、音声を入力する音声入力ステップと、入力された音声を音声認識する音声認識ステップと、前記音声認識ステップでの音声認識結果の中で補完する元となる情報を与える単語断片を検出する検出ステップと、当該検出された単語断片に基いて、前記音声認識ステップでの音声認識結果を補完する補完処理ステップとを備えたことを特徴とする記録媒体。 【請求項10】 請求項9に記載の記録媒体において、前記検出ステップでは、前記音声入力ステップで入力された音声の中の有声休止区間を検出することにより、前記単語断片を特定することを特徴とする記録媒体。 【請求項11】 請求項10に記載の記録媒体において、前記単語断片は前記有声休止区間の前の音声認識結果であることを特徴とする記録媒体。 【請求項12】 請求項9に記載の記録媒体において、前記検出ステップでは、前記音声認識ステップでの音声認識結果の中の予め定めた文字列を検出することにより、前記単語断片を特定することを特徴とする記録媒体。 【請求項13】 請求項12に記載の記録媒体において、前記単語断片は前記予め定めた文字列の後の音声認識結果であることを特徴とする記録媒体。 【請求項14】 請求項9〜13のいずれかに記載の記録媒体において、前記補完ステップにより前記単語断片を補完するときに複数の補完候補が存在する場合には、当該補完候補を選択する選択ステップをさらに備えたことを特徴とする記録媒体。
|
【発明の詳細な説明】【0001】 【発明の属する技術分野】本願発明は、音声認識において一般的に適用される音声補完方法、装置および記録媒体に関するものである。 【0002】 【従来の技術】人と人とが交わす音声対話が、我々人間にとって快適で優れた情報交換手段である一つの理由は、対話相手が様々な形で自分の発話や思考の手助けをしてくれるからである。すなわち、人間同士の音声対話においては、たとえ話者がある単語を最後まで思い出せず、その途中に言い淀むことがあったとしても、対話相手は、話者の言いたいことを推測して候補を提示することで、話者が思い出すのを手助けしてくれるのである。例えば、話者が「音声補完」という単語全体を思い出せず「おんせいー」と言い淀むと、対話相手が「音声補完?」と問いかけて手助けをしてくれる。これは、発話された単語の断片の続きを補うことで、話者が述べようとしている単語全体の候補を提示している、つまり、単語を補完していると見なすことができる。 【0003】補完の概念は、テキストインタフェースにおいては既に広く受け入れられている。例えば、tcshやbash等のUNIX(登録商標)シェル及びEmacs/Mule等のテキストエディタは、ファイル名やコマンド名の補完機能を提供している。こうした補完機能においては、ユーザが補完機能を呼び出すキー(以下「補完トリガーキー」という。)を押したときに、途中までタイプされた単語の断片の続きが補われる。他にも、Netscape Communicator及びInternet Explorer等のWWWブラウザにおいては、URL等の自動補完機能が導入されている。これは、ユーザがタイプしている最中に、システム側が補完候補一覧を次々と提示していく機能である。 【0004】また、補完機能は、近年、テキストインタフェース以外でも導入され始めている。例えばペン入力においては、予測ペン入力インタフェースやPOBox等の自動補完機能を持ったインタフェースが提案されている(予測ペン入力に関しては、福島俊一、山田洋志「予測入力インタフェースとその手書き操作削減効果」情処学論、Vol.37,No.1,pp.23-30(1996)、POBoxについては、Masui,T.「An Efficient Text Input Method for Pen-based Computers」Proceedings of the ACM Conference on Human Factors in Computing Systems(CHI'98),pp.328-335(1998)参照)。 【0005】 【発明が解決しようとする課題】しかし、音声入力インタフェースにおいては、音声入力中に補完機能を呼び出す適当な手段がなかったために、音声補完入力が存在しないというのが実状であった。 【0006】そこで、本発明の目的は、入力音声についても補完を行うことができる音声補完方法、装置および記録媒体を提供することにある。 【0007】 【課題を解決するための手段】本願発明は、システムに対する音声入力中に、ユーザが入力したいすべてを発話せずにその断片だけを発話しても、システムが残りを補って入力することを可能にする音声入力インタフェース機能(以下「音声補完」という。)を導入することにより、音声認識を中心とした音声インタフェースをより使いやすくすることを可能とした。 【0008】音声補完の方式には、テキスト補完と同様に、補完トリガーキーによる補完と、発声中に次々と補完候補を出すような自動補完の二つが考えられる。しかし、音声で自動補完をしようとしても、発話した断片を認識する時点で既に曖昧性が大きいため、テキスト補完と同じような精度で適切な候補を提示し続けることはできず、自動補完機能自体が煩わしくなってしまう可能性が高い。つまり、音声の自動補完は不適切な機能となりやすい。そこで、音声補完の場合には、ユーザが候補を見たいと思うタイミングで、自発的に補完機能を呼び出せることが重要となる。使いやすい音声補完を実現するためには、どのように補完機能を呼び出すか、つまり音声における補完トリガーキーを何にするかが鍵となる。 【0009】本願発明においては、言い淀み現象の一つである有声休止(filled pause)に補完トリガーキーの役割を担わせることで、ユーザが自分の意志で、労力をかけずに補完機能を呼び出すことを可能にする。ここで有声休止とは、つなぎ語と音節の引き延ばし (日本語では母音の引き延ばし)の二つに分類され、つなぎ語とは、「えー」、「うー(ん)」、「あー」、「まー」、「んー」、「あのー」、「そのー」、「このー」のようなものである。補完トリガーキーとして、音声入力中に有声休止を行うことは、人間にとって極めて自然な行為である。 【0010】実際、人間同士の対話でも、有声休止は似た役割で用いられることがあり、話者は、次の単語を思い出すまでの間、時間を稼ぐために有声休止を用いたり、場合によっては対話相手の助けを期待しながら有声休止を用いたりしているのである。 【0011】 【発明の実施の形態】次に、音声補完入力の2つの様態について説明する。 【0012】[有声休止を用いた音声補完方法(音声フォワード補完)]第1の方法は、言い淀み現象の一つである有声休止に、補完機能を呼び出す補完トリガーの役割を担わせることで、ユーザが自分の意志ではあるが、あまり労力をかけずに音声補完を行うことを可能にする。 【0013】例えば、「音声補完」が音声認識システムの辞書に登録されている場合には、「おんせいー」と「い」の引き延ばしにより有声休止を行うか、あるいは、「おんせい、えー」とつなぎ語「えー」により有声休止を行うと、「音声補完」のように補完されて表示される。補完候補が複数ある場合には、システムがその候補を画面に表示あるいは音声合成をしたりして提示し、ユーザがその中から適切な候補を選べばよい。補完候補が一つのときには、ユーザに確認を求めてもよいし、自動的に最後まで入力してもよい。 【0014】[音声ワイルドカード補完方法(音声バックワード補完)]第2の方法は、ユーザが発声途中で意図的に有声休止を行いながらある特定のキーワード(「なんとかー」等)を発声すると、そのキーワード全体をワイルドカード(任意の文字列)とみなし、システムがその前後からワイルドカード部分を補って入力することを可能にする。 【0015】例えば、「音声補完」が音声認識システムの辞書に登録されているときに、「なんとかー」という有声休止を伴うキーワードを使って、「なんとかーほかん」と発声すれば、「なんとかー」の部分を任意の文字列に置き換えた候補一覧(「音声補完」「音声ワイルドカード補完」等)を見て選択できる。補完候補が複数ある場合には、システムが画面に表示したり音声合成をしたりして提示し、ユーザがその中から適切な候補を選ぶ。補完候補が一つの場合には、ユーザに確認を求めてもよいし、自動的に最後まで入力してもよい。 【0016】音声補完は、単語や文節、文章等の様々なレベルを対象として実施が可能であるが、以下、単語を例にとって、有声休止を用いた音声補完について説明する。ただし、ここでの単語は、音声認識システムの単語辞書上(言語モデル上)の1単語とする。したがって、例えば「宇多田ヒカル」のような姓名が一つの単語として登録されているときに、「うただー」と「だ」の音で有声休止を行うと、「宇多田ヒカル」が補完候補の一つとして得られる。 【0017】ユーザは、以下のように有声休止を用いて音声補完しながら、単語を入力することができる(図1参照)。 【0018】1. 単語の発声途中で母音を引き延ばすと、既に発声された断片から始まる補完候補(単語)の一覧が、番号付きで即座に表示される。例えば、「うただー」と入力すると(図2)(図3)、「1. 宇多田ヒカル、 2. 上原多香子、 3. MR.DYNAMITE」 のように補完候補が表示される(図4)。あるいは、ワイルドカードキーワードの最後の母音を引き延ばし(例、「なんとかー」)、続いて単語の後半を発声すると、その発声された断片が末尾に付く補完候補の一覧が、同様に番号付きで表示される。 【0019】2. 補完候補が多くて画面に入りきらない場合には、「次の候補」というマークが表示される。この場合、「次」「次の」「次の候補」のいずれかを発声すると他の候補を見ることができる。補完候補が不適切なとき、あるいは別の単語を入力したくなったときは、次の3.の選択をせずに別の発話に移ってもよい。 【0020】3. ユーザは候補一覧を見ながら、以下の3通りの方法で補完候補を選択できる。 (a) 候補の番号を言って選択する(図5)。(例えば、「1番」か「1」と発声する。)(b) 単語の続き、あるいは単語の前半を読み上げて選択する。(例えば、「ひかる」と発声する。)(c) 単語全体を頭から読み上げて選択する。(例えば、「うただひかる」と発声する。)(d) 候補を他のデバイス(キーボードやマウス、タッチパネル等)で選択する。 選択すると、その候補は強調表示され(図6)、音声認識結果として確定される(図7)。 【0021】音声補完は、一つの単語を入力中に、繰り返し呼び出すことが可能である。例えば、「サザンオールスターズ」を入力するときに、「さざんー」で候補一覧を見た後、「おーるー」でさらに絞り込まれた候補一覧を見て、最後に「すたーず」と言って確定できる。なお、この例に示したように、単語中の長母音(「おーる」の /o-/ )においては音声補完が呼び出されず、意図的に有声休止した箇所でのみ呼び出されるようにする必要がある。 【0022】実際に、音声補完が可能な音声入力インタフェースシステムを実装し、運用した結果、音声補完が実用的に機能し、ユーザが音声補完を呼び出しながら、インタラクティブに音声入力できることを確認した。音声補完は、使用するのが容易で訓練は不要であり、直感的で使いやすいインタフェース機能であることがわかった。特に、長い語句を入力する際に、音声補完は非常に有効であった。 【0023】今回の運用では、曲名やアーティスト名の入力、住所入力といった各種固有名詞の入力で有用性を確認したが、システムに対して音声で入力するような様々な局面にもすぐに適用できるものである。 【0024】本発明の音声補完方法を使用する音声補完装置の好適実施形態を図8を参照して説明する。 【0025】図8において、音声補完装置は、CPU10、システムメモリ20、入出力インターフェース(I/O)30、入力装置40、ディスプレイ50およびハードディスク(HD)60を有する。音声補完装置としてパーソナルコンピュータなど、プログラムを実行可能な情報処理機器を使用することができる。 【0026】CPU10はシステムメモリ20にロードされた後述のプログラムを実行して、音声補完機能を実現する。システムメモリ20はRAMを有し、RAM上に実行すべきプログラムをロードすると共に、CPU10に対する入出力データを一時記憶する。 【0027】I/O30は不図示のマイクロホンと接続し、マイクロホンから入力された音声をCPU10に転送する。入力装置40はキーボードとマウスまたはタッチパネル等を有し、CPU10に対する動作指示を行う。ディスプレイ50は入力装置40からの入力情報や、CPU10により実行された音声認識処理の認識結果を表示する。また、CPU10により補完された文字列をも表示する。さらに、補完可能な文字列が複数ある場合には複数組の文字列を表示して、ユーザの選択をI/O30あるいは入力装置40を介して受け付ける。 【0028】ハードディスク60は音声認識プログラム、単語辞書および、これらプログラムで使用する表示用データや各種データをストアしている。音声認識プログラムは市販品と同等のものを使用することができるが、以下に述べる補完機能を付加するように音声認識プログラムを改良する必要がある。 【0029】音声認識処理では、入力音声の中に有声休止区間を検出すると、補完候補一覧を作成する。補間候補一覧を作成する処理は、既存の連続音声認識プログラムを以下に述べるように拡張して実現する。 【0030】その際、有声休止を含まない通常の発話の認識には副作用のないようにする必要がある。以下、単語発声の補完を説明するが、連続音声中の単語を補完することも同じ枠組で可能である。本システムは単語辞書として、入力対象の単語辞書(人名等)以外に、ワイルドカードキーワード辞書とインタフェース操作用語辞書(候補番号や他候補の表示指示等)を使用する。単語辞書は、図10のように木構造で保持される。 【0031】この単語辞書を用いた認識処理では、単語辞書の根から、フレーム同期で枝別れに応じて仮説を増やして、ノードを葉の方向へたどっていく。図中のくさび形のマークが仮説をあらわす。有声休止が検出されると、その時点で最も尤度の高い仮説がワイルドカードキーワードかどうかを判定し、音声フォワード補完と音声バックワード補完のどちらを実行するかを決定する。音声フォワード補完の場合、その時点で有効な仮説(尤度の高い順に上位Nseed個)から葉の方向へたどることで、補完候補の生成を実現する。それらを尤度の高い順に番号付けして、上位N choice 個を取得する。 【0032】生成する際に用いた仮説に対応するノードを補完候補のシードと呼ぶ。例えば、図10の一番上の黒い丸がシードであるとすると、補完候補は“Blankey jetcity ”と“Black flys ”になる。同時に、そこまでに認識した音素列を求めることにより、各候補においてどこまで発声されたかを調べる。 【0033】ユーザが補完候補を見た後に、単語の続きを言っても選択できるように、認識を開始する根を登録するエントリノードテーブルを導入し、単語の途中からの認識を可能にする。通常の単語の頭からの認識では、このテーブルには単語辞書の根だけが登録されている。単語の途中から認識を開始したい場合には、図10のように補完候補のシードを根として一時的に(有声休止を伴う発話の次の発話だけ)追加する。追加エントリは、有声休止後の続きの音素列だけを言えば認識されるが、認識結果としては、その単語全体とする。 【0034】一方、音声バックワード補完の場合、有声休止終了時点以降に発声された単語の後半部分を認識し、補完候補を生成する必要がある。この単語の途中からの認識は、辞書中の全単語の途中の音節を、エントリーノードテーブルに一時的に(ワイルドカードキーワードの直後だけ)追加することで実現する。そして葉に到達した仮説から尤度の高い順に番号付けして、上位Nchoice 個を送信する。その後、単語の頭を言っても選択できるようにするために、各候補で発声されなかった音素列の部分の終端を葉とする単語を一時的に登録する。例えば、「小柳ゆき」を「なんとかーゆき」で入力した場合、/koyanagi/の末尾を一時的に葉とする単語を追加する。 【0035】音声補完装置の動作を図9を参照して説明する。図9は改良された音声認識プログラムの内容を示す。音声認識プログラムは入力装置40からの指示で、システムメモリハードディスク60からシステムメモリ20にロードされた後CPU10により実行される。CPU10はI/O30を介して不図示のマイクロホンから音声を入力すると、従来と同様、デジタル信号の形態の音声をシステムメモリ20に一時記憶する(ステップS10)。このとき、CPU10は入力される音声データを調べて、信号処理により有声休止(母音の引き延ばし、持続した有声音、filled pause)の区間をたとえば、特願平11ー305768号に示される方法で検出する。 【0036】有声休止区間を検出すると、これまでにシステムメモリ20に記憶した音声データについて音声認識プログラムを使用して音声認識およびその補完を行う(ステップS30)。音声認識結果は従来と同様、単語辞書や文法に基きながら音素列の仮説を複数生成し、各尤度を評価し、尤度の最も高いものから得られる。 【0037】CPU10は、このような処理と、平行して、絶えず、有声休止があるかどうかの判断を行っており、有声休止があることが検出されると、音素列の仮説に基いて単語辞書を参照しながら上述の補完処理を実行する(ステップS20)。 【0038】なお、有声休止区間が検出されない場合、手順はステップS30→S70へと進み、これまでの音声認識結果が出力される。 【0039】補完候補はディスプレイ50の表示画面に表示される。ユーザは表示された複数の補完語候補の中の所望の候補をたとえば、音声やマウス、タッチパネルにより選択する(ステップS60)。補完候補が1つの場合に場合には、確認のためにユーザの選択を待ってもよいし、自動選択(確定)してもよい。選択された候補が最終的な補完結果として決定される。補完結果も音声認識結果として出力される(ステップS70)。 【0040】上述の実施形態の他に次の形態が実施可能である。 1)補完された音声認識結果を出力する出力手段は、ディスプレイの外に、プリンタ、合成音声出力用スピーカ、他のコンピュータへの通信装置、フロッピー(登録商標)ディスクなどの記録媒体への情報を書き込むドライブとすることができる。なお、上記スピーカから合成音声を出力する場合には、周知の音声合成用プログラムを使用して音声認識結果の文字列に基いて音声を合成すればよい。さらに、補完候補を合成音声でユーザに報知してもよいし、この場合、ユーザの選択は音声入力でおこなってもよいし、入力装置40を使用してもよい。音声入力を使用する場合には、CPU10により入力音声を音声認識して、音声認識結果に基き、ユーザが選択した補完文字列を識別する。 2)音声補完装置は、ICチップ、携帯電話機、パーソナルコンピュータ、その他情報処理機器の形態で実現すればよい。 【0041】 【発明の効果】本発明によれば、まず第1に、記憶の補助を行うことができる。たとえ、入力したい内容がうろ覚えであっても、部分的に思い出して発声することができれば、システムの手助けにより入力することが可能になる。 【0042】次に、本発明によれば、入力したい内容が長くて複雑なときにおいても、その内容を特定するのに十分な部分だけを発声することにより、システムが残りを補完して入力することができるという効果がある。 【0043】また、本発明によれば、従来の音声インタフェースの多くが、ユーザ側にすべての音を最後まで丁寧に発声することを強いていたのに対し、音声補完においては、単語や文節、文章等の断片を発声することにより入力できるため、心理的抵抗が少なく使いやすいという効果がある。
|
| 【出願人】 |
【識別番号】301021533 【氏名又は名称】独立行政法人産業技術総合研究所 【識別番号】592163860 【氏名又は名称】後藤 真孝 【識別番号】500331172 【氏名又は名称】伊藤 克亘
|
| 【出願日】 |
平成12年12月14日(2000.12.14) |
| 【代理人】 |
|
| 【公開番号】 |
特開2002−91492(P2002−91492A) |
| 【公開日】 |
平成14年3月27日(2002.3.27) |
| 【出願番号】 |
特願2000−380781(P2000−380781) |
|