| 【発明の名称】 |
音声認識装置 |
| 【発明者】 |
【氏名】木内 真吾
【氏名】中田 孝一
|
| 【要約】 |
【課題】応答を返すまでに入力された音声に対して取りこぼしをなくすことができる音声認識装置を提供すること。
【解決手段】マイクロホン12に音声が入力されると、特徴量抽出部26によって音声特徴量が抽出され、これに基づいて照合処理部28により、所定の照合処理が行われ、入力音声に対応する文字列が特定される。音声に時間t1以上のブランクが含まれていることを検出すると、照合処理部28は、その時点までの認識結果を制御部14に出力する。制御部14は、レベルメータ30からの出力に基づき、時間t1以上のブランクが検出された時点から時間t2以内に音声入力が行われたか否かを判定し、音声入力が行われた場合には、照合処理部28に指示を送り、所定の照合処理を再開させる。 |
【特許請求の範囲】
【請求項1】 音声を集音するマイクロホンと、前記マイクロホンによって集音された音声に対して音声認識処理を行う音声認識処理手段と、前記音声認識処理手段によって認識された内容に基づいて応答音声を生成し、出力する応答手段と、前記マイクロホンによって集音される音声に含まれる無音状態を検出し、この無音状態が時間t1以上継続したときに前記音声認識処理の中断を決定する中断決定手段と、前記マイクロホンによって集音される音声の音圧レベルを検出する音圧レベル検出手段と、前記無音状態が前記時間t1を経過した後の時間t2の間に、前記音圧レベル検出手段によって検出された音圧レベルが所定値を超えたときに、前記音声認識処理手段に対して処理の再開を決定する再開決定手段と、を備えることを特徴とする音声認識装置。 【請求項2】 請求項1において、前記再開決定手段は、入力音声に含まれる前記時間t1以上の最初の無音状態に対応して前記音声認識処理手段に対して1回だけ処理の再開を決定することを特徴とする音声認識装置。 【請求項3】 請求項1において、前記再開決定手段は、前記音声認識処理手段に対して処理の再開を指示する動作とともに、前記応答手段に対して前記応答音声の出力を中止する指示を送ることを特徴とする音声認識装置。 【請求項4】 請求項1において、前記時間t2は、前記無音状態の継続時間が前記時間t1となって、前記中断決定手段によって前記音声認識処理の中断が決定されてから、前記応答手段によって前記応答音声を出力するまでの時間にほぼ等しい値に設定することを特徴とする音声認識装置。 【請求項5】 請求項1〜4のいずれかにおいて、前記応答音声やその他の音源から出力される音声を出力するスピーカと、前記マイクロホンによって集音される音声に含まれる音声認識対象外の成分を除去する除去手段と、をさらに備え、前記除去手段から出力される音声認識対象の音声を前記音声認識処理手段に入力することを特徴とする音声認識装置。 【請求項6】 請求項1〜5のいずれかにおいて、前記応答手段は、前記時間t1以上の無音状態が検出された後に再開された前記音声認識処理手段による音声認識処理の成否に応じて異なる内容の前記応答音声を生成することを特徴とする音声認識装置。
|
【発明の詳細な説明】【0001】 【発明の属する技術分野】本発明は、入力される音声に対応する文字列を特定し、その内容に応じた応答を返す音声認識装置に関する。 【0002】 【従来の技術】従来から、音声によって各種の操作指示等の入力を行うための音声認識装置が実用化されており、各種の装置やシステムに採用されている。例えば、音声認識装置を搭載した車載用のナビゲーション装置では、経路探索における目的地の設定等の操作指示を音声により入力できるようになっている。また、パーソナルコンピュータ(以下、「パソコン」と称する。)において所定のプログラムを実行することにより、パソコン上で音声認識装置を実現し、マイクロホンによって集音された音声に対応して文章の入力等の操作を行っているものもある。 【0003】ところで、一般に音声認識技術は、単語音声認識技術と連続語音声認識技術とに分類することができる。前者の単語音声認識技術は、単語毎に区切って発声された音声を認識し、対応する単語の文字列を特定する技術である。また、後者の連続語音声認識技術は、複数の単語等が連続して発声された音声を認識し、対応する複数の単語の文字列を特定する技術である。 【0004】従来は、比較的に処理が容易な単語音声認識技術を採用した音声認識装置が主流であったが、利用者の立場から考えると、複数の単語を連続して入力することができるほうが操作性がよく好ましいことから、近年では、連続語音声認識技術を採用した音声認識装置が普及しつつある。このような連続語音声認識技術を採用した音声認識装置をナビゲーション装置に搭載した場合には、例えば、経路探索の目的地設定等において、「○○県××市△△・・・」というように都道府県名、市町村名、地名等の単語を連続して入力して認識させることができるので、これら都道府県名等の単語を1つずつ入力する場合に比べて入力操作を快適に行うことができる。 【0005】 【発明が解決しようとする課題】ところで、上述した連続語音声認識技術を採用した音声認識装置では、利用者が発声した音声を取り込む際に、ほぼ無音と見なせる状態(以後、この無音状態を「ブランク」と呼ぶ。)が予め設定した一定時間を超えた場合に、その時点を区切りとしてそれまでに入力された音声に対して音声認識処理を行い、認識結果を利用者に対して応答している。 【0006】例えば、入力された音声において時間T1以上のブランクが含まれていることを検出した時点で、この音声に対応した音声合成処理を行って所定の応答を出力する場合を考えると、有効な音声(ブランクを除いた音声)の入力が終わってから対応する応答が出力されるまでの間に必要な時間は、ブランクに対応する時間T1と音声合成処理に必要な時間を合計した所定時間Tとなる。したがって、利用者の立場からすれば、この所定時間Tが音声入力時に許容される見かけ上のブランクであり、この所定時間Tよりも短いブランクしか含まずに音声入力を行った場合には、連続語として音声認識処理が行われるものと考えるのが普通である。 【0007】ところが、従来の音声認識装置では、所定時間Tよりも短い時間T1のブランクを検出した時点で音声認識処理を終了して応答処理を開始していたため、この時間T1の経過後に音声が入力されても認識されない、いわゆる「取りこぼし」が生じるという問題があった。一般に、普段言い慣れていない単語は、流暢に発声することはできず、単語間にブランクが含まれる場合が多いため、上述した取りこぼしが生じやすい。 【0008】例えば、音声認識装置を搭載したナビゲーション装置に対して、普段言い慣れていない住所等を入力する場合を考えると、利用者自身は、「○○県××市・・・」というように住所を連続して入力しているつもりであるにも関わらず、実際には、「○○県」と「××市」の間など各単語の間にブランクを挿入してしまい、このため、例えば「○○県」までで認識処理が中断されて対応する応答が行われ、それ以降に発声された「××市・・・」の一部が取りこぼしとなってしまうことがある。また、上述したような取りこぼしが生じた場合には、例えば、「○○県。市町村名をどうぞ。」といった応答が行われることとなるので、利用者の立場から考えると、一度入力したはずである市町村名以降の音声が無視され、再度入力を要求されるので、このような応答に対して利用者は、違和感を感じることが多い。 【0009】本発明は、このような点に鑑みて創作されたものであり、その目的は、応答を返すまでに入力された音声に対して取りこぼしをなくすことができる音声認識装置を提供することにある。また、本発明の他の目的は、違和感のない応答を返すことができる音声認識装置を提供することにある。 【0010】 【課題を解決するための手段】上述した課題を解決するために、本発明の音声認識装置では、マイクロホンにより音声を集音し、集音された音声に対して音声認識処理手段によって音声認識処理を行い、認識された内容に基づいて応答手段により応答音声を生成し、出力する場合に、中断決定手段は、マイクロホンによって集音される音声に含まれる無音状態を検出し、この無音状態が時間t1以上継続したときに、音声認識処理の中断を決定する。そして、音圧レベル検出手段は、マイクロホンによって集音される音声の音圧レベルを検出しており、上述した無音状態が時間t1を経過した後の時間t2の間に、音圧レベル検出手段によって検出された音圧レベルが所定値を超えたときに、再開決定手段は、音声認識処理の再開を決定する。 【0011】音声に含まれる無音状態が時間t1を経過して所定の応答処理が開始された後にも、所定の時間t2が経過するまでの間に所定の音圧レベルを超える音声が入力された場合には音声認識処理手段による処理が再開されるので、応答を返すまでに入力された音声に対して取りこぼしをなくすことができる。 【0012】また、上述した再開決定手段は、入力音声に含まれる時間t1以上の最初の無音状態に対応して音声認識処理手段に対して1回だけ処理の再開を決定することが望ましい。一般に、最初の無音状態が検出されて応答が返された場合に、利用者がこの応答と並行して音声入力を行い続けるということはあまりないので、最初の無音状態に対応して1回だけ音声認識処理手段の処理を再開するだけでも、応答を返すまでに入力された音声の取りこぼしをほとんどなくすことができる。 【0013】また、上述した再開決定手段は、音声認識処理手段に対して処理の再開を指示する動作とともに、応答手段に対して応答音声の出力を中止する指示を送ることが望ましい。音声認識処理手段の処理が再開された場合に応答音声に出力を中止することにより、利用者自身が発声した音声と応答音声とが重なることを防ぐことができる。特に、応答音声を返すことなく音声認識処理が再開されるため、利用者によって発声される音声に時間(t1+t2)のブランクが含まれるまで連続語に対する音声認識処理を継続することができ、効率よい音声入力を行うことができる。 【0014】また、上述した時間t2は、無音状態の継続時間が時間t1となって、中断決定手段によって音声認識処理の中断が決定されてから、応答手段によって応答音声を出力するまでの時間にほぼ等しい値に設定することが望ましい。無音状態の継続時間が時間t1となってから、応答手段による応答音声が出力されるまでの時間と上述した時間t2をほぼ等しい値とすることにより、応答音声が出力される以前に音声入力が行われた場合に、この音声入力に確実に対応して音声認識処理を継続させることができる。したがって、利用者自身は連続して音声を入力しているつもりであるにも関わらず、入力途中の音声に対応して音声認識処理が開始されて応答音声が出力されてしまうことがなく、利用者が違和感を感じることを防ぐことができる。 【0015】また、応答音声やその他の音源から出力される音声を出力するスピーカと、マイクロホンによって集音される音声に含まれる音声認識対象外の成分を除去する除去手段とをさらに備えておいて、除去手段から出力される音声認識対象の音声を音声認識処理手段に入力することが望ましい。音声認識対象外の成分を除去することにより、音声認識処理の精度を向上させることができるので、車載用のナビゲーション装置等に本発明の音声認識装置を搭載する場合など、音声認識対象外の音声がマイクロホンによって集音される音声に含まれやすい環境において特に有効である。 【0016】また、上述した応答手段は、時間t1以上の無音状態が検出された後に再開された音声認識処理手段による音声認識処理の成否に応じて異なる内容の応答音声を生成することが望ましい。具体的には、例えば、再開後の音声認識処理が成功した場合には認識結果に基づいた応答音声を出力し、音声認識処理が失敗した場合には「利用者による入力音声の存在は認識しているが音声認識処理には失敗した」という内容を含む応答音声を出力するというように、音声認識処理の成否に応じて応答音声の内容を異ならせることにより、自分の行った音声入力が無視され、あるいは途中で遮られているといった悪い印象を利用者に対して与えることがなく、利用者が応答音声に対して感じる違和感をなくすことができる。 【0017】 【発明の実施の形態】以下、本発明を適用した一実施形態の音声認識装置について、図面を参照しながら説明する。図1は、本実施形態の音声認識装置の構成を示す図である。同図に示す音声認識装置100は、車載用のナビゲーション装置300に対して音声により操作指示を与えるために用いられるものであり、トークスイッチ10、マイクロホン12、制御部14、遅延素子16、適応フィルタ(ADF)17、演算部18、音声認識処理部20、レベルメータ30、音声合成処理部32、合成部34、スピーカ36を含んで構成されている。なお、本実施形態の音声認識装置は、連続語音声認識技術を採用しているものとする。 【0018】トークスイッチ10は、利用者が音声入力を行う前に操作されるものであり、操作状況が制御部14に出力される。マイクロホン12は、利用者が発声した音声を集音し、これを電気信号(音声信号)に変換して出力する。制御部14は、音声認識装置100の全体動作を制御するものであり、音声認識処理を行った結果得られた文字列等の情報をナビゲーション装置300に出力する。制御部14の動作の詳細については後述する。 【0019】遅延素子16は、マイクロホン12から出力される音声信号を所定時間だけ遅延した信号を出力する。この遅延素子16は、例えば、伝達特性Z-mを有するFIR(Finite Impulse Response )型のデジタルフィルタを用いて、遅延時間tに対応するフィルタ係数を1、それ以外のフィルタ係数を0に設定することにより実現される。 【0020】適応フィルタ17は、車室内の音響空間の伝達特性、具体的には、スピーカ36から放射される音がマイクロホン12に到達するまでの間の伝達特性を模擬するためのものであり、フィルタ係数Wを有するFIR型のデジタルフィルタと、このデジタルフィルタのフィルタ係数を設定するフィルタ係数設定部とを含んで構成されている。例えば、LMS(Least Mean Square )アルゴリズムを用いて、スピーカ36に入力される音声信号(後述する)を参照信号として適応等化処理を行うことによりフィルタ係数Wが決定され、マイクロホン12の出力信号に含まれるスピーカ36の出力音成分を除去する処理が演算部18によって行われる。 【0021】このようにして、本実施形態では、スピーカ36の出力音成分をマイクロホン12から出力される音声信号から除去しているので、音声認識処理時における応答音声やオーディオ装置200から出力されるオーディオ音などが利用者の入力した音声と重なった場合にも、利用者の音声のみを確実に抽出することでき、音声認識処理の認識率を向上させることができる。 【0022】音声認識処理部20は、入力される音声に対応して文字列を特定する所定の音声認識処理を行うものであり、2つのリングバッファ22、24、特徴量抽出部26、照合処理部28を含んで構成されている。リングバッファ22は、演算部18から出力される雑音成分(オーディオ音や応答音声等)除去後の音声信号を入力順に取り込んで格納する。この格納された音声信号は、格納順に読み出されて、特徴量抽出部26に入力される。 【0023】特徴量抽出部26は、音声認識処理を行うために必要な各種の音声特徴量を抽出する。特徴量抽出部26によって抽出された音声特徴量は、制御部14からの指示に応じて、照合処理部28に向けて直接出力されるか、またはリングバッファ24に格納される。 【0024】リングバッファ24は、特徴量抽出部26から出力される音声特徴量をその入力順に格納しており、照合処理部28から読み出し要求が与えられると、この格納された音声特徴量が格納順に読み出される。照合処理部28は、予め音素や単語などを単位とする標準パターンを用意しており、特徴量抽出部26によって抽出された音声特徴量とこの標準パターンとを照合することにより、入力音声に対応する文字列を特定して制御部14に出力する。 【0025】レベルメータ30は、特徴量抽出部26から出力される音声特徴量に基づいて音声の音圧レベルを計測し、計測結果を制御部14に出力する。音声合成処理部32は、制御部14からの指示に従い、照合処理部28から出力された認識結果に対応した応答音声を出力するための音声信号を生成し、出力する。 【0026】合成部34は、音声合成処理部32から出力される音声信号と、オーディオ装置200から出力されるオーディオ音信号とを合成してスピーカ36に出力する。スピーカ36は、合成部34からの出力信号に対応して、応答音声やオーディオ音を出力する。 【0027】上述した音声認識処理部20が音声認識処理手段に、音声合成処理部32、スピーカ36が応答手段に、照合処理部28が中断決定手段に、制御部14が再開決定手段に、レベルメータ30が音圧レベル検出手段にそれぞれ対応している。また、遅延素子16、適応フィルタ17、演算部18が除去手段に対応している。 【0028】本実施形態の音声認識装置はこのような構成を有しており、次にその動作を説明する。 〔第1の動作手順〕図2は、音声認識装置100における第1の動作手順を示す流れ図である。なお、以下の説明では、ナビゲーション装置300において目的地などを設定する場合を想定し、操作指示として「○○県××市△△……」という音声、すなわち、“都道府県名”と“市町村名”、“地名”、……と続く複数の単語で構成される連続語音声に対して音声認識処理を行うものとして説明を行う。 【0029】制御部14は、トークスイッチ10が押下されたか否かを判定しており(ステップ100)、トークスイッチ10が押下されると、音声認識処理部20に対して起動指示を出力する。音声認識処理部20が起動した後に、マイクロホン12に対して利用者により音声入力が行われると(ステップ101)、この音声入力に対応して、音声認識処理部20により所定の音声認識処理が行われる(ステップ102)。具体的には、リングバッファ22に格納される音声信号に基づいて、特徴量抽出部26により音声特徴量が抽出され、照合処理部28により音声特徴量と標準パターンとの照合処理が行われることにより、入力された音声に対応する文字列(単語)が順次、特定される。 【0030】次に、音声認識処理部20内の照合処理部28は、入力された音声に時間t1以上のブランク(無音状態)が含まれているか否かを判定する(ステップ103)。時間t1以上のブランクが含まれていない場合には、ステップ103で否定判断がなされ、ステップ102に戻り、所定の音声認識処理が継続される。 【0031】また、入力された音声に時間t1以上のブランクが含まれている場合には、ステップ103で肯定判断がなされ、照合処理部28は、音声認識処理部20による音声認識処理の中断を決定するとともに、ブランク検出時点までの音声に対する認識結果を制御部14に出力する。 【0032】制御部14は、照合処理部28から受け取った認識結果を音声合成処理部32に出力することにより、ブランク検出時点までの音声に対応する応答音声を出力する(ステップ104)。また、ステップ104に示した処理と並行して、制御部14は、レベルメータ30からの出力信号が所定値を超えたか否かを調べることにより、時間t1以上のブランク検出時から時間t2以内に音声入力が行われたか否かを判定する(ステップ105)。なお、以後の説明では、時間t1以上のブランク検出時から時間t2以内に行われる音声入力を「追加の音声入力」と称することとする。 【0033】追加の音声入力が行われた場合には、ステップ105で肯定判断がなされ、制御部14は、音声認識処理の再開を決定し、音声認識処理部20に対して再度、起動指示を出力する。この起動指示に従って、音声認識処理部20による所定の音声認識処理が再開され(ステップ106)、入力音声に時間t1以上の2度目のブランクが含まれるまで(ステップ107)、ステップ106に示した音声認識処理が継続される。 【0034】入力された音声に時間t1以上の2度目のブランクが含まれる場合には、ステップ107で肯定判断がなされ、照合処理部28は、ブランク検出時点までの音声に対する認識結果を制御部14に出力する。制御部14は、照合処理部28から出力される認識結果に基づいて、追加の音声入力を正常に認識することができたか否かを判定する(ステップ108)。具体的には、追加の音声入力に対応して何らかの文字列(単語)を特定することができた場合にはその文字列、追加の音声入力に対応する文字列を特定することができなかった場合にはその旨、すなわち、認識を正常に行えなかった旨のエラー通知がそれぞれ照合処理部28から出力されるので、制御部14は、照合処理部28からのエラー通知の有無に基づいて、追加の音声入力を正常に認識することができたか否かを判定する。 【0035】追加の音声入力を認識することができた場合には、ステップ108で肯定判断がなされ、制御部14は、照合処理部28から受け取った認識結果の文字列を音声合成処理部32に出力することにより、追加の音声入力に対応する応答音声を出力する(ステップ109)。 【0036】また、追加の音声入力を認識できなかった場合には、ステップ108で否定判断がなされ、制御部14は、音声合成処理部32に指示を送り、追加の音声入力が存在することは認識している旨を含む応答音声を出力する(ステップ110)。 【0037】具体的には、例えば、上述したように、利用者が「○○県××市……」と入力しようとしたが、「○○県」に対応した応答音声がステップ104に示した処理によって出力されてしまったために、「××市……」の入力を途中でやめてしまった場合などで、追加の音声入力を正常に認識することができなかった場合には、「○○県まで認識できました。もう一度、○○県以降をお願いします」といった内容の応答音声が出力される。このように、追加の音声入力の存在を認識している旨を含む応答音声を出力することにより、再度音声入力を促す場合であっても利用者の不快感や違和感を軽減することができる。 【0038】また、追加の音声入力が行われなかった場合には、上述したステップ105で否定判断がなされ、制御部14は、必要に応じて追加の音声入力を促す応答を出力する(ステップ111)。具体的には、例えば、利用者により「○○県」だけが入力された場合であれば、「○○県。市町村名以降をどうぞ」といった応答音声が出力される。 【0039】〔第2の動作手順〕ところで、上述した図2に示した第1の動作手順では、入力された音声に所定の時間t1以上のブランクが含まれる場合にこれを検出し、その後の時間t2以内に再び音声入力が行われた場合に1回だけ音声認識処理を再開するようにしていたが、時間t1以上のブランクを検出した後の時間t2以内に再び音声入力が行われた場合に、その都度音声認識処理が再開されるようにしてもよい。 【0040】図3は、音声認識装置100における第2の動作手順を示す流れ図であり、所定の時間t2以内に再び音声入力が行われた場合に、その都度音声認識処理を再開する場合の動作手順が示されている。なお、以下の説明においても、ナビゲーション装置300において目的地などを設定する場合を想定し、操作指示として「○○県××市△△……」という音声、すなわち、“都道府県名”と“市町村名”、“地名”、……と続く複数の単語で構成される連続語音声に対して音声認識処理を行うものとして説明を行う。また、図3に示す第2の動作手順では、上述した図2に示した第1の動作手順における動作と重複している部分が多いので、重複部分に関しては適宜、簡略化して説明を行う。 【0041】制御部14は、トークスイッチ10が押下されたか否かを判定しており(ステップ200)、トークスイッチ10が押下されると、音声認識処理部20に対して起動指示を出力する。音声認識処理部20が起動した後に、マイクロホン12に対して利用者により音声入力が行われると(ステップ201)、この音声入力に対応して、音声認識処理部20により所定の音声認識処理が行われる(ステップ202)。 【0042】次に、音声認識処理部20内の照合処理部28は、入力された音声に時間t1以上のブランクが含まれているか否かを判定する(ステップ203)。時間t1以上のブランクが含まれていない場合には、ステップ103で否定判断がなされ、ステップ102に戻り、所定の音声認識処理が継続される。 【0043】また、入力された音声に時間t1以上のブランクが含まれている場合には、ステップ203で肯定判断がなされ、照合処理部28は、音声認識処理部20による音声認識処理の中断を決定するとともに、ブランク検出時点までの音声に対する認識結果を制御部14に出力する。 【0044】次に、制御部14は、音声認識処理部20内の特徴量抽出部26に対して指示を送ることにより、音声特徴量をリングバッファ24に格納し(ステップ204)、これと並行して、照合処理部28から取得した認識結果を音声合成処理部32に出力することにより、ブランク検出時点までの音声に対応する応答音声の出力処理を開始するよう指示する(ステップ205)。 【0045】次に、制御部14は、レベルメータ30の出力信号に基づいて、時間t1以上のブランク検出時点から所定の時間t2以内に音声入力が行われたか否かを判定する(ステップ206)。ここで、第2の動作手順における時間t1およびt2について説明する。図4は、第2の動作手順における時間t1およびt2について説明する図である。同図(A)に示すように、最初に入力された音声において時間t1以上のブランクが含まれている場合にこのブランクが検出され、それまでに入力された音声に対応した所定の応答音声が出力されるので、ブランクの開始時点から応答音声が出力されるまでの間に必要な時間(以後、これを「応答時間」と称する。)tは、ブランクに対応する時間t1と応答音声を出力するための処理(応答処理)に必要な時間の合計に等しくなる。上述したように、利用者の立場からすれば、この応答時間tが音声入力時に許容されるブランク、すなわち見かけ上のブランクに対応しており、この応答時間tよりも短いブランクしか含まずに音声入力を行った場合には、連続語として音声認識処理が行われるものと認識されている場合が多い。 【0046】したがって、本実施形態では、時間t1以上のブランクを検出した後に音声入力が行われたか否かを判定する時間t2を、応答処理に必要な時間とほぼ等しい値に設定している。これにより、図4(B)に示すように、第1の音声入力(音声入力1)が行われ、ブランクが検出された後に、この第1の音声入力に対応する応答音声が出力される以前、すなわち時間t2が経過する以前に第2の音声入力(音声入力2)が行われた場合には、第1の音声入力に対応する応答処理が中断されて、第2の音声入力に対応する音声認識処理が開始されることとなる。すなわち、応答時間tよりも短いブランクしか含まずに音声入力が行れた場合には、連続語として音声認識処理を行うことができるので、利用者の認識している見かけ上のブランクと音声認識装置100において実際に許容されるブランク時間とをほぼ等しくすることができる。 【0047】時間t2以内に音声入力が行われた場合には、ステップ206で肯定判断がなされ、制御部14は、音声合成処理部32に指示を送り、ブランク検出時点までに入力された音声に対応する応答音声を出力する処理を中止するとともに、音声認識処理の再開を決定し、音声認識処理部20に対して所定の起動指示を送って照合処理部28を起動する(ステップ207)。 【0048】起動指示を受けた照合処理部28は、リングバッファ24に格納された音声特徴量を読み出し(ステップ208)、その後、ステップ202に戻り、読み出した音声特徴量などに基づいて所定の音声認識処理を行う。また、時間t1以上のブランク検出時点から時間t2以内に音声入力が行われなかった場合には、上述したステップ206で否定判断がなされ、制御部14は、特徴量抽出部26に対して指示を送り、音声特徴量をリングバッファ24に格納する動作を中止する(ステップ209)。 【0049】また、制御部14は、ステップ206に示した判定処理と並行して、照合処理部28から出力される認識結果に基づいて、入力された音声を正常に認識することができたか否かを判定しており(ステップ210)、音声を正常に認識することができた場合には、ステップ210で肯定判断を行って、照合処理部28から受け取った認識結果の文字列を音声合成処理部32に出力することにより、入力された音声に対応する応答音声を出力する(ステップ211)。 【0050】具体的には、照合処理部28は、入力された音声の全てに対応して何らかの文字列(単語)を特定することができた場合にはその文字列を出力し、音声の一部、あるいは全てに対応する文字列を特定することができなかった場合には、その旨(エラー通知)と特定することができた分の文字列を出力する。したがって、制御部14は、照合処理部28からのエラー通知の有無に基づいて、音声を正常に認識することができたか否かを判定する。 【0051】また、音声の一部あるいは全部を認識できなかった場合には、ステップ210で否定判断がなされ、制御部14は、音声合成処理部32に指示を送り、認識できた分の音声に対応する応答と、それ以外の音声(他の音声)が入力されたことも認識している旨の応答を出力する(ステップ212)。具体的には、利用者が「○○県××市……」と入力したが、「○○県」だけを認識することができ、後の「××市……」を認識することができなかった場合であれば、「○○県まで認識できました。もう一度、○○県以降をお願いします」といった内容の応答が出力される。このように、認識できなかった分の音声についても、その存在を認識している旨の応答を行うことにより、再度音声入力を促す場合における利用者の不快感や違和感を軽減することができる。 【0052】このように、本実施形態の音声認識装置100は、音声に含まれるブランクが時間t1を経過して所定の応答処理が開始された後にも、所定の時間t2が経過するまでの間に音声が入力された場合には、所定の音声認識処理を再開しているので、応答音声を返すまでに入力された音声に対して取りこぼしをなくすことができる。また、時間t1以上のブランクを検出した後に再開された音声認識処理の成否に応じて、音声認識処理が失敗した場合には「利用者による音声入力の存在は認識しているのだが音声認識処理には失敗した」という内容を含む応答音声を出力しているので、自分の音声入力が無視され、あるいは途中で遮られているといった悪い印象を利用者に対して与えてしまうことがなく、利用者が応答に対して違和感を感じることを防ぐことができる。 【0053】なお、本発明は上記実施形態に限定されるものではなく、本発明の要旨の範囲内において種々の変形実施が可能である。例えば、上述した実施形態では、本発明を適用した音声認識装置100を車載用のナビゲーション装置300と組み合わせて用いる場合の例を説明していたが、本発明の適用範囲は車載用に限定されるものではなく、他にも種々の装置やシステム、例えば、家庭用のパーソナルコンピュータ等を用いて実現される音声認識装置などに対しても適用することができる。 【0054】また、上述した実施形態では、車載用の用途を想定していたために、オーディオ音等を除去するための除去手段を備えた音声認識装置100について説明したが、家庭用の用途等において、音声認識処理の対象とする音声以外の音がほとんど影響しないような場合には、除去手段を省略して構成の簡略化、低コスト化を図るようにしてもよい。 【0055】 【発明の効果】上述したように、本発明によれば、音声に含まれる無音状態が時間t1を経過して所定の応答処理が開始された後にも、所定の時間t2が経過するまでの間に所定の音圧レベルを超える音声が入力された場合には、音声認識処理手段による処理を再開しているので、応答を返すまでに入力された音声に対して取りこぼしをなくすことができる。また、時間t1以上の無音状態が検出された後に再開された音声認識処理の成否に応じて、応答音声の内容を異ならせているので、自分の音声入力が無視され、あるいは途中で遮られているといった悪い印象を利用者に対して与えてしまうことがなく、利用者が応答に対して感じる違和感をなくすことができる。
|
| 【出願人】 |
【識別番号】000101732 【氏名又は名称】アルパイン株式会社
|
| 【出願日】 |
平成12年9月13日(2000.9.13) |
| 【代理人】 |
【識別番号】100103171 【弁理士】 【氏名又は名称】雨貝 正彦
|
| 【公開番号】 |
特開2002−91489(P2002−91489A) |
| 【公開日】 |
平成14年3月27日(2002.3.27) |
| 【出願番号】 |
特願2000−278399(P2000−278399) |
|