| 【発明の名称】 |
音を出力する機器を制御する制御装置 |
| 【発明者】 |
【氏名】朝山 砂子
【氏名】小島 良宏
【氏名】藤▲さき▼ 克巳
【氏名】岡部 公治
【氏名】石原 俊英
【氏名】楠本 典孝
【氏名】茨木 寿美
|
| 【要約】 |
【課題】音を出力する機器の動作を、ユーザーが発した音声を用いて制御する場合に、機器からの音量を制御することによってユーザーが発した音声に対する雑音を軽減する。
【解決手段】音を収集するマイク102と、収集された音のうち、ユーザーが発した機器の動作を制御するための音声を認識し、認識単語とその信頼度とを得る音声認識手段104と、得られた信頼度と、リジェクトパラメータ1およびそのリジェクトパラメータ1より小さいリジェクトパラメータ2とを比較する認識結果判定部105と、信頼度がリジェクトパラメータ1以上の場合に、認識単語に基づいて機器の動作を制御する映像出力制御部111および音声制御部108とを備え、信頼度がリジェクトパラメータ1より小さく、かつリジェクトパラメータ2より大きい場合に、音声制御部108は、機器が出力する音量を小さくするように機器を制御する。 |
【特許請求の範囲】
【請求項1】 音を出力する機器の動作を、ユーザーが発した音声を利用して制御する制御装置であって、音を収集する音収集手段と、その音収集手段によって収集された音のうち、前記ユーザーが発した前記機器の動作を制御するための音声を認識し、認識単語とその信頼度とを得る音声認識手段と、その音声認識手段によって得られた前記信頼度と、所定のリジェクトパラメータ1およびそのリジェクトパラメータ1より小さい所定のリジェクトパラメータ2とを比較する比較手段と、前記音声認識手段によって得られた信頼度が前記リジェクトパラメータ1以上の場合に、前記音声認識手段によって得られた認識単語に基づいて前記機器の動作を制御し、前記音声認識手段によって得られた信頼度が前記リジェクトパラメータ1より小さく、かつ前記リジェクトパラメータ2より大きい場合に、前記機器が出力する音量を小さくするように前記機器を制御し、前記音声認識手段によって得られた信頼度が前記リジェクトパラメータ2以下の場合に、前記機器の動作を制御しない機器制御手段とを備えたことを特徴とする音を出力する機器を制御する制御装置。 【請求項2】 前記音収集手段によって収集された音の量を検出する音量検出手段を備え、前記音声認識手段によって得られた信頼度が前記リジェクトパラメータ1より小さく、かつ前記リジェクトパラメータ2より大きい場合であって、前記機器制御手段が前記機器からの音量を小さくするように前記機器を制御してから所定の期間内に、前記音量検出手段によって検出された音の量が所定の音声レベルよりも大きい期間がなかったとき、前記機器制御手段は、前記機器が出力する音量を制御前の量に戻すように、前記機器を制御することを特徴とする請求項1に記載の音を出力する機器を制御する制御装置。 【請求項3】 前記音声認識手段によって得られた信頼度が前記リジェクトパラメータ1より小さく、かつ前記リジェクトパラメータ2より大きい場合であって、前記機器制御手段が前記機器からの音量を小さくするように前記機器を制御した後に、前記機器制御手段が前記音声認識手段によって得られた新たな認識単語に基づいて前記機器の動作を制御したとき、前記機器制御手段は、前記機器が出力する音量を制御前の量に戻すように、前記機器を制御することを特徴とする請求項1に記載の音を出力する機器を制御する制御装置。 【請求項4】 前記音声認識手段によって得られた信頼度が前記リジェクトパラメータ1より小さく、かつ前記リジェクトパラメータ2より大きい場合であって、前記機器制御手段が前記機器からの音量を小さくするように前記機器を制御してから所定の期間内に、前記機器制御手段が新たな認識単語に基づいて前記機器の動作を制御しないとき、前記機器制御手段は、前記機器が出力する音量を制御前の量に戻すように、前記機器を制御することを特徴とする請求項1に記載の音を出力する機器を制御する制御装置。 【請求項5】 前記機器が出力する音量の設定値を検出する音量設定値検出手段と、その音量設定値検出手段によって検出された設定値に基づいて、前記リジェクトパラメータ1および/または前記リジェクトパラメータ2を変更するためのパラメータ変更手段とを備えたことを特徴とする請求項1に記載の音を出力する機器を制御する制御装置。 【請求項6】 前記機器が出力する音量の設定値を検出する音量設定値検出手段と、その音量設定値検出手段によって検出された設定値に基づいて、前記所定の期間および/または前記音声レベルを変更するためのパラメータ変更手段とを備えたことを特徴とする請求項2または4に記載の音を出力する機器を制御する制御装置。 【請求項7】 請求項1から6のいずれかに記載の本発明の全部または一部の手段の全部または一部の機能をコンピュータにより実行させるためのプログラムおよび/またはデータを担持した媒体であって、コンピュータにより処理可能なことを特徴とする媒体。 【請求項8】 請求項1から6のいずれかに記載の本発明の全部または一部の手段の全部または一部の機能をコンピュータにより実行させるためのプログラムおよび/またはデータであることを特徴とする情報集合体。
|
【発明の詳細な説明】【0001】 【発明の属する技術分野】本発明は、音を出力する機器の動作を、ユーザーが発した音声を利用して制御する制御装置に関する。 【0002】 【従来の技術】近年、テレビジョン受像機(以下テレビとする)等の電子機器の機能は複雑化、多機能化しており、操作を行うためのスイッチやボタンも多様化してきている。 【0003】このため、電子機器の操作を行うためのスイッチ、ボタン、特にリモートコントロール送信機の機能も多様化してきており、電子機器の操作を正確に行うためには操作手順が複雑であったり、ボタン操作を数回以上行わなければならなかったりして、使い慣れたユーザーでもその機能を有効に使いこなすことは困難であった。 【0004】このような電子機器の複雑なユーザーインターフェースを改善する一手段として、入力された音声を認識してその認識結果に基づいて何らかの操作を行うことが効果的であると考えられ、近年様々な形式で実用化されてきた。 【0005】例えば特開平9−222985号公報には、電子機器の操作を音声のみで行う電子機器が開示されている。 【0006】図5に従来例の音声認識機能を備えた電子機器のブロック図を示す。 【0007】図5において、201は音声入力部であり、話者が発声した音声が入力される。202は音声認識部であり、音声入力部201から出力された音声データを認識処理して認識結果を求める。203は操作命令生成出力部であり、音声認識部202で得られた認識結果に基づいて電子機器の操作命令を生成する。204は操作対象の電子機器であり、操作命令生成出力部203で生成された操作命令に従って操作される。 【0008】以上のように構成された従来の音声認識機能を備えた電子機器について、以下その動作を説明する。 【0009】音声入力部201は、話者からの音声が入力されると入力された音声を音声データとして音声認識部202へ出力する。音声認識部202は、音声入力部201から出力された音声データを認識処理し、認識結果を操作命令生成出力部203へ出力する。操作命令生成出力部203は、音声認識部202から出力された認識結果に基づいて電子機器の操作命令を生成し、生成した操作命令を操作対象の電子機器204へ出力する。操作対象の電子機器204は、操作命令生成出力部203から出力された操作命令に従って操作される。 【0010】例えば、操作対象の電子機器204がCDプレーヤーである場合、ユーザーが音声入力部201に対して「CDを再生」と発声すると、音声認識部202がその音声を認識し、操作命令生成出力部203でCDを再生する命令が生成され、CDプレーヤーは操作命令生成出力部203から出力された命令に従ってCDを再生する。 【0011】 【発明が解決しようとする課題】しかし、電子機器にはテレビに代表されるように電子機器本体からも音声を出力するものがあり、このような機器において上記のような構成では、音声認識部には話者が発声した音声と共に、操作対象となる電子機器本体からの音声が入力される。このような場合、電子機器本体からの音声が雑音となり、音声認識部は話者の発声した音声コマンドを正確に認識することができない。即ち、話者が発声した音声コマンドに対する認識の棄却(以下リジェクトとする)や誤認識の発生する確率が高くなり、機器の操作性が低下するという問題があった。 【0012】このため、音声を出力する電子機器の操作に音声認識機能を用いる場合には、電子機器本体から出力する音声の適切な制御が必要になる。 【0013】本発明は、上記課題を解決するためになされ、音を出力する機器の動作を、ユーザーが発した音声を利用して制御する場合に、上記機器が出力する音量を制御することによってユーザーが発声した音声に対する雑音を軽減し、上記機器を制御する制御装置を提供することを目的とする。 【0014】 【課題を解決するための手段】上記目的を達成するために、第1の本発明(請求項1に対応)は、音を出力する機器の動作を、ユーザーが発した音声を利用して制御する制御装置であって、音を収集する音収集手段と、その音収集手段によって収集された音のうち、前記ユーザーが発した前記機器の動作を制御するための音声を認識し、認識単語とその信頼度とを得る音声認識手段と、その音声認識手段によって得られた前記信頼度と、所定のリジェクトパラメータ1およびそのリジェクトパラメータ1より小さい所定のリジェクトパラメータ2とを比較する比較手段と、前記音声認識手段によって得られた信頼度が前記リジェクトパラメータ1以上の場合に、前記音声認識手段によって得られた認識単語に基づいて前記機器の動作を制御し、前記音声認識手段によって得られた信頼度が前記リジェクトパラメータ1より小さく、かつ前記リジェクトパラメータ2より大きい場合に、前記機器が出力する音量を小さくするように前記機器を制御し、前記音声認識手段によって得られた信頼度が前記リジェクトパラメータ2以下の場合に、前記機器の動作を制御しない機器制御手段とを備えたことを特徴とする音を出力する機器を制御する制御装置である。 【0015】このように、第1の本発明では、音声認識手段によって得られた認識単語の信頼度に基づいて機器が出力する音量を小さくするようにその機器を制御するので、機器が出力する音量の影響により音声認識手段の認識単語の信頼度が低下した場合でも、機器が出力する音量を小さくし、それによって、音収集手段によって収集される機器からの音の影響を小さくすることができる。 【0016】また、第1の本発明では、音声認識手段によって得られた認識単語の信頼度がリジェクトパラメータ1とリジェクトパラメータ2の間である場合、つまり、リジェクトパラメータ1より一定の範囲内で小さい場合のみ、機器が出力する音の音量制御を行うので、ユーザーの発声以外の音声信号が音収集手段に収集され、音声認識手段が低い信頼度の認識結果を出力した場合に誤って機器の音量制御を行うことがなく、機器の音量制御を適切に行うことができる。 【0017】第2の本発明(請求項2に対応)は、前記音収集手段によって収集された音の量を検出する音量検出手段を備え、前記音声認識手段によって得られた信頼度が前記リジェクトパラメータ1より小さく、かつ前記リジェクトパラメータ2より大きい場合であって、前記機器制御手段が前記機器からの音量を小さくするように前記機器を制御してから所定の期間内に、前記音量検出手段によって検出された音の量が所定の音声レベルよりも大きい期間がなかったとき、前記機器制御手段は、前記機器が出力する音量を制御前の量に戻すように、前記機器を制御することを特徴とする第1の本発明に記載の音を出力する機器を制御する制御装置である。 【0018】このように、第2の本発明では、音声認識手段によって得られた信頼度がリジェクトパラメータ1より小さく、かつリジェクトパラメータ2より大きい場合であって、機器制御手段が機器からの音量を小さくするように機器からの音量の制御を開始してから予め定められた時間内に、音収集手段へ予め定められた値以上の音が収集されなかった場合には、ユーザーの音声入力は終了したと判断して自動的に音量制御を解除する。即ち、ユーザーが音量制御を解除するための操作を行わずに、機器の音量を元(制御前の音量)に戻すことができるので、操作性に優れている。 【0019】第3の本発明(請求項3に対応)は、前記音声認識手段によって得られた信頼度が前記リジェクトパラメータ1より小さく、かつ前記リジェクトパラメータ2より大きい場合であって、前記機器制御手段が前記機器からの音量を小さくするように前記機器を制御した後に、前記機器制御手段が前記音声認識手段によって得られた新たな認識単語に基づいて前記機器の動作を制御したとき、前記機器制御手段は、前記機器が出力する音量を制御前の量に戻すように、前記機器を制御することを特徴とする第1の本発明に記載の音を出力する機器を制御する制御装置である。 【0020】このように、第3の本発明では、音量を制御している状態でユーザーが発声した音声コマンドの認識が成功した場合には、機器の音量を元(制御前の音量)に戻すことができる。つまり、機器から出力される音声信号の音量の制御を迅速に行うことができ、操作性に優れている。 【0021】第4の本発明(請求項4に対応)は、前記音声認識手段によって得られた信頼度が前記リジェクトパラメータ1より小さく、かつ前記リジェクトパラメータ2より大きい場合であって、前記機器制御手段が前記機器からの音量を小さくするように前記機器を制御してから所定の期間内に、前記機器制御手段が新たな認識単語に基づいて前記機器の動作を制御しないとき、前記機器制御手段は、前記機器が出力する音量を制御前の量に戻すように、前記機器を制御することを特徴とする第1の本発明に記載の音を出力する機器を制御する制御装置である。 【0022】第5の本発明(請求項5に対応)は、前記機器が出力する音量の設定値を検出する音量設定値検出手段と、その音量設定値検出手段によって検出された設定値に基づいて、前記リジェクトパラメータ1および/または前記リジェクトパラメータ2を変更するためのパラメータ変更手段とを備えたことを特徴とする第1の本発明に記載の音を出力する機器を制御する制御装置である。 【0023】このように、第5の本発明では、機器が出力する音量の設定値に基づいてリジェクトパラメータ1およびリジェクトパラメータ2を適切に変更するので、機器から出力される音量の設定値が変化した場合でも認識結果の判定を正確に行うことができる。 【0024】第6の本発明(請求項6に対応)は、前記機器が出力する音量の設定値を検出する音量設定値検出手段と、その音量設定値検出手段によって検出された設定値に基づいて、前記所定の期間および/または前記音声レベルを変更するためのパラメータ変更手段とを備えたことを特徴とする第2または第4の本発明に記載の音を出力する機器を制御する制御装置である。 【0025】このように、第6の本発明では、機器が出力する音量の設定値に基づいて上記の所定の期間および/または音声レベルを適切に変更するので、機器から出力される音量の設定値が変化した場合でもユーザーの音声入力の終了を正確に検出することができる。 【0026】第7の本発明(請求項7に対応)は、第1から第6いずれかの本発明の全部または一部の手段の全部または一部の機能をコンピュータにより実行させるためのプログラムおよび/またはデータを担持した媒体であって、コンピュータにより処理可能なことを特徴とする媒体である。 【0027】第8の本発明(請求項8に対応)は、第1から第6のいずれかの本発明の全部または一部の手段の全部または一部の機能をコンピュータにより実行させるためのプログラムおよび/またはデータであることを特徴とする情報集合体である。 【0028】 【発明の実施の形態】以下に、本発明の実施の形態を図面を参照して説明する。 【0029】(実施の形態1)本発明の実施の形態1について、図面を用いて説明する。 【0030】本実施の形態の電子機器の構成について、図1を参照して説明する。なお、本実施の形態の電子機器は音を出力する機器であって、その電子機器内部には、ユーザーが発した音声を利用してその電子機器本体の動作を制御する制御装置が組み込まれているものとする。 【0031】さて図1に示すように、本電子機器は、音声入力部101と、音声認識部104と、認識結果判定部105と、音声出力制御部106と、音声出力部110と、映像出力制御部111と、映像出力部112とで構成されている。 【0032】音声入力部101は、マイク102と音声入力レベル検出部103とで構成されている。 【0033】マイク102は、音声収集装置であって、話者が発声した音声等の音を収集する。 【0034】音声入力レベル検出部103は、マイク102へ入力された音声の音声レベルを検出する。 【0035】音声認識部104は、利用できる音声コマンドを標準音声データとして記憶した認識用辞書(図示せず)を保持し、認識用辞書を用いて、音声データと標準音声データとを比較して認識処理を行う。認識処理については、例えばC.シュマントによる“コンピュータとのヴォイスコミュニケーション−未来のコンピューティングに向けて−”(サイエンス社)に示すように、音声認識部104が、音声入力部101から入力された音声データをデジタル信号処理により、例えば20ミリ秒毎のLPC係数のフレームを抽出する。 【0036】次に、求めたLPC係数のフレームと、標準音声データとして認識用辞書に保持している各音声コマンドのLPC係数データとをマッチングアルゴリズムを用いて比較する。マッチングアルゴリズムは、例えばLPCパラメータの各次元のベクトル毎に標準音声データの各次元のベクトルとの距離を算出し、その総和を求めこれを入力された音声データと標準音声データとの距離とする。 【0037】次に、入力された音声データと標準音声データとの距離がもっとも小さい場合を最高点(例えば100)となるように正規化してこれを認識単語の信頼度とし、認識単語の信頼度がもっとも高い標準音声データを求め、その単語と単語の信頼度を一組のセットとして、予め定められたセット数だけ認識結果として出力する。 【0038】認識結果判定部105は音声認識部104から出力された認識単語とその単語の信頼度に基づいて認識の成功/失敗を判定する。単語の信頼度が予め定められたリジェクトパラメータ1(φ1、φ1:実数)より大きければ認識成功と判定し、認識単語の内容を解析して音声出力制御信号または映像出力制御信号を出力する。認識単語の信頼度がφ1より小さければ、認識失敗と判定して認識結果をリジェクトし、かつ、予め定められたリジェクトパラメータ2(φ2、φ2:実数、φ1>φ2)より大きければ音量制御部108へ音声出力部110から出力する音声信号の音量を小さくすることを示す音量制御信号を出力する。 【0039】音声出力制御部106は、チャンネル切換部107と音量制御部108とパラメータ変更通知部109とで構成されている。 【0040】チャンネル切換部107は例えばテレビの場合ではテレビ音声のチャンネル切換制御部であり、音声出力制御信号が入力されると、その内容に基づいて音声出力部110へ出力する音声ソースのチャンネルの切換を行う。 【0041】音量制御部108は現在の音量の設定値を記憶する記憶部(図示せず)を保持し、音量制御信号が入力されると、現在の音量の設定値を記憶部へ記憶し、音量制御信号の内容に従って音声出力部110から出力する音声信号の音量の制御を行う。 【0042】パラメータ変更通知部109は音声出力部110から出力される音声信号の音量の設定値に基づいてリジェクトパラメータ1またはリジェクトパラメータ2を変更することを示すパラメータ変更通知信号を出力する。パラメータ変更通知部109は、例えば電子機器の電源投入時やチャンネル切換部107が音声出力部110から出力する音声信号を変更した時など、音量の制御を行う前、すなわち、認識結果判定部105から音量制御信号が出力され、音量制御部108が音声出力部110から出力される音声の音量を制御する前に、音量制御部108で設定されている音量の設定値に基づいてリジェクトパラメータ1およびリジェクトパラメータ2の両方または一方を変更する。リジェクトパラメータ1およびリジェクトパラメータ2が既に適切な値に設定されている場合は変更しなくてもよい。 【0043】音声出力部110はスピーカーなどであり、電子機器からの音声信号を出力する。 【0044】映像出力制御部111は例えばテレビの場合はテレビ映像のチャンネル切換制御部であり、映像出力制御信号が入力されると、その内容に基づいて映像出力部112へ出力する映像ソースのチャンネルの切換を行う。 【0045】映像出力部112はディスプレイなどの映像表示装置であり、映像出力制御部111から得られた映像信号を出力する。 【0046】なお、本実施の形態では、本発明の音を出力する機器を制御する制御装置の、音収集手段の一例としてマイク102を、音声認識手段の一例として音声認識部104を、比較手段の一例として認識結果判定部105を、機器制御手段の一例として音量制御部108および映像出力制御部111を、それぞれ用いる。 【0047】以上のように構成された電子機器について、以下その動作を図2のフローチャートを用いて説明する。 【0048】音声入力待ち状態S300では、リジェクトパラメータ1およびリジェクトパラメータ2は、パラメータ変更通知部109が音声出力部110から出力される音声信号の音量の設定値に基づいて出力するパラメータ変更通知信号に基づいて適切な値に設定されている。 【0049】ステップS301では、話者が発声した音声コマンドが、音声入力部101に入力される。音声入力部101は、入力された音声を、音声データとして音声認識部104へ出力する。 【0050】ステップS302では、音声認識部104が、音声入力部101から出力された音声データを認識用辞書を用いて音声認識処理を行う。話者の音声データに最も近い標準音声データを求め、その単語と単語の信頼度を認識結果判定部105へ出力する。例えば、電子機器がテレビである場合、認識用辞書には、一例として「チャンネル○○に変更」や、「ステレオ出力」や、「モノラル出力」といったテレビの操作内容を表現したフレーズが標準音声データとして記録されており、音声認識部104は、それら標準音声データそれぞれと音声入力部101からの音声データとを比較し、音声データの内容となるフレーズとその信頼度を求め、それを認識結果として認識結果判定部105へ出力する。 【0051】ステップS303では、認識結果判定部105が、音声認識部104から出力された認識単語の信頼度とφ1とを比較して、信頼度がφ1より大きい場合には、認識成功と判定し、ステップS304へ遷移する。信頼度がφ1より小さい場合には、認識失敗と判定し、認識結果をリジェクトして、ステップS309へ遷移する。例えば入力された音声データと標準音声データとの距離がもっとも小さい場合が100である場合、リジェクトパラメータ1(φ1)を80と設定することができる。 【0052】ステップS304では、認識結果判定部105が、認識単語のコマンドの内容を解析し、その内容が電子機器の映像出力を制御するコマンドである場合は、ステップS305へ遷移する。また、その内容が電子機器の音声出力を制御するコマンドである場合は、ステップS307へ遷移する。 【0053】ステップS305では、映像出力制御部111が、認識結果判定部105より映像出力の制御を通知されると、制御コマンドの内容に従って映像出力部112から出力する映像ソースのチャンネルの切換を行う。 【0054】ステップS306では、映像出力制御部111で切り換えられた映像ソースを画面に表示し、音声入力待ち状態S300へ戻る。 【0055】ステップS307では、チャンネル切換部107が、認識結果判定部105より音声出力の制御を通知されると、制御コマンドの内容に従って音声出力部110から出力する音声ソースのチャンネルの切換を行う。 【0056】ステップS308では、チャンネル切換部107で切り換えられた音声ソースを音声出力部110から出力し、音声入力待ち状態S300へ戻る。 【0057】ステップS309では、認識結果判定部105が、音声認識部104から出力された認識単語の信頼度とφ2とを比較して、信頼度がφ2より大きい場合には、音量制御部108へ音量制御信号を出力し、ステップS310に遷移する。信頼度がφ2より小さい場合には、音声入力待ち状態S300へ戻る。なお、上記のように例えば入力された音声データと標準音声データとの距離がもっとも小さい場合が100である場合、リジェクトパラメータ2(φ2)を60と設定することができる。 【0058】ステップS310では、音量制御部108が、認識結果判定部105から音量制御信号が入力されると、音声出力部110から出力される音声信号の音量を下げ、音声入力待ち状態S300へ戻る。 【0059】このように、本発明の実施の形態1によれば、音声を出力し、音声認識機能を備えた電子機器を音声で操作する場合、ステップS303において認識結果判定部105が認識結果をリジェクトし、さらにステップS309において認識結果判定部105が音量制御を行うことを決定すると、音量制御部108へ音声出力部110から出力する音声信号の音量を小さくすることを示す音量制御信号を出力する。音量制御部108は、音量制御信号に応じて音声出力部110から出力する音声信号の音量を小さくする。故に、電子機器本体から出力される音声信号が、話者の発声した音声コマンドの雑音となって認識性能を低下させることがなく、認識処理を正確に行うことができ、電子機器の操作性を向上させることができる。 【0060】また、ステップS309において認識結果判定部105がリジェクトした認識単語の信頼度が認識成功の判定値より一定の範囲内で小さい場合のみ音量制御を行うことを決定し、音量制御部108へ音声出力部110から出力する音声信号の音量を小さくすることを示す音量制御信号を出力する。故に、話者の発声以外の音声が入力され、音声認識部で誤って認識された場合に不必要な音量制御を行うことがなく、適切な音量制御を行うことができる。 【0061】また、ステップS307において、音声出力部110から出力する音声信号の音量が変更された場合には、パラメータ変更通知部109は音声信号の音量の設定値に基づいて各パラメータを変更することを示すパラメータ変更通知信号を出力する。認識結果判定部105は、音声信号の音量の設定値に応じてφ1またはφ2を適切に変更する。例えば、音声信号の音量の設定値が大きくなるとφ1やφ2を大きくし、音声信号の音量の設定値が小さくするとそれにともなってφ1やφ2を小さくする。これにより、電子機器本体から出力される音声信号の音量が変化し、音声入力部101へ入力される音声信号の音量が変化した場合でも、話者が発声する音声コマンドを正確に検出することができ、電子機器の操作性を向上させることができる。 【0062】(実施の形態2)本発明の実施の形態2について、図面を参照して説明する。 【0063】図3に示すように、本発明の実施の形態2の電子機器は、実施の形態1の電子機器に音量制御時間計測部113を追加したものである。 【0064】以下、本実施の形態の電子機器の構成のうち、実施の形態1とは異なる部分について説明する。 【0065】音声入力レベル検出部103は、マイク102へ入力された音声の音量が予め定められたレベルパラメータγ(γ:実数)よりも小さい場合に、音声入力非検出信号を出力する。 【0066】音量制御部108は、音声認識部104から出力された認識単語の信頼度がリジェクトパラメータ1より小さく、かつリジェクトパラメータ2より大きくて音量の制御を開始すると、まず制御する前の音量の設定値を記憶部に保存し、次に音量の制御を開始したことを示す音量制御開始信号を出力する。また、音量の制御を開始した後に、音量制御時間計測部113から音量制御解除信号が入力された場合には、音量制御を解除した後に、認識結果判定部105へ音量制御解除通知信号を出力する。また、認識結果判定部105から音量制御解除信号が入力された場合には、音量制御を解除した後に、音量制御時間計測部113へ音量制御解除通知信号を出力する。 【0067】音量制御時間計測部113は、時間を計測するタイマー(図示せず)を保持し、音量制御部108から出力された音量制御開始信号が入力されると、音声入力レベル検出部103から出力される音声入力非検出信号の入力を監視し、監視時間を計測する。音声入力非検出信号が継続して入力された時間χ(χ:実数)が予め定められた音声非検出パラメータμ(μ:実数)より長ければ、音量制御部108へ音量制御解除信号を出力する。また、音量制御時間計測部113は音量制御部108から出力される音量制御解除通知信号が入力されると、音声入力非検出信号の監視を停止する。 【0068】認識結果判定部105は、音量制御信号を音量制御部108へ出力した後(音量の制御を行っている状態)で、音量制御部108から音量制御解除通知信号が入力される前に、音声認識部104から出力された認識結果を認識成功と判定した場合には、音量制御解除信号を出力する。 【0069】以上のように構成された電子機器の動作のうち、実施の形態1とは異なる部分、つまり、音量の制御が開始されてから音量の制御を解除する処理について、以下図4のフローチャートを用いて説明する。 【0070】ステップS401では、音量制御部108が、音声出力部110から出力される音声信号の音量を制御する音量制御信号を出力すると、音量制御時間計測部113へ音量制御開始信号を出力する。 【0071】ステップS402では、音量制御時間計測部113は、音量制御部108から音量制御開始信号が出力されると、音声入力レベル検出部103から出力される音声入力非検出信号の入力の監視を開始する。 【0072】ステップS403では、音声入力非検出信号が継続して入力された時間χと、予め定められた時間μとを比較し、χがμより小さければステップS404へ遷移する。一方、χがμより大きければ、ステップS412へ遷移する。 【0073】まず、χがμより小さい場合の処理の流れ(S404からS411)について説明する。 【0074】ステップS404では、音声入力レベル検出部103へ入力された音声の音声レベルとγとを比較し、音声レベルがγよりも大きい場合はステップS406へ遷移する。一方、音声レベルがγよりも小さい場合は、ステップS405へ遷移する。 【0075】ステップS405では、音声入力レベル検出部103が音声入力非検出信号を音量制御時間計測部113へ出力し、ステップS403へ遷移する。 【0076】ステップS406では、音声認識部104が入力された音声データを音声認識処理して、認識単語とその信頼度を認識結果判定部105へ出力する。 【0077】ステップS407では、認識結果判定部105が、音声認識部104から出力された認識単語の信頼度とφ1とを比較して、信頼度がφ1より大きい場合には、認識成功と判定し、ステップS408へ遷移する。一方、信頼度がφ1より小さい場合には、認識失敗と判定し、認識結果をリジェクトしてステップS402へ遷移する。 【0078】ステップS408では、認識結果判定部105が、音量制御部108から出力された音量制御解除通知信号が入力されていなければ、音量制御部108へ音量制御解除信号を出力する。 【0079】ステップS409では、音量制御部108が、認識結果判定部105から出力された音量制御解除信号が入力されると、音声出力部110から出力される音声信号の音量を元(制御前の音量)に戻す。 【0080】ステップS410では、音量制御部108が、音量制御時間計測部113へ音量制御解除通知信号を出力する。 【0081】ステップS411では、音量制御時間計測部113が、音量制御部108から出力された音量制御解除通知信号が入力されると、音声入力レベル検出部103から出力される音声入力非検出信号の入力の監視を停止する。 【0082】次に、χがμより大きい場合の処理の流れ(S412からS415)について説明する。 【0083】ステップS412では、音量制御時間計測部113が、音量制御部108へ音量制御解除信号を出力する。 【0084】ステップS413では、音量制御部108が、音量制御時間計測部113から出力された音量制御解除信号が入力されると、音声出力部110から出力される音声信号の音量を元(制御前の音量)に戻す。 【0085】ステップS414では、音量制御部108が、認識結果判定部105へ音量制御解除通知信号を出力する。 【0086】ステップS415では、音量制御時間計測部113が、音声入力レベル検出部103から出力される音声入力非検出信号の入力の監視を停止する。 【0087】このように、本発明の実施の形態2によれば、音量制御部108が音声出力部110から出力する音声信号の音量を小さくしている場合には、音量制御時間計測部113は音声入力レベル検出部103から出力される音声入力非検出信号の入力を監視する。音声入力非検出信号が継続して入力された時間χが予め定められた一定の時間μよりも長ければ、話者の音声入力は終了したと判断して音量制御時間計測部113が音量制御部108へ音量制御解除信号を出力する。 【0088】音量制御部108は、音量制御時間計測部113から音量制御解除信号が出力されると、音声出力部110から出力する音声信号の音量を、元(制御前の音量)に戻す。これにより、話者は音量制御を解除して音量を大きくするための操作を行う必要がなく、電子機器が自動的に音量を元に戻すので、操作性に優れた電子機器を提供することができる。 【0089】また、音声入力非検出信号が継続して入力された時間χが予め定められた一定の時間μに達しない間に、話者が音声コマンドを発声し、そのコマンドが認識処理された結果、認識結果判定部105で認識成功と判定された場合には、認識結果判定部105は、音量制御部108へ音量制御解除信号を出力する。音量制御部108は、音量制御解除信号が入力されると、音声出力部110から出力していた音声信号の音量を元(制御前の音量)に戻す。これにより、音量を制御している状態で、話者が発声した音声コマンドの認識が成功した場合には、予め定められた一定の時間μが経過する前に、電子機器が自動的に音量を元(制御前の音量)に戻す。つまり、電子機器から出力される音声信号の音量の制御を迅速に行うことができ、操作性に優れた電子機器を提供することができる。 【0090】また、上記実施の形態において認識単語の信頼度がφ1より大きい場合に、認識結果判定部105が音量制御部108へ音量制御解除信号を出力し、音量制御部108が音声出力部110から出力する音声信号の音量を元(制御前の音量)に戻していたが、元に戻さなくてもよい。例えば、機器の操作を行うための音声入力が複数回繰り返される場合などは、音量の制御を開始してから一度目の認識成功時に音量を元に戻さなくてもよい。 【0091】また、実施の形態2の電子機器では、音声認識部104から出力された認識単語の信頼度がリジェクトパラメータ1より小さく、かつリジェクトパラメータ2より大きくて、音量制御部108が音量の制御を開始した場合、その音量制御を開始してから例えば2分等所定の時間が経過した場合、新たな認識単語に基づいて音声出力部110や映像出力部112を制御しないとき、入力された音声レベルの大きさに関わらず、音量制御部108は音声出力部110から出力する音声信号の音量を元(制御前の音量)に戻すとしてもよい。 【0092】上記実施の形態1及び実施の形態2では、音声入力レベル検出部103、音声認識部104、認識結果判定部105、チャンネル切換部107、音量制御部108、映像出力制御部113、パラメータ変更通知部109、音量制御時間計測部113を専用のハードウェアにより構成したが、これに代えて、同様の機能をコンピュータ上のソフトウェアで実現してもよい。 【0093】また、上記実施の形態1及び2では、音を出力する電子機器内部に、ユーザーが発した音声を利用してその電子機器本体の動作を制御する制御装置が組み込まれているとしたが、音を出力する機器と、ユーザーが発した音声を利用してその機器の動作を制御する制御装置とは別個に存在していてもよい。 【0094】以上のように本発明の実施の形態によれば、次に示すような効果が得られる。 【0095】第一に、音声認識手段から得られた認識単語の信頼度が認識成功の判定値から一定の範囲内である場合に音声出力手段から出力する音声信号の音量を制御するので、前記出力音声の影響により音声認識手段の認識単語の信頼度が低下した場合には、前記出力音声の音量を制御することによって、音声認識手段に入力される前記出力音声の影響を小さくすることができる。また、話者の発声以外の音声信号が音声入力手段に入力され、音声認識手段が低い信頼度の認識結果を出力した場合に誤って音量制御を行うことがなく、音量制御を適切に行うことができる。 【0096】第二に、認識結果判定手段は、パラメータ変更通知手段から出力されるパラメータ変更通知信号に基づいてリジェクトパラメータ1およびリジェクトパラメータ2を適切に変更する。従って、電源投入時や音声信号のソース変更により音声信号の音量が変更された場合でも音声認識手段では、話者が発声した音声の認識を正確に行うことが可能になり、機器の操作性を向上させることができる。 【0097】第三に、音量を制御している状態で、予め定められた一定の時間が経過しても音声入力手段への音声入力がなかった場合には、音量制御時間計測手段が、自動的に音量制御を解除することにより、話者は音量制御のための操作を行う必要がなく、電子機器の音量を元(制御前の音量)に戻すことができるので、操作性に優れた電子機器を提供することができる。 【0098】第四に、音量を制御している状態で、話者が発声した音声コマンドの認識が成功した場合には、音声非検出パラメータで設定した時間が経過して、音量制御時間計測手段から音量制御解除信号が出力される前に、電子機器の音量を元(制御前の音量)に戻すことができる。つまり、電子機器から出力される音声信号の音量の制御を迅速に行うことができ、操作性に優れた電子機器を提供することができる。 【0099】なお、本発明は、上述した本発明の全部または一部の手段の全部または一部の機能をコンピュータにより実行させるためのプログラムおよび/またはデータを担持した媒体であり、コンピュータにより読み取り可能且つ、読みとられた前記プログラムおよび/またはデータが前記コンピュータと協動して前記機能を実行する媒体である。 【0100】また、本発明は、上述した本発明の全部または一部の手段の全部または一部の機能をコンピュータにより実行させるためのプログラムおよび/またはデータである情報集合体であり、コンピュータにより読み取り可能且つ、読みとられた前記プログラムおよび/またはデータが前記コンピュータと協動して前記機能を実行する情報集合体である。 【0101】データとは、データ構造、データフォーマット、データの種類などを含む。媒体とは、ROM等の記録媒体、インターネット等の伝送媒体、光・電波・音波等の伝送媒体を含む。担持した媒体とは、例えば、プログラムおよび/またはデータを記録した記録媒体や、プログラムおよび/またはデータを伝送する伝送媒体等を含む。 【0102】コンピュータにより処理可能とは、例えば、ROMなどの記録媒体の場合であれば、コンピュータにより読み取り可能であることであり、伝送媒体の場合であれば、伝送対象となるプログラムおよび/またはデータが伝送の結果として、コンピュータにより取り扱えることであることを含む。 【0103】情報集合体とは、例えば、プログラムおよび/またはデータ等のソフトウェアを含むものである。 【0104】なお、以上説明したように、本発明の構成は、ソフトウェア的に実現してもよいし、ハードウェア的に実現してもよい。 【0105】 【発明の効果】以上説明したところから明らかなように、本発明は、音を出力する機器の動作を、ユーザーが発した音声を利用して制御する場合に、上記機器が出力する音量を制御することによってユーザーが発声した音声に対する雑音を軽減し、上記機器を制御する制御装置を提供することができる。
|
| 【出願人】 |
【識別番号】000005821 【氏名又は名称】松下電器産業株式会社
|
| 【出願日】 |
平成12年12月14日(2000.12.14) |
| 【代理人】 |
【識別番号】100092794 【弁理士】 【氏名又は名称】松田 正道
|
| 【公開番号】 |
特開2002−182691(P2002−182691A) |
| 【公開日】 |
平成14年6月26日(2002.6.26) |
| 【出願番号】 |
特願2000−380995(P2000−380995) |
|