トップ :: H 電気 :: H04 電気通信技術




【発明の名称】 音声処理装置およびその制御方法
【発明者】 【氏名】中川 賢一郎

【氏名】深田 俊明

【氏名】八木沢 津義

【要約】 【課題】接続された音声入力デバイスに対しより適切な感度設定を実現可能とする。

【構成】音声を入力する音声入力デバイスを取り外し可能に接続する接続部と、前記接続部における前記音声入力デバイスの接続状態を監視し、該接続状態が非接続状態から接続状態に変化したときに該変化を通知するためのイベントを出力する監視手段と、前記音声入力デバイスにより前記接続部を介して入力された音声の信号レベルを予め指定された調整量に基づいて調整するレベル調整手段と、ユーザから前記調整量の設定入力を受け付ける設定手段と、前記監視手段から前記イベントを受信したとき前記設定手段を実行する実行制御手段とを備える。
【特許請求の範囲】
【請求項1】
音声を入力する音声入力デバイスを取り外し可能に接続する接続部と、
前記接続部における前記音声入力デバイスの接続状態を監視し、該接続状態が非接続状態から接続状態に変化したときに該変化を通知するためのイベントを出力する監視手段と、
前記音声入力デバイスにより前記接続部を介して入力された音声の信号レベルを予め指定された調整量に基づいて調整するレベル調整手段と、
ユーザからの前記調整量の設定入力を受け付ける設定手段と、
前記監視手段から前記イベントを受信したときに前記設定手段を実行する実行制御手段と、
を備えることを特徴とする音声処理装置。
【請求項2】
前記設定手段は、グラフィカルユーザインタフェースを介して、ユーザからの前記調整量の設定入力を受け付けることを特徴とする請求項1記載の音声処理装置。
【請求項3】
前記監視手段から前記イベントを受信したときに、前記実行制御手段が前記設定手段を実行するか否かを予め指定する実行指定手段をさらに備えることを特徴とする請求項1に記載の音声処理装置。
【請求項4】
音声入力デバイス毎にデバイス識別情報と前記調整量とを関連付けて記憶する記憶手段をさらに備え、
前記監視手段は、さらに、前記接続部に接続された音声入力デバイスを識別しデバイス識別情報を含む前記イベントを出力するよう構成され、
前記実行制御手段は、前記監視手段から前記イベントを受信したとき、前記記憶手段に前記イベント内に含まれるデバイス識別情報と同じデバイス識別情報に対応する調整量が存在する場合には該調整量を前記レベル調整手段に設定し、存在しない場合には前記前記設定手段を実行し設定入力された調整量を前記記憶手段に記憶することを特徴とする請求項1乃至請求項3のいずれか一項に記載の音声処理装置。
【請求項5】
前記実行制御手段は、前記監視手段から前記イベントを受信した時に、音声処理装置が特定の動作を行っていた場合には、該特定の動作が終了してから、前記設定手段を実行することを特徴とする請求項1記載の音声処理装置。
【請求項6】
音声を入力する音声入力デバイスを取り外し可能に接続する接続部と、
前記接続部における前記音声入力デバイスの接続状態を監視し、該接続状態が非接続状態から接続状態に変化したときに該変化を通知するためのイベントを出力する監視手段と、
前記音声入力デバイスにより前記接続部を介して入力された音声を予め指定されたパラメータに基づいて認識する音声認識手段と、
ユーザからの前記パラメータの設定入力を受け付ける設定手段と、
前記監視手段から前記イベントを受信したときに前記設定手段を実行する実行制御手段と、
を備えることを特徴とする音声処理装置。
【請求項7】
前記設定手段は、グラフィカルユーザインタフェースを介して、ユーザからの前記パラメータの設定入力を受け付けることを特徴とする請求項6記載の音声処理装置。
【請求項8】
前記設定手段は、ユーザが発声した音声情報に基づいて前記パラメータを設定することを特徴とする請求項6記載の音声処理装置。
【請求項9】
前記パラメータは、発声者の性別、年代、言語に関する情報、音声の音圧、音声のケプストラム平均の少なくとも1つを含むことを特徴とする請求項6乃至8のいずれか一項に記載の音声処理装置。
【請求項10】
前記実行制御手段は、前記監視手段から前記イベントを受信した時に、音声処理装置が特定の動作を行っていた場合には、該特定の動作が終了してから、前記設定手段を実行することを特徴とする請求項6記載の音声処理装置。
【請求項11】
音声を入力する音声入力デバイスを取り外し可能に接続する接続部と、
前記音声入力デバイスにより前記接続部を介して入力された音声の信号レベルを予め指定された調整量に基づいて調整するレベル調整手段と、
ユーザからの前記調整量の設定入力を受け付ける設定手段と、
を備える音声処理装置の制御方法であって、
前記接続部における前記音声入力デバイスの接続状態を監視し該接続状態が非接続状態から接続状態に変化したときに該変化を通知するためのイベントを出力するイベント出力工程と、
前記イベント出力工程により出力された前記イベントの受信に基づいて、前記設定手段を実行する実行制御工程と、
を備える制御方法。
【請求項12】
音声を入力する音声入力デバイスを取り外し可能に接続する接続部と、
前記音声入力デバイスにより前記接続部を介して入力された音声を予め指定されたパラメータに基づいて認識する音声認識手段と、
ユーザからの前記パラメータの設定入力を受け付ける設定手段と、
を備える音声処理装置の制御方法であって、
前記接続部における前記音声入力デバイスの接続状態を監視し該接続状態が非接続状態から接続状態に変化したときに該変化を通知するためのイベントを出力するイベント出力工程と、
前記イベント出力工程により出力された前記イベントの受信に基づいて、前記設定手段を実行する実行制御工程と、
を備える制御方法。
【請求項13】
請求項11又は12に記載の音声処理装置の制御方法をコンピュータにより実行させるためのプログラム。
【発明の詳細な説明】【技術分野】
【0001】
本発明は、音声情報を処理する音声処理装置およびその制御方法に関する。
【背景技術】
【0002】
近年、音声で機器をコントロールする音声認識技術が実用化されている。音声認識技術により、子供やお年寄り、体に障害があるユーザが、音声の発声で機器をコントロールできることは大きな利点である。このような音声認識技術は、カーナビゲーションシステムや電話サービス、福祉機器といった分野で製品化されている。
【0003】
普通、音声認識によって機器をコントロールする際は、機器に備え付けられたマイクロフォンを介してユーザの音声を取り込む。しかし、ユーザによっては、自分専用のマイクロフォンを使うことも考えられる。例えば、電話等のオペレータ業務で音声認識を行う場合、衛生面を考えて自分専用のヘッドセットマイクロフォンを用いることが多い。また、体に障害があるユーザにおいては、自分の障害に適応させたマイクロフォンを用いるものである。
【0004】
このように自分専用のマイクロフォンを介して音声認識を使う場合、音声認識に対応した機器は、ユーザのマイクロフォンを挿しこむことができる端子を備える必要がある。音声認識に対応した機器には、このようなマイクロフォン端子を備えたものが存在する。
【0005】
各々のユーザが自分専用のマイクロフォンを用いる場合、音声認識システムはマイクロフォン毎に異なる感度を補正する必要がある。例えば、感度が低いマイクロフォンをユーザが選択し、音声認識システムに接続した場合を考える。この場合、音声認識システム内部のアナログボリュームあるいはデジタルボリュームを変更し、マイクロフォンから入力される振幅を増幅する必要がある。逆に、感度が高いマイクロフォンをユーザが接続した場合、ボリュームを変更し、入力音声の振幅を低減する必要がある。これらの調整を行わない場合、音声信号が小さくS/Nが劣化するか、または、大きすぎてクリッピングを起こしてしまう。そして、その結果、音声認識の性能は低下することになる。
【0006】
しかし、ユーザが音声処理装置に接続するマイクロフォンを変更する際に感度調整の実行を忘れてしまうことがあり得る。そこで、特許文献1には前もって設定した特定の感度の値を、特定のタイミングで設定する技術が開示されている。具体的には、感度調整を手動で行う代わりに、ユーザの録音モードの切り替えをトリガとして、その録音モードで最適な感度を前もって設定した特定の感度の値に自動設定する技術が開示されている。
【特許文献1】特開2000−137498号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
上述の特許文献1に開示される技術は、最適な感度が前もって決定可能な場合には有効な技術である。しかしながら、ユーザがどのようなマイクロフォンを使用するのかが事前に分からない場合には、最適な感度となる設定値を前もって決定することができない。その結果、音声認識の性能は低下することになる。
【0008】
本発明は、上記問題点に鑑みなされたものであり、音声処理装置に接続される音声入力デバイスが事前に分からない場合であっても、より適切な感度設定を実現可能とする技術を提供することを目的とする。
【課題を解決するための手段】
【0009】
上述の問題点を解決するため、本発明の音声処理装置は以下の構成を備える。すなわち、音声を入力する音声入力デバイスを取り外し可能に接続する接続部と、前記接続部における前記音声入力デバイスの接続状態を監視し、該接続状態が非接続状態から接続状態に変化したときに該変化を通知するためのイベントを出力する監視手段と、前記音声入力デバイスにより前記接続部を介して入力された音声の信号レベルを予め指定された調整量に基づいて調整するレベル調整手段と、ユーザからの前記調整量の設定入力を受け付ける設定手段と、前記監視手段から前記イベントを受信したとき前記設定手段を実行する実行制御手段とを備える。
【0010】
または、音声を入力する音声入力デバイスを取り外し可能に接続する接続部と、前記接続部における前記音声入力デバイスの接続状態を監視し、該接続状態が非接続状態から接続状態に変化したときに該変化を通知するためのイベントを出力する監視手段と、前記音声入力デバイスにより前記接続部を介して入力された音声を予め指定されたパラメータに基づいて認識する音声認識手段と、ユーザからの前記パラメータの設定入力を受け付ける設定手段と、前記監視手段から前記イベントを受信したとき前記設定手段を実行する実行制御手段とを備える。
【0011】
上述の問題点を解決するため、本発明の音声処理装置の制御方法は以下の構成を備える。すなわち、音声を入力する音声入力デバイスを取り外し可能に接続する接続部と、前記音声入力デバイスにより前記接続部を介して入力された音声の信号レベルを予め指定された調整量に基づいて調整するレベル調整手段と、ユーザからの前記調整量の設定入力を受け付ける設定手段とを備える音声処理装置の制御方法であって、前記接続部における前記音声入力デバイスの接続状態を監視し該接続状態が非接続状態から接続状態に変化したときに該変化を通知するためのイベントを出力するイベント出力工程と、前記イベント出力工程により出力された前記イベントの受信に基づいて、前記設定手段を実行する実行制御工程とを備える。
【0012】
さらに、音声を入力する音声入力デバイスを取り外し可能に接続する接続部と、前記音声入力デバイスにより前記接続部を介して入力された音声を予め指定されたパラメータに基づいて認識する音声認識手段と、ユーザからの前記パラメータの設定入力を受け付ける設定手段と、を備える音声処理装置の制御方法であって、前記接続部における前記音声入力デバイスの接続状態を監視し該接続状態が非接続状態から接続状態に変化したときに該変化を通知するためのイベントを出力するイベント出力工程と、前記イベント出力工程により出力された前記イベントの受信に基づいて、前記設定手段を実行する実行制御工程とを備える。
【発明の効果】
【0013】
音声処理装置に接続される音声入力装置に対して、より適切な感度設定を実現可能とする技術を提供することが出来る。
【発明を実施するための最良の形態】
【0014】
以下に、図面を参照して、本発明の好適な実施の形態を詳しく説明する。なお、この実施の形態はあくまで例示であり、本発明の範囲をそれらのみに限定する趣旨のものではない。
【0015】
(第1実施形態)
<概要>
第1実施形態では、音声処理装置への音声入力デバイスの接続をトリガに、該音声入力デバイスに対する感度調整の設定画面を音声処理装置の表示部に表示する。このように構成することにより、ユーザは当該音声入力デバイスに対する感度調整を忘れることなく実行することが出来る。
【0016】
<装置構成>
図1は、第1実施形態に係る音声処理装置の機能構成を示す図である。
【0017】
本発明の音声処理装置102には、音声入力デバイス接続部103を介してマイクロフォン等の音声入力デバイス101が接続される。そして、音声処理装置102は、音声入力デバイス101を介して入力された音声信号の処理を行う装置である。なお、ここでは、音声入力デバイス接続部103として、マイクロフォン端子として一般的な3.5mmのステレオミニプラグ用コネクタを想定する。
【0018】
音声入力デバイス接続監視部104は、音声入力デバイス接続部103を監視し、音声入力デバイス101との接続状態を検出する。接続を検出した場合、つまり、非接続状態から接続状態に変化した場合、感度調整起動部106にイベントとしてその旨を通知する。このイベントの通知方法としては、ハードウェア/ソフトウェア割り込みとして実装してもよいし、音声処理装置102の有する不図示のメモリ領域に特定の値をセットすることで通知してもよい。
【0019】
感度調整起動部106は、音声入力デバイス接続監視部104から音声入力デバイス101の接続を通知されると、感度調整部105を起動し、後述の設定のためのダイアログ画面を表示部107に表示する。感度調整部については以下で図2を参照して説明する。
【0020】
なお、以下の説明においては、音声入力デバイス101としてはマイクロフォンを想定し、音声処理装置102としてはサウンドボードを想定する。
【0021】
<感度調整GUI画面>
音声入力デバイス101から入力された音声の入力振幅を増幅あるいは低減する技術をここでは感度調整技術と呼ぶ。例えば、一般的な録音装置では、物理的なダイヤルやスライドバーを手動で操作することで、感度を調整することができる。一方、パーソナルコンピュータ(PC)のようにグラフィカルユーザインタフェース(GUI)を提示することができる機器では、GUIの設定画面を表示部に表示するものもある。その場合、ユーザによるキーボードやマウスなど操作を受け付けることにより感度調整を行うことができる。
【0022】
図2は、感度調整のGUI画面であるダイアログ画面の一例を示す図である。
【0023】
ダイアログ画面201には、音圧インジケータ202および感度スライダ204が配置されている。音圧インジケータ202には、音声入力デバイス101から入力された音声の音圧をリアルタイムに表示する。感度スライダ204は、ユーザによる感度調整量を例えばマウスのドラッグ動作により受け付ける。ここでは、スライダを右に動かすほど感度が高くなるとする。
【0024】
具体的には、ユーザは、音声入力デバイス101であるマイクロフォンに対して発声し、音圧インジケータ202の表示状態を見る。そして、発声時のレベル表示が、適正範囲指標203内に収まるように、感度スライダ204を左右に動かすことにより感度の調整を行う。なお、ユーザの発声に基づいて自動調整するよう構成しても良い。
【0025】
<装置の動作>
図3は、第1実施形態に係る音声処理装置の動作フローチャートである。音声処理装置の電源が投入されることにより以下のフローが実行される。
【0026】
ステップS301では、音声処理の初期化を行う。例えば、サウンドボードの初期化等がこの処理に相当し、音声処理で用いる各種パラメータの初期化や内部データのロードなど、音声処理の準備のための作業を行う。
【0027】
ステップS302では、音声入力デバイス接続監視部104は、マイクロフォン等の音声入力デバイス101が音声入力デバイス接続部103に接続されたかどうかを確認する。接続されたと判定した場合、つまり、非接続状態から接続状態に変化したと判定した場合は、感度調整起動部106にイベント通知し、ステップS308に進む。変化が検出されなかった場合はS303に進む。
【0028】
ステップS308では、感度調整起動部106は、感度調整起動部106から通知されたイベントに基づいて感度調整部105を起動する。そして、図2を参照して説明した前述の感度調整をユーザに促す。具体的には、ダイアログ画面201を表示部107に表示する。そして、例えばダイアログ画面201の”OK”ボタンが押下されるなどして感度調整が終了したら、ステップS302に戻る。
【0029】
ステップS303では、音声取り込みを開始するかどうかを確認する。この処理は、本音声処理装置が組み込まれるシステムによって異なる。例えば、本装置が音声認識システムに組み込まれる場合、”音声認識の開始”ボタンの押下がこの開始指示に相当する。もし音声取り込みを開始しないでよいと判断した場合は、ステップS302に戻る。
【0030】
ステップS304では、音声取り込みの開始処理を行う。例えば、サウンドボードに対するデバイスドライバを介した音声取り込みの開始指示等がこの処理に相当する。
【0031】
ステップS305では、所定量の音声データを、音声入力デバイスからサウンドボードを介し取得する。取得した音声データの処理は、本装置が組み込まれたシステムに委ねられる。例えば、本装置が音声認識システムに組み込まれた場合、ここで取り込まれた所定量の音声データは音声認識の処理に回される。
【0032】
ステップS306では、音声取り込みを終了すべきかを判定する。例えば、”音声取り込み終了”ボタンが押下された場合に音声取り込みを終了する。あるいは、本装置が音声認識システムに組み込まれた場合、音声認識に必要な所定量の音声データを取得した場合に音声取り込みを終了する。
【0033】
ステップS307では、音声取り込みの終了処理を行う。例えば、サウンドボードに対するデバイスドライバを介した音声取り込みの終了指示等がこの処理に相当する。
【0034】
以上説明したように、第1実施形態の音声処理装置によれば、マイクロフォンが新規に接続された場合、表示部107に設定ダイアログ201が表示され、ユーザは忘れずに感度調整を行うことが可能となる。そのため、マイクロフォンを付け替えた際でも適切な感度で音声を取り込むことが可能となる。また、例えば、マイクロフォンが常時接続された状態である場合には、設定ダイアログ201は表示されず必要以上に煩わしい作業を行わずにすむという利点がある。なお、ここでは、マイクロフォン等の音声入力デバイス101を接続した場合に、常に設定ダイアログ201が表示されるよう説明を行った。しかし、設定で切り替えられるようにしてもよい。例えば、”マイクロフォンの接続を検知した際に設定ダイアログを表示する”という項目をデバイスドライバの不図示の設定画面に設けてもよい。このように構成することにより、例えば、複数のユーザが同じ種類(型番)のマイクロフォンを使用されることが既知の場合に、煩わしい作業を行わずにすむという利点がある。
【0035】
(変形例)
上述の第1実施形態においては、音声入力デバイス接続部103として、3.5mmのステレオミニプラグ用コネクタを想定した。しかし、例えばユニバーサルシリアルバス(USB)を利用することも可能である。その場合、接続された音声入力デバイス101の種類を示す”デバイスID”などが取得可能になる。
【0036】
図4は、変形例に係る音声処理装置の機能構成を示す図である。デバイスID毎の感度設定パラメータを記憶する感度テーブル410を有する点が図1と異なる。
【0037】
音声入力デバイス接続監視部404は、音声入力デバイス接続部403を監視し、音声入力デバイス401との接続状態を検出する。接続を検出した場合、つまり、非接続状態から接続状態に変化した場合、音声入力デバイス接続監視部404は音声入力デバイス401のデバイスIDを取得する。そして、感度調整起動部406にイベントとともにデバイスIDの情報を通知する。
【0038】
感度調整起動部406は、音声入力デバイス接続監視部404から音声入力デバイス401の接続を通知されると、感度テーブル410を参照する。図5は感度テーブルの一例を示す図である。感度テーブル410には、デバイスIDと、当該デバイスIDの音声入力デバイス401により以前に設定された感度パラメータが格納されている。
【0039】
感度調整起動部406は、今回接続された音声入力デバイス401に対応するデバイスIDが感度テーブル410に既に格納されていた場合は、その感度パラメータを読み取る。そして、読み取った感度パラメータに基づいて感度調整を行い、感度調整部405の起動は行わない。つまり、ダイアログ画面201は表示されない。一方、今回接続された音声入力デバイス401に対応するデバイスIDが感度テーブル410に既に格納されていなかった場合は、感度調整部405の起動を行う。そして、設定された感度パラメータを感度テーブル410に追加する。
【0040】
例えば、デバイスIDが”4”の音声入力デバイス401が新規に接続された場合、図5で示した感度テーブル410にはデバイスIDが”4”の感度パラメータは登録されていない。従って、ダイアログ画面201を表示し、ユーザからの設定を受け付け、設定された感度パラメータをID=”4”とともに感度テーブル410に格納する。
【0041】
以上説明したように、変形例の音声処理装置によれば、新規の種類(デバイスID)の音声入力デバイス401が接続された場合のみ、表示部107に設定ダイアログ201が表示されることになる。そのため、例えば、同じ種類(デバイスID)のマイクロフォンが接続された場合には、設定ダイアログ201は表示されず必要以上に煩わしい作業を行わずにすむという利点がある。
【0042】
ここでは、音声入力デバイス接続部403はUSBであるとして説明を行った。しかし、前述のステレオミニプラグ用コネクタなどような場合においても、音声入力デバイスのインピーダンスなどアナログ的な特性を測定し、それを基に音声入力デバイスの識別を行うよう構成しても良い。
【0043】
(第2実施形態)
<概要>
第2実施形態では、本発明の音声処理装置を音声認識機能を備える装置に組み込む例について説明する。ユーザが個々人のマイクロフォンを持ち歩くような場合、マイクロフォンの変化は発声者(ユーザ)の交代を意味している。従って、マイクロフォンの接続時に、音声認識処理をそのユーザに適応させることが音声認識性能の向上に効果的である。
【0044】
<装置構成>
図6は、第2実施形態に係る音声処理装置である音声認識装置の機能構成を示す図である。
【0045】
本発明の音声認識装置602には、音声入力デバイス接続部603を介してマイクロフォン等の音声入力デバイス601が接続される。そして、音声認識装置602は、音声入力デバイス601を介して入力された音声信号の認識処理を行う装置である。なお、ここでは、音声入力デバイス接続部603として、マイクロフォン端子として一般的な3.5mmのステレオミニプラグ用コネクタを想定する。
【0046】
音声入力デバイス接続監視部604は、音声入力デバイス接続部603を監視し、音声入力デバイス601との接続状態を検出する。接続を検出した場合、つまり、非接続状態から接続状態に変化した場合、音声認識用パラメータ調整起動部606にイベントとしてその旨を通知する。このイベントの通知方法としては、ハードウェア/ソフトウェア割り込みとして実装してもよいし、音声認識装置602の有する不図示のメモリ領域に特定の値をセットすることで通知してもよい。
【0047】
音声認識用パラメータ調整起動部606は、音声入力デバイス接続監視部604から音声入力デバイス601の接続を通知されると、音声認識用パラメータ調整部605を起動し、後述の設定のためのダイアログ画面を表示部607に表示する。音声認識用パラメータ調整部については以下で図7を参照して説明する。
【0048】
図7は、音声認識用パラメータ調整のGUI画面であるダイアログ画面の一例を示す図である。
【0049】
ダイアログ画面701は、発声者の性別、年代、言語に関する情報など、各種音声認識用パラメータ702の設定受付を行うよう構成されている。音声認識装置602は、ここで設定された音声認識用パラメータに基づいて、音声認識を実行する。
【0050】
なお、これらの音声認識用パラメータ702を用いることで、音声認識内部の計算処理や使用するデータ(音響モデル、音声認識文法等)を適切なものに変更することができ、音声認識の性能を向上することが可能となる。例えば、音響モデルを発声者の性別、年代毎に予め複数用意しておく。そして、上述のダイアログ画面701で設定された発声者の性別と年代情報から適切な音響モデルを選択し、音声認識処理で用いることができる。更に、言語情報を取得することで、音声認識処理で用いる音声認識文法を変更することも可能である。
【0051】
なお、GUIであるダイアログ画面701を用いてユーザに値を設定させる替わりに、ユーザに発声させることで自動的にパラメータを抽出するよう構成しても良い。例えば、表示部607にはユーザに発声を促すメッセージのみ表示し、ユーザ発声の音圧を音声認識用パラメータとして取得してもよい。あるいは、発声中のケプストラム平均を音声認識用パラメータとして取得してもよい。ユーザの音圧情報は、音声区間切り出し処理のパラメータとして利用することが可能である。また、発声中のケプストラム平均情報は、公知の技術であるケプストラム平均値正規化(Cepstral Mean Subtraction)に利用でき、音声認識の性能を向上させることが可能である。
【0052】
なお、マイクロフォンの接続検出以外によりユーザの交代を検出するよう構成しても良い。例えば、公知の技術である話者識別(話者クラス識別)を実行し、前回の感度調整(あるいは音声認識用パラメータ調整)を行ったときと別のユーザが使っていると判断された場合に、各種の調整アプリケーションを起動してもよい。また、一部の機器では、利用時に使用者のログインを行う場合がある。このような機器においては、ログインID情報によりユーザの交代を検知してもよい。例えば、AというIDでログインしたユーザにより調整が行われた後、別のBというIDでログインされた場合にユーザの交代と見なしてもよい。 さらに、ユーザの交代に加え、音声入力デバイスより取り込まれた音圧が適正値よりも外れた場合をトリガに、上述のダイアログ画面を表示するよう構成してもよい。例えば、話者識別を行い、前回調整したユーザとは別のユーザと判断され、かつ、今回入力された音声の音圧が適正値よりも外れた場合に感度調整アプリケーションを起動する。これにより、前回感度調整を行ったユーザと声の大きさが大きく異なるユーザに交代した時にだけ、各種調整を実行することが可能となる。
【0053】
以上説明したように、第2実施形態の音声認識装置によれば、マイクロフォンが新規に接続された場合、表示部607に設定ダイアログ701が表示され、ユーザは忘れずに音声認識用パラメータ調整を行うことが可能となる。そのため、適切な音声認識パラメータで音声認識処理を行うことが可能となり、より高い認識率とすることが可能となる。
【0054】
(第3実施形態)
<概要>
第3実施形態では、本発明の音声処理装置を、音声認識装置および音声合成装置を備える複写機に組み込む例について説明する。近年、公知の技術である音声認識と音声合成を用い、音声対話だけで操作することができる複写機が製品化されている。これらの製品は、視覚や上肢に障害をもつ人にとって操作が容易であるという特徴を有している。
【0055】
<装置構成>
ここでは、複写器の操作部の構成についてのみ簡単に説明する。
【0056】
図8および図9は、第3実施形態に係る複写機の操作パネルを例示的に示す図である。
【0057】
操作パネル801は、主に、GUIを表示できるタッチスクリーン805、および、テンキーなどを含むボタン806から構成されている。ユーザは操作パネル801を操作することで、複写操作の設定(複写枚数、現行サイズ、濃度設定等)を行うことが出来る。
【0058】
更に、この複写機には、音声合成によって生成された音声を出力するためのスピーカ802、音声コマンド入力するための本体マイクロホン803を装備している。ユーザは、これらを用い、音声対話によって複写機の操作を行うことが可能である。また、本体マイクロフォン以外のマイクロフォンを使いたいユーザのために、外部マイクロフォン端子804が設けられている。ユーザは、使いたいマイクロフォン(以降、外部マイクロフォン807と呼ぶ)をこの端子に装着することで、本体マイクロフォンの代わりに外部マイクロフォンを使用することが可能である。ユーザが外部マイクロフォン807を外部マイクロフォン端子に装着すると、複写機はタッチスクリーンに感度調整画面806を表示する。
【0059】
例えば、図9では、タッチスクリーンのGUI画面上に”Please utter, Testing 1, 2, 3.”と表示し、ユーザに”Testing 1, 2, 3.”と発声することを促している。また、視覚に障害があるユーザの為に、スピーカから”Please utter, Testing 1, 2, 3.”と合成音声で出力してもよい。
【0060】
複写機はユーザが発声した”Testing 1, 2, 3.”という音声を取り込み、その音声から適切な感度を算出する。例えば、オートゲインコントロール(AGC)に代表される公知技術を用いることにより、適切な感度の算出と設定を半自動化することが可能である。
【0061】
また、複写機は特定の動作時に騒音を出すことが多い。例えば、オートドキュメントフィーダ(ADF)を使ったコピーを行っている最中は、非常に大きな動作音となる。このような騒音下でマイクロフォンの感度調整を行うと、騒音がマイクロフォンから取り込まれ、AGCでは適切ではない感度に設定されてしまうことが考えられる。これを避けるため、マイクロフォンの装着を検知した場合でも、複写機が特定の動作(例えばADFを使ったコピー)を行っている場合は、その動作が終了するまで感度調整アプリケーションを起動しないことが望ましい。その場合、マイクロフォンの装着を検知した時点で、「動作終了後に感度調整を行います」等のダイアログを画面に表示することで、ユーザに通知してもよい。
【0062】
以上説明したように、第3実施形態の複写機によれば、外部マイクロフォンが新規に接続された場合、タッチスクリーンに感度調整画面806が表示され、ユーザは忘れずに感度調整を行うことが可能となる。そのため、外部マイクロフォンを付け替えた際でも適切な感度で音声を取り込むことが可能となる。
【0063】
(他の実施形態)
なお、本発明は、前述した実施形態の機能を実現するプログラムを、システム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置が、供給されたプログラムコードを読み出して実行することによっても達成される。従って、本発明の機能処理をコンピュータで実現するために、コンピュータにインストールされるプログラムコード自体も本発明の技術的範囲に含まれる。
【0064】
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
【0065】
プログラムを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク(CD、DVD)、光磁気ディスク、磁気テープ、不揮発性のメモリカード、ROMなどがある。
【0066】
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される。そして、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
【0067】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれる。そして、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
【図面の簡単な説明】
【0068】
【図1】第1実施形態に係る音声処理装置の機能構成を示す図である。
【図2】感度調整のGUI画面であるダイアログ画面の一例を示す図である。
【図3】第1実施形態に係る音声処理装置の動作フローチャートである。
【図4】変形例に係る音声処理装置の機能構成を示す図である。
【図5】感度テーブルの一例を示す図である。
【図6】第2実施形態に係る音声処理装置である音声認識装置の機能構成を示す図である。
【図7】音声認識用パラメータ調整のGUI画面であるダイアログ画面の一例を示す図である。
【図8】第3実施形態に係る複写機の操作パネルを例示的に示す図である。
【図9】操作パネルに表示される設定画面を例示的に示す図である。
【出願人】 【識別番号】000001007
【氏名又は名称】キヤノン株式会社
【出願日】 平成18年8月11日(2006.8.11)
【代理人】 【識別番号】100076428
【弁理士】
【氏名又は名称】大塚 康徳

【識別番号】100112508
【弁理士】
【氏名又は名称】高柳 司郎

【識別番号】100115071
【弁理士】
【氏名又は名称】大塚 康弘

【識別番号】100116894
【弁理士】
【氏名又は名称】木村 秀二


【公開番号】 特開2008−48076(P2008−48076A)
【公開日】 平成20年2月28日(2008.2.28)
【出願番号】 特願2006−220641(P2006−220641)