トップ :: G 物理学 :: G10 楽器;音響




【発明の名称】 音声認識装置
【発明者】 【氏名】楠本 典孝

【氏名】朝山 砂子

【要約】 【課題】操作者が、入力した音声がどの程度類似していたのか簡単に判断できるような音声認識装置を提供する。

【解決手段】音声入力部1を介して入力された操作者の音声を、音声認識部2により認識を行い、第一候補の単語とその尤度に対応するデータを尤度対応データ格納部5および単語音声格納部7から出力し、表示部6で画面表示および音声出力部8で再生を行う。
【特許請求の範囲】
【請求項1】 認識対象単語が登録されている単語辞書と、音声を入力する音声入力手段と、前記音声入力手段により入力された音声と前記単語辞書に登録されている単語との類似度を示す尤度を計算し、予め設定した条件に従い第一候補単語とその尤度を出力する音声認識手段と、尤度に対応付けた点数データを記憶するデータ格納手段と、前記音声認識手段により出力された尤度に対応する点数データを前記データ格納手段から読み出す出力制御手段と、前記音声認識手段により出力された第一候補単語とその尤度と前記出力制御手段により読み出されたデータの画面表示を行う表示手段とを備えることを特徴とする音声認識装置。
【請求項2】 前記データ格納手段は、尤度に対応付けたテキストデータをさらに記憶することを特徴とする請求項1記載の音声認識装置。
【請求項3】 前記データ格納手段は、尤度に対応付けた画像データをさらに記憶することを特徴とする請求項1または2記載の音声認識装置。
【請求項4】 前記データ格納手段は、尤度に対応付けた音声データをさらに記憶し、前記出力制御手段により読み出された音声データを再生する音声出力手段をさらに備えることを特徴とする請求項1〜3のいずれかに記載の音声認識装置。
【請求項5】 単語の音声データを記憶する単語音声格納手段をさらに備え、前記出力制御手段は、前記音声認識手段により出力された単語データに対応する単語音声データを前記単語音声格納手段からさらに読み出し、前記音声出力手段は、前記出力制御手段により読み出された単語音声データをさらに再生することを特徴とする請求項1〜4のいずれかに記載の音声認識装置。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は、入力された音声を認識する音声認識装置に関するものである。
【0002】
【従来の技術】従来の音声認識装置としては、例えば、特開平2000−181676号公報に開示される画像処理装置がある。この画像処理装置は、表示装置に表示された対話相手オブジェクトの動作を、マイクロフォンから入力された使用者の単語音声に応答して変化させるものである。
【0003】
【発明が解決しようとする課題】しかしながら、上記の従来の装置では、入力されるべき単語と一致するか否かのみを判断し表示を行うため、操作者は入力した音声がどの程度類似していたのか判断できず、もっとも装置に適した発声を練習することができないという問題点があった。
【0004】本発明の目的は、操作者が、入力した音声がどの程度類似していたのか判断できるような音声認識装置を提供することである。
【0005】
【課題を解決するための手段】(1)第1の発明第1の発明に係る音声認識装置は、認識対象単語が登録されている単語辞書と、音声を入力する音声入力手段と、音声入力手段により入力された音声と前記単語辞書に登録されている単語との類似度を示す尤度を計算し、予め設定した条件に従い第一候補単語とその尤度を出力する音声認識手段と、尤度に対応付けた点数データを記憶するデータ格納手段と、音声認識手段により出力された尤度に対応する点数データをデータ格納手段から読み出す出力制御手段と、音声認識手段により出力された第一候補単語とその尤度と出力制御手段により読み出されたデータの画面表示を行う表示手段とを備えるものである。
【0006】本発明に係る音声認識装置においては、操作者音声に対応する音声を認識し、第一候補単語とその尤度が音声認識手段から出力され、出力された尤度に応じて点数データが出力制御手段より読み出され、第一候補単語と読み出された点数データの表示が行われる。したがって、操作者が、入力した音声がどの程度類似していたのか判断できる。
【0007】(2)第2の発明第2の発明に係る音声認識装置は、第1の発明に係る音声認識装置の構成において、データ格納手段は、尤度に対応付けたテキストデータをさらに記憶することを特徴とする。
【0008】この場合、操作者が、入力した音声がどの程度類似していたのか文章内容から判断でき、より具体的に類似度を判断することができる。
【0009】(3)第3の発明第3の発明に係る音声認識装置は、第1または第2の発明に係る音声認識装置の構成において、データ格納手段は、尤度に対応付けた画像データをさらに記憶することを特徴とする。
【0010】この場合、操作者が、入力した音声がどの程度類似していたのか画像を見て一目で判断でき、より視覚的に容易に類似度を判断することができる。
【0011】(4)第4の発明第3の発明に係る音声認識装置は、第1〜第3の発明に係る音声認識装置の構成において、データ格納手段は、尤度に対応付けた音声データをさらに記憶し、出力制御手段により読み出された音声データを再生する音声出力手段をさらに備えるものである。
【0012】この場合、操作者が、入力した音声がどの程度類似していたのか音声を聞いて判断でき、より聴覚的に容易に類似度を判断することができる。
【0013】(5)第5の発明第5の発明に係る音声認識装置は、第1〜第4の発明に係る音声認識装置の構成において、単語の音声データを記憶する単語音声格納手段をさらに備え、音声出力手段は、音声認識手段により出力された単語データに対応する単語音声データを単語音声格納手段からさらに読み出し、音声出力手段は、音声出力手段により読み出された単語音声データをさらに再生することを特徴とする。
【0014】この場合、操作者が、第一候補単語がどの単語だったのか音声を聞いて判断でき、操作者の発声と同じか否かを聴覚的に容易に判断することができる。
【0015】
【発明の実施の形態】以下、本発明の一実施形態による音声認識装置について図面を参照しながら説明する。図1は、本発明の一実施の形態による音声認識装置の構成を示すブロック図である。
【0016】図1に示す音声認識装置は、音声入力部1、音声認識部2、単語辞書3、出力制御部4、尤度対応データ格納部5、表示部6、単語音声格納部7、音声出力部8を備える。
【0017】音声入力部1は、例えば、マイクロフォン等により構成され、操作者が発声した音声を音声信号に変換して音声認識部2へ出力する。音声認識部2は、音声入力部1から出力された音声信号を用いて単語辞書3に登録されている単語との類似度を示す尤度を計算し、予め設定した条件に従って第一候補の単語データとその尤度を出力制御部4へ出力する。
【0018】出力制御部4は、音声認識部2から出力された第一候補単語の尤度を尤度対応データ格納部5へ出力し、さらに音声認識部2から出力された第一候補単語を単語音声格納部7へ出力する。尤度対応データ格納部5は、出力制御部4から出力された尤度を用いて対応する点数データとテキストデータと画像データと音声データを出力制御部4へ出力する。
【0019】単語音声格納部7は、出力制御部4から出力された単語を用いて対応する単語音声データを出力制御部4へ出力する。出力制御部4は、音声認識部2から出力された第一候補単語と尤度対応データ格納部5から出力された点数データとテキストデータと画像データを表示部6へ出力し、さらに尤度対応データ格納部5から出力された音声データと単語音声格納部7から出力された単語音声データをを音声出力部8へ出力する。
【0020】表示部6は、出力制御部4から出力された点数データとテキストデータと画像データを画面表示する。音声出力部8は、例えば、スピーカ等により構成され、出力制御部4から出力された音声データと単語音声データを再生する。
【0021】本実施の形態において、単語辞書3が単語辞書に相当し、音声入力部1が音声入力手段に相当し、音声認識部2が音声認識手段に相当し、尤度データ格納部5がデータ格納手段に相当し、出力制御部4が出力制御手段に相当し、表示部6が表示手段に相当する。また、音声出力部8が音声出力手段に相当し、音声合成部7が音声合成手段に相当する。
【0022】次に、上記のように構成された音声認識装置の動作について説明する。図2は、図1に示す音声認識装置の動作を示すフローチャートである。
【0023】まず、操作者の音声が音声入力部1に入力されると、入力された音声が音声信号に変換されて音声認識部2へ出力される。音声認識部2は、入力された音声信号と単語辞書3に登録されている単語との類似度を示す尤度を計算し(ステップS1)、予め設定した条件に従い第一候補の単語とその尤度を出力制御部4へ出力し(ステップS2)、ステップS3へ移行する。
【0024】単語表示をするかしないか判断し(ステップS3)、単語表示をしない場合、ステップS5へ移行し、単語表示をする場合、ステップS4へ移行する。
【0025】単語表示をする場合、出力制御部4は、単語データを表示部6へ出力し、表示部6は単語データを画面に表示し(ステップS4)、ステップS5へ移行する。
【0026】点数表示をするかしないか判断し(ステップS5)、点数表示をしない場合、ステップS7へ移行し、点数表示をする場合、ステップS6へ移行する。
【0027】点数表示をする場合、出力制御部4は、点数データを表示部6へ出力し、表示部6は点数データを画面に表示し(ステップS6)、ステップS7へ移行する。
【0028】テキスト表示をするかしないか判断し(ステップS7)、テキスト表示をしない場合、ステップS9へ移行し、テキスト表示をする場合、ステップS8へ移行する。
【0029】テキスト表示をする場合、出力制御部4は、テキストデータを表示部6へ出力し、表示部6はテキストデータを画面に表示し(ステップS8)、ステップS9へ移行する。
【0030】画像表示をするかしないか判断し(ステップS9)、画像表示をしない場合、ステップS11へ移行し、画像表示をする場合、ステップS10へ移行する。
【0031】画像表示をする場合、出力制御部4は、画像データを表示部6へ出力し、表示部6は画像データを画面に表示し(ステップS10)、ステップS11へ移行する。
【0032】音声再生をするかしないか判断し(ステップS11)、音声再生をしない場合、処理を終了し、音声再生をする場合、ステップS12へ移行する。
【0033】音声再生をする場合、出力制御部4は、音声データを音声出力部8へ出力し、音声出力部8は音声データを再生し(ステップS12)、処理を終了する。
【0034】上記の処理により、本実施の形態では、操作者の音声が音声入力部1へ入力されると、音声認識部2によりこの音声が認識され、尤度対応データ格納部5および単語音声格納部7から読み出された点数データとテキストデータと画像データと音声データを用いてを用いて表示部6および音声出力部8により画面表示および音声再生を行うことができる。この結果、操作者は、入力した音声がどの程度類似していたのか聴覚的にも視覚的にも簡単に判断できる。
【0035】次に、図1に示す音声認識装置の動作についてさらに具体例を挙げて詳細に説明する。図3は、図1の音声認識装置の具体的な構成例の一例を示す概略図である。
【0036】図3に示す音声認識装置は、音声入力部であるマイクロフォン1a、表示部である表示画面6a、音声出力部であるスピーカー8aにより構成される。
【0037】例えば、操作者が「いっちゃんねる」と発声すると、マイクロフォン1aには操作者の音声「いっちゅんねる」が入力される。
【0038】図10は、単語辞書3に登録されている単語の一例を示す図である。ここで、単語辞書3に登録されている単語が図10に示すものである場合、「いっちゃんねる」という単語が登録されているので、音声認識部2は、単語データ「いっちゃんねる」とその尤度、例えば、尤度「2700」を出力制御部4に出力する。
【0039】図4は、尤度対応データ格納部5に記憶されている尤度に対応付けた点数データとテキストデータと画像データと音声データの一例を示す図である。また、図5は、尤度対応データ格納部5に記憶されているテキストデータの内容の一例を示す図である。
【0040】図6は、尤度対応データ格納部5に記憶されている画像データの内容の一例を示す図である。図7は、尤度対応データ格納部5に記憶されている音声データの内容の一例を示す図である。また、図8は、単語音声格納部7に記憶されている単語音声データの一例を示す図である。
【0041】図9は、出力制御部4に記憶されている表示画面6aおよびスピーカー8aに出力する項目設定の一例を示す図である。ここで、出力制御部4に記憶されている、表示画面6aおよびスピーカー8aに出力する項目設定が図9に示すものであり、尤度対応データ格納部5に記憶されている尤度に対応付けた点数データとテキストデータと画像データと音声データが図4に示すものであり、尤度対応データ格納部5に記憶されているテキストデータの内容が図5に示すものであり、尤度対応データ格納部5に記憶されている画像データの内容が図6に示すものであり、尤度対応データ格納部5に記憶されている音声データの内容が図7に示すものであり、単語音声格納部7に記憶されている、単語音声データが図8に示すものである場合、出力制御部4は、単語データ「いっちゃんねる」と点数データ「90」と画像データ「画像ファイル4」を表示画面6aに出力し表示を行い、音声データ「音声ファイル4」と単語音声データ「1CH」をスピーカー8aに出力し再生を行う。
【0042】このように、操作者は、マイクロフォン1aに入力した音声がどの程度類似していたのか、表示画面6aを見たりスピーカー8aから再生される音を聞くことで、聴覚的にも視覚的にも簡単に判断できる。
【0043】なお、本発明は上記した実施の内容に限定されるものではない。
【0044】
【発明の効果】本発明によれば、音声認識装置において、操作者が、入力した音声がどの程度類似していたのか判断することができ、もっとも装置に適した発声を練習することが可能である。
【出願人】 【識別番号】000005821
【氏名又は名称】松下電器産業株式会社
【出願日】 平成13年1月22日(2001.1.22)
【代理人】 【識別番号】100097445
【弁理士】
【氏名又は名称】岩橋 文雄 (外2名)
【公開番号】 特開2002−215188(P2002−215188A)
【公開日】 平成14年7月31日(2002.7.31)
【出願番号】 特願2001−12760(P2001−12760)