Warning: copy(htaccessbak): failed to open stream: No such file or directory in /home/jtokkyo/public_html/header.php on line 10
発話訓練装置 - 特開2008−40197 | j-tokkyo
トップ :: G 物理学 :: G09 教育;暗号方法;表示;広告;シ−ル

【発明の名称】 発話訓練装置
【発明者】 【氏名】湯浅 信吾

【要約】 【課題】簡易な構成により発話訓練者が発した音声の正否などを直感的に知覚させることができる発話訓練装置を提供する。

【構成】発話訓練データ18を記憶する記憶手段17と、前記発話訓練データから訓練課題となる文字列を読み出し、該文字列を表示する表示手段13と、表示された前記文字列に従って発話訓練者が発する音声を入力する音声入力手段14と、入力された音声を認識し、認識結果を生成する音声認識手段15と、前記文字列と前記認識結果との正否を比較判定する比較判定手段11と、比較判定の結果を所定の態様で色を変化させて出力する出力手段16とを備えた構成としている。
【特許請求の範囲】
【請求項1】
発話訓練データを記憶する記憶手段と、前記発話訓練データから訓練課題となる文字列を読み出し、該文字列を表示する表示手段と、表示された前記文字列に従って発話訓練者が発する音声を入力する音声入力手段と、入力された音声を認識し、認識結果を生成する音声認識手段と、前記文字列と前記認識結果との正否を比較判定する比較判定手段と、比較判定の結果を所定の態様で色を変化させて出力する出力手段とを備えたことを特徴とする発話訓練装置。
【請求項2】
請求項1において、
前記出力手段は、前記文字列の色を変化させて出力することを特徴とする発話訓練装置。
【請求項3】
請求項1において、
前記音声認識手段は、入力された音声から算出した所定の確率値に基づいて、1又は複数の認識結果を生成する構成としており、
前記出力手段は、前記1又は複数の認識結果を前記確率値とともに色を変化させて出力することを特徴とする発話訓練装置。
【請求項4】
請求項1乃至3のいずれか1項において、
前記出力手段は、前記音声入力手段から入力された音声の大小を更に色を変化させて出力することを特徴とする発話訓練装置。
【発明の詳細な説明】【技術分野】
【0001】
本発明は、発話訓練装置に関し、詳しくは、聴覚に障害を持っている人が正しい発声方法を習得するための発話訓練装置に関するものである。
【背景技術】
【0002】
聴覚に障害を持っている人は、自らの発した音声が聴覚を介して認識できないため、自分が正しい発音で発声しているのかを自ら判断することが困難で、発声練習を一人で行うのが困難であった。
また、従来提案されている発声訓練装置では、各種の検出センサを訓練者の口腔内、鼻部分、喉部分などに装着して発声を行うことで訓練者の音声情報を収集する構成のものが提案されているが、このものでは、前記のような各種センサを用いることから装置自体のコストアップに繋がり、また、訓練者の口腔内などにセンサを装着する必要があるため、訓練者にとって不快感を伴うものであった。
【0003】
このような問題を解決するものとして、特許文献1では、図5に示すように、手本となる音声波形データと訓練者からマイク2を介して入力される音声波形データとの一致度合いを評価して、それらの音声波形データを対応付けて表示するディスプレイ3と、訓練者の触覚に接触させて、前記音声波形データに応答して振動するハンディアクチュエータ4及びグッドイヤー5とを備えた発声練習訓練器1が提案されている。
【0004】
この発声練習訓練器1では、手本となる音声波形データに応答してハンディアクチュエータ4及びグッドイヤー5を振動させることにより、訓練者は触覚により手本の発生音を知覚することができるとともに、ディスプレイ3に表示された手本の音声波形データや口の空け方のヒントなどを参考にして発声をし、その判定結果がディスプレイ3に音声波形データとして表示されるとともに、その音声波形データに応答してハンディアクチュエータ4及びグッドイヤー5が振動して触覚により自らの発声音の知覚ができる構成となっている。
【特許文献1】特開平10−161518号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかし、前記特許文献1で提案されている発声練習訓練器1では、音声波形データや「もっと大きく発声して下さい」などのような文字表示、及び振動により判定結果を出力する構成となっており、訓練者にとって、自らの発した音声が正しいのか否かを直感的に知覚できる構成ではなく、また、ハンディアクチュエータ等が必要であり装置の複雑化、高コスト化を伴うものであった。
【0006】
本発明は、前記問題を解決するために提案されたもので、その目的は、簡易な構成により発話訓練者が発した音声の正否などを直感的に知覚させることができる発話訓練装置を提供することにある。
【課題を解決するための手段】
【0007】
前記目的を達成するために、請求項1に記載の発話訓練装置は、発話訓練データを記憶する記憶手段と、前記発話訓練データから訓練課題となる文字列を読み出し、該文字列を表示する表示手段と、表示された前記文字列に従って発話訓練者が発する音声を入力する音声入力手段と、入力された音声を認識し、認識結果を生成する音声認識手段と、前記文字列と前記認識結果との正否を比較判定する比較判定手段と、比較判定の結果を所定の態様で色を変化させて出力する出力手段とを備えたことを特徴とする。
ここに、文字列とは、1文字や単語、並びに挨拶などの定型文も含むものである。
また、色を変化させる態様には、出力前後の色を変化させるものだけではなく、例えば、LEDなどで発光していないLEDを発光させることも含むものである。
【0008】
請求項2では、請求項1において、前記出力手段は、前記文字列の色を変化させて出力することを特徴とする。
【0009】
請求項3では、請求項1において、前記音声認識手段は、入力された音声から算出した所定の確率値に基づいて、1又は複数の認識結果を生成する構成としており、前記出力手段は、前記1又は複数の認識結果を前記確率値とともに色を変化させて出力することを特徴とする。
【0010】
請求項4では、請求項1乃至3のいずれか1項において、前記出力手段は、前記音声入力手段から入力された音声の大小を更に色を変化させて出力することを特徴とする。
【発明の効果】
【0011】
請求項1乃至4に記載の発話訓練装置によれば、比較判定の結果を色を変化させて出力するので、発話訓練者の視覚刺激に訴えて容易かつ直感的に知覚させることができる。
【0012】
請求項2では、表示された文字列の色を変化させて比較判定の結果を出力するので、発話訓練者に視点を変えさせることなく、より容易に比較判定の結果を知覚させることができる。
【0013】
請求項3では、入力された音声から生成された1又は複数の認識結果とともに確率値も色を変化させて出力する構成としているので、発話訓練者の発した音声が、どの文字として認識されたかを視覚的に知覚させることができる。
すなわち、入力された音声が表示された文字列と100%一致したときには、1の認識結果を確率値とともに色を変化させて出力する一方、入力された音声から生成された認識結果が複数の場合には、複数の認識結果を確率値とともに色を変化させて出力する構成としているので、発話訓練者は、自らの発した音声が、どの程度、発しようとした文字列に近く、また、どの文字列に近いのかを、視覚で直感的に知覚できる。
【0014】
請求項4では、音声の大小も色を変化させて出力するので、音声の大小も視覚刺激に訴えて、容易に知覚させることができる。
【発明を実施するための最良の形態】
【0015】
以下に、本発明の実施の形態について、図面を参照しながら説明する。
図1乃至図4は、本実施形態に係る発話訓練装置を示し、図1は、本実施形態の発話訓練装置の概略構成を示すブロック図、図2は、本実施形態に係る発話訓練装置の表示及び出力の例を示す概略図、図3は、本実施形態に係る発話訓練装置の表示及び出力の他例を示す概略図、図4は、本実施形態で実行される発話訓練の基本動作を示すフローチャートである。
【0016】
図1に示す発話訓練装置10は、装置の各部を制御するとともに比較判定手段を構成するCPU11と、マウスやキーボード、操作キー、タッチパネルなどで構成される操作手段12と、液晶モニタ(LCD)やCRTなどで構成される表示手段13と、マイクロホンなどで構成される音声入力手段14と、入力された音声を認識し、認識結果を生成する音声認識手段15と、各部の制御プログラムや発話訓練データ18、発話訓練プログラム19などを格納する記憶手段17と、比較判定の結果を所定の態様で出力する出力手段16とを備えている。
【0017】
詳しくは、記憶手段17には、発話訓練者が発声練習をするための訓練課題として、1文字、単語、挨拶などの定型文などの文字列を記憶した発話訓練データ18が記憶されている。
ここで、発話訓練データ18は、例えば、母音、あ行、い行・・・、2字の単語、3字の単語・・・、挨拶文・・・、などとしてデータ化されており、発話訓練者の操作により、訓練課題の中から所望のものを選択可能なように構成されており、習得状況に応じて、あるいは後述する発話訓練の開始の操作による自動制御により難易度を徐々に上げて実行するなどのモード選択機能を備える構成としてもよい。
【0018】
音声認識手段15により実行される音声認識技術については公知の音声認識技術が適用できるが、例えば、入力された音声をA/D変換器などにより音声データとしてデジタル化し、音声分析などによりその音声データから特徴量を抽出し、例えば、LPC(Linear Predictive Coefficient)ケプストラムやMFCC(メル周波数ケプストラム係数)などの認識計算に最適な音響特徴ベクトルに変換する。
変換された音響特徴ベクトルは、尤度算出プログラムにより、音響モデルに格納されているHMM(隠れマルコフモデル)などを適用した音素モデルを参照して、尤度、すなわち確率値が算出され、算出された尤度に基づいて、認識用ルールが格納された辞書部から最尤のものを認識結果として生成する構成としてもよい。
【0019】
尚、音声認識の際に、公知の雑音抑圧処理などを行う構成としてもよい。
また、HMMを適用する際には、音素環境を考慮して適用することが好ましく、例えば、表示される文字列が2文字以上の場合には、先行音素及び後続音素も考慮した音声認識を行う構成としてもよい。
【0020】
CPU11は、前記のように生成された認識結果と、表示手段13に表示された文字列とを比較判定し、出力手段16は、比較判定の結果を所定の態様で色を変化させて出力する構成としている。
尚、比較判定の結果の出力は、発話訓練者の音声の入力後、リアルタイムで出力する構成とするのが好ましい。これにより、発話訓練者は、自らの入力した音声の比較判定の結果をリアルタイムで、知覚することができ、更に、その後、直ちに再入力を行える構成とすれば、比較判定の結果に基づいて、段階的に正しい発音を行うように発話訓練を行うことが可能となる。
また、図1では、発話訓練装置10を機能ブロックの組み合わせとして示しているが、パソコンに専用の音声入力手段14、出力手段16を付加したり、あるいはそのような付加をせずに、パソコンに各種のアプリケーションソフトを組み込むことで実現するようにしてもよい。
【0021】
次に、表示手段13の文字列表示の例及び出力手段16の比較判定結果出力の例を図2に基づいて説明する。
図2に示すように、本実施形態では、表示及び出力の態様として6つのパターンを例示している。
【0022】
図2(a)では、液晶モニタなどから構成される表示手段13に文字列として「あ」が表示されており、表示手段13とは別に、LEDなどの光源から構成される出力手段16が設けられている。
本例では、入力された音声から生成された認識結果と文字列、ここでは「あ」とが一致すると、例えば、出力手段(LED)16を赤色に発光させ、一方、認識結果と文字列が一致しない場合は、出力手段16を他の色に発光させる構成としている。
これにより、比較判定の結果を発話訓練者の視覚刺激に訴えて、容易かつ直感的に知覚させることができる。また、簡易な構成かつ低コストの発話訓練装置10が提供できる。
尚、比較判定結果の出力前は、出力手段(LED)16を消灯させておいてもよく、あるいは、例えば、音声入力を促すべく比較判定結果の正否とは異なる色に発光させておく構成としてもよい。
【0023】
図2(b)では、表示手段13と出力手段16は液晶モニタなどから構成されており、表示された文字列が出力手段16も兼ねる構成としている。
すなわち、表示された文字列の色を変化させることにより比較判定の結果を出力する構成としており、例えば、表示された際には文字列「あ」は白色として出力されているが、発話訓練者が音声を入力し、その認識結果が「あ」であれば、赤色を出力し、一方、認識結果と文字列が一致しない場合は、他の色を出力する構成としている。
これによれば、文字列自体の色を変化させるので、比較判定の結果を視点を変えさせることなく発話訓練者の視覚刺激に訴えることができ、より容易かつ直感的に知覚させることができる。
【0024】
図2(c)では、図2(a)の例に加えて、出力手段16は、入力された音声の大小も色を変化させて出力する構成としている。
すなわち、本例の出力手段16は、音声の正否とともに、音声の大小をレベルメータ16aで出力する構成としており、これにより、発話訓練者が自らの発した音声の大小を視覚刺激に訴えて、容易に知覚することができる。
例えば、本例では、発話訓練者が発した音声が小さい場合には、LEDなどから構成されるレベルメータ16aは、「小」に対応する箇所のみを発光させる構成とし、音声の大小に併せて、図示のように順次、発光させる箇所を増やす構成としている。
尚、この場合は、音声の正否もレベルメータ16aの色を図2(a)の例で説明したように色を変化させて出力する。または、別途、図2(a)の例で説明したようなLEDを音声の正否用の出力手段として設ける構成としてもよい。
【0025】
図2(d)では、図2(b)の例に加えて、前記の図2(c)の例と同様に、出力手段16は、入力された音声の大小も色を変化させて出力する構成としており、音声の正否は液晶モニタに表示された文字列の色を変化させることにより出力するとともに、音声の大小は別に設けたレベルメータ16aで出力する構成としている。
尚、音声の大小の出力は、前記した構成に限られず、例えば、LEDによる発光の強弱や、液晶モニタでの点滅などにより、音声の大小を色を変化させて出力する構成としてもよく、例えば、図2(d)で、LEDを別途設けず、液晶モニタに表示された文字列を点滅させることにより、あるいは、文字列とは別に、液晶モニタ上で音声の大小をレベルメータなどにより色を変化させて出力する構成としてもよい。
【0026】
図2(e)では、図2(a)の例に加えて、母音とそれぞれに対応する色の変化情報、すなわち、各文字列に対応させた色を表示手段13の付近に図示しており、更に、発話訓練者の入力した音声から生成された認識結果が、表示した文字列と異なり、他の文字列に該当するときには、その他の文字列に対応させた色に変化させて出力する構成としている。
例えば、表示した文字列が「あ」であるのに対して、入力された音声から生成された認識結果が「う」である場合には、出力手段16を赤色ではなく、黄色に発光させる構成としている。
【0027】
この場合は、テーブルなどを作成し、文字列に対応させた色の変化情報、例えば、図2(e)の例のように、文字列「あ」は「赤」、「い」は「青」、「う」は「黄」、「え」は「緑」、「お」は「紫」などとして、各文字に固有の色、あるいは色の組み合わせ、点滅などの態様(例えば、子音であれば各母音の色を点滅させるなど)で色の変化情報として記憶手段17などに格納する構成としてもよい。
また、本例においては、図示したように母音のみの色の変化情報を図示しているが、この場合には、例えば、前述の尤度を母音の中で最尤のものを認識結果とする構成とすれば、自らの発した音声が正しいのか否かだけではなく、その音声がどの文字(母音)に近いのかも容易に知覚することができる。
【0028】
また、色の変化情報の表示態様は、本例で示したものに限られず、表示手段13において、文字列とともに表示する構成としてもよく、また、母音に限られず、子音や、単語などの色の変化情報を、選択された訓練課題に基づいて、表示する構成としてもよい。
さらに、文字列に対応させた色の変化情報は、一対一に対応させて色を設定する必要性はなく、選択された訓練課題に基づいて、最小限の組み合わせの色を設定する構成としてもよい。
【0029】
図2(f)では、図2(b)の例に加えて、図2(e)の例と同様に、母音とそれぞれに対応する色の変化情報を表示手段13の付近に図示しており、図2(e)と同様に、発話訓練者の入力した音声から生成された認識結果が、表示した文字列と異なり、他の文字列に該当するときには、その他の文字列に対応させた色に変化させて出力する構成としている。
【0030】
尚、前記の図2(a)乃至(f)に基づいて説明した例は、それぞれを組み合わせて、文字列の表示及び比較判定結果の出力を行う構成としてもよい。
また、図2の(b)、(d)及び(f)では、理解を容易とするために、黒い液晶モニタに文字列を白抜きで表示しているが、これに限られず、表示時の文字列の色と、比較判定の結果を異なる色にして出力する構成とすればよい。
【0031】
次に、表示手段13の文字列表示の例及び出力手段16の比較判定結果出力の他例を図3に基づいて説明する。
図3に示すように、本実施形態では、更に表示及び出力の態様の他例として2つのパターンを例示している。
図2に基づいて説明した例との相違点は、表示手段13の表示態様及び出力手段16の出力態様であり、他の基本的な構成は図2の例と同様であるため、同一符号を付し、説明を省略する。
【0032】
図3(a)及び(b)では、表示手段13及び出力手段16は、液晶モニタなどから構成されている。
詳しくは、発話訓練者が、発話訓練データ18から所望の訓練課題を選択すると、液晶モニタ上に、文字列が表示、すなわち、図3(a)では、「か」が表示されている。
発話訓練者が、表示された文字列に従って、音声入力手段14から音声を入力すると、入力された音声は、直ちに音声認識手段15により、前記したように認識結果が生成される。ここで、本例では、音声認識手段15により実行される尤度算出プログラムが算出する尤度、すなわち所定の確率値に基づいて、1又は複数の認識結果を生成する構成としている。
【0033】
すなわち、本例では、尤度算出プログラムで算出される尤度から最尤のものだけではなく、その尤度(確率値)が複数ある場合には、その尤度に基づいた複数の認識結果を生成する構成としている。
ここで、生成される認識結果を1又は複数としているのは、確率的には非常に低いが、表示した文字列と入力された音声から生成された認識結果が100%一致している場合、すなわち、算出された確率値が100%となる場合を仮定しているためである。
【0034】
本例では、比較判定の結果として、前記のように生成された1又は複数の認識結果を確率値とともに色を変化させて出力手段16に出力させる構成としている。
詳しくは、表示した文字列「か」に対して、入力された音声から生成された認識結果の確率値が、本例では、「が」が40%、「か」が20%、「あ」が10%、「は」が5%として、認識結果16b乃至16e及びそれに対応する確率値を現すレベルメータ16f乃至16iとして出力する構成としている。
【0035】
ここで、認識結果16b乃至16e及びそれに対応する確率値を現すレベルメータ16f乃至16iには、それぞれ異なる色が出力されている。例えば、本例では、訓練課題として表示された文字列「か」に相当する箇所16c及び16gは、赤色に出力し、他は、適宜それぞれ異なる色として出力されている。
尚、それぞれ異なる色とせず、同色で出力する構成としてもよい。
【0036】
前記したような構成によれば、発話訓練者の発した音声が、どの文字として認識されたかを視覚的に知覚させることができる。
すなわち、入力された音声が表示された文字列と100%一致したときには、1の認識結果を確率値とともに色を変化させて出力する一方、入力された音声から生成された認識結果が複数の場合には、複数の認識結果を確率値とともに色を変化させて出力する構成としているので、発話訓練者は、自らの発した音声が、どの程度、発しようとした文字列に近く、また、どの文字列に近いのかを、視覚で直感的に知覚できる。
【0037】
例えば、本例の比較判定結果の出力を見ると、訓練課題として表示された文字列である「か」(認識結果16c)に対して、「が」(認識結果16b)の確率値が高く、「か」と「が」は、共に母音は同じ「a」で、後舌面を軟口蓋に接して破裂させて発音する音であるが、ここで、他の確率値を有する「あ」(認識結果16d)と「は」(認識結果16e)が低い確率値ではあるが出力されているのを見れば分かる通り、両者は、「が」と「か」とは異なり、破裂音ではなく開放音であり、発話訓練者は、これらを総合的に見ることにより、舌使いを直す必要があることが、視覚により直感的に知覚できる。
さらに、発話訓練者は、同じ課題に対して、繰り返し音声入力を行うことにより、試行錯誤を繰り返しながらも訓練課題として表示された文字列を発音できるように一人で訓練を行うことができる。
【0038】
尚、本例では、比較判定結果の出力として、4つの認識結果及びそれに対応する確率値を色を変化させて出力する構成としているが、これに限られず、例えば、3以下あるいは5以上の認識結果及びそれに対応する確率値を色を変化させて出力させる構成としてもよい。
また、1文字のみの訓練課題を実行しているものを例示しているが、これに限られず、単語、及び挨拶などの定型文を訓練課題として表示し、比較判定結果を出力する構成としてもよい。
さらに、認識結果16b乃至16e及びそれに対応する確率値を現すレベルメータ16f乃至16iの出力は、前記した構成に限られず、例えば、円グラフや折れ線グラフ、棒グラフなど、発話訓練者の視覚刺激に訴えて、直感的に知覚させることができる構成とすればよい。
【0039】
次に、更に他例を図3(b)に基づいて説明する。
この例では、「す」を訓練課題として表示しているが、図3(a)に基づいて説明した例との相違点は、出力手段16が、更に、入力された音声の大小を色を変化させて出力する構成としている点であり、他の基本的な構成は、図3(a)の例と同様であるため説明を省略する。
【0040】
詳しくは、図3(a)に加えて、入力された音声の大小をレベルメータ16aの色を変化させて出力する構成としており、これによれば、発話訓練者は、自らの発した音声が、どの文字として認識されたかを視覚的に知覚することができるとともに、音声の大小も視覚刺激に訴えて、容易に知覚することができる。
【0041】
次に、図4に基づいて、前記のように構成された、発話訓練装置10で実行される発話訓練の基本動作を説明する。
【0042】
まず、操作手段12を操作することにより発話訓練装置10を起動し、各種の訓練課題を記憶する発話訓練データ18の中から所望の訓練課題を選択し、選択された訓練課題に基づいて、表示手段16に文字列を表示する(ステップ100〜101)。次いで、音声入力を待ち、表示された文字列に従って発話訓練者が音声入力手段14から音声を入力すると、音声認識手段15により、前記したように音声を認識し、認識結果を生成する、一方、音声入力がなされない場合は、所定時間、その入力を待ち、所定時間経過しても音声の入力がない場合には発話訓練を終了する(ステップ102〜103、106)。生成された認識結果と表示した文字列とをCPU11において比較判定し、前記したように色を変化させて出力手段16により出力し、その後、発話訓練者が終了の操作を行うと発話訓練を終了する(ステップ104〜105)。一方、終了の操作がなされない場合は、訓練課題に従って、順次、文字列が表示され、前記の動作が繰り返される。
【0043】
尚、前述したようにパソコンで前記した発話訓練データ18を記憶する記憶手段17、発話訓練課題データ18から訓練課題となる文字列を読み出し、文字列を表示する表示手段13、表示された文字列に従って発話訓練者が発する音声を入力する音声入力手段14、入力された音声を認識し、認識結果を生成する音声認識手段15、文字列と認識結果との正否を比較判定する比較判定手段11、比較判定の結果を所定の態様で色を変化させて出力する出力手段16を構成し、発話訓練プログラム19を組み込んだ場合には、CD−ROMなどの記録媒体に発話訓練プログラム19を記憶させて、パソコンなどのCDドライブ(CDD)から読み取り記憶手段17に記憶、あるいは、通信回線を介してダウンロードして記憶させて、発話訓練を実行させる構成としてもよい。この場合は、PCが発話訓練装置として機能する。
【図面の簡単な説明】
【0044】
【図1】本発明に係る発話訓練装置の概略構成を示すブロック図である。
【図2】本発明の発話訓練装置における表示及び出力の例を示す概略図である。
【図3】本発明の発話訓練装置における表示及び出力の他例を示す概略図である。
【図4】本発明の同実施形態で実行される発話訓練の基本動作を示すフローチャートである。
【図5】従来の発話訓練装置の概略構成を示す図である。
【符号の説明】
【0045】
10、PC 発話訓練装置
11 CPU(比較判定手段)
13 表示手段
14 音声入力手段
15 音声認識手段
16 出力手段
17 記憶手段
18 発話訓練データ
【出願人】 【識別番号】000005832
【氏名又は名称】松下電工株式会社
【出願日】 平成18年8月8日(2006.8.8)
【代理人】 【識別番号】100087664
【弁理士】
【氏名又は名称】中井 宏行


【公開番号】 特開2008−40197(P2008−40197A)
【公開日】 平成20年2月21日(2008.2.21)
【出願番号】 特願2006−215275(P2006−215275)