| 【発明の名称】 |
音声認識装置、及びプログラム |
| 【発明者】 |
【氏名】遠藤 剛
|
| 【要約】 |
【課題】本発明の課題は、マイクから音声入力された会話情報に基づいて、会議や市場調査等のテキスト化されたデータベースを自動的に構築する音声認識装置、及びプログラムを提供することである。
【解決手段】音声認識装置1によれば、マイクMから入力された音声データを音声データ記憶部61に格納し、音素認識処理部21で音素データに変換した後に音素データ記憶部62に格納する。同時に、音素データを発声辞書学習処理部22で個人別発声辞書64、共通発声辞書65と照合し、照合結果を音素認識処理部21に渡す。また、音声データ記憶部61に格納された音素データを単語認識処理部24において単語認識した後に、認識された単語データを単語データ記憶部63に記憶する。 |
【特許請求の範囲】
【請求項1】入力された音声データを記憶する音声記憶手段と、音声認識のための特徴情報を記憶する特徴情報記憶手段と、前記音声記憶手段に記憶されている音声データを読み出し、前記特徴情報記憶手段に記憶されている特徴情報に基づいて前記音声データに対応するテキストデータを推定するテキスト推定手段と、前記テキスト推定手段により推定されたテキストデータを、その推定の確度情報と共に記憶するテキスト記憶手段と、前記特徴情報記憶手段に記憶されている特徴情報を学習させる学習手段と、前記学習手段による特徴情報の学習後、前記テキスト記憶手段に記憶されているテキストデータの確度情報を読み出し、確度が一定割合以下であるテキストデータを前記テキスト推定手段によって再度推定し、前記テキスト記憶手段に記憶されているテキストデータを更新するテキスト更新手段と、を備えることを特徴とする音声認識装置。 【請求項2】前記テキスト記憶手段に記憶されているテキストデータの確度情報を読み出し、確度が一定割合以上であるテキストデータに対応する音声データを前記音声記憶手段から削除する削除手段、を更に備えることを特徴とする請求項1記載の音声認識装置。 【請求項3】前記学習手段は、前記テキスト推定手段による音声認識結果に基づいて、前記特徴情報記憶手段に記憶されている特徴情報を学習させることを特徴とする請求項1記載の音声認識装置。 【請求項4】前記学習手段は、利用者からの入力情報に基づいて、前記特徴情報記憶手段に記憶されている特徴情報を学習させることを特徴とする請求項1記載の音声認識装置。 【請求項5】前記特徴情報記憶手段は、話者による発声の特徴情報を各話者毎に記憶し、前記テキスト推定手段によって推定が行われた音声データの話者を推定し、その推定の確度情報と共に記憶する話者推定手段と、前記テキスト推定手段は、前記話者推定手段によって推定された話者に対応する特徴情報によってテキストデータを推定し、前記学習手段は、前記話者推定手段によって推定された話者の確度が一定割合以上であった場合に、前記テキスト推定手段による音声認識結果に基づいて、推定された話者に対応する特徴情報を学習させることを特徴とする請求項1記載の音声認識装置。 【請求項6】前記特徴情報記憶手段は、各単語に含まれる音素の特徴情報を記憶し、前記テキスト推定手段は、読み出した音声データに含まれる音素と前記特徴情報記憶手段に記憶されている各単語に含まれる音素とを比較することによって該音声データに対応する単語を推定し、前記学習手段は、利用者が入力する新たな単語に対応する音素の特徴情報を追加登録することにより学習させることを特徴とする請求項1記載の音声認識装置。 【請求項7】前記特徴情報記憶手段は、各単語に含まれる音素の特徴情報を記憶し、前記テキスト推定手段は、読み出した音声データに含まれる音素と前記特徴情報記憶手段に記憶されている各単語に含まれる音素とを比較することによって該音声データに対応する単語を推定し、前記学習手段は、前記音声記憶手段に記憶されている音声データに含まれる音素列の中から共通する音素列が一定数以上含まれている音素列部分を抽出し、新たな単語として前記特徴情報記憶手段に追加登録することにより学習させることを特徴とする請求項1記載の音声認識装置。 【請求項8】コンピュータに、入力された音声データを記憶させる機能と、音声認識のための特徴情報を記憶させる機能と、記憶された音声データを読み出し、記憶された特徴情報に基づいて前記音声データに対応するテキストデータを推定する音声認識機能と、推定されたテキストデータを、その推定の確度情報と共に記憶させるテキスト記憶機能と、記憶された特徴情報を学習させる機能と、前記特徴情報の学習後に、記憶されたテキストデータの確度情報を読み出し、確度が一定割合以下であるテキストデータを再度推定し、記憶されたテキストデータを更新するテキスト更新機能と、を実現させるためのプログラム。
|
【発明の詳細な説明】【0001】 【発明の属する技術分野】本発明は、入力された音声をテキストデータに変換する音声認識装置、及びそのプログラムに関する。 【0002】 【従来の技術】従来、マイクから入力された音声をテキストデータに変換する音声認識技術を利用した音声入力ワードプロセッサが製品化されている。この様な音声入力ワードプロセッサを利用して文書データを作成する処理では、マイクから入力されたアナログ音声データから音素を抽出し、単語辞書を参照することによって抽出された音素の並びを単語に変換する。そして、入力されたアナログ音声データが全て単語に変換され、仮の文書データが自動作成された後、人手を介して誤認識箇所の修正を行い最終的な文書データを作成する。 【0003】この様な音声データの誤認識を修正する手間を減らすために、様々な手法で音素抽出精度及び単語抽出精度の向上が図られている。例えば、音素抽出精度を向上するためには、予め各話者毎の発声の癖を学習して個人発音辞書として登録しておき、音声データから音素を抽出する際に、話者に応じた個人発音辞書を参照する技術があり、単語抽出精度を向上するためには、できる限り多くの単語を予め辞書登録する方法等がある。 【0004】 【発明が解決しようとする課題】しかしながら、予め各話者毎に発声の癖を学習させておくことは非常に手間がかかる上に、流行語や造語等の新しい単語を予め単語辞書に登録しておくことはできない。このため、未知の話者や未知の単語により、音声データの認識率が悪く、人手による誤認識箇所の修正作業は避けられなかった。 【0005】本発明の課題は、マイクから音声入力された会話情報に基づいて、会議や市場調査等のテキスト化されたデータベースを自動的に構築する音声認識装置、及びプログラムを提供することである。 【0006】 【課題を解決するための手段】本発明は、上記課題を解決するため、以下の様な特徴を備えている。なお、以下に示す手段の説明中、括弧書きにより実施の形態に対応する構成を例示する。また、符号は後記の図面参照符号に対応する。 【0007】請求項1記載の発明は、入力された音声データを記憶する音声記憶手段(例えば、図2の音声データ記憶部61)と、音声認識のための特徴情報を記憶する特徴情報記憶手段(例えば、図2の個人別発声辞書64)と、前記音声記憶手段に記憶されている音声データを読み出し、前記特徴情報記憶手段に記憶されている特徴情報に基づいて前記音声データに対応するテキストデータを推定するテキスト推定手段(例えば、図1の制御部2)と、前記テキスト推定手段により推定されたテキストデータを、その推定の確度情報と共に記憶するテキスト記憶手段(例えば、図1の音素データ記憶部62)と、前記特徴情報記憶手段に記憶されている特徴情報を学習させる学習手段(例えば、図1の制御部2)と、前記学習手段による特徴情報の学習後、前記テキスト記憶手段に記憶されているテキストデータの確度情報を読み出し、確度が一定割合以下であるテキストデータを前記テキスト推定手段によって再度推定し、前記テキスト記憶手段に記憶されているテキストデータを更新するテキスト更新手段(例えば、図1の制御部2)と、を備えることを特徴としている。 【0008】請求項1記載の発明によれば、音声入力が行われた時点で、入力された音声データを認識するために十分な特徴情報が、特徴情報記憶手段に登録されていない場合でも、認識できなかった部分を、後日改めて学習した特徴情報を用いて自動的に認識し直してテキストデータに変換することができ、より精度の良い音声認識が可能となる。これにより、例えば、マイクから入力される音声データを次々に蓄積させていくだけで、、市場調査や会議議事録等のテキスト化されたデータベースを自動的に構築することが可能となる。 【0009】 【発明の実施の形態】以下、図を参照して本発明の実施の形態を詳細に説明する。まず、図1を参照して音声認識装置1の内部構成を詳細に説明する。図1は、音声認識装置1の機能的構成を示すブロック図である。図1に示す様に、音声認識装置1は、コンピュータで構成された端末装置であり、制御部2、入力部3、RAM4、表示部5、記録媒体6aを有する記憶部6、及びマイクMを備え、記録媒体6aを除く各部はバス7により接続されている。 【0010】制御部2は、記憶部6の有する記録媒体6aに記憶されている各種制御プログラムを読み出し、RAM4内に形成されたワークメモリ4aに展開し、該制御プログラムに従って各部を集中制御する。また、制御部2は、ワークメモリ4aに展開した制御プログラムに従って、後述する音声記録処理(図5参照)、音素認識処理(図6参照)、単語認識処理(図7参照)、単語自動学習処理(図11(a)参照)、単語手動登録処理(図11(b)参照)等の各種処理を実行する。 【0011】入力部3は、文字/英数字入力キー、カーソルキー、及び各種機能キー等を備えたキーボードと、ポインティングデバイスであるマウスと、を備えて構成され、キーボードで押下操作されたキーの押下信号とマウスによる操作信号とを、入力信号として制御部2へ出力する。 【0012】RAM(Random Access Memory)4は、制御部2により実行制御される各種処理において、記憶部6から読み出された音声認識装置1に対応するシステムプログラム、各種処理プログラム、入力若しくは出力データ、及びパラメータ等の一時的な格納領域となるワークメモリ4aを形成する。 【0013】表示部5は、LCD(Liquid Crystal Display)やCRT(Cathode Ray Tube)等により構成され、制御部2から入力される表示信号の指示に従って各種表示データの画面表示を行う。 【0014】記憶部6は、プログラムやデータ等が予め記憶された記録媒体6aを有し、この記録媒体6aは磁気的、光学的記録媒体、若しくは半導体等の不揮発性メモリで構成されている。また、詳細なデータ格納例に関しては後述するが、記憶部6は、内部に音声データ記憶部61、音素データ記憶部62、単語データ記憶部63、個人別発声辞書64、共通発声辞書65、単語辞書66を有する。更に、個人別発声辞書64は、話者Aに関する個人別発声辞書641、話者Bに関する個人別発声辞書642、話者Cに関する個人別発声辞書643から構成される。 【0015】記録媒体6aは、記憶部6に固定的に設けたもの、若しくは着脱自在に装着するものであり、記録媒体6aには音声認識装置1に対応するシステムプログラム、及びこれに対応する音素認識処理プログラム等の各種処理プログラム、及びこれらのプログラムで処理されたデータ、ファイル等を記憶する。これらの各処理プログラムは、読み取り可能なプログラムコードの形態で格納され、制御部2は当該プログラムコードに従った動作を逐次実行する。 【0016】マイクMは、外部から入力されたアナログ音声データを制御部2へ出力する。 【0017】次に、図2を参照して、音声認識装置1により実行される各処理の概略について説明する。図2は、記憶部6内部に形成された各種記憶部と辞書を利用した音声認識装置1の機能的構成を示す概略図である。前提として、制御部2は、音素認識処理部21、発声辞書学習処理部22、単語辞書学習処理部23、単語認識処理部24、単語辞書登録処理部25の各処理部に機能的に分類される。 【0018】図2に示す様に、まずマイクMから入力された音声データは、音声データ記憶部61に格納され、音素認識処理部21で音素データに変換された後に音素データ記憶部62に格納される。同時に、音素データは、発声辞書学習処理部22で個人別発声辞書64、共通発声辞書65と照合され、照合結果を音素認識処理部21に渡す処理を繰り替えして音素認識の精度を上げる。 【0019】更に、音素データ記憶部62に格納された音素データは、単語辞書学習処理部23で単語辞書66を参照して得られた単語データ候補に基づいて、単語認識処理部24において単語認識される。この処理を繰り返し行うことで単語認識の精度を上げる。そして、認識された単語データは、単語データ記憶部63に記憶される。なお、単語辞書66の単語データは、単語辞書登録処理部25から利用者の手操作による登録も可能である。 【0020】次に、図3は、会話情報データベース内部のデータ格納例を示す図である。図3に示す様に、音声データ記憶部61、音素データ記憶部62、単語データ記憶部63の各記憶部は、夫々種別領域61a,62a,63aと、記録場所領域61b,62b,63bと、記録日領域61c,62c,63cと、記録位置領域61d,62d,63dと、話者領域61e,62e,63eと、話者確度領域61f,62f,63fと、データ内容領域61g,62g,63gと、データ確度領域61h,62h,63hと、を備えて構成される。ここで、確度情報とは各種データの認識精度または推定の確からしさを表す情報であり、実施例では百分率表示により数値化された確度データとして記憶している。 【0021】種別領域61a,62a,63aは、格納するデータの種類を示す種別データ(例;“音声”、“音素”、“単語”)を格納し、記録場所領域61b,62b,63bは、各データが記録された場所のデータ(例;“会議室A”…)を格納し、記録日領域61c,62c,63cは、各データが記録された日付データ(例;“12年4月10日”…)を格納する。 【0022】記録位置領域61d,62d,63dは、各データを構成する最小単位のデータ毎に、その記録位置データ(例;“0〜52バイト”、“53〜89バイト”)を格納し、話者領域61e,62e,63eは、各データに対応する音声を発声した話者のデータ(例;“Aさん”、“Bさん”)を格納し、話者確度領域61f,62f,63fは、各データに対応する音声の話者が、対応する話者領域に格納された話者である確率を示す話者確度データ(例;“57”、“34”…)を格納し、データ内容領域61g,62g,63gは、各データ内容(例;“H”の音声データ、“H”、“本日”…)を格納し、データ確度領域61h,62h,63hは、データ内容領域に格納されたデータが、実際に発声された音声に対応するデータである確率を示すデータ確度データ(例;“35”、“53”…)を格納する。 【0023】次に、図4(a)は、話者Aに対応する個人別発声辞書641内部のデータ格納例を示す図である。図4(a)に示す様に、音素を発声した話者データ(例;“Aさん”)を格納する話者領域641aと、その音素データ(例;“H”、“O”)を格納する音素領域641bと、対応する音素データの音声スペクトルデータ等の特徴情報を格納する特徴情報領域641cと、を備えて構成される。 【0024】更に、図4(b)は、単語辞書66内部のデータ格納例を示す図である。図4(b)に示す様に、単語データ(例;“本日”、“晴天”)を格納する単語領域66aと、その単語データを構成する音素データ群(例;“HONJITU”、“SEITEN”)を格納する構成音素領域66bと、を備えて構成される。 【0025】次に動作を説明する。動作説明の前提として、以下に説明するフローチャートに記述されている各機能を実現するためのプログラムは、読み取り可能なプログラムコードの形態で記録媒体に格納されており、制御部2は上記プログラムコードに従った動作を逐次実行する。また、制御部2は、伝送媒体を介して伝送されてきた上述のプログラムコードに従った動作を逐次実行することもできる。すなわち、記録媒体の他、伝送媒体を介して外部供給されたプログラム或いはデータを利用して本実施の形態特有の動作を実行することもできる。 【0026】次に、音声認識の前提として実行される音声記録処理について図5のフローチャートを参照して詳細に説明する。まず、制御部2は、マイクMからの音声入力を待機して(ステップS1)、音声入力が有れば(ステップS1;Y)、入力された音声をデジタル変換してワークメモリ4aに一時記憶する(ステップS2)。音声入力が終了すると(ステップS3;Y)、制御部2は、ユーザに対して音声データの記録場所、及び記録日時情報の入力を促す(ステップS4)。 【0027】入力部3から記録場所、及び記録日時情報が入力されると、制御部2は、これらの情報をデジタル変換した音声データと対応付けて、会話情報データベースの音声データ記憶部61の各領域(記録場所領域61b、記録日領域61c、データ内容領域61g等)に記録する(ステップS5)。 【0028】次に、記録された音声データを音素データとして認識するため、音声認識装置1により実行される音素認識処理について図6のフローチャートを参照して詳細に説明する。まず、制御部2は、音素データ記憶部62から確度が90%以上の音素データの有無を判定する(ステップS11)。確度が90%以上の音素データが検索された場合(ステップS11;Y)、その音素データに対応する音声データ部分を音声データ記憶部61から削除して(ステップS12)、ステップS13以降の処理に移行する。 【0029】また、確度が90%以上の音素データが検索されない場合には(ステップS11;N)、制御部2は、音素データ記憶部61に話者が記憶されている音声データ部分については、その記憶された話者に対応する個人別発声辞書64を音素認識に用いる発声辞書として選択し、話者が記憶されていない音声データ部分については、共通発声辞書65を音素認識に用いる発声辞書として選択する(ステップS13)。なお、ステップS13の処理は、確度が90%以上の音素データが検索された場合にも、ステップS12の終了後に実行される。 【0030】次に、制御部2は、各音声データ部分毎に選択された発声辞書を参照して、その発声辞書に記憶されている各音素の特徴情報と音声データとを照合して、特徴情報が最近似する音素データを検索し、音声データに対応する適切な音素データを抽出する(ステップS14)。抽出された音素データは、その確度データと共に音素データ記憶部62のデータ内容領域62gとデータ確度領域62hとに夫々記憶される(ステップS15)。 【0031】次に、制御部2は、データ内容領域62gに記憶された音素データの特徴情報に最も近い音素データの特徴情報を有する個人別発声辞書を検索する(ステップS16)。次に、制御部2は、検索された個人別発声辞書の中に、話者の確度が90%以上の音素データの有無を判定し(ステップS17)、その様な音素データが有れば(ステップS17;Y)、制御部2は、その個人別発声辞書に当該音素データの特徴情報を追加して(ステップS18)、本音素認識処理を終了する。一方、話者の確度が90%以上の音素データが無ければ(ステップS17;N)、制御部2は、そのまま本音素認識処理を終了する。 【0032】次に、記憶された音素データを単語データとして認識するため、音声認識装置1により実行される単語認識処理について図7のフローチャートを参照して詳細に説明する。まず、制御部2は、単語データ記憶部63から確度が90%以上の単語データの有無を判定する(ステップS21)。確度が90%以上の単語データが検索された場合(ステップS21;Y)、その単語データに対応する音素データを音素データ記憶部62から削除して(ステップS22)、ステップS23以降の処理に移行する。 【0033】また、確度が90%以上の単語データが検索されない場合には(ステップS21;N)、制御部2は、単語辞書に含まれる単語データを構成する音素データと、音素データ記憶部62に記憶されている各音素データとを照合させて、音素データに対応する適切な単語データを抽出する(ステップS23)。 【0034】抽出された単語データは、その確度データと共に単語データ記憶部63のデータ内容領域63gとデータ確度領域63hとに夫々記憶される(ステップS24)。次に、制御部2は、データ内容領域63gに記憶された単語データを構成する各音素データの話者及び話者確度に基づいて、当該単語データに最も近い話者を選定すると共にその話者確度を算出して、話者データを話者領域63eに、話者確度データを話者確度領域63fにそれぞれ更新記憶させる(ステップS25)。 【0035】次に、制御部2は、ステップS25で記憶された話者確度データの中に、話者確度が60%以上の単語データの有無を判定する(ステップS26)。ここで、その様な単語データが有れば(ステップS26;Y)、制御部2は、当該単語データを構成する全ての音素データの話者を、単語データ記憶部63に記憶された単語データの話者に変更して、音素データ記憶部62の話者領域62e内の話者データを更新記憶して(ステップS27)、本単語認識処理を終了する。一方、話者確度が60%以上の単語データが無ければ(ステップS27;N)、制御部2は、そのまま本単語認識処理を終了する。 【0036】以下、図8〜図10の会話情報データベースの状態遷移例を参照して、上記各処理の実行に伴って、マイクMから入力された音声データから音素データを経て単語データを生成する過程について説明する。 【0037】図8は、“本日は晴天なり”の音声データが入力された際に認識された音素データと単語データの例を示す図である。図8に示す状態においては、依然音素データの話者が正確に特定されていないので、参照する個人別発声辞書64内の音素データがばらつき、単語データの確度(認識精度)が“本日=73%”、“は=59%”、“零点=28%”という様に、低い値を示している。また、実際に単語辞書66に登録されていない単語である“晴天”が“零点”と誤認識されている。 【0038】また、図9は、単語辞書66に“晴天”という単語が登録された際に認識された音素データと単語データの例を示す図である。図9に示す状態においては、音素データの確度が90%以上に達した音声データは削除される。また、単語データの話者確度が60%以上(73%)であるので、音素データの全音素の話者が当該単語データの話者である“A”に変更されている。その結果、単語データを選択する際に、正しい話者である“A”の個人別発声辞書641が参照され、単語データのデータ確度が73%から91%に上がる。更に、単語データ“晴天”が単語辞書66に新規に登録されたため、正しく認識されている。 【0039】図10は、単語辞書66に“晴天”という単語が登録された際に認識された音素データと単語データの例を示す図である。図10に示す状態においては、単語データのデータ確度が90%以上(91%)に達したので、対応する単語データである“本日”のみ残して、音声データ、音素データ、及び単語データの確度、話者データは削除されることになる。 【0040】次に、図11(a)を参照して、制御部2の一機能として、単語データを自動登録するために単語辞書登録処理部25により実行される単語自動学習処理について説明する。まず、制御部2は、音素データ記憶部62に残された部分音素列同士を比較して、それらの音素列の共通部分を抽出する(ステップS31)。次に、制御部2は、抽出された音素列の共通部分が音素データ記憶部62内部に5回以上出現するか否かを判定し(ステップS32)、5回以上出現する場合には(ステップS32;Y)、その音素列の記号(アルファベット)に対応するカタカナを、登録する単語の文字列として選定する(ステップS33)。そして、制御部2は、選定された文字列を、単語辞書66内の対応する領域に追加記憶させる(ステップS34)。 【0041】次に、図11(b)を参照して、制御部2の一機能として、単語データを手動操作で登録するために単語辞書登録処理部25により実行される単語手動学習処理について説明する。まず、ユーザが入力部3を介して登録する単語の文字列を入力した(ステップS35)後、その単語を構成する音素データ(構成音素)を記号(アルファベット)で入力する(ステップS36)。そして、制御部2は、入力された単語の文字列と記号に対応する音素データを、単語辞書66内の対応する領域に追加記憶させる(ステップS37)。 【0042】以上説明した様に、本発明に係る音声認識装置1によれば、日々蓄積されていく音声データの全てを直ちに最終文章データに変換するのではなく、個人発音辞書または単語辞書のデータ量不足によって認識できない部分は、テキストデータに変換せずに音声データのまま残しておき、日々蓄積されていく音声データを処理する過程で、個人発音辞書及び単語辞書を徐々に学習させていき、個人発音辞書または単語辞書のデータ量不足によって認識できなかった部分を後日改めて認識させ、データベースに登録する。これにより、予め個人発音辞書または単語辞書を登録しておくこと無く、会議や市場調査等に関するテキスト化されたデータベースを自動的に構築することが可能となる。 【0043】その結果、例えば、会議等における発言の音声会話情報に基づいて、テキストデータ化された会議議事録を作成したり、人の集まる場所に設置されたマイクからその場所に訪れた人の会話情報を次々と入力し、その会話情報に含まれる流行語等のキーワードを抽出してデータベースに登録することで、若者の流行の市場調査を行うことができる。 【0044】なお、上記実施の形態における記述内容は、本発明に係る音声認識装置の好適な一例であり、これに限定されるものではない。また、音声認識装置1の細部構成、及び詳細動作に関しても、本発明の趣旨を逸脱することのない範囲で適宜変更可能である。 【0045】 【発明の効果】請求項1または請求項8記載の発明によれば、音声入力が行われた時点で、入力された音声データを認識するために十分な特徴情報が、特徴情報記憶手段に登録されていない場合でも、認識できなかった部分を、後日改めて学習した特徴情報を用いて自動的に認識し直してテキストデータに変換することができ、より精度の良い音声認識が可能となる。これにより、例えば、マイクから入力される音声データを次々に蓄積させていくだけで、、市場調査や会議議事録等のテキスト化されたデータベースを自動的に構築することが可能となる。 【0046】請求項2記載の発明によれば、請求項1記載の発明の効果に加えて、認識の確度が一定割合以上となり確定したテキストデータに対する音声データを削除することにより記憶領域を節約できる。また、認識の確度が一定割合以下の未確定部分の音声データは確定するまで残しておくことができ、少ない記憶容量で確実に高精度のテキストデータを得ることができる。 【0047】請求項3記載の発明によれば、請求項1記載の発明の効果に加えて、音声データを次々と入力して音声認識を行わせていくだけで、自動的に特徴情報記憶手段の特徴情報を学習していき、学習前に認識した不確かなテキストデータを学習後に再び精度の高い認識をさせることができる。 【0048】請求項4記載の発明によれば、請求項1記載の発明の効果に加えて、例えば、新しい流行語や造語等の様に、既存の特徴情報では音声認識できなかった音声データを、利用者の入力情報に基づいて学習させた特徴情報を利用して認識できる。 【0049】請求項5記載の発明によれば、請求項1記載の発明の効果に加えて、特徴情報記憶手段に予め話者固有の特徴情報が記憶されていない場合でも、入力される音声データの話者を推定し、自動的に話者固有の特徴情報を学習させることができる。 【0050】請求項6記載の発明によれば、請求項1記載の発明の効果に加えて、例えば、新しい流行語や造語等の様に、既存の特徴情報では音声認識できなかった音声データを、利用者の入力情報に基づいて学習させた特徴情報を利用して認識できる。 【0051】請求項7記載の発明によれば、請求項1記載の発明の効果に加えて、例えば、流行語等の様に、新たに多く話される様になった単語を自動的に登録し、登録前に遡って再認識させることができる。
|
| 【出願人】 |
【識別番号】000001443 【氏名又は名称】カシオ計算機株式会社
|
| 【出願日】 |
平成13年1月19日(2001.1.19) |
| 【代理人】 |
【識別番号】100090033 【弁理士】 【氏名又は名称】荒船 博司 (外1名)
|
| 【公開番号】 |
特開2002−215184(P2002−215184A) |
| 【公開日】 |
平成14年7月31日(2002.7.31) |
| 【出願番号】 |
特願2001−12026(P2001−12026) |
|