| 【発明の名称】 |
音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
| 【発明者】 |
【氏名】岡登 洋平
【氏名】石井 純
|
| 【要約】 |
【課題】ユーザへ大きな負担をかけることなく音響モデルと言語モデルを更新し、認識精度を向上させる。
【解決手段】音響モデル管理サーバ20は、更新された音響データ107を取得し音響モデルを構築し、言語モデル管理サーバ30は、更新された言語データ114を取得し言語モデルを構築して、それぞれネットワークを介して音声認識装置10に送信する。音声認識装置10において、音響モデル更新手段111は、送信された音響モデルにより音響モデル102を更新し、言語モデル更新手段118は、送信された言語モデルにより言語モデル103を更新する。 |
【特許請求の範囲】
【請求項1】 音声信号を入力し、音声の音響的な観測値系列の確率を求める音響モデルを参照して音声認識を行い、認識結果を出力する音声認識装置と、上記音声認識装置とネットワークを介して接続され、更新された音響データを取得して上記音響モデルを構築する音響モデル管理サーバとを備えた音声認識システムにおいて、上記音響モデル管理サーバが構築した上記音響モデルを上記音声認識装置に送信し、上記音声認識装置が、音声認識の際に参照する音響モデルを、上記音響モデル管理サーバが送信した音響モデルにより更新することを特徴とする音声認識システム。 【請求項2】 音響モデル管理サーバが、音声認識装置が音声認識の際に参照する音響モデルを特定するIDを取得し、取得したIDで指示される特定条件に対応して、更新された音響データを読み出し、上記特定条件に依存した音響モデルを構築して上記音声認識装置に送信することを特徴とする請求項1記載の音声認識システム。 【請求項3】 音声信号を入力し、単語列の出現確率を求める言語モデルを参照して音声認識を行い、認識結果を出力する音声認識装置と、上記音声認識装置とネットワークを介して接続され、更新された言語データを取得して上記言語モデルを構築する言語モデル管理サーバとを備えた音声認識システムにおいて、上記言語モデル管理サーバが構築した上記言語モデルを上記音声認識装置に送信し、上記音声認識装置が、音声認識の際に参照する言語モデルを、上記言語モデル管理サーバが送信した言語モデルにより更新することを特徴とする音声認識システム。 【請求項4】 言語モデル管理サーバが、音声認識装置が音声認識の際に参照する言語モデルを特定するIDを取得し、取得したIDで指示される特定条件に対応して、更新された言語データを読み出し、上記特定条件に依存した言語モデルを構築して上記音声認識装置に送信することを特徴とする請求項3記載の音声認識システム。 【請求項5】 音声認識装置が音声認識の際に単語を登録したユーザ辞書を参照し、言語モデル管理サーバが、ネットワークを介して上記ユーザ辞書を読み出し、更新された言語データと、読み出した上記ユーザ辞書とを参照し、上記ユーザ辞書に依存した言語モデルを構築して上記音声認識装置に送信することを特徴とする請求項3記載の音声認識システム。 【請求項6】 言語モデル管理サーバが、音声認識装置のユーザが利用したテキストを取得し、更新された言語データと、取得した上記テキストとを参照し、上記テキストに依存した言語モデルを構築して上記音声認識装置に送信することを特徴とする請求項3記載の音声認識システム。 【請求項7】 音声信号を入力し、音声の音響的な観測値系列の確率を求める音響モデルを参照して音声認識を行い、認識結果を出力する音声認識装置と、上記音声認識装置とネットワークを介して接続され、適応化前の初期音響モデルを有する音響モデル管理サーバとを備えた音声認識システムにおいて、上記音声認識装置が、上記音響モデルを特定するIDと、入力された音声信号から適応化用の音声データとを取得し、取得したID及び適応化用の音声データを、ネットワークを介して上記音響モデル管理サーバに送信し、上記音響モデル管理サーバが、送信された適応化用の音声データを用いて、上記初期音響モデルを適応化し、適応化済み音響モデルを、送信された上記IDに対応付けて格納すると共に、外部からの音響モデル更新指令を受けて、ネットワークを介して上記音声認識装置から上記音響モデルを特定するIDを受信し、受信したIDに対応する適応化済み音響モデルを、格納している適応化済み音響モデルの中から選択して読み出し、ネットワークを介して上記音声認識装置に送信し、上記音声認識装置が、音声認識の際に参照する音響モデルを、上記音響モデル管理サーバが送信した適応化済み音響モデルにより更新することを特徴とする音声認識システム。 【請求項8】 音声の音響的な観測値系列の確率を求める音響モデルと、音声信号を入力し上記音響モデルを参照して音声認識を行い、認識結果を出力する照合手段とを備えた音声認識装置において、ネットワークを介して接続された音響モデル管理サーバから、更新された音響データにより構築された音響モデルを受信し、上記照合手段が音声認識の際に参照する音響モデルを、受信した音響モデルにより更新する音響モデル更新手段とを備えたことを特徴とする音声認識装置。 【請求項9】 音響モデル更新手段が、ネットワークを介して接続された音響モデル管理サーバから、更新された音響データにより構築された、照合手段が音声認識の際に参照する音響モデルの特定条件に依存した音響モデルを受信し、上記照合手段が音声認識の際に参照する音響モデルを、受信した音響モデルにより更新することを特徴とする請求項8記載の音声認識装置。 【請求項10】 単語列の出現確率を求める言語モデルと、音声信号を入力し上記言語モデルを参照して音声認識を行い、認識結果を出力する照合手段とを備えた音声認識装置において、ネットワークを介して接続された言語モデル管理サーバから、更新された言語データにより構築された言語モデルを受信し、上記照合手段が音声認識の際に参照する言語モデルを、受信した言語モデルにより更新する言語モデル更新手段とを備えたことを特徴とする音声認識装置。 【請求項11】 言語モデル更新手段が、ネットワークを介して接続された言語モデル管理サーバから、更新された言語データにより構築された、照合手段が音声認識の際に参照する言語モデルの特定条件に依存した言語モデルを受信し、上記照合手段が音声認識の際に参照する言語モデルを、受信した言語モデルにより更新することを特徴とする請求項10記載の音声認識装置。 【請求項12】 照合手段が音声認識の際に参照する単語を登録したユーザ辞書を備え、言語モデル更新手段が、ネットワークを介して接続された言語モデル管理サーバから、更新された言語データにより構築された、上記照合手段が音声認識の際に参照するユーザ辞書に依存した言語モデルを受信し、上記照合手段が音声認識の際に参照する言語モデルを、受信した言語モデルにより更新することを特徴とする請求項10記載の音声認識装置。 【請求項13】 言語モデル更新手段が、ネットワークを介して接続された言語モデル管理サーバから、更新された言語データにより構築された、音声認識を行うユーザが利用したテキストに依存した言語モデルを受信し、上記照合手段が音声認識の際に参照する言語モデルを、受信した言語モデルにより更新することを特徴とする請求項10記載の音声認識装置。 【請求項14】 音声の音響的な観測値系列の確率を求める音響モデルと、音声信号を入力し上記音響モデルを参照して音声認識を行い、認識結果を出力する照合手段と、上記音響モデルを特定するIDを取得する音響モデルID取得手段と、上記音響モデルID取得手段が取得したIDを読み出し、入力された音声信号から適応化用の音声データを取得し、読み出したID及び取得した適応化用の音声データを、ネットワークを介して接続された音響モデル管理サーバに送信する適応化用音声取得手段と、上記音響モデル管理サーバから、上記IDに対応する上記適応化用の音声データにより適応化された適応化済み音響モデルを受信し、上記照合手段が音声認識の際に参照する音響モデルを、受信した適応化済み音響モデルにより更新する音響モデル更新手段とを備えたことを特徴とする音声認識装置。 【請求項15】 更新された音響データを取得する音響データ取得手段と、外部からの音響モデル更新指令を受けて、上記音響データ取得手段が取得した更新された音響データを読み出し、音声の音響的な観測値系列の確率を求める音響モデルを構築する音響モデル構築手段と、上記音響モデル構築手段により構築された音響モデルを、ネットワークを介して音声認識を行う音声認識装置に送信する音響モデル送信手段とを備えたことを特徴とする音響モデル管理サーバ。 【請求項16】 更新された音響データを取得する音響データ取得手段と、外部からの音響モデル更新指令を受けて、ネットワークを介して接続された音声認識装置が音声認識の際に参照する音響モデルを特定するIDを取得する更新音響モデルID取得手段と、上記更新音響モデルID取得手段が取得したIDで指示される特定条件に対応して、上記音響データ取得手段が取得した更新された音響データを読み出す特定向け音響データ読み出し手段と、上記特定向け音響データ読み出し手段が読み出した更新された音響データを参照し、上記特定条件に依存した音響モデルを構築する特定向け音響モデル構築手段と、上記特定向け音響モデル構築手段が構築した音響モデルを、ネットワークを介して上記音声認識装置に送信する音響モデル送信手段とを備えたことを特徴とする音響モデル管理サーバ。 【請求項17】 音声の音響的な観測値系列の確率を求める、適応化前の初期音響モデルと、ネットワークを介して接続された音声認識装置から送信された、適応化用の音声データと、上記音声認識装置が音声認識の際に参照する音響モデルを特定するIDを受信し、上記適応化用の音声データを用いて上記初期音響モデルを適応化し、適応化済み音響モデルを、受信した上記IDに対応付けて適応化済み音響モデル格納手段に格納する音響モデル適応化手段と、外部からの音響モデル更新指令を受けて、ネットワークを介して上記音声認識装置から上記IDを受信し、受信したIDに対応する適応化済み音響モデルを、上記適応化済み音響モデル格納手段から選択して読み出す適応化済み音響モデル選択手段と、上記適応化済み音響モデル選択手段が読み出した適応化済み音響モデルを、ネットワークを介して上記音声認識装置に送信する音響モデル送信手段とを備えたことを特徴とする音響モデル管理サーバ。 【請求項18】 更新された言語データを取得する言語データ取得手段と、外部からの言語モデル更新指令を受けて、上記言語データ取得手段が取得した更新された言語データを読み出し、単語列の出現確率を求める言語モデルを構築する言語モデル構築手段と、上記言語モデル構築手段が構築した言語モデルを、ネットワークを介して音声認識を行う音声認識装置に送信する言語モデル送信手段とを備えたことを特徴とする言語モデル管理サーバ。 【請求項19】 更新された言語データを取得する言語データ取得手段と、外部からの言語モデル更新指令を受けて、ネットワークを介して接続された音声認識装置が音声認識の際に参照する言語モデルを特定するIDを取得する更新言語モデルID取得手段と、上記更新言語モデルID取得手段が取得したIDで指示される特定条件に対応して、上記言語データ取得手段が取得した更新された言語データを読み出す特定向け言語データ読み出し手段と、上記特定向け言語データ読み出し手段が読み出した更新された言語データを参照し、上記特定条件に依存した言語モデルを構築する特定向け言語モデル構築手段と、上記特定向け言語モデル構築手段が構築した言語モデルを、ネットワークを介して上記音声認識装置に送信する言語モデル送信手段とを備えたことを特徴とする言語モデル管理サーバ。 【請求項20】 更新された言語データを取得する言語データ取得手段と、外部からの言語モデル更新指令を受けて、ネットワークを介して接続された音声認識装置が音声認識の際に参照するユーザ辞書を読み出すユーザ辞書読み出し手段と、上記言語データ取得手段が取得した更新された言語データを読み出し、上記ユーザ辞書読み出し手段が読み出したユーザ辞書に依存した言語モデルを構築するユーザ辞書依存言語モデル構築手段と、上記ユーザ辞書依存言語モデル構築手段が構築した言語モデルを、ネットワークを介して上記音声認識装置に送信する言語モデル送信手段とを備えたことを特徴とする言語モデル管理サーバ。 【請求項21】 更新された言語データを取得する言語データ取得手段と、外部からの言語モデル更新指令を受けて、ネットワークを介して接続された音声認識装置のユーザが利用したテキストを取得するユーザ利用テキスト取得手段と、上記言語データ取得手段が取得した更新された言語データを読み出し、上記ユーザ利用テキスト取得手段が取得したテキストに依存した言語モデルを構築するユーザ利用テキスト依存言語モデル構築手段と、上記ユーザ利用テキスト依存言語モデル構築手段が構築した言語モデルを、ネットワークを介して上記音声認識装置に送信する言語モデル送信手段とを備えたことを特徴とする言語モデル管理サーバ。 【請求項22】 音声信号を入力し、音声の音響的な観測値系列の確率を求める音響モデルを参照して音声認識を行い、認識結果を出力する音声認識方法において、更新された音響データを取得する第1のステップと、音響モデル更新指令を受けて、上記第1のステップで取得した更新された音響データを読み出し、音響モデルを構築する第2のステップと、上記第2のステップで構築した音響モデルを、ネットワークを介して送信する第3のステップと、上記第3のステップで送信した音響モデルを受信し、上記音声認識の際に参照する音響モデルを、受信した音響モデルにより更新する第4のステップとを備えたことを特徴とする音声認識方法。 【請求項23】 音声信号を入力し、単語列の出現確率を求める言語モデルを参照して音声認識を行い、認識結果を出力する音声認識方法において、更新された言語データを取得する第1のステップと、言語モデル更新指令を受けて、上記第1のステップで取得した更新された言語データを読み出し、言語モデルを構築する第2のステップと、上記第2のステップで構築した言語モデルを、ネットワークを介して送信する第3のステップと、上記第3のステップで送信した言語モデルを受信し、上記音声認識の際に参照する言語モデルを、受信した言語モデルにより更新する第4のステップとを備えたことを特徴とする音声認識方法。 【請求項24】 音声信号を入力し、音声の音響的な観測値系列の確率を求める音響モデルを参照して音声認識を行い、認識結果を出力する音声認識方法において、更新された音響データを取得する第1のステップと、音響モデル更新指令を受けて、音声認識の際に参照する音響モデルを特定するIDを取得する第2のステップと、上記第2のステップで取得したIDで指示される特定条件に対応して、上記第1のステップで取得した更新された音響データを読み出す第3のステップと、上記第3のステップで読み出した更新された音響データを参照し、上記特定条件に依存した音響モデルを構築する第4のステップと、上記第4のステップで構築した音響モデルを、ネットワークを介して送信する第5のステップと、上記第5のステップで送信した音響モデルを受信し、音声認識の際に参照する音響モデルを、受信した音響モデルにより更新する第6のステップとを備えたことを特徴とする音声認識方法。 【請求項25】 音声信号を入力し、単語列の出現確率を求める言語モデルを参照して音声認識を行い、認識結果を出力する音声認識方法において、更新された言語データを取得する第1のステップと、言語モデル更新指令を受けて、音声認識の際に参照する言語モデルを特定するIDを取得する第2のステップと、上記第2のステップで取得したIDで指示される特定条件に対応して、上記第1のステップで取得した更新された言語データを読み出す第3のステップと、上記第3のステップで読み出した更新された言語データを参照し、上記特定条件に依存した言語モデルを構築する第4のステップと、上記第4のステップで構築した言語モデルを、ネットワークを介して送信する第5のステップと、上記第5のステップで送信した言語モデルを受信し、音声認識の際に参照する言語モデルを、受信した言語モデルにより更新する第6のステップとを備えたことを特徴とする音声認識方法。 【請求項26】 音声信号を入力し、単語列の出現確率を求める言語モデルと、単語を登録したユーザ辞書を参照して音声認識を行い、認識結果を出力する音声認識方法において、更新された言語データを取得する第1のステップと、言語モデル更新指令を受けて、音声認識の際に参照するユーザ辞書を読み出す第2のステップと、上記第1のステップで取得した更新された言語データを読み出し、上記第2のステップで読み出したユーザ辞書に依存した言語モデルを構築する第3のステップと、上記第3のステップで構築した言語モデルを、ネットワークを介して送信する第4のステップと、上記第4のステップで送信した言語モデルを受信し、音声認識の際に参照する言語モデルを、受信した言語モデルにより更新する第5のステップとを備えたことを特徴とする音声認識方法。 【請求項27】 音声信号を入力し、単語列の出現確率を求める言語モデルを参照して音声認識を行い、認識結果を出力する音声認識方法において、更新された言語データを取得する第1のステップと、言語モデル更新指令を受けて、音声認識を行うユーザが利用したテキストを取得する第2のステップと、上記第1のステップで取得した更新された言語データを読み出し、上記第2のステップで取得したテキストに依存した言語モデルを構築する第3のステップと、上記第3のステップで構築した言語モデルを、ネットワークを介して送信する第4のステップと、上記第4のステップで送信した言語モデルを受信し、音声認識の際に参照する言語モデルを、受信した言語モデルにより更新する第5のステップとを備えたことを特徴とする音声認識方法。 【請求項28】 音声信号を入力し、音声の音響的な観測値系列の確率を求める音響モデルを参照して音声認識を行い、認識結果を出力する音声認識方法において、上記音響モデルを特定するIDを取得する第1のステップと、上記第1のステップで取得したIDを読み出し、入力された音声信号から適応化用の音声データを取得し、ネットワークを介して、読み出したID及び取得した適応化用の音声データを送信する第2のステップと、上記第2のステップで送信した適応化用の音声データを用いて、適応化前の初期音響モデルを適応化し、適応化済み音響モデルを、上記第2のステップで送信したIDに対応付けて格納する第3のステップと、音響モデル更新指令を受けて、ネットワークを介して上記第1のステップで取得したIDを受信し、受信したIDに対応する適応化済み音響モデルを、上記第3のステップで格納している適応化済み音響モデルの中から選択して読み出す第4のステップと、上記第4のステップで読み出した適応化済み音響モデルを、ネットワークを介して送信する第5のステップと、上記第5のステップで送信した適応化済み音響モデルを受信し、音声認識の際に参照する音響モデルを、受信した適応化済み音響モデルにより更新する第6のステップとを備えたことを特徴とする音声認識方法。 【請求項29】 音声信号を入力し、音声の音響的な観測値系列の確率を求める音響モデルを参照して音声認識を行い、認識結果を出力する照合機能を実現させる音声認識プログラムを記録した記録媒体であって、更新された音響データを取得する音響データ取得機能と、音響モデル更新指令を受けて、上記音響データ取得機能が取得した更新された音響データを読み出し、音響モデルを構築する音響モデル構築機能と、上記音響モデル構築機能が構築した音響モデルを、ネットワークを介して送信する音響モデル送信機能と、上記音響モデル送信機能が送信した音響モデルを受信し、上記照合機能が音声認識の際に参照する音響モデルを、受信した音響モデルにより更新する音響モデル更新機能とを実現させる音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。 【請求項30】 音声信号を入力し、単語列の出現確率を求める言語モデルを参照して音声認識を行い、認識結果を出力する照合機能を実現させる音声認識プログラムを記録した記録媒体であって、更新された言語データを取得する言語データ取得機能と、言語モデル更新指令を受けて、上記言語データ取得機能が取得した更新された言語データを読み出し、言語モデルを構築する言語モデル構築機能と、上記言語モデル構築機能が構築した言語モデルを、ネットワークを介して送信する言語モデル送信機能と、上記言語モデル送信機能が送信した言語モデルを受信し、上記照合機能が音声認識の際に参照する言語モデルを、受信した言語モデルにより更新する言語モデル更新機能とを実現させる音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。 【請求項31】 音声信号を入力し、音声の音響的な観測値系列の確率を求める音響モデルを参照して音声認識を行い、認識結果を出力する照合機能を実現させる音声認識プログラムを記録した記録媒体であって、更新された音響データを取得する音響データ取得機能と、音響モデル更新指令を受けて、上記音響モデルを特定するIDを取得する更新音響モデルID取得機能と、上記更新音響モデルID取得機能が取得したIDで指示される特定条件に対応して、上記音響データ取得機能が取得した更新された音響データを読み出す特定向け音響データ読み出し機能と、上記特定向け音響データ読み出し機能が読み出した更新された音響データを参照し、上記特定条件に依存した音響モデルを構築する特定向け音響モデル構築機能と、上記特定向け音響モデル構築機能が構築した音響モデルを、ネットワークを介して送信する音響モデル送信機能と、上記音響モデル送信機能が送信した音響モデルを受信し、上記照合機能が音声認識の際に参照する音響モデルを、受信した音響モデルにより更新する音響モデル更新機能とを実現させる音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。 【請求項32】 音声信号を入力し、単語列の出現確率を求める言語モデルを参照して音声認識を行い、認識結果を出力する照合機能を実現させる音声認識プログラムを記録した記録媒体であって、更新された言語データを取得する言語データ取得機能と、言語モデル更新指令を受けて、上記言語モデルを特定するIDを取得する更新言語モデルID取得機能と、上記更新言語モデルID取得機能が取得したIDで指示される特定条件に対応して、上記言語データ取得機能が取得した更新された言語データを読み出す特定向け言語データ読み出し機能と、上記特定向け言語データ読み出し機能が読み出した更新された言語データを参照し、上記特定条件に依存した言語モデルを構築する特定向け言語モデル構築機能と、上記特定向け言語モデル構築機能が構築した言語モデルを、ネットワークを介して送信する言語モデル送信機能と、上記言語モデル送信機能が送信した言語モデルを受信し、上記照合機能が音声認識の際に参照する言語モデルを、受信した言語モデルにより更新する言語モデル更新機能とを実現させる音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。 【請求項33】 音声信号を入力し、単語列の出現確率を求める言語モデルと、単語を登録したユーザ辞書を参照して音声認識を行い、認識結果を出力する照合機能を実現させる音声認識プログラムを記録した記録媒体であって、更新された言語データを取得する言語データ取得機能と、言語モデル更新指令を受けて、上記ユーザ辞書を読み出すユーザ辞書読み出し機能と、上記言語データ取得機能が取得した更新された言語データを読み出し、上記ユーザ辞書読み出し機能が読み出したユーザ辞書に依存した言語モデルを構築するユーザ辞書依存言語モデル構築機能と、上記ユーザ辞書依存言語モデル構築機能が構築した言語モデルを、ネットワークを介して送信する言語モデル送信機能と、上記言語モデル送信機能が送信した言語モデルを受信し、上記照合機能が音声認識の際に参照する言語モデルを、受信した言語モデルにより更新する言語モデル更新機能とを実現させる音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。 【請求項34】 音声信号を入力し、単語列の出現確率を求める言語モデルを参照して音声認識を行い、認識結果を出力する照合機能を実現させる音声認識プログラムを記録した記録媒体であって、更新された言語データを取得する言語データ取得機能と、言語モデル更新指令を受けて、音声認識を行うユーザが利用したテキストを取得するユーザ利用テキスト取得機能と、上記言語データ取得機能が取得した更新された言語データを読み出し、上記ユーザ利用テキスト取得機能が取得したテキストに依存した言語モデルを構築するユーザ利用テキスト依存言語モデル構築機能と、上記ユーザ利用テキスト依存言語モデル構築機能が構築した言語モデルを、ネットワークを介して送信する言語モデル送信機能と、上記言語モデル送信機能が送信した言語モデルを受信し、上記照合機能が音声認識の際に参照する言語モデルを、受信した言語モデルにより更新する言語モデル更新機能とを実現させる音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。 【請求項35】 音声信号を入力し、音声の音響的な観測値系列の確率を求める音響モデルを参照して音声認識を行い、認識結果を出力する照合機能を実現させる音声認識プログラムを記録した記録媒体であって、上記音響モデルを特定するIDを取得する音響モデルID取得機能と、上記音響モデルID取得機能が取得したIDを読み出し、入力された音声信号から適応化用の音声データを取得し、ネットワークを介して、読み出したID及び取得した適応化用の音声データを送信する適応化用音声取得機能と、上記適応化用音声取得機能が送信した適応化用の音声データを用いて、適応化前の初期音響モデルを適応化し、適応化済み音響モデルを、上記適応化用音声取得機能が送信したIDに対応付けて格納する音響モデル適応化機能と、音響モデル更新指令を受けて、ネットワークを介して上記音響モデルID取得機能が取得したIDを受信し、受信したIDに対応する適応化済み音響モデルを、上記音響モデル適応化機能が格納した適応化済み音響モデルの中から選択して読み出す適応化済み音響モデル選択機能と、上記適応化済み音響モデル選択機能が読み出した適応化済み音響モデルを、ネットワークを介して送信する音響モデル送信機能と、上記音響モデル送信機能が送信した適応化済み音響モデルを受信し、上記照合機能が音声認識の際に参照する音響モデルを、受信した適応化済み音響モデルにより更新する音響モデル更新機能とを実現させる音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
|
【発明の詳細な説明】【0001】 【発明の属する技術分野】この発明は、音声認識の際に参照する音響モデルと言語モデルを、高い認識率が得られるように、ネットワークを介して最新の状態に更新する音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体に関するものである。 【0002】 【従来の技術】音声認識においては、通常、ディジタル化して入力された音声を、信号処理手法を用いて音声の音響的特徴を良く表すベクトルの時系列へ変換した後、音声のモデル(音響モデル、言語モデル)との照合処理を行う。 【0003】照合処理はn個の時刻フレームからなる音響特徴ベクトル時系列A=[a1a2::an]から発声された単語列W=[w1w2::wk](kは単語数)を求める問題である。認識精度が最も高くなるような単語列を推定するには、出現確率P(W|A)が最大となる認識単語列W*を求めれば良い。すなわち、 W*=argmaxWP(W|A) (1) ただし、P(W|A)を直接求めることは通常困難である。そこでベイズの定理を用いて、P(W|A)は(2)式のように書き換える。 P(W|A)=P(W)P(A|W)/P(A) (2) 【0004】ここで、左辺を最大化するWを求める際に、右辺分母であるP(A)は認識候補となるWに影響を与えないため、右辺分子を最大化するWを求めれば良い。すなわち、(3)式のようになる。 W*=argmaxWP(W)P(A|W) (3) ここで、P(W)を与える確率モデルを言語モデルと呼び、P(A|W)を与える確率モデルを音響モデルと呼ぶ。 【0005】音声認識におけるこれらの代表的なモデル化方法は、音響モデルを隠れマルコフモデルで表現し、言語モデルをnグラムと呼ばれる単語のn−1重マルコフ過程で表現する方法である。 【0006】これらの方法の詳細は、例えば「音声認識の基礎(上、下)」L.RABINER,B.H.JUANG,古井監訳、1995年、11月、NTTアドバンステクノロジ(以下、文献1とする)、「確率的言語モデル」北研二、東京大学出版会(以下、文献2とする)、「音声・音情報のディジタル信号処理」鹿野清宏、中村哲、伊勢史郎共著、1997年、11月、昭晃堂(以下、文献3とする)に記されている。 【0007】これらの方法において、モデルを構成するパラメータは大量のデータから統計的に推定する。音響モデルの構築では、あらかじめ多数の話者からの単語、文等の音声データを収集し、統計的手法を利用して認識精度や認識精度と良く関連した指標が向上するように推定する。例えば、音響モデルを構成する隠れマルコフモデルのパラメータを、音響モデルが学習データを出力する尤度が最大となるように、バウム・ウェルチアルゴリズムを用いて推定する。音響モデルの推定方法は、文献1下巻において詳細に記されている。 【0008】同様に、言語モデルの構築では、新聞や会話の書き起こし等のテキストから、言語モデルの構造に従って、それぞれの発話や発話を構成する単語の出現する確率を計算する。例えば、nグラム言語モデルにおいて、n=2とおいたとき(バイグラム言語モデルと呼ばれる)、P(W)は(4)式のように近似される。nグラム言語モデルのパラメータは、学習用テキストデータ内の隣接するn単語の頻度から推定される。言語モデルの推定方法は、文献2において詳細に記されている。 P(w1..w.k) =P(w1)P(w2|w1)..P.(wk|w1..w.k−1) ≒P(w1)P(w2|w1)..P.(wk|wk−1) (4) 【0009】このように大量テキストを用いて、それぞれの単語の出現確率を統計的に推定することによって、統計量を用いない方法に比べて高い認識精度を得る言語モデルを構築できる。なお、日本語ではテキストが分かち書きされないため、単語の定義はあいまいであるが、本文では整合性のある何らかの手段でテキストを分割したそれぞれの単位を単語と定義する。この単語は、例えば、文字や形態素、文節等言語的な単位やエントロピー基準に基づいたテキストの分割、これらの組み合わせ等である。 【0010】図12は上記文献1に開示された従来の音声認識装置の構成を示すブロック図である。図12において、101は音声信号100を入力し音声認識して認識結果104を出力する照合手段、102は照合手段101が音声認識する際に参照する音響モデル、103は照合手段101が音声認識する際に参照する言語モデルである。 【0011】次に動作について説明する。照合手段101は、ユーザの音声信号100を入力し、音響モデル102及び言語モデル103を参照して、音声認識を実行し認識結果104を出力する。音響モデル102は、入力されたユーザの音声信号100の音声波形を信号処理して得られる音響特徴ベクトルの時系列と、例えば、音素等で表される音声認識装置が扱う最小のシンボル情報との写像関係を表す。言語モデル103は、音響モデル102により写像されるシンボルの組み合わせにより表される単語等より長い認識単位との対応関係と、単語の出現情報を記述する。音響モデル102は、あるシンボルのモデルがベクトル時系列を出力する確率を求めるものであり、すなわち、音声の音響的な観測値系列の確率を求めるものであり、言語モデル103は、ある単語列の出現確率を求めるものである。 【0012】図13は音声信号100を入力して認識結果104を得る従来の音声認識処理の手順を示すフローチャートである。ステップST1301において、入力された音声信号100はA/D変換されてディジタル信号となる。ステップST1302において、ディジタル化された音声信号は適当な間隔をおいて信号処理され、音声の性質をよく表す音響特徴ベクトルの時系列へと変換される。 【0013】ステップST1303において、音響特徴ベクトルは音響照合処理により音響モデル102と照合され、それぞれの認識候補について、音響特徴ベクトルの時系列を出力する確率が求められる。ステップST1304において、それぞれの認識候補はさらに言語照合処理によって、言語モデル103と照合され単語列の出力確率が乗じられる。最後にステップST1305において、それぞれの認識候補から最も適切な候補を選択して認識結果104を得る。通常、最も適切な認識結果とは、上記照合によって最も確率が高いとされた認識候補である。 【0014】上記方法により構成された音響モデル及び言語モデルのみでは、十分な性能が達成されない場合で、ユーザがカスタマイズ可能な音声認識装置では、認識されにくい音声や単語をより良く認識させるために、音響モデルをユーザに適応化させたり、認識対象単語をユーザ辞書に追加することによって、認識精度を高めることができる場合がある。 【0015】まず、音響モデルを適応化させる場合について説明する。図14は上記文献1に開示された、音響モデルを音声信号100に適応化させる音響モデル適応化手段を備えた従来の音声認識装置の構成を示すブロック図である。図14において、図12と異なる部分は、入力する音声信号100に対して音響モデルを適応させるために、初期音響モデル1003,音響モデル適応化手段1004,適応化済み音響モデル1401を備えることと、音声信号100が音響モデル適応化手段1004及び照合手段101により選択されることである。 【0016】次に図14に示す音声認識装置の動作について説明する。音響モデル適応化手段1004は、実際の認識前に収集した適応化用音声(音声信号100)と初期音響モデル1003から、例えば最大事後確率推定法を用いて、初期音響モデル1003を適応化用音声に適応化させ、適応化済み音響モデル1401を得る。音響モデルの適応化方法については、文献3の7章に示されている。照合手段101は、音声信号100を入力し、適応化済み音響モデル1401及び言語モデル103を参照して、音声認識を行い認識結果104を出力する。 【0017】次に認識対象単語をユーザが辞書に登録する場合について説明する。図15は上記文献1に開示された、ユーザ辞書が追加された従来の音声認識装置の構成を示すブロック図である。図15において、図12と異なる部分はユーザ辞書601を備えることである。 【0018】図16はユーザ辞書601の構成例を示す図である。ユーザ辞書601は認識されない単語、認識されにくい単語を、より良く認識させるためにユーザが登録した単語の集まりで、単語の表記、読みからなる単語の一覧である。 【0019】次に図15に示す音声認識装置の動作について説明する。図17はユーザ辞書601が追加された従来の音声認識処理の手順を示すフローチャートである。図17において、図13と異なる点は、ステップST1704の言語照合処理において、言語モデル103とユーザ辞書601を参照するために、ユーザ辞書601に登録された単語が認識対象単語に加えられることである。 【0020】ユーザ辞書601に登録された単語は、適当な接続確率によって、任意の単語列と接続可能とする。例えば、単語の出現条件を先行する1単語のみにより決定するバイグラム言語モデルにおいて、任意の単語wiとwjにはさまれるユーザ辞書登録単語wuserの確率P(wuser|wi),P(wj|wuser)に一定値を与え、言語モデル全体の確率が1になるように確率値を再配分する。この結果、ユーザは登録した単語が含まれた認識結果を得られる。 【0021】しかし、図14及び図15に示す音声認識装置の構成では、認識精度を高めるために、音声信号100と適応化済み音響モデル1401を作成したり、ユーザ辞書601に単語を登録することによって、ユーザが音響モデル102,言語モデル103を自らカスタマイズする必要があり、ユーザに大きな負担を強いることになる。 【0022】また、ユーザ辞書601へ単語を登録した場合であっても、言語モデル構築時点では、出現していなかった単語や考慮されていなかった用法があるために、それらの単語へ付与した出現確率が不適切である場合がある。さらに、これが原因となり認識精度が低下する可能性がある。 【0023】さらに、上記のようにカスタマイズされた音響モデル102及び言語モデル103は、特定の照合手段101からのみ参照される。このため、それ以外の照合手段101が、このカスタマイズした音響モデル102及び言語モデル103を利用すると、認識精度が低下してしまう。 【0024】このため、漢字かな変換や機械翻訳等の言語処理システムでは、上記に示した問題のうち、ユーザ辞書601の更新に関し、ネットワークを介して辞書を自動的に更新する機能を備えることによって、ユーザの負担を軽減したシステムが、例えば特開平10−260960号公報のように提案されている。しかし、上記公報では、音声のようなパターン認識のためのモデルを扱うことは考慮しておらず、音響モデル102のようなパターン情報に関するモデルに適用することができない。 【0025】さらに、言語モデル103の更新においても、ユーザの登録単語数が増加すると、適切でない短い単語が挿入された湧き出し誤りを生じやすくなることから、認識精度の低下が起きやすくなる。この認識精度の低下は、ユーザ辞書601へ追加登録した単語が、言語モデル103を構築した時点では存在しなかったり、使用環境が変化しているために、例えばユーザ登録単語の出現確率P(wuser|wi),P(wj|wuser)等に適切でない出現確率が付与されている場合があるからである。この結果、不適切な認識結果を得やすくなり、認識精度が低下する可能性がある。これを防ぐためには、単語の出現確率を適切に設定する必要があるが、ユーザ自身が妥当な値を与えることは一般に困難である。 【0026】 【発明が解決しようとする課題】従来の音声認識装置は以上のように構成されているので、認識精度を高めるために音響モデルや言語モデルをカスタマイズする際に、ユーザに大きな負担をかけるという課題があった。 【0027】また、ユーザごとにカスタマイズされた音声認識装置以外を利用する場合、認識精度が低下するという課題があった。 【0028】さらに、ネットワークを介したカスタマイズによって、音響モデルを自動更新することができないという課題があった。 【0029】さらに、ユーザ辞書への登録が増加すると認識精度が低下しやすいという課題があった。 【0030】この発明は上記のような課題を解決するためになされたもので、ネットワークに接続されたサーバ側で、最新の音響データ又は言語データを取得して、最新の状態にある音響モデル又は言語モデルを構築したり、ユーザに対応した音響モデル又は言語モデルを構築し、ネットワークを介してユーザ側の音響モデルと言語モデルを更新することで、ユーザに大きな負担をかけることなく認識精度を向上させる音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体を得ることを目的とする。 【0031】また、ネットワークを介して接続することによって、あらゆる音声認識装置において、カスタマイズされた音響モデル又は言語モデルを利用できる音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体を得ることを目的とする。 【0032】さらに、ユーザから得られる辞書やテキストと半自動的に収集されたテキストを利用することによって、ユーザ辞書が大きくなった場合でも、認識精度が低下しにくい音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体を得ることを目的とする。 【0033】 【課題を解決するための手段】この発明に係る音声認識システムは、音声信号を入力し、音声の音響的な観測値系列の確率を求める音響モデルを参照して音声認識を行い、認識結果を出力する音声認識装置と、上記音声認識装置とネットワークを介して接続され、更新された音響データを取得して上記音響モデルを構築する音響モデル管理サーバとを備えたものにおいて、上記音響モデル管理サーバが構築した上記音響モデルを上記音声認識装置に送信し、上記音声認識装置が、音声認識の際に参照する音響モデルを、上記音響モデル管理サーバが送信した音響モデルにより更新するものである。 【0034】この発明に係る音声認識システムは、音響モデル管理サーバが、音声認識装置が音声認識の際に参照する音響モデルを特定するIDを取得し、取得したIDで指示される特定条件に対応して、更新された音響データを読み出し、上記特定条件に依存した音響モデルを構築して上記音声認識装置に送信するものである。 【0035】この発明に係る音声認識システムは、音声信号を入力し、単語列の出現確率を求める言語モデルを参照して音声認識を行い、認識結果を出力する音声認識装置と、上記音声認識装置とネットワークを介して接続され、更新された言語データを取得して上記言語モデルを構築する言語モデル管理サーバとを備えたものにおいて、上記言語モデル管理サーバが構築した上記言語モデルを上記音声認識装置に送信し、上記音声認識装置が、音声認識の際に参照する言語モデルを、上記言語モデル管理サーバが送信した言語モデルにより更新するものである。 【0036】この発明に係る音声認識システムは、言語モデル管理サーバが、音声認識装置が音声認識の際に参照する言語モデルを特定するIDを取得し、取得したIDで指示される特定条件に対応して、更新された言語データを読み出し、上記特定条件に依存した言語モデルを構築して上記音声認識装置に送信するものである。 【0037】この発明に係る音声認識システムは、音声認識装置が音声認識の際に単語を登録したユーザ辞書を参照し、言語モデル管理サーバが、ネットワークを介して上記ユーザ辞書を読み出し、更新された言語データと、読み出した上記ユーザ辞書とを参照し、上記ユーザ辞書に依存した言語モデルを構築して上記音声認識装置に送信するものである。 【0038】この発明に係る音声認識システムは、言語モデル管理サーバが、音声認識装置のユーザが利用したテキストを取得し、更新された言語データと、取得した上記テキストとを参照し、上記テキストに依存した言語モデルを構築して上記音声認識装置に送信するものである。 【0039】この発明に係る音声認識システムは、音声信号を入力し、音声の音響的な観測値系列の確率を求める音響モデルを参照して音声認識を行い、認識結果を出力する音声認識装置と、上記音声認識装置とネットワークを介して接続され、適応化前の初期音響モデルを有する音響モデル管理サーバとを備えたものにおいて、上記音声認識装置が、上記音響モデルを特定するIDと、入力された音声信号から適応化用の音声データとを取得し、取得したID及び適応化用の音声データを、ネットワークを介して上記音響モデル管理サーバに送信し、上記音響モデル管理サーバが、送信された適応化用の音声データを用いて、上記初期音響モデルを適応化し、適応化済み音響モデルを、送信された上記IDに対応付けて格納すると共に、外部からの音響モデル更新指令を受けて、ネットワークを介して上記音声認識装置から上記音響モデルを特定するIDを受信し、受信したIDに対応する適応化済み音響モデルを、格納している適応化済み音響モデルの中から選択して読み出し、ネットワークを介して上記音声認識装置に送信し、上記音声認識装置が、音声認識の際に参照する音響モデルを、上記音響モデル管理サーバが送信した適応化済み音響モデルにより更新するものである。 【0040】この発明に係る音声認識装置は、音声の音響的な観測値系列の確率を求める音響モデルと、音声信号を入力し上記音響モデルを参照して音声認識を行い、認識結果を出力する照合手段とを備えたものにおいて、ネットワークを介して接続された音響モデル管理サーバから、更新された音響データにより構築された音響モデルを受信し、上記照合手段が音声認識の際に参照する音響モデルを、受信した音響モデルにより更新する音響モデル更新手段とを備えたものである。 【0041】この発明に係る音声認識装置は、音響モデル更新手段が、ネットワークを介して接続された音響モデル管理サーバから、更新された音響データにより構築された、照合手段が音声認識の際に参照する音響モデルの特定条件に依存した音響モデルを受信し、上記照合手段が音声認識の際に参照する音響モデルを、受信した音響モデルにより更新するものである。 【0042】この発明に係る音声認識装置は、単語列の出現確率を求める言語モデルと、音声信号を入力し上記言語モデルを参照して音声認識を行い、認識結果を出力する照合手段とを備えたものにおいて、ネットワークを介して接続された言語モデル管理サーバから、更新された言語データにより構築された言語モデルを受信し、上記照合手段が音声認識の際に参照する言語モデルを、受信した言語モデルにより更新する言語モデル更新手段とを備えたものである。 【0043】この発明に係る音声認識装置は、言語モデル更新手段が、ネットワークを介して接続された言語モデル管理サーバから、更新された言語データにより構築された、照合手段が音声認識の際に参照する言語モデルの特定条件に依存した言語モデルを受信し、上記照合手段が音声認識の際に参照する言語モデルを、受信した言語モデルにより更新するものである。 【0044】この発明に係る音声認識装置は、照合手段が音声認識の際に参照する単語を登録したユーザ辞書を備え、言語モデル更新手段が、ネットワークを介して接続された言語モデル管理サーバから、更新された言語データにより構築された、上記照合手段が音声認識の際に参照するユーザ辞書に依存した言語モデルを受信し、上記照合手段が音声認識の際に参照する言語モデルを、受信した言語モデルにより更新するものである。 【0045】この発明に係る音声認識装置は、言語モデル更新手段が、ネットワークを介して接続された言語モデル管理サーバから、更新された言語データにより構築された、音声認識を行うユーザが利用したテキストに依存した言語モデルを受信し、上記照合手段が音声認識の際に参照する言語モデルを、受信した言語モデルにより更新するものである。 【0046】この発明に係る音声認識装置は、音声の音響的な観測値系列の確率を求める音響モデルと、音声信号を入力し上記音響モデルを参照して音声認識を行い、認識結果を出力する照合手段と、上記音響モデルを特定するIDを取得する音響モデルID取得手段と、上記音響モデルID取得手段が取得したIDを読み出し、入力された音声信号から適応化用の音声データを取得し、読み出したID及び取得した適応化用の音声データを、ネットワークを介して接続された音響モデル管理サーバに送信する適応化用音声取得手段と、上記音響モデル管理サーバから、上記IDに対応する上記適応化用の音声データにより適応化された適応化済み音響モデルを受信し、上記照合手段が音声認識の際に参照する音響モデルを、受信した適応化済み音響モデルにより更新する音響モデル更新手段とを備えたものである。 【0047】この発明に係る音響モデル管理サーバは、更新された音響データを取得する音響データ取得手段と、外部からの音響モデル更新指令を受けて、上記音響データ取得手段が取得した更新された音響データを読み出し、音声の音響的な観測値系列の確率を求める音響モデルを構築する音響モデル構築手段と、上記音響モデル構築手段により構築された音響モデルを、ネットワークを介して音声認識を行う音声認識装置に送信する音響モデル送信手段とを備えたものである。 【0048】この発明に係る音響モデル管理サーバは、更新された音響データを取得する音響データ取得手段と、外部からの音響モデル更新指令を受けて、ネットワークを介して接続された音声認識装置が音声認識の際に参照する音響モデルを特定するIDを取得する更新音響モデルID取得手段と、上記更新音響モデルID取得手段が取得したIDで指示される特定条件に対応して、上記音響データ取得手段が取得した更新された音響データを読み出す特定向け音響データ読み出し手段と、上記特定向け音響データ読み出し手段が読み出した更新された音響データを参照し、上記特定条件に依存した音響モデルを構築する特定向け音響モデル構築手段と、上記特定向け音響モデル構築手段が構築した音響モデルを、ネットワークを介して上記音声認識装置に送信する音響モデル送信手段とを備えたものである。 【0049】この発明に係る音響モデル管理サーバは、音声の音響的な観測値系列の確率を求める、適応化前の初期音響モデルと、ネットワークを介して接続された音声認識装置から送信された、適応化用の音声データと、上記音声認識装置が音声認識の際に参照する音響モデルを特定するIDを受信し、上記適応化用の音声データを用いて上記初期音響モデルを適応化し、適応化済み音響モデルを、受信した上記IDに対応付けて適応化済み音響モデル格納手段に格納する音響モデル適応化手段と、外部からの音響モデル更新指令を受けて、ネットワークを介して上記音声認識装置から上記IDを受信し、受信したIDに対応する適応化済み音響モデルを、上記適応化済み音響モデル格納手段から選択して読み出す適応化済み音響モデル選択手段と、上記適応化済み音響モデル選択手段が読み出した適応化済み音響モデルを、ネットワークを介して上記音声認識装置に送信する音響モデル送信手段とを備えたものである。 【0050】この発明に係る言語モデル管理サーバは、更新された言語データを取得する言語データ取得手段と、外部からの言語モデル更新指令を受けて、上記言語データ取得手段が取得した更新された言語データを読み出し、単語列の出現確率を求める言語モデルを構築する言語モデル構築手段と、上記言語モデル構築手段が構築した言語モデルを、ネットワークを介して音声認識を行う音声認識装置に送信する言語モデル送信手段とを備えたものである。 【0051】この発明に係る言語モデル管理サーバは、更新された言語データを取得する言語データ取得手段と、外部からの言語モデル更新指令を受けて、ネットワークを介して接続された音声認識装置が音声認識の際に参照する言語モデルを特定するIDを取得する更新言語モデルID取得手段と、上記更新言語モデルID取得手段が取得したIDで指示される特定条件に対応して、上記言語データ取得手段が取得した更新された言語データを読み出す特定向け言語データ読み出し手段と、上記特定向け言語データ読み出し手段が読み出した更新された言語データを参照し、上記特定条件に依存した言語モデルを構築する特定向け言語モデル構築手段と、上記特定向け言語モデル構築手段が構築した言語モデルを、ネットワークを介して上記音声認識装置に送信する言語モデル送信手段とを備えたものである。 【0052】この発明に係る言語モデル管理サーバは、更新された言語データを取得する言語データ取得手段と、外部からの言語モデル更新指令を受けて、ネットワークを介して接続された音声認識装置が音声認識の際に参照するユーザ辞書を読み出すユーザ辞書読み出し手段と、上記言語データ取得手段が取得した更新された言語データを読み出し、上記ユーザ辞書読み出し手段が読み出したユーザ辞書に依存した言語モデルを構築するユーザ辞書依存言語モデル構築手段と、上記ユーザ辞書依存言語モデル構築手段が構築した言語モデルを、ネットワークを介して上記音声認識装置に送信する言語モデル送信手段とを備えたものである。 【0053】この発明に係る言語モデル管理サーバは、更新された言語データを取得する言語データ取得手段と、外部からの言語モデル更新指令を受けて、ネットワークを介して接続された音声認識装置のユーザが利用したテキストを取得するユーザ利用テキスト取得手段と、上記言語データ取得手段が取得した更新された言語データを読み出し、上記ユーザ利用テキスト取得手段が取得したテキストに依存した言語モデルを構築するユーザ利用テキスト依存言語モデル構築手段と、上記ユーザ利用テキスト依存言語モデル構築手段が構築した言語モデルを、ネットワークを介して上記音声認識装置に送信する言語モデル送信手段とを備えたものである。 【0054】この発明に係る音声認識方法は、音声信号を入力し、音声の音響的な観測値系列の確率を求める音響モデルを参照して音声認識を行い、認識結果を出力するものにおいて、更新された音響データを取得する第1のステップと、音響モデル更新指令を受けて、上記第1のステップで取得した更新された音響データを読み出し、音響モデルを構築する第2のステップと、上記第2のステップで構築した音響モデルを、ネットワークを介して送信する第3のステップと、上記第3のステップで送信した音響モデルを受信し、上記音声認識の際に参照する音響モデルを、受信した音響モデルにより更新する第4のステップとを備えたものである。 【0055】この発明に係る音声認識方法は、音声信号を入力し、単語列の出現確率を求める言語モデルを参照して音声認識を行い、認識結果を出力するものにおいて、更新された言語データを取得する第1のステップと、言語モデル更新指令を受けて、上記第1のステップで取得した更新された言語データを読み出し、言語モデルを構築する第2のステップと、上記第2のステップで構築した言語モデルを、ネットワークを介して送信する第3のステップと、上記第3のステップで送信した言語モデルを受信し、上記音声認識の際に参照する言語モデルを、受信した言語モデルにより更新する第4のステップとを備えたものである。 【0056】この発明に係る音声認識方法は、音声信号を入力し、音声の音響的な観測値系列の確率を求める音響モデルを参照して音声認識を行い、認識結果を出力するものにおいて、更新された音響データを取得する第1のステップと、音響モデル更新指令を受けて、音声認識の際に参照する音響モデルを特定するIDを取得する第2のステップと、上記第2のステップで取得したIDで指示される特定条件に対応して、上記第1のステップで取得した更新された音響データを読み出す第3のステップと、上記第3のステップで読み出した更新された音響データを参照し、上記特定条件に依存した音響モデルを構築する第4のステップと、上記第4のステップで構築した音響モデルを、ネットワークを介して送信する第5のステップと、上記第5のステップで送信した音響モデルを受信し、音声認識の際に参照する音響モデルを、受信した音響モデルにより更新する第6のステップとを備えたものである。 【0057】この発明に係る音声認識方法は、音声信号を入力し、単語列の出現確率を求める言語モデルを参照して音声認識を行い、認識結果を出力するものにおいて、更新された言語データを取得する第1のステップと、言語モデル更新指令を受けて、音声認識の際に参照する言語モデルを特定するIDを取得する第2のステップと、上記第2のステップで取得したIDで指示される特定条件に対応して、上記第1のステップで取得した更新された言語データを読み出す第3のステップと、上記第3のステップで読み出した更新された言語データを参照し、上記特定条件に依存した言語モデルを構築する第4のステップと、上記第4のステップで構築した言語モデルを、ネットワークを介して送信する第5のステップと、上記第5のステップで送信した言語モデルを受信し、音声認識の際に参照する言語モデルを、受信した言語モデルにより更新する第6のステップとを備えたものである。 【0058】この発明に係る音声認識方法は、音声信号を入力し、単語列の出現確率を求める言語モデルと、単語を登録したユーザ辞書を参照して音声認識を行い、認識結果を出力するものにおいて、更新された言語データを取得する第1のステップと、言語モデル更新指令を受けて、音声認識の際に参照するユーザ辞書を読み出す第2のステップと、上記第1のステップで取得した更新された言語データを読み出し、上記第2のステップで読み出したユーザ辞書に依存した言語モデルを構築する第3のステップと、上記第3のステップで構築した言語モデルを、ネットワークを介して送信する第4のステップと、上記第4のステップで送信した言語モデルを受信し、音声認識の際に参照する言語モデルを、受信した言語モデルにより更新する第5のステップとを備えたものである。 【0059】この発明に係る音声認識方法は、音声信号を入力し、単語列の出現確率を求める言語モデルを参照して音声認識を行い、認識結果を出力するものにおいて、更新された言語データを取得する第1のステップと、言語モデル更新指令を受けて、音声認識を行うユーザが利用したテキストを取得する第2のステップと、上記第1のステップで取得した更新された言語データを読み出し、上記第2のステップで取得したテキストに依存した言語モデルを構築する第3のステップと、上記第3のステップで構築した言語モデルを、ネットワークを介して送信する第4のステップと、上記第4のステップで送信した言語モデルを受信し、音声認識の際に参照する言語モデルを、受信した言語モデルにより更新する第5のステップとを備えたものである。 【0060】この発明に係る音声認識方法は、音声信号を入力し、音声の音響的な観測値系列の確率を求める音響モデルを参照して音声認識を行い、認識結果を出力するものにおいて、上記音響モデルを特定するIDを取得する第1のステップと、上記第1のステップで取得したIDを読み出し、入力された音声信号から適応化用の音声データを取得し、ネットワークを介して、読み出したID及び取得した適応化用の音声データを送信する第2のステップと、上記第2のステップで送信した適応化用の音声データを用いて、適応化前の初期音響モデルを適応化し、適応化済み音響モデルを、上記第2のステップで送信したIDに対応付けて格納する第3のステップと、音響モデル更新指令を受けて、ネットワークを介して上記第1のステップで取得したIDを受信し、受信したIDに対応する適応化済み音響モデルを、上記第3のステップで格納している適応化済み音響モデルの中から選択して読み出す第4のステップと、上記第4のステップで読み出した適応化済み音響モデルを、ネットワークを介して送信する第5のステップと、上記第5のステップで送信した適応化済み音響モデルを受信し、音声認識の際に参照する音響モデルを、受信した適応化済み音響モデルにより更新する第6のステップとを備えたものである。 【0061】この発明に係る音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体は、音声信号を入力し、音声の音響的な観測値系列の確率を求める音響モデルを参照して音声認識を行い、認識結果を出力する照合機能を実現させるものであって、更新された音響データを取得する音響データ取得機能と、音響モデル更新指令を受けて、上記音響データ取得機能が取得した更新された音響データを読み出し、音響モデルを構築する音響モデル構築機能と、上記音響モデル構築機能が構築した音響モデルを、ネットワークを介して送信する音響モデル送信機能と、上記音響モデル送信機能が送信した音響モデルを受信し、上記照合機能が音声認識の際に参照する音響モデルを、受信した音響モデルにより更新する音響モデル更新機能とを実現させるものである。 【0062】この発明に係る音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体は、音声信号を入力し、単語列の出現確率を求める言語モデルを参照して音声認識を行い、認識結果を出力する照合機能を実現させるものであって、更新された言語データを取得する言語データ取得機能と、言語モデル更新指令を受けて、上記言語データ取得機能が取得した更新された言語データを読み出し、言語モデルを構築する言語モデル構築機能と、上記言語モデル構築機能が構築した言語モデルを、ネットワークを介して送信する言語モデル送信機能と、上記言語モデル送信機能が送信した言語モデルを受信し、上記照合機能が音声認識の際に参照する言語モデルを、受信した言語モデルにより更新する言語モデル更新機能とを実現させるものである。 【0063】この発明に係る音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体は、音声信号を入力し、音声の音響的な観測値系列の確率を求める音響モデルを参照して音声認識を行い、認識結果を出力する照合機能を実現させるものであって、更新された音響データを取得する音響データ取得機能と、音響モデル更新指令を受けて、上記音響モデルを特定するIDを取得する更新音響モデルID取得機能と、上記更新音響モデルID取得機能が取得したIDで指示される特定条件に対応して、上記音響データ取得機能が取得した更新された音響データを読み出す特定向け音響データ読み出し機能と、上記特定向け音響データ読み出し機能が読み出した更新された音響データを参照し、上記特定条件に依存した音響モデルを構築する特定向け音響モデル構築機能と、上記特定向け音響モデル構築機能が構築した音響モデルを、ネットワークを介して送信する音響モデル送信機能と、上記音響モデル送信機能が送信した音響モデルを受信し、上記照合機能が音声認識の際に参照する音響モデルを、受信した音響モデルにより更新する音響モデル更新機能とを実現させるものである。 【0064】この発明に係る音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体は、音声信号を入力し、単語列の出現確率を求める言語モデルを参照して音声認識を行い、認識結果を出力する照合機能を実現させるものであって、更新された言語データを取得する言語データ取得機能と、言語モデル更新指令を受けて、上記言語モデルを特定するIDを取得する更新言語モデルID取得機能と、上記更新言語モデルID取得機能が取得したIDで指示される特定条件に対応して、上記言語データ取得機能が取得した更新された言語データを読み出す特定向け言語データ読み出し機能と、上記特定向け言語データ読み出し機能が読み出した更新された言語データを参照し、上記特定条件に依存した言語モデルを構築する特定向け言語モデル構築機能と、上記特定向け言語モデル構築機能が構築した言語モデルを、ネットワークを介して送信する言語モデル送信機能と、上記言語モデル送信機能が送信した言語モデルを受信し、上記照合機能が音声認識の際に参照する言語モデルを、受信した言語モデルにより更新する言語モデル更新機能とを実現させるものである。 【0065】この発明に係る音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体は、音声信号を入力し、単語列の出現確率を求める言語モデルと、単語を登録したユーザ辞書を参照して音声認識を行い、認識結果を出力する照合機能を実現させるものであって、更新された言語データを取得する言語データ取得機能と、言語モデル更新指令を受けて、上記ユーザ辞書を読み出すユーザ辞書読み出し機能と、上記言語データ取得機能が取得した更新された言語データを読み出し、上記ユーザ辞書読み出し機能が読み出したユーザ辞書に依存した言語モデルを構築するユーザ辞書依存言語モデル構築機能と、上記ユーザ辞書依存言語モデル構築機能が構築した言語モデルを、ネットワークを介して送信する言語モデル送信機能と、上記言語モデル送信機能が送信した言語モデルを受信し、上記照合機能が音声認識の際に参照する言語モデルを、受信した言語モデルにより更新する言語モデル更新機能とを実現させるものである。 【0066】この発明に係る音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体は、音声信号を入力し、単語列の出現確率を求める言語モデルを参照して音声認識を行い、認識結果を出力する照合機能を実現させるものであって、更新された言語データを取得する言語データ取得機能と、言語モデル更新指令を受けて、音声認識を行うユーザが利用したテキストを取得するユーザ利用テキスト取得機能と、上記言語データ取得機能が取得した更新された言語データを読み出し、上記ユーザ利用テキスト取得機能が取得したテキストに依存した言語モデルを構築するユーザ利用テキスト依存言語モデル構築機能と、上記ユーザ利用テキスト依存言語モデル構築機能が構築した言語モデルを、ネットワークを介して送信する言語モデル送信機能と、上記言語モデル送信機能が送信した言語モデルを受信し、上記照合機能が音声認識の際に参照する言語モデルを、受信した言語モデルにより更新する言語モデル更新機能とを実現させるものである。 【0067】この発明に係る音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体は、音声信号を入力し、音声の音響的な観測値系列の確率を求める音響モデルを参照して音声認識を行い、認識結果を出力する照合機能を実現させるものであって、上記音響モデルを特定するIDを取得する音響モデルID取得機能と、上記音響モデルID取得機能が取得したIDを読み出し、入力された音声信号から適応化用の音声データを取得し、ネットワークを介して、読み出したID及び取得した適応化用の音声データを送信する適応化用音声取得機能と、上記適応化用音声取得機能が送信した適応化用の音声データを用いて、適応化前の初期音響モデルを適応化し、適応化済み音響モデルを、上記適応化用音声取得機能が送信したIDに対応付けて格納する音響モデル適応化機能と、音響モデル更新指令を受けて、ネットワークを介して上記音響モデルID取得機能が取得したIDを受信し、受信したIDに対応する適応化済み音響モデルを、上記音響モデル適応化機能が格納した適応化済み音響モデルの中から選択して読み出す適応化済み音響モデル選択機能と、上記適応化済み音響モデル選択機能が読み出した適応化済み音響モデルを、ネットワークを介して送信する音響モデル送信機能と、上記音響モデル送信機能が送信した適応化済み音響モデルを受信し、上記照合機能が音声認識の際に参照する音響モデルを、受信した適応化済み音響モデルにより更新する音響モデル更新機能とを実現させるものである。 【0068】 【発明の実施の形態】以下、この発明の実施の一形態を説明する。 実施の形態1.図1はこの発明の実施の形態1による音声認識システムの構成を示すブロック図である。図において、10は音声認識を行う音声認識装置、20はネットワークに接続されている音響モデル管理サーバ、30はネットワークに接続されている言語モデル管理サーバである。ここで、ネットワークとは、有線あるいは無線によってディジタル信号を伝達可能な通信経路一般を示す。 【0069】音声認識装置10において、100は入力する音声信号、101は音声信号100の音声認識を行う照合手段、102は照合手段101が音声認識の際に参照する音響モデル、103は照合手段101が音声認識の際に参照する言語モデル、104は照合手段101が出力する認識結果、111はネットワークを介して送信された音響モデルにより音響モデル102を更新する音響モデル更新手段、118はネットワークを介して送信された言語モデルにより言語モデル103を更新する言語モデル更新手段である。 【0070】音響モデル管理サーバ20において、105は外部より与えられる音響モデル更新指令、106は更新された音響データを取得する音響データ取得手段、107は音響データ取得手段106が取得した更新された音響データ、108は音響モデル更新指令105を受けて、更新された音響データ107を読み出し、統計的手法を用いてパラメータ推定を行い音響モデルを構築する音響モデル構築手段、109は構築された音響モデルを格納する音響モデル格納手段、110は音響モデル格納手段109に格納されている音響モデルを、ネットワークを介して音声認識装置10に送信する音響モデル送信手段である。 【0071】言語モデル管理サーバ30において、112は外部より与えられる言語モデル更新指令、113は更新された言語データを取得する言語データ取得手段、114は言語データ取得手段113が取得した更新された言語データ、115は言語モデル更新指令112を受けて、更新された言語データ114を読み出し、統計的手法を用いてパラメータ推定を行い言語モデルを構築する言語モデル構築手段、116は構築された言語モデルを格納する言語モデル格納手段、117は言語モデル格納手段116に格納されている言語モデルを、ネットワークを介して音声認識装置10に送信する言語モデル送信手段である。 【0072】従来技術と異なるこの発明の特徴的な部分は、音響モデル管理サーバ20,言語モデル管理サーバ30において、音響データ取得手段106,言語データ取得手段113により、更新された音響データ107,更新された言語データ114を取得し、音響モデル構築手段108,言語モデル構築手段115により最新の音響モデル、最新の言語モデルを構築し、構築した最新の音響モデル、最新の言語モデルを、ネットワークを介して音声認識装置10に送信し、音声認識装置10において、音響モデル更新手段111,言語モデル更新手段118が、最新の音響モデル、最新の言語モデルにより、照合手段101が参照する音響モデル102,言語モデル103を更新することである。 【0073】次に動作について説明する。音響モデル管理サーバ20において、音響データ取得手段106は、音響モデル更新指令105と同期、あるいは非同期に動作し、常時、更新あるいは配信される音響データを自動、あるいは半自動的にダウンロードし、更新された音響データ107に格納する。取得するこれらの音響データは、例えばインターネット上で更新されたり、マルチメディア放送によって配信される音声データ、あるいは音声データと対応する書き起こしテキストであり、検索ツールによってインターネット上で検索されたり、マルチメディア放送の番組表を用いて決定されてダウンロードされる。 【0074】更新された音響データ107は、音響データ取得手段106により取得された音響モデル学習用音響データの集積であり、上記の例では、音声データや音声データと対応する書き起こしテキストからなる。 【0075】音響モデル構築手段108は、例えば、一定の時間間隔、音声認識処理が実施された時間間隔、あるいは入力装置から与えられるユーザの指示等、適当なタイミングで与えられる音響モデル更新指令105を受けて、更新された音響データ107を参照し、統計的手法を用いて音響モデルのパラメータ推定を行うことによって、例えば、音声データのみからベクトル量子化アルゴリズムを用いることによって、あるいは音声データと対応する書き起こしテキストからバウム・ウェルチアルゴリズムを用いることによって、学習データを良く表すように音響モデルを構築して音響モデル格納手段109に格納する。 【0076】音響モデル格納手段109は、音響モデル構築手段108により構築された音響モデルを記憶し、読み出し要求に応じて音響モデルを出力する。音響モデル送信手段110は、音響モデル格納手段109から音響モデルを読み出し、音声認識装置10の音響モデル更新手段111に、ネットワークを介して送信する。 【0077】音声認識装置10において、音響モデル更新手段111は、音響モデル管理サーバ20の音響モデル送信手段110からネットワークを介して受け取った音響モデルにより、照合手段101が照合の際に参照する音響モデル102を更新する。 【0078】言語モデル管理サーバ30において、言語データ取得手段113は、言語モデル更新指令112と同期、あるいは非同期に動作し、常時、更新あるいは配信される言語データをダウンロードし、言語モデル構築のために用いる新規の言語データを収集し、更新された言語データ114へ格納する。取得するこれらの言語データは、例えば、定期的に配信される新聞やメールマガジンやインターネット上から検索可能なテキスト、チャット、メール、マニュアル等のテキスト等である。 【0079】更新された言語データ114は、言語データ取得手段113により取得された言語モデル学習用言語データの集積であり、テキストデータや同時に得られるテキスト内容に関するキーワード情報等である。 【0080】言語モデル構築手段115は、例えば、一定の時間間隔、音声認識処理が実施された時間間隔、あるいは入力装置から与えられるユーザの指示等、適当なタイミングで与えられる言語モデル更新指令112を受けて、更新された言語データ114を参照してテキストデータを読み出し、統計的手法を用いて言語モデルのパラメータ推定を行うことによって、例えば単語に分割したテキストデータからnグラム統計量を求めることによって、学習用データを良く表すように言語モデルを構築し、言語モデル格納手段116に格納する。 【0081】言語モデル格納手段116は、言語モデル構築手段115により構築された言語モデルを記憶し、読み出し要求に応じて言語モデルを出力する。言語モデル送信手段117は、言語モデル格納手段116から言語モデルを読み出し、ネットワークを介して音声認識装置10の言語モデル更新手段118へ送信する。 【0082】音声認識装置10において、言語モデル更新手段118は、言語モデル管理サーバ30の言語モデル送信手段117からネットワークを介して受け取った言語モデルにより、照合手段101が照合の際に参照する言語モデル103を更新する。 【0083】図2はこの発明の実施の形態1による音響モデル102の更新処理を示すフローチャートである。ステップST201において、音響モデル更新タイミング決定手段(図示していない)は、例えばユーザの指示や音響モデルの最終更新時刻からの時間間隔、ネットワークの利用状況等の監視から適当な更新タイミングを判定し、音響モデル管理サーバ20の音響モデル構築手段108へ音響モデル更新指令105を送信する。音響モデル構築手段108は、音響モデル更新指令105を受けていれば、ステップST202へ進み、音響モデル更新指令105を受けていなければ処理を終了する。 【0084】ステップST202において、音響モデル構築手段108は、学習に用いる更新された音響データ107を読み出す。ステップST203において、音響モデル構築手段108は、更新された音響データ107から、統計的手法を用いて音響モデルのパラメータ推定を行うことによって音響モデルを構築し、構築した音響モデルを音響モデル格納手段109へ格納する。 【0085】ステップST204において、音響モデル送信手段110は、音響モデル格納手段109から音響モデルを読み出して、ネットワークを介して音声認識装置10の音響モデル更新手段111へ音響モデルを送信する。ステップST205において、音響モデル更新手段111は、受け取った音響モデルにより照合手段101が参照する音響モデル102を更新する。 【0086】なお、音響モデル更新指令105により、音響モデル102の更新を要求する際に、同時に音声認識装置10が利用している音響モデル102のバージョンを伝達し、音響モデル送信手段110が、音響モデル格納手段109に格納されている音響モデル全体ではなく、それまで音声認識装置10が利用していた音響モデル102との差分情報のみを送信すれば、送信データを減らすことができ、ネットワークの負荷を軽減することができる。 【0087】また、音響モデル構築手段108が、あらかじめ更新された音響モデルを構築しておき、音響モデル更新指令105の要求にしたがって、音響モデルを音声認識装置10に送信するような形態を取った場合でも同様に動作可能である。 【0088】さらに、音声認識装置10がユーザ辞書を持つ場合であっても、同様に処理可能である。 【0089】さらに、この実施の形態では、音声認識を対象として説明を行ったが、パターンとシンボルの関係を表した確率モデル、シンボルの出現を表した確率モデルからなるパターン認識を対象とするものであれば、同様に適用可能である。 【0090】さらに、更新された音響データ107の格納形式は、音響モデル構築時に利用可能な形式であれば、あらかじめ信号処理や頻度分布を計算してあってもかまわない。 【0091】図3はこの発明の実施の形態1による言語モデル103の更新処理を示すフローチャートである。ステップST301において、言語モデル更新タイミング決定手段(図示していない)は、例えば、ユーザの指示や言語モデルの最終更新時刻からの時間間隔、ネットワークの利用状況等の監視から適当な更新タイミングを判定し、言語モデル管理サーバ30の言語モデル構築手段115に言語モデル更新指令112を送信する。言語モデル構築手段115は、言語モデル更新指令112を受けていればステップST302へ進み、言語モデル更新指令112を受けていなければ処理を終了する。 【0092】ステップST302において、言語モデル構築手段115は、学習に用いる更新された言語データ114を読み出す。ステップST303において、言語モデル構築手段115は、更新された言語データ114から、統計的手法を用いて言語モデルのパラメータ推定を行うことによって言語モデルを構築し、構築した言語モデルを言語モデル格納手段116へ格納する。 【0093】ステップST304において、言語モデル送信手段117は、言語モデル格納手段116から言語モデルを読み出して、ネットワークを介して音声認識装置10の言語モデル更新手段118に送信する。ステップST305において、言語モデル更新手段118は、受け取った言語モデルにより照合手段101が参照する言語モデル103を更新する。 【0094】なお、言語モデル更新指令112により、言語モデルの更新を要求する際に、同時に音声認識装置10が利用している言語モデル103のバージョンを伝達することにより、言語モデル格納手段116に格納されている言語モデル全体ではなく、それまで音声認識装置10が利用していた言語モデル103との差分情報のみを送信すれば、送信データを減らすことができ、ネットワークの負荷を軽減することができる。 【0095】また、言語モデル構築手段115が、あらかじめ更新された言語モデルを構築しておき、言語モデル更新指令112の要求にしたがって、言語モデルを送信するような形態を取った場合でも、同様に動作可能である。 【0096】さらに、音声認識装置10がユーザ辞書を持つ場合であっても、同様に動作可能である。 【0097】さらに、この実施の形態では、音声認識を対象として説明を行ったが、パターンとシンボルの関係を表した確率モデル、シンボルの出現を表した確率モデルからなるパターン認識を対象とするものであれば、同様に適用可能である。 【0098】さらに、更新された言語データ114の格納形式は、言語モデル構築時に利用可能な形式であれば、あらかじめ単語に分割しておいたり、言語モデル構築に使えるように単語や単語連鎖、同時に出現する単語の組み合わせ等について頻度あるいは確率計算してあってもかまわない。 【0099】この実施の形態1の図1では、音響モデル更新指令105に従って音響モデルを構築する場合について示しているが、音響データ取得手段106が音響データを取得した際に、音響モデル構築手段108が音響モデルを更新して音響モデル格納手段に109に格納し、音響モデル送信手段110が音響モデル更新指令105を受けて音響モデルを読み出すようにしても良い。言語モデルの更新についても同様である。 【0100】また、図1では音響モデル更新手段111及び言語モデル更新手段118を備える場合を示したが、音響モデル更新手段111又は言語モデル更新手段118のどちらか一方のみを備える場合であってもかまわない。 【0101】なお、実施の形態1における音声認識システムを音声認識プログラムとして記録媒体に記録することもできる。この場合には、音響モデル管理サーバ20において、音響データ取得手段106と同様の処理を行う音響データ取得機能と、音響モデル構築手段108と同様の処理を行う音響モデル構築機能と、音響モデル格納手段109と同様の処理を行う音響モデル格納機能と、音響モデル送信手段110と同様の処理を行う音響モデル送信機能から構成されるソフトウェアと、言語モデル管理サーバ30において、言語データ取得手段113と同様の処理を行う言語データ取得機能と、言語モデル構築手段115と同様の処理を行う言語モデル構築機能と、言語モデル格納手段116と同様の処理を行う言語モデル格納機能と、言語モデル送信手段117と同様の処理を行う言語モデル送信機能から構成されるソフトウェアと、音声認識装置10において、音響モデル更新手段111と同様の処理を行う音響モデル更新機能と、言語モデル更新手段118と同様の処理を行う言語モデル更新機能と、照合手段101と同様の処理を行う照合機能から構成されるソフトウェアで音声認識プログラムとなる。 【0102】記録媒体に記録する音声認識プログラムは、音声認識装置10のソフトウェアと、音響モデル管理サーバ20のソフトウェアを、別々の記録媒体に記録しても良いし、1つの記録媒体に記録して、音声認識装置10又は音響モデル管理サーバ20から、それぞれ音響モデル管理サーバ20又は音声認識装置10に送信しても良い。また、これは言語モデルを対象とした場合でも同様である。 【0103】以上のように、この実施の形態1によれば、ネットワークに接続された音響モデル管理サーバ20又は言語モデル管理サーバ30で、更新された音響データ107又は更新された言語データ114を取得し、最新の状態にある音響モデル又は言語モデルを構築し、ネットワークを介してユーザ側の音声認識装置10の音響モデル102又は言語モデル103を更新することで、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができるという効果が得られる。 【0104】実施の形態2.図4はこの発明の実施の形態2による音声認識システムの構成を示すブロック図である。図4の言語モデル管理サーバ30において、401は更新する音声認識装置10の言語モデル103を特定するIDを取得する更新言語モデルID取得手段、402は、更新言語モデルID取得手段401が取得したIDで指示される特定条件に対応して、更新された言語データ114を読み出す特定向け言語データ読み出し手段、403は、特定向け言語データ読み出し手段402により読み出された更新された言語データ114を参照し、特定条件に対応した言語モデルを構築する特定向け言語モデル構築手段である。既に説明した各手段及び各モデルについては、同一の符号を付し説明を省略する。 【0105】従来技術と異なるこの実施の形態に特徴的な部分は、更新言語モデルID取得手段401と、特定向け言語データ読み出し手段402と、特定向け言語モデル構築手段403とを備え、ネットワークを介して言語モデルIDにより特定された言語モデルを提供することである。ここで、特定向け言語モデルとは、特定のユーザやグループ、応用アプリケーション等に言語モデルを特化させることによって、より高い性能が得られるように学習した言語モデルである。 【0106】次に動作について説明する。言語管理サーバ30において、更新言語モデルID取得手段401は、更新された複数の言語モデル103から特定の言語モデル103を選択するために用いられるIDを取得する。このIDは、例えば利用者のユーザID,音声信号100の対象となるタスクを表すID等であり、更新する特定向けの言語モデル103を一意に定めることができるものである。 【0107】特定向け言語データ読み出し手段402は、更新言語モデルID取得手段401が取得した更新言語モデルIDを受け取り、更新された言語データ114を文や独立したテキストの単位で読み出して、例えば言語データに付与されるテキスト内容に関するキーワードや言語データに含まれるキーワードから判定し、言語モデルIDで特定される対象であるかどうか識別するフラグを付与し、特定向け言語モデル構築手段403へ送る。 【0108】特定向け言語モデル構築手段403は、更新された言語データ114から特定対象について認識精度が高くなるように学習した言語モデルを構築し、言語モデル格納手段116に格納する。 【0109】このために、まず、学習用言語データを文、あるいは複数の文を単位として含まれるキーワード等から、特定される言語モデル103を判定しておき、これに従って、例えば「対話音声認識のための事前タスク適応の検討」、伊藤彰則、好田正紀、電子情報通信学会技術研究報告(SP96−81)、1996年(以下、文献4とする)で検討されているように、関連深いテキストデータにより大きな重みを付与することによって、特定条件に対応した言語モデルを構築できる。 【0110】例えば、スポーツに関するトピックに特化した特定向け言語モデルを構築するには、言語モデル学習時に、特定向け言語データ読み出し手段402から得たフラグを参照し、スポーツに関するトピックのテキストデータであれば、実際の頻度をα倍して数え、それ以外の記事であれば、そのまま頻度で両者を加えて確率モデルを推定する。ここで、αは音声認識の対象とする特定向けテキストのうち、学習に用いないデータに対する言語モデルのエントロピーが最小となるように定める。 【0111】図5はこの発明の実施の形態2による言語モデル103の更新処理を示すフローチャートである。ステップST501において、言語モデル更新タイミング決定手段(図示していない)は、例えば、ユーザの指示や最終更新時刻からの時間間隔、ネットワークの利用状況等の監視から適当な更新タイミングを判定し、言語モデル管理サーバ30の更新言語モデルID取得手段401へ言語モデル更新指令112を送信する。更新言語モデルID取得手段401は、言語モデル更新指令112を受けていれば、ステップST502へ進み、言語モデル更新指令112を受けていなければ、処理を終了する。 【0112】ステップST502において、更新タイミングであれば、更新言語モデルID取得手段401は、使用しているユーザ・グループを特定する手段、タスクを特定する手段等により、更新先の言語モデル103のIDを取得し、特定向け言語データ読み出し手段402へ送る。ステップST503において、特定向け言語データ読み出し手段402は、特定向け言語モデルIDに従い、更新された言語データ114を文や独立したテキストの単位で読み出して、言語モデルIDで特定される対象であるかどうか判別するフラグを付与して、更新された言語データ114を読み出す。 【0113】ステップST504において、特定向け言語モデル構築手段403は、学習アルゴリズムに従い、更新された言語データ114から言語モデルを推定し、推定した言語モデルを言語モデル格納手段116へ格納する。ステップST505において、言語モデル送信手段117は、読み出した言語モデルを、ネットワークを介して音声認識装置10の言語モデル更新手段118に送信する。ステップST506において、言語モデル更新手段118は、受け取った言語モデルにより照合手段101が参照する言語モデル103を更新する。 【0114】なお、言語モデルIDに対して、適合する言語モデルを出力することができれば、特定向け言語モデルをあらかじめ構築しておく必要はない。例えば、言語モデルIDに依存して学習用言語データのみ作成しておき、要求に応じて言語モデルを構築しても良い。 【0115】なお、この実施の形態では、文献4にしたがった特定向け言語モデル構成法を例としたが、言語モデルを決定できるIDを用いて、複数の言語モデル103から選択する方法であれば同様に適用可能である。 【0116】また、言語モデル更新指令112により、言語モデル更新要求の際に、同時に音声認識装置10が利用している言語モデル103のバージョンを伝達することにより、構築した特定向け言語モデル全体ではなく、現行の言語モデル103からの差分情報のみを送信し、ネットワークの負荷を軽減することができる。 【0117】さらに、音声認識装置にユーザ辞書601がある場合であっても、同様に処理可能である。 【0118】さらに、この説明では音声認識を対象として説明を行ったが、パターンとシンボルの関係を表した確率モデル、シンボルの出現を表した確率モデルからなるパターン認識を対象とするものであれば同様に適用可能である。 【0119】また、この実施の形態では、特定向け言語モデルを構築し、構築した特定向け言語モデルにより言語モデル103を更新しているが、特定向け音響モデルを構築し、構築した特定向け音響モデルにより音響モデル102を更新することもできる。その場合には、図4において、言語モデル管理サーバ30の代わりに音響モデル管理サーバ,言語データ取得手段113の代わりに音響データ取得手段、更新された言語データ114の代わりに更新された音響データ、更新言語モデルID取得手段401の代わりに更新音響モデルID取得手段、特定向け言語データ読み出し手段402の代わりに特定向け音響モデル読み出し手段、特定向け言語モデル構築手段403の代わりに特定向け音響モデル構築手段、言語モデル格納手段116の代わりに音響モデル格納手段、言語モデル送信手段117の代わりに音響モデル送信手段を備え、音声認識装置10において、言語モデル更新手段118の代わりに音響モデル更新手段を備え、音響モデル更新手段が音響モデル102を更新するようにすれば良い。 【0120】さらに、実施の形態2における音声認識システムを音声認識プログラムとして記録媒体に記録することもできる。この場合には、言語モデル管理サーバ30において、言語データ取得手段113と同様の処理を行う言語データ取得機能と、更新言語モデルID取得手段401と同様の処理を行う更新言語モデルID取得機能と、特定向け言語データ読み出し手段402と同様の処理を行う特定向け言語データ読み出し機能と、特定向け言語モデル構築手段403と同様の処理を行う特定向け言語モデル構築機能と、言語モデル格納手段116と同様の処理を行う言語モデル格納機能と、言語モデル送信手段117と同様の処理を行う言語モデル送信機能から構成されるソフトウェアと、音声認識装置10において、言語モデル更新手段118と同様の処理を行う言語モデル更新機能と、照合手段101と同様の処理を行う照合機能から構成されるソフトウェアで音声認識プログラムとなる。これは音響モデルを対象とした場合でも同様である。 【0121】記録媒体に記録する音声認識プログラムは、音声認識装置10のソフトウェアと、言語モデル管理サーバ30のソフトウェアを、別々の記録媒体に記録しても良いし、1つの記録媒体に記録して、音声認識装置10又は言語モデル管理サーバ30から、それぞれ言語モデル管理サーバ30又は音声認識装置10に送信しても良い。また、これは音響モデルを対象とした場合でも同様である。 【0122】以上のように、この実施の形態2によれば、ネットワークに接続された言語モデル管理サーバ30で、更新された言語データ114を取得し、しかも、ユーザの音声認識装置10の言語モデル103のIDを取得することで、最新の状態にあり、しかもユーザに対応した特定向けの言語モデルを構築し、ネットワークを介してユーザの音声認識装置10の言語モデル103を更新することで、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができるという効果が得られる。 【0123】また、この実施の形態2によれば、特定向けにカスタマイズされた言語モデルを、ネットワークを介して更新することにより、ユーザが複数の異なる照合手段101を利用する場合でも、全ての照合手段101の利用時に適切な言語モデル103を利用し、高い認識精度を得ることができるという効果が得られる。 【0124】実施の形態3.図6はこの発明の実施の形態3による音声認識システムの構成を示すブロック図である。図6の音声認識装置10において、601は照合手段101が照合の際に参照する単語を登録したユーザ辞書であり、言語モデル管理サーバ30において、602は言語モデル更新指令112を受けて、照合手段101が参照するユーザ辞書601を、ネットワークを介して読み出すユーザ辞書読み出し手段、603は、更新された言語データ114とユーザ辞書読み出し手段602が読み出したユーザ辞書601を参照し、ユーザ辞書601に依存した言語モデルを構築するユーザ辞書依存言語モデル構築手段である。既に説明した各手段及び各モデルについては、同一の符号を付し説明を省略する。 【0125】従来技術と異なるこの実施の形態に特徴的な部分は、ユーザ辞書読み出し手段602とユーザ辞書依存言語モデル構築手段603を備えたことである。 【0126】次に動作について説明する。言語モデル管理サーバ30のユーザ辞書読み出し手段602は、言語モデル更新指令112を受けて、音声認識装置10の照合手段101が参照するユーザ辞書601を、ネットワークを介して読み出す。ユーザ辞書依存言語モデル構築手段603は、ユーザ辞書601に登録された単語と更新された言語データ114を用いて、最新の状態に更新されており、かつユーザにカスタマイズされた言語モデルを構築する。 【0127】ユーザ辞書601に依存した言語モデルの構築は、例えば、更新された言語データ114の中から、ユーザ辞書601に存在する単語が含まれるテキストを抜き出し、これを特定向けテキストであると見なして、実施の形態2で参照した文献4記載の方法を実施することにより行われる。これによって、ユーザ辞書601記載の単語のうち、元の言語モデルでは登録されておらず、適切な統計量が付与されていなかった単語で、更新されたテキストにおいて出現した単語に妥当な統計量を付与することが可能となり、認識精度が向上することを期待できる。 【0128】図7はこの発明の実施の形態3による言語モデル103の更新処理を示すフローチャートである。ステップST701において、言語モデル更新タイミング決定手段(図示していない)は、例えば、ユーザの指示や最終更新時刻からの時間間隔、ネットワークの利用状況等の監視から適当な更新タイミングを判定し、言語モデル管理サーバ30のユーザ辞書読み出し手段602へ言語モデル更新指令112を送信する。ユーザ辞書読み出し手段602は、言語モデル更新指令112を受けていれば、ステップST702へ進み、言語モデル更新指令112を受けていなければ、処理を終了する。 【0129】ステップST702において、ユーザ辞書読み出し手段602は、照合手段101が参照するユーザ辞書601を、ネットワークを介して読み出す。ステップST703において、ユーザ辞書依存言語モデル構築手段603は、さらに更新された言語データ114を読み出す。ステップST704において、ユーザ辞書依存言語モデル構築手段603は、ユーザ辞書601及び更新された言語データ114からユーザ辞書601に依存した言語モデルを構築し、言語モデル格納手段116に格納する。 【0130】ステップST705において、言語モデル送信手段117は、言語モデル格納手段116から読み出したユーザ辞書601に依存した言語モデルを、ネットワークを介して音声認識装置10の言語モデル更新手段118に送信する。ステップST706において、言語モデル更新手段118は、受け取った言語モデルにより照合手段101が参照する言語モデル103を更新する。 【0131】また、この実施の形態では、音声認識を対象として説明を行ったが、パターンとシンボルの関係を表した確率モデル、シンボルの出現を表した確率モデルからなるパターン認識を対象とするものであれば、同様に適用可能である。 【0132】さらに、実施の形態3における音声認識システムを音声認識プログラムとして記録媒体に記録することもできる。この場合には、言語モデル管理サーバ30において、言語データ取得手段113と同様の処理を行う言語データ取得機能と、ユーザ辞書読み出し手段602と同様の処理を行うユーザ辞書読み出し機能と、ユーザ辞書依存言語モデル構築手段603と同様の処理を行うユーザ辞書依存言語モデル構築機能と、言語モデル格納手段116と同様の処理を行う言語モデル格納機能と、言語モデル送信手段117と同様の処理を行う言語モデル送信機能から構成されるソフトウェアと、音声認識装置10において、言語モデル更新手段118と同様の処理を行う言語モデル更新機能と、照合手段101と同様の処理を行う照合機能から構成されるソフトウェアで音声認識プログラムとなる。 【0133】記録媒体に記録する音声認識プログラムは、音声認識装置10のソフトウェアと、言語モデル管理サーバ30のソフトウェアを、別々の記録媒体に記録しても良いし、1つの記録媒体に記録して、音声認識装置10又は言語モデル管理サーバ30から、それぞれ言語モデル管理サーバ30又は音声認識装置10に送信しても良い。 【0134】以上のように、この実施の形態3によれば、ネットワークに接続された言語モデル管理サーバ30で、更新された言語データ114を取得し、しかも、ユーザの音声認識装置10のユーザ辞書601を読み出すことで、最新の状態にあり、しかもユーザ辞書601に登録した単語について、より詳細に反映させた言語モデルを構築し、ネットワークを介してユーザの音声認識装置10の言語モデル103を更新することで、ユーザ辞書が大きくなった場合でも、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができるという効果が得られる。 【0135】実施の形態4.図8はこの発明の実施の形態4による音声認識システムの構成を示すブロック図である。図8の言語モデル管理サーバ30において、801は、言語モデル更新指令112を受けて、ユーザが利用したテキストを取得するユーザ利用テキスト取得手段、802はユーザ利用テキスト取得手段801が取得したテキストを格納するユーザ利用テキスト格納手段、803は、更新された言語データ114と、ユーザ利用テキスト格納手段802に格納されているテキストを参照し、テキストに依存した言語モデルを構築するユーザ利用テキスト依存言語モデル構築手段である。既に説明した各手段及び各モデルについては、同一の符号を付し説明を省略する。 【0136】従来技術と異なるこの実施の形態に特徴的な部分は、ユーザ利用テキスト取得手段801,ユーザ利用テキスト格納手段802及びユーザ利用テキスト依存言語モデル構築手段803を備え、ユーザが利用したテキストと最新状態に更新された言語データ114を参照し、ユーザが利用したテキストに合わせて言語モデルを構築することである。 【0137】次に動作について説明する。言語モデル管理サーバ30のユーザ利用テキスト取得手段801は、言語モデル更新指令112を受けて、例えば、ユーザがあらかじめ指定したファイル、ディレクトリを走査することにより、ユーザが参照、あるいは記述したテキストファイルを読み出す。ユーザ利用テキスト格納手段802は、ユーザ利用テキスト取得手段801によって収集されたテキストを格納する。 【0138】ユーザ利用テキスト依存言語モデル構築手段803は、ユーザ利用テキスト及び更新された言語データ114を参照し、認識精度が高くなるように言語モデルを構築する。ユーザ利用テキストを用いた言語モデルの構築では、例えば、ユーザ利用テキストを特定向けテキストであると見なし、実施の形態2で参照した文献4記載の方法を実施することにより、ユーザ利用テキスト依存の言語モデルを構築する。このようにして構築された言語モデルは、ユーザが参照あるいは既出したテキストの性質を反映させているため、ユーザが発声する確率の高い言語的性質を含み、より精度の高い認識結果を得ることができる。 【0139】図9はこの発明の実施の形態4による言語モデル103の更新処理を示すフローチャートである。ステップST901において、言語モデル更新タイミング決定手段(図示していない)は、ユーザの指示や最終更新時刻からの時間間隔、ネットワークの利用状況等のモニタから適当なタイミングを判定し、言語モデル管理サーバ30のユーザ利用テキスト取得手段801へ言語モデル更新指令112を送信する。ユーザ利用テキスト取得手段801は、言語モデル更新指令112を受けていれば、ステップST902へ進み、言語モデル更新指令112を受けていなければ、処理を終了する。 【0140】ステップST902において、ユーザ利用テキスト取得手段801は、ユーザ利用テキストを読み出しユーザ利用テキスト格納手段802へ格納する。ステップST903において、ユーザ利用テキスト依存言語モデル構築手段803は、ユーザ利用テキストと更新された言語データ114を読み出す。ステップST904において、ユーザ利用テキスト依存言語モデル構築手段803は、ユーザ利用テキスト及び更新された言語データ114からユーザ利用テキスト依存言語モデルを構築し言語モデル格納手段116に格納する。 【0141】ステップST905において、言語モデル送信手段117は、言語モデル格納手段116から読み出したユーザ利用テキスト依存言語モデルを、ネットワークを介して音声認識装置10の言語モデル更新手段118に送信する。ステップST906において、言語モデル更新手段118は、受け取った言語モデルにより照合手段101が参照する言語モデル103を更新する。 【0142】この実施の形態では、ユーザ利用テキストの入手を、特定ディレクトリやファイルの検索によるとしたが、ユーザ利用テキスト取得手段801は、テキストが収集できるのであれば、テキストをファイルやディレクトリから取り出すのではなく、音声認識やキーボード、ペン、OCR等のユーザ入力、あるいはブラウザ等によってユーザが閲覧したテキスト等を利用してもかまわない。 【0143】また、ユーザ利用テキスト格納手段802は、ユーザ利用テキスト取得手段801によって収集されたテキストを格納するとしたが、ユーザ利用テキスト依存言語モデル構築手段803の基準に従い、テキストを適当な手段によって単語に分割したり、モデル構築時に参照する単語、単語連鎖、同時に出現する単語の組み合わせ等に関する頻度として格納しても同様である。 【0144】さらに、この実施の形態では、音声認識を対象として説明を行ったが、パターンとシンボルの関係を表した確率モデル、シンボルの出現を表した確率モデルからなるパターン認識を対象とするものであれば同様に適用可能である。 【0145】さらに、実施の形態4における音声認識システムを、音声認識プログラムとして記録媒体に記録することもできる。この場合には、言語モデル管理サーバ30において、言語データ取得手段と同様の処理を行う言語データ取得機能と、ユーザ利用テキスト取得手段801と同様の処理を行うユーザ利用テキスト取得機能と、ユーザ利用テキスト格納手段802と同様の処理を行うユーザ利用テキスト格納機能と、ユーザ利用テキスト依存言語モデル構築手段803と同様の処理を行うユーザ利用テキスト依存言語モデル構築機能と、言語モデル格納手段116と同様の処理を行う言語モデル格納と、言語モデル送信手段117と同様の処理を行う言語モデル送信機能から構成されるソフトウェアと、音声認識装置10において、言語モデル更新手段118と同様の処理を行う言語モデル更新機能と、照合手段101と同様の処理を行う照合機能から構成されるソフトウェアで音声認識プログラムとなる。 【0146】記録媒体に記録する音声認識プログラムは、音声認識装置10のソフトウェアと、言語モデル管理サーバ30のソフトウェアを、別々の記録媒体に記録しても良いし、1つの記録媒体に記録して、音声認識装置10又は言語モデル管理サーバ30から、それぞれ言語モデル管理サーバ30又は音声認識装置10に送信しても良い。 【0147】以上のように、この実施の形態4によれば、ネットワークに接続された言語モデル管理サーバ30で、更新された言語データ114を取得し、しかも、ユーザが利用したテキストを取得することで、最新の状態にあり、しかもユーザが利用したテキストに依存した言語モデルを構築し、ネットワークを介してユーザの音声認識装置10の言語モデル103を更新することで、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができるという効果が得られる。 【0148】実施の形態5.図10はこの発明の実施の形態5による音声認識システムの構成を示すブロック図である。図10の音声認識装置10において、1001は照合手段101が照合の際に参照する音響モデルを識別するIDを取得する音響モデルID取得手段、1002は、音響モデルID取得手段1001が取得したIDを読み込み、入力された音声信号から適応化用の音声データを取得し、読み込んだIDと取得した適応化用の音声データを、ネットワークを介して音響モデル管理サーバ20に送信する適応化用音声取得手段である。 【0149】図10の音響モデル管理サーバ20において、1003は適応化前の初期音響モデル、1004は、音声認識装置10の適応化用音声取得手段1002から送信された適応化用の音声データを用いて、適応化前の初期音響モデル1003を適応化し、適応化済み音響モデルを、適応化用音声取得手段1002から送信されたIDに対応付けて適応化済み音響モデル格納手段1005に格納する音響モデル適応化手段、1006は、音響モデル更新指令105を受けて、ネットワークを介して音声認識装置10の音響モデルID取得手段1001が取得したIDを受信し、受信したIDに対応する適応化済み音響モデルを、適応化済み音響モデル格納手段1005から選択して読み出す適応化済み音響モデル選択手段である。既に説明した各手段及び各モデルについては、同一の符号を付し説明を省略する。 【0150】従来技術と異なるこの実施の形態に特徴的な部分は、音声認識装置10において、音響モデルID取得手段1001,適応化用音声取得手段1002を備え、音響モデル管理サーバ20において、初期音響モデル1003,音響モデル適応化手段1004,適応化済み音響モデル格納手段1005及び適応化済み音響モデル選択手段1006を備えたことである。 【0151】この実施の形態では、音声認識装置10において、適応化対象となる音響モデルIDと適応化用の音声データを取得し、音響モデル管理サーバ20において、音響モデルIDに依存した適応化を行った音響モデルを構築して、音声認識装置10に送信し、音声認識装置10において、音響モデル102を更新することにより、ユーザは任意の照合手段101の利用に際して、適応化した音響モデルを参照可能であるため、より高い認識精度を得ることができる。 【0152】次に動作について説明する。音声認識装置10において、音響モデルID取得手段1001は、適応化対象となる音響モデルを決定するものであり、例えば、音声認識装置10を利用するユーザのユーザIDである。適応化用音声取得手段1002は、照合手段101の利用前にあらかじめ適応化用として音声信号100による適応化用の音声データを取得し、音響モデルID取得手段1001から読み出す音響モデルIDと、取得したした適応化用の音声データを、ネットワークを介して接続される音響モデル管理サーバ20の音響モデル適応化手段1004へ送信する。 【0153】音響モデル管理サーバ20において、初期音響モデル1003は適応化を行う前の音響モデルである。音響モデル適応化手段1004は、ネットワークを介して受け取った適応化用の音声データと初期音響モデル1003を用いて、適応化した音響モデルを構築し、適応化済みの音響モデルとネットワークを介して受け取った音響モデルIDを、適応化済み音響モデル格納手段1005へ格納する。音響モデルの適応化には、例えば最大事後確率推定法を用いる。 【0154】適応化済み音響モデル格納手段1005は、音響モデルIDと音響モデル適応化手段1004により適応化された音響モデルを格納し、適応化済み音響モデル選択手段の要求に従い、指定の音響モデルIDを持つ音響モデルを出力する。適応化済み音響モデル選択手段1006は、音響モデル更新指令105を受けて、音響モデルID取得手段1001から音響モデルIDを取得し、対応する適応化済み音響モデルを、適応化済み音響モデル格納手段1005から選択して読み出す。 【0155】図11はこの発明の実施の形態5による音響モデル102の更新処理を示すフローチャートである。処理はステップST1101からST1107までの音響モデルの適応化段階と、ステップST1108からST1112までの音響モデルの更新段階に分けられる。適応化段階では、入力された適応化用の音声データを用いて、音響モデルIDに依存した音響モデルを構築する。 【0156】ステップST1101において、音声認識装置10の音響モデルID取得手段1001は、適応化対象となる音響モデルを識別する、例えばユーザ名等の識別情報を取得する。ステップST1102において、適応化用音声取得手段1002は、音響モデルIDを読み出し、音声信号100から入力される適応化用の音声データを取得する。ステップST1103において、適応化用音声取得手段1002は、ネットワークを介して音響モデル管理サーバ20に音響モデルの適応化要求を送信し、同時に音響モデルIDと適応化用の音声データを音響モデル適応化手段1004へ送信する。 【0157】ステップST1104において、音響モデル適応化手段1004は、ネットワークを介して音響モデルの適応化要求を受信し、音響モデルIDと適応化用の音声データを読み出す。ステップST1105において、音響モデル適応化手段1004は初期音響モデル1003を読み出す。ステップST1106において、音響モデル適応化手段1004は、ネットワークを介して受け取った適応化用の音声データを用いて初期音響モデル1003を適応化する。ステップST1107において、音響モデル適応化手段1004は、適応化された音響モデルを音響モデルIDによって区別できるように、適応化済み音響モデル格納手段1005に格納する。 【0158】ステップST1108において、音響モデル更新タイミング決定手段(図示していない)は、ユーザの指示や最終更新時刻からの時間間隔、ネットワークの利用状況等の監視から適当な更新タイミングを判定し、音響モデル更新指令105を適応化済み音響モデル選択手段1006へ送信する。適応化済み音響モデル選択手段1006は、音響モデル更新指令105を受けていれば、ステップST1109へ進み、音響モデル更新指令105を受けていなければ処理を終了する。ステップST1109において、適応化済み音響モデル選択手段1006は、音声認識装置10の音響モデルID取得手段1001から、ネットワークを介して適応化対象の音響モデルIDを読み出す。 【0159】ステップST1110において、適応化済み音響モデル選択手段1006は、音響モデルIDで指定された音響モデルを、適応化済み音響モデル格納手段1005から選択して読み出す。ステップST1111において、音響モデル送信手段110は、読み出された適応化済み音響モデルを、ネットワークを介して音声認識装置10の音響モデル更新手段111に送信する。ステップST1112において、音響モデル更新手段111は、受け取った適応化済み音響モデルにより照合手段101が参照する音響モデル102を更新する。 【0160】なお、音声認識装置10において、音響モデルID取得手段1001は、適応化対象となる音響モデルを決定するものであれば、回線伝達特性、背景雑音特性、残響音特性等を決定するものであってもかまわない。 【0161】また、音声認識装置10において、適応化用音声取得手段1002は、照合手段101の利用前にあらかじめ適応化用としてユーザの音声データを取得しているが、照合手段101が照合時に音声データを取得してして適応化用音声取得手段1002に入力することで、次の照合の際に参照する音響モデルの適応化を行うことも可能である。 【0162】さらに、音声認識装置10において、適応化用の音声のデータの取得と音響モデルIDの取得の手順は逆であってもかまわない。 【0163】さらに、音声認識装置10において、適応化用音声取得手段1002の音声データの格納形態は音声波形としたが、音声データを信号処理した音響特徴ベクトルの時系列、音響特徴ベクトルとベクトル量子化コードブックを参照して得られるコードブック符号列、それらを統計処理して得られる頻度分布、頻度分布から得られる確率分布等、音響モデルの学習に利用できる形態であれば、どのようなものでもかまわない。 【0164】さらに、音響モデル管理サーバ20において、音響モデル適応化手段1004が受信した適応化用の音声データを格納する手段を追加し、格納した多くの適応化用の音声データにより初期モデル1003を更新することにより、学習の精度が高くなり、より高精度な認識を行う適応化済み音響モデルを構築することができる。 【0165】さらに、この実施の形態では音声認識を対象としたが、パターンとシンボルの関係を表した確率モデル、シンボルの出現を表した確率モデルからなるパターン認識を対象とするものであれば同様に適用可能である。 【0166】さらに、実施の形態5における音声認識システムを音声認識プログラムとして記録媒体に記録することもできる。この場合には、音声認識装置10において、音響モデルID取得手段1001と同様の処理を行う音響モデルID取得機能と、適応化用音声取得手段1002と同様の処理を行う適応化用音声取得機能と、音響モデル更新手段111と同様の処理を行う音響モデル更新機能と、照合手段101と同様の処理を行う照合機能から構成されるソフトウェアと、音響モデル管理サーバ20において、音響モデル適応化手段1004と同様の処理を行う音響モデル適応化機能と、適応化済み音響モデル格納手段1005と同様の処理を行う適応化済み音響モデル格納機能と、適応化済み音響モデル選択手段1006と同様の処理を行う適応化済み音響モデル選択機能と、音響モデル送信手段110と同様の処理を行う音響モデル送信機能から構成されるソフトウェアで音声認識プログラムとなる。 【0167】記録媒体に記録する音声認識プログラムは、音声認識装置10のソフトウェアと、音響モデル管理サーバ20のソフトウェアを、別々の記録媒体に記録しても良いし、1つの記録媒体に記録して、音声認識装置10又は音響モデル管理サーバ20から、それぞれ音響モデル管理サーバ20又は音声認識装置10に送信しても良い。 【0168】以上のように、この実施の形態5によれば、ネットワークに接続された音響言語モデル管理サーバ20で、ユーザの音声信号100による適応化用の音声データにより適応化済みの音響モデルを構築し、ネットワークを介してユーザの音声認識装置10の音響モデル102を更新することで、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができるという効果が得られる。 【0169】また、この実施の形態5によれば、ユーザに適応化した適応化済み音響モデルにより、ネットワークを介して音響モデル102を更新することで、ユーザが複数の異なる照合手段101を利用する場合でも、全ての照合手段101の利用時に適切な音響モデル102を利用し、高い認識精度を得ることができるという効果が得られる。 【0170】 【発明の効果】以上のように、この発明によれば、音響モデル管理サーバが、更新された音響データを取得して構築した音響モデルを、ネットワークを介して音声認識装置に送信し、音声認識装置が、音声認識の際に参照する音響モデルを、音響モデル管理サーバが送信した音響モデルにより更新することにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができるという効果がある。 【0171】この発明によれば、音響モデル管理サーバが、音声認識装置が音声認識の際に参照する音響モデルを特定するIDを取得し、取得したIDで指示される特定条件に対応して、更新された音響データを読み出し、特定条件に依存した音響モデルを構築して音声認識装置に送信することにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができると共に、特定向けにカスタマイズされた音響モデルを、ネットワークを介して送信することにより、ユーザが複数の異なる音声認識装置を利用する場合でも適切な音響モデルを利用し、高い認識精度を得ることができるという効果がある。 【0172】この発明によれば、言語モデル管理サーバが、更新された言語データを取得して構築した言語モデルを、ネットワークを介して音声認識装置に送信し、音声認識装置が、音声認識の際に参照する言語モデルを、言語モデル管理サーバが送信した言語モデルにより更新することにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができるという効果がある。 【0173】この発明によれば、言語モデル管理サーバが、音声認識装置が音声認識の際に参照する言語モデルを特定するIDを取得し、取得したIDで指示される特定条件に対応して、更新された言語データを読み出し、特定条件に依存した言語モデルを構築して音声認識装置に送信することにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができると共に、特定向けにカスタマイズされた言語モデルを、ネットワークを介して更新することにより、ユーザが複数の異なる音声認識装置を利用する場合でも適切な言語モデルを利用し、高い認識精度を得ることができるという効果がある。 【0174】この発明によれば、音声認識装置が音声認識の際に単語を登録したユーザ辞書を参照し、言語モデル管理サーバが、ネットワークを介してユーザ辞書を読み出し、更新された言語データと、読み出したユーザ辞書とを参照し、ユーザ辞書に依存した言語モデルを構築して音声認識装置に送信することにより、ユーザ辞書が大きくなった場合でも、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができるという効果がある。 【0175】この発明によれば、言語モデル管理サーバが、音声認識装置のユーザが利用したテキストを取得し、更新された言語データと、取得したテキストとを参照し、テキストに依存した言語モデルを構築して上記音声認識装置に送信することにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができるという効果がある。 【0176】この発明によれば、音声認識装置が、音響モデルを特定するIDと、入力された音声信号から適応化用の音声データとを取得し、取得したID及び適応化用の音声データを、ネットワークを介して音響モデル管理サーバに送信し、音響モデル管理サーバが、送信された適応化用の音声データを用いて、初期音響モデルを適応化し、適応化済み音響モデルを、送信されたIDに対応付けて格納すると共に、外部からの音響モデル更新指令を受けて、ネットワークを介して音声認識装置からIDを受信し、受信したIDに対応する適応化済み音響モデルを、格納している適応化済み音響モデルの中から選択して読み出し、ネットワークを介して音声認識装置に送信し、音声認識装置が、音声認識の際に参照する音響モデルを、音響モデル管理サーバが送信した適応化済み音響モデルにより更新することにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができると共に、ユーザに適応化した適応化済み音響モデルにより、ネットワークを介して音響モデルを更新することで、ユーザが複数の異なる音声認識装置を利用する場合でも、適切な音響モデルを利用し、高い認識精度を得ることができるという効果がある。 【0177】この発明によれば、音声認識装置がネットワークを介して接続された音響モデル管理サーバから、更新された音響データにより構築された音響モデルを受信し、照合手段が音声認識の際に参照する音響モデルを、受信した音響モデルにより更新する音響モデル更新手段とを備えたことにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができるという効果がある。 【0178】この発明によれば、音響モデル更新手段が、ネットワークを介して接続された音響モデル管理サーバから、更新された音響データにより構築された、照合手段が音声認識の際に参照する音響モデルの特定条件に依存した音響モデルを受信し、照合手段が音声認識の際に参照する音響モデルを、受信した音響モデルにより更新することにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができると共に、特定向けにカスタマイズされた音響モデルを、ネットワークを介して受信することにより、ユーザが複数の異なる照合手段を利用する場合でも適切な音響モデルを利用し、高い認識精度を得ることができるという効果がある。 【0179】この発明によれば、音声認識装置がネットワークを介して接続された言語モデル管理サーバから、更新された言語データにより構築された言語モデルを受信し、照合手段が音声認識の際に参照する言語モデルを、受信した言語モデルにより更新する言語モデル更新手段とを備えたことにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができるという効果がある。 【0180】この発明によれば、言語モデル更新手段が、ネットワークを介して接続された言語モデル管理サーバから、更新された言語データにより構築された、照合手段が音声認識の際に参照する言語モデルの特定条件に依存した言語モデルを受信し、照合手段が音声認識の際に参照する言語モデルを、受信した言語モデルにより更新することにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができると共に、特定向けにカスタマイズされた言語モデルを、ネットワークを介して受信することにより、ユーザが複数の異なる照合手段を利用する場合でも適切な言語モデルを利用し、高い認識精度を得ることができるという効果がある。 【0181】この発明によれば、照合手段が音声認識の際に参照する単語を登録したユーザ辞書を備え、言語モデル更新手段が、ネットワークを介して接続された言語モデル管理サーバから、更新された言語データにより構築された、ユーザ辞書に依存した言語モデルを受信し、照合手段が音声認識の際に参照する言語モデルを、受信した言語モデルにより更新することにより、ユーザ辞書が大きくなった場合でも、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができるという効果がある。 【0182】この発明によれば、言語モデル更新手段が、ネットワークを介して接続された言語モデル管理サーバから、更新された言語データにより構築された、音声認識を行うユーザが利用したテキストに依存した言語モデルを受信し、照合手段が音声認識の際に参照する言語モデルを、受信した言語モデルにより更新することにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができるという効果がある。 【0183】この発明によれば、音声の音響的な観測値系列の確率を求める音響モデルと、音声信号を入力し上記音響モデルを参照して音声認識を行い、認識結果を出力する照合手段と、音響モデルを特定するIDを取得する音響モデルID取得手段と、取得したIDを読み出し、入力された音声信号から適応化用の音声データを取得し、読み出したID及び取得した適応化用の音声データを、ネットワークを介して接続された音響モデル管理サーバに送信する適応化用音声取得手段と、音響モデル管理サーバから、IDに対応する適応化用の音声データにより適応化された適応化済み音響モデルを受信し、照合手段が音声認識の際に参照する音響モデルを、受信した適応化済み音響モデルにより更新する音響モデル更新手段とを備えたことにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができると共に、ユーザに適応化した適応化済み音響モデルにより、ネットワークを介して音響モデルを更新することで、ユーザが複数の異なる照合手段を利用する場合でも、適切な音響モデルを利用し、高い認識精度を得ることができるという効果がある。 【0184】この発明によれば、更新された音響データを取得する音響データ取得手段と、外部からの音響モデル更新指令を受けて更新された音響データを読み出し、音声の音響的な観測値系列の確率を求める音響モデルを構築する音響モデル構築手段と、音響モデル構築手段により構築された音響モデルを、ネットワークを介して音声認識を行う音声認識装置に送信する音響モデル送信手段とを備えたことにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができるという効果がある。 【0185】この発明によれば、更新された音響データを取得する音響データ取得手段と、外部からの音響モデル更新指令を受けて、音声認識の際に参照する音響モデルを特定するIDを取得する更新音響モデルID取得手段と、取得したIDで指示される特定条件に対応して、更新された音響データを読み出す特定向け音響データ読み出し手段と、読み出した更新された音響データを参照し、特定条件に依存した音響モデルを構築する特定向け音響モデル構築手段と、構築した音響モデルを、ネットワークを介して音声認識装置に送信する音響モデル送信手段とを備えたことにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができると共に、特定向けにカスタマイズされた音響モデルを、ネットワークを介して送信することにより、ユーザが複数の異なる音声認識装置を利用する場合でも適切な音響モデルを利用し、高い認識精度を得ることができるという効果がある。 【0186】この発明によれば、音声の音響的な観測値系列の確率を求める、適応化前の初期音響モデルと、ネットワークを介して接続された音声認識装置から送信された、適応化用の音声データと、音声認識装置が音声認識の際に参照する音響モデルを特定するIDを受信し、適応化用の音声データを用いて初期音響モデルを適応化し、適応化済み音響モデルを、受信したIDに対応付けて適応化済み音響モデル格納手段に格納する音響モデル適応化手段と、外部からの音響モデル更新指令を受けて、ネットワークを介して音声認識装置からIDを受信し、受信したIDに対応する適応化済み音響モデルを、適応化済み音響モデル格納手段から選択して読み出す適応化済み音響モデル選択手段と、読み出した適応化済み音響モデルを、ネットワークを介して音声認識装置に送信する音響モデル送信手段とを備えたことにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができると共に、ユーザに適応化した適応化済み音響モデルにより、ネットワークを介して音響モデルを更新することで、ユーザが複数の異なる音声認識装置を利用する場合でも、適切な音響モデルを利用し、高い認識精度を得ることができるという効果がある。 【0187】この発明によれば、更新された言語データを取得する言語データ取得手段と、外部からの言語モデル更新指令を受けて更新された言語データを読み出し、単語列の出現確率を求める言語モデルを構築する言語モデル構築手段と、言語モデル構築手段が構築した言語モデルを、ネットワークを介して音声認識を行う音声認識装置に送信する言語モデル送信手段とを備えたことにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができるという効果がある。 【0188】この発明によれば、更新された言語データを取得する言語データ取得手段と、外部からの言語モデル更新指令を受けて、音声認識の際に参照する言語モデルを特定するIDを取得する更新言語モデルID取得手段と、IDで指示される特定条件に対応して、更新された言語データを読み出す特定向け言語データ読み出し手段と、読み出した更新された言語データを参照し、特定条件に依存した言語モデルを構築する特定向け言語モデル構築手段と、構築した言語モデルを、ネットワークを介して音声認識装置に送信する言語モデル送信手段とを備えたことにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができると共に、特定向けにカスタマイズされた言語モデルを、ネットワークを介して送信することにより、ユーザが複数の異なる音声認識装置を利用する場合でも適切な言語モデルを利用し、高い認識精度を得ることができるという効果がある。 【0189】この発明によれば、更新された言語データを取得する言語データ取得手段と、外部からの言語モデル更新指令を受けて、ネットワークを介して接続された音声認識装置が音声認識の際に参照するユーザ辞書を読み出すユーザ辞書読み出し手段と、更新された言語データを読み出し、ユーザ辞書に依存した言語モデルを構築するユーザ辞書依存言語モデル構築手段と、構築した言語モデルを、ネットワークを介して音声認識装置に送信する言語モデル送信手段とを備えたことにより、ユーザ辞書が大きくなった場合でも、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができるという効果がある。 【0190】この発明によれば、更新された言語データを取得する言語データ取得手段と、外部からの言語モデル更新指令を受けて、ユーザが利用したテキストを取得するユーザ利用テキスト取得手段と、更新された言語データを読み出し、取得したテキストに依存した言語モデルを構築するユーザ利用テキスト依存言語モデル構築手段と、構築した言語モデルを、ネットワークを介して音声認識装置に送信する言語モデル送信手段とを備えたことにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができるという効果がある。 【0191】この発明によれば、更新された音響データを取得する第1のステップと、音響モデル更新指令を受けて更新された音響データを読み出し、音響モデルを構築する第2のステップと、構築した音響モデルを、ネットワークを介して送信する第3のステップと、音響モデルを受信し、音声認識の際に参照する音響モデルを、受信した音響モデルにより更新する第4のステップとを備えたことにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができるという効果がある。 【0192】この発明によれば、更新された言語データを取得する第1のステップと、言語モデル更新指令を受けて更新された言語データを読み出し、言語モデルを構築する第2のステップと、構築した言語モデルを、ネットワークを介して送信する第3のステップと、言語モデルを受信し、音声認識の際に参照する言語モデルを、受信した言語モデルにより更新する第4のステップとを備えたことにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができるという効果がある。 【0193】この発明によれば、更新された音響データを取得する第1のステップと、音響モデル更新指令を受けて、音声認識の際に参照する音響モデルを特定するIDを取得する第2のステップと、IDで指示される特定条件に対応して、更新された音響データを読み出す第3のステップと、更新された音響データを参照し、特定条件に依存した音響モデルを構築する第4のステップと、構築した音響モデルを、ネットワークを介して送信する第5のステップと、音響モデルを受信し、音声認識の際に参照する音響モデルを、受信した音響モデルにより更新する第6のステップとを備えたことにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができると共に、特定向けにカスタマイズされた音響モデルを、ネットワークを介して受信することにより、ユーザが複数の異なる音声認識方法を利用する場合でも適切な音響モデルを利用し、高い認識精度を得ることができるという効果がある。 【0194】この発明によれば、更新された言語データを取得する第1のステップと、言語モデル更新指令を受けて、音声認識の際に参照する言語モデルを特定するIDを取得する第2のステップと、取得したIDで指示される特定条件に対応して、更新された言語データを読み出す第3のステップと、更新された言語データを参照し、特定条件に依存した言語モデルを構築する第4のステップと、構築した言語モデルを、ネットワークを介して送信する第5のステップと、言語モデルを受信し、音声認識の際に参照する言語モデルを、受信した言語モデルにより更新する第6のステップとを備えたことにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができると共に、特定向けにカスタマイズされた言語モデルを、ネットワークを介して受信することにより、ユーザが複数の異なる音声認識方法を利用する場合でも適切な言語モデルを利用し、高い認識精度を得ることができるという効果がある。 【0195】この発明によれば、更新された言語データを取得する第1のステップと、言語モデル更新指令を受けて、音声認識の際に参照するユーザ辞書を読み出す第2のステップと、更新された言語データを読み出し、ユーザ辞書に依存した言語モデルを構築する第3のステップと、構築した言語モデルを、ネットワークを介して送信する第4のステップと、言語モデルを受信し、音声認識の際に参照する言語モデルを、受信した言語モデルにより更新する第5のステップとを備えたことにより、ユーザ辞書が大きくなった場合でも、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができるという効果がある。 【0196】この発明によれば、更新された言語データを取得する第1のステップと、言語モデル更新指令を受けて、ユーザが利用したテキストを取得する第2のステップと、更新された言語データを読み出し、テキストに依存した言語モデルを構築する第3のステップと、構築した言語モデルを、ネットワークを介して送信する第4のステップと、言語モデルを受信し、音声認識の際に参照する言語モデルを、受信した言語モデルにより更新する第5のステップとを備えたことにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができるという効果がある。 【0197】この発明によれば、音響モデルを特定するIDを取得する第1のステップと、取得したIDを読み出し、入力された音声信号から適応化用の音声データを取得し、ネットワークを介して、読み出したID及び取得した適応化用の音声データを送信する第2のステップと、送信した適応化用の音声データを用いて、適応化前の初期音響モデルを適応化し、適応化済み音響モデルを、送信したIDに対応付けて格納する第3のステップと、音響モデル更新指令を受けて、ネットワークを介して第1のステップで取得したIDを受信し、受信したIDに対応する適応化済み音響モデルを、第3のステップで格納している適応化済み音響モデルの中から選択して読み出す第4のステップと、第4のステップで読み出した適応化済み音響モデルを、ネットワークを介して送信する第5のステップと、送信した適応化済み音響モデルを受信し、音声認識の際に参照する音響モデルを、受信した適応化済み音響モデルにより更新する第6のステップとを備えたことにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができると共に、ユーザに適応化した適応化済み音響モデルにより、ネットワークを介して音響モデルを更新することで、ユーザが複数の異なる音声認識方法を利用する場合でも、適切な音響モデルを利用し、高い認識精度を得ることができるという効果がある。 【0198】この発明によれば、音声認識プログラムを記録した記録媒体で、更新された音響データを取得する音響データ取得機能と、音響モデル更新指令を受けて更新された音響データを読み出し、音響モデルを構築する音響モデル構築機能と、構築した音響モデルを、ネットワークを介して送信する音響モデル送信機能と、音響モデルを受信し、照合機能が音声認識の際に参照する音響モデルを、受信した音響モデルにより更新する音響モデル更新機能とを実現させることにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができるという効果がある。 【0199】この発明によれば、音声認識プログラムを記録した記録媒体で、更新された言語データを取得する言語データ取得機能と、言語モデル更新指令を受けて、上記言語データ取得機能が取得した更新された言語データを読み出し、言語モデルを構築する言語モデル構築機能と、上記言語モデル構築機能が構築した言語モデルを、ネットワークを介して送信する言語モデル送信機能と、上記言語モデル送信機能が送信した言語モデルを受信し、上記照合機能が音声認識の際に参照する言語モデルを、受信した言語モデルにより更新する言語モデル更新機能とを実現させることにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができるという効果がある。 【0200】この発明によれば、音声認識プログラムを記録した記録媒体で、更新された音響データを取得する音響データ取得機能と、音響モデル更新指令を受けて、音響モデルを特定するIDを取得する更新音響モデルID取得機能と、取得したIDで指示される特定条件に対応して、更新された音響データを読み出す特定向け音響データ読み出し機能と、更新された音響データを参照し、特定条件に依存した音響モデルを構築する特定向け音響モデル構築機能と、音響モデルを、ネットワークを介して送信する音響モデル送信機能と、音響モデルを受信し、照合機能が音声認識の際に参照する音響モデルを、受信した音響モデルにより更新する音響モデル更新機能とを実現させることにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができると共に、特定向けにカスタマイズされた音響モデルを、ネットワークを介して受信することにより、ユーザが複数の照合機能を利用する場合でも適切な音響モデルを利用し、高い認識精度を得ることができるという効果がある。 【0201】この発明によれば、音声認識プログラムを記録した記録媒体で、更新された言語データを取得する言語データ取得機能と、言語モデル更新指令を受けて、言語モデルを特定するIDを取得する更新言語モデルID取得機能と、取得したIDで指示される特定条件に対応して、更新された言語データを読み出す特定向け言語データ読み出し機能と、更新された言語データを参照し、特定条件に依存した言語モデルを構築する特定向け言語モデル構築機能と、構築した言語モデルを、ネットワークを介して送信する言語モデル送信機能と、言語モデルを受信し、照合機能が音声認識の際に参照する言語モデルを、受信した言語モデルにより更新する言語モデル更新機能とを実現させることにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができると共に、特定向けにカスタマイズされた言語モデルを、ネットワークを介して受信することにより、ユーザが複数の照合機能を利用する場合でも適切な言語モデルを利用し、高い認識精度を得ることができるという効果がある。 【0202】この発明によれば、音声認識プログラムを記録した記録媒体で、更新された言語データを取得する言語データ取得機能と、言語モデル更新指令を受けて、ユーザ辞書を読み出すユーザ辞書読み出し機能と、更新された言語データを読み出し、ユーザ辞書に依存した言語モデルを構築するユーザ辞書依存言語モデル構築機能と、構築した言語モデルを、ネットワークを介して送信する言語モデル送信機能と、言語モデルを受信し、照合機能が音声認識の際に参照する言語モデルを、受信した言語モデルにより更新する言語モデル更新機能とを実現させることにより、ユーザ辞書が大きくなった場合でも、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができるという効果がある。 【0203】この発明によれば、音声認識プログラムを記録した記録媒体で、更新された言語データを取得する言語データ取得機能と、言語モデル更新指令を受けて、ユーザが利用したテキストを取得するユーザ利用テキスト取得機能と、更新された言語データを読み出し、テキストに依存した言語モデルを構築するユーザ利用テキスト依存言語モデル構築機能と、構築した言語モデルを、ネットワークを介して送信する言語モデル送信機能と、言語モデルを受信し、照合機能が音声認識の際に参照する言語モデルを、受信した言語モデルにより更新する言語モデル更新機能とを実現させることにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができるという効果がある。 【0204】この発明によれば、音声認識プログラムを記録した記録媒体で、音響モデルを特定するIDを取得する音響モデルID取得機能と、取得したIDを読み出し、入力された音声信号から適応化用の音声データを取得し、ネットワークを介して、読み出したID及び取得した適応化用の音声データを送信する適応化用音声取得機能と、送信した適応化用の音声データを用いて、適応化前の初期音響モデルを適応化し、適応化済み音響モデルを、送信したIDに対応付けて格納する音響モデル適応化機能と、音響モデル更新指令を受けて、ネットワークを介して音響モデルID取得機能が取得したIDを受信し、受信したIDに対応する適応化済み音響モデルを、音響モデル適応化機能が格納した適応化済み音響モデルの中から選択して読み出す適応化済み音響モデル選択機能と、読み出した適応化済み音響モデルを、ネットワークを介して送信する音響モデル送信機能と、適応化済み音響モデルを受信し、照合機能が音声認識の際に参照する音響モデルを、受信した適応化済み音響モデルにより更新する音響モデル更新機能とを実現させることにより、ユーザに大きな負担をかけることなく、音声認識の認識精度を向上させることができると共に、ユーザに適応化した適応化済み音響モデルにより、ネットワークを介して音響モデルを更新することで、ユーザが複数の異なる照合機能を利用する場合でも、適切な音響モデルを利用し、高い認識精度を得ることができるという効果がある。
|
| 【出願人】 |
【識別番号】000006013 【氏名又は名称】三菱電機株式会社
|
| 【出願日】 |
平成12年9月14日(2000.9.14) |
| 【代理人】 |
【識別番号】100066474 【弁理士】 【氏名又は名称】田澤 博昭 (外1名)
|
| 【公開番号】 |
特開2002−91477(P2002−91477A) |
| 【公開日】 |
平成14年3月27日(2002.3.27) |
| 【出願番号】 |
特願2000−280674(P2000−280674) |
|