| 【発明の名称】 |
音声認識用データ配信システム、方法および音声認識用データ配信サーバ |
| 【発明者】 |
【氏名】本間 真一
【氏名】安藤 彰男
【氏名】今井 亨
|
| 【要約】 |
【課題】新しい音声認識用データを供給可能とする。
【解決手段】字幕情報を生成する音声認識装置300を受信者側に設け、音声認識装置300に音声認識用データを音声認識用データ配信サーバ100から配信する。 |
【特許請求の範囲】
【請求項1】 放送電波を介して受信した音声を音声認識することにより放送文字情報を生成する音声認識装置と、該音声認識装置において音声認識のために使用する音声認識用データを前記音声認識装置に配信する音声認識用データ配信サーバとを備えたことを特徴とする音声認識用データ配信システム。 【請求項2】 請求項1に記載の音声認識用データ配信システムにおいて、前記音声認識装置により生成された放送文字情報は、字幕表示装置に入力されて、字幕情報として表示されることを特徴とする音声認識用データ配信システム。 【請求項3】 放送電波を介して受信した音声を音声認識することにより放送文字情報を生成する音声認識装置と、音声認識用サーバとが通信ネットワークを介して接続され、該音声認識装置において音声認識のために使用する音声認識用データを前記音声認識用データ配信サーバから前記音声認識装置に配信することを特徴とする音声認識用データ配信方法。 【請求項4】 請求項3に記載の音声認識用データ配信方法において、前記音声認識装置により生成された放送文字情報は、字幕表示装置に入力されて、字幕情報として表示されることを特徴とする音声認識用データ配信方法。 【請求項5】 音声認識装置において音声認識のために使用する音声認識用データを記憶した記憶手段と、当該記憶した音声認識用データを、放送電波を介して受信した音声を音声認識することにより放送文字情報を生成する音声認識装置に対して配信可能な通信手段とを備えたことを特徴とする音声認識用データ配信サーバ。 【請求項6】 請求項5に記載の音声認識用データ配信サーバにおいて、前記音声認識装置により生成された放送文字情報は、字幕表示装置に入力されて、字幕情報として表示されることを特徴とする音声認識用データ配信サーバ。
|
【発明の詳細な説明】【0001】 【発明の属する技術分野】本発明は、テレビ放送の音声を認識し、その認識結果を字幕情報などの放送文字情報として表示するためのシステムに好適な音声認識用データ配信システム、方法および音声認識用配信サーバに関する。 【0002】 【従来の技術】従来の放送文字情報の配信方法を図1を参照して説明する。 【0003】放送局側に設置した音声認識装置1がアナウンサーの声6を音声認識して字幕情報を生成する。生成された字幕情報は、文字多重放送エンコーダ7を介して放送電波8により搬送され、文字多重放送デコーダ9により受信される。受信された字幕情報はテレビ等の字幕表示装置10で映像と合成されて表示される。 【0004】音声認識装置1で音声認識を行うための音声認識方法には種々の方法が知られているが、最近は音響モデル、言語モデルおよび発音辞書を使用した音声認識方法が広く使用されている。音声認識装置1は、音響モデル2、言語モデル・発音辞書4を使用して音声認識を行う。音響モデルは音声を分析して得られる音響データと、音声の読み(発音)とを互いに関連付けて記載した情報ファイルである。このような音声認識装置としては特開平6−141240号公報が知られている。 【0005】言語モデルは単語の出現の割合や単語間のつながりの割合を単語に関連付けて記載した情報ファイルである。発音辞書は読みに対応する漢字(かな混じり漢字やひらがなの文字列を含む)を記載した情報ファイルである。発音辞書は漢字辞書や単語辞書とも呼ばれる。音響モデルは、アナウンサーの音声(信号)を記憶したデータベース3の登録音声から作成される。言語モデルや発音辞書はニュース原稿5に基き作成される。 【0006】 【発明が解決しようとする課題】音声認識装置1を放送局側に設置すると、音声認識結果、すなわち、字幕情報を送出するための大規模設備が必要となる。そこで、音声認識装置を受信者側に設置して、テレビ放送電波で搬送される映像および音声の中の音声を音声認識装置により音声認識することが考えられる。 【0007】この場合に、音声認識装置内に組み込まれている言語モデルや音響モデル等が固定化されてしまうと、新しい用語などの音声認識制度が劣化し、最悪、音声認識できない事態が生じる。 【0008】そこで、本発明の目的は、受信者側に設置された音声認識装置を使用して放送文字情報を生成するシステムに対して、常に新しい音声認識用データを転送することができる音声認識用データ配信システム、方法および音声認識用配信サーバを提供することにある。 【0009】 【課題を解決するための手段】このような目的を達成するために、請求項1の発明は、放送電波を介して受信した音声を音声認識することにより放送文字情報を生成する音声認識装置と、該音声認識装置において音声認識のために使用する音声認識用データを前記音声認識装置に配信する音声認識用データ配信サーバとを備えたことを特徴とする。 【0010】請求項2の発明は、請求項1に記載の音声認識用データ配信システムにおいて、前記音声認識装置により生成された放送文字情報は、字幕表示装置に入力されて、字幕情報として表示されることを特徴とする。 【0011】請求項3の発明は、放送電波を介して受信した音声を音声認識することにより放送文字情報を生成する音声認識装置と、音声認識用サーバとが通信ネットワークを介して接続され、該音声認識装置において音声認識のために使用する音声認識用データを前記音声認識用データ配信サーバから前記音声認識装置に配信することを特徴とする。 【0012】請求項4の発明は、請求項3に記載の音声認識用データ配信方法において、前記音声認識装置により生成された放送文字情報は、字幕表示装置に入力されて、字幕情報として表示されることを特徴とする。 【0013】請求項5の発明は、音声認識装置において音声認識のために使用する音声認識用データを記憶した記憶手段と、当該記憶した音声認識用データを、放送電波を介して受信した音声を音声認識することにより放送文字情報を生成する音声認識装置に対して配信可能な通信手段とを備えたことを特徴とする。 【0014】請求項6の発明は、請求項5に記載の音声認識用データ配信サーバにおいて、前記音声認識装置により生成された放送文字情報は、字幕表示装置に入力されて、字幕情報として表示されることを特徴とする。 【0015】 【発明の実施の形態】以下、図面を参照して本発明の実施形態を詳細に説明する。 【0016】図2に本発明実施形態の機能構成を示す。なお、図1と同様の箇所には同一の符号を付しており詳細な説明を省略する。 【0017】音声認識装置1は放送の受信側に設置する。音声認識装置1は放送音声12をたとえば、テレビ放送電波13を受信し、テレビ放送の音声信号を、音声認識用プログラムを使用して音声認識を行う。音声認識装置1の音声認識結果をテレビ等の字幕表示装置10に入力することで字幕情報を表示する。 【0018】音声認識装置1の学習データの1つである音響モデル2は、予めデータベース3に用意されたアナウンサーの声から生成される。もう一つの学習データである言語モデルおよび発音辞書4は逐次、入稿されるニュース原稿5により生成する。 【0019】放送局側では、受信側に対して音声認識用プログラム11、音響モデル2、言語モデルおよび発音辞書4を、LAN15を介して通信ネットワーク14、たとえば、データ放送用の通信ネットワーク、あるいはインターネット等の通信ネットワークを介して音声認識装置1に配信する。 【0020】本発明実施形態の具体的なシステム構成を図3に示す。図3において、100は音声認識用データ配信サーバである。音声認識用データ配信サーバ100内のハードディスクには、配信可能な音声認識用プログラム、音響モデル、言語モデルおよび発音辞書を保存している。これらの情報を音声認識用データと総称する。音声認識用データは不図示のLAN接続のパソコン等により従来と同様にして作成され、新規データで音声認識用データ配信サーバ100内のハードディスク上の古いデータが更新される。 【0021】音声認識用データ配信サーバ100は、後述の受信者側の音声認識装置300からのアクセスを受け付けて、受信者が要求する音声認識用データを通信ネットワーク200を介して配信する。 【0022】300は、受信者側の音声認識装置であり、この形態ではパーソナルコンピュータを想定している。しかしながら、音声認識装置300としては、通信機能を有し、音声認識用プログラムを実行可能な情報処理であれば、どのようなものでもよい。 【0023】音声認識装置300の音声認識結果が字幕表示装置400に入力される。字幕表示装置400には文字情報とテレビ映像を合成可能な従来から周知な装置を使用すればよい。 【0024】このようなシステム構成において、音声認識用データ配信サーバ100は図4の処理手順を実行して音声認識用データを配信する。音声認識装置300は図5の処理手順を実行して音声認識用データを入手する。 【0025】より具体的には、音声認識装置300が、音声認識用データ配信サーバ100にアクセスすると、メニュー選択を行って、所望の音声認識用データ(音響モデル、言語モデル等)を要求する(図5のステップS100)。 【0026】この要求に応じて、音声認識用データ配信サーバ100は要求された音声認識用データの種類判別を図4のステップS10〜S30の間で行って、要求された種類の音声認識用データを音声認識装置300に送信(ダウンロード)する(図4のステップS15,S25,S35のいずれか)。 【0027】上述の実施形態の他に次の形態を実施できる。1)上述の実施形態では、音声認識装置300から音声認識用データを要求したが、音声認識用データ配信サーバから音声認識装置300に対して一方的に送信することも可能である。2)上述の音声認識装置は音響モデル等を使用する音声認識方法を使用したが、他の音声認識方法に本発明を適用できる。 【0028】 【発明の効果】以上、説明したように、本発明によれば、最新の音声認識データを音声認識装置側で受信できるので、音声認識装置では、新しい単語などを精度よく音声認識できるという効果を奏する。
|
| 【出願人】 |
【識別番号】000004352 【氏名又は名称】日本放送協会
|
| 【出願日】 |
平成12年12月15日(2000.12.15) |
| 【代理人】 |
【識別番号】100077481 【弁理士】 【氏名又は名称】谷 義一 (外2名)
|
| 【公開番号】 |
特開2002−182684(P2002−182684A) |
| 【公開日】 |
平成14年6月26日(2002.6.26) |
| 【出願番号】 |
特願2000−382542(P2000−382542) |
|