トップ :: G 物理学 :: G06 計算;計数




【発明の名称】 言語モデル作成装置および言語モデル作成プログラムを記録した記録媒体
【発明者】 【氏名】本間 真一

【氏名】小林 彰夫

【要約】 【課題】書きことばで書かれた原稿から話しことばや解説口調特有の言い回しを表わす単語列を自動生成し、話しことばや解説口調を精度よく認識する。

【解決手段】(i)過去の全記者原稿によりN−gram言語モデル1を作成する。(ii)最新の記者原稿2に対して形態素解析を行い(工程3)、出現するN個組単語の頻度情報を生成する(工程4)。(iii) (ii)の形態素解析結果に変換規則テーブル5の変換規則を適用して、話しことばや解説口調特有の言い回しを表す単語列を自動生成する(工程6)。この生成単語列に出現するN個組単語の頻度情報を生成する(工程7)。(iv)(ii)で作成したN個組単語の頻度情報と、(iii)で作成したN個組単語の頻度情報をマージしたものを基に、N−gram言語モデルを作成する(工程8)。(v)(i)で作成した言語モデル1に対し、(iv)で作成した言語モデルにより適応化した言語モデルを作成する(工程9)。
【特許請求の範囲】
【請求項1】 書きことばで書かれた原稿に対して書きことばを話しことばに変換するための変換規則を適用して話しことばの言語モデルを自動生成する手段を有することを特徴とする言語モデル作成装置。
【請求項2】 前記話しことばの言語モデルを自動生成する手段は、一定の長さの話しことば特有の言い回しを表わす単語列を生成し、生成された該単語列を言語モデルの学習に利用することを特徴とする請求項1に記載の言語モデル作成装置。
【請求項3】 入手可能な過去の原稿によりN−gram言語モデルを作成する第1の手段と、最新の原稿に対して形態素解析を行う第2の手段と、該第2の手段による前記形態素解析で出現するN個組単語(Nは正の整数)の頻度情報を生成する第3の手段と、前記第2の手段による前記形態素解析の結果に予め用意した変換規則を適用して、話しことばや解説口調特有の言い回しを表す単語列を自動生成する第4の手段と、該第4の手段で生成した単語列に出現するN個組単語の頻度情報を生成する第5の手段と、前記第3の手段で作成したN個組単語の頻度情報と、前記第5の手段で作成したN個組単語の頻度情報をマージしたものを基に、N−gram言語モデルを作成する第6の手段と、前記第1の手段で作成した前記N−gram言語モデルに対し、前記第6の手段で作成した前記N−gram言語モデルにより適応化したN−gram言語モデルを作成する第7の手段とを有することを特徴とする言語モデル作成装置。
【請求項4】 前記第4の手段における前記変換規則はテーブル化されており、トライグラム(trigram)に反映するため、前記自動生成される生成単語列には、該変換規則に当てはまる単語列に加えて、その前後の2単語も加えることを特徴とする請求項3に記載の言語モデル作成装置。
【請求項5】 コンピュータを使用して話しことばの言語モデルを作成するプログラムを記録した記録媒体であって、該プログラムはコンピュータに対し、入手可能な過去の原稿により第1のN−gram言語モデルを作成させ、最新の原稿に対して形態素解析を行わせ、前記形態素解析で出現するN個組単語(Nは正の整数)の第1の頻度情報を生成させ、前記形態素解析の結果に予め用意した変換規則を適用させて、話しことばや解説口調特有の言い回しを表す単語列を自動生成させ、該生成された単語列に出現するN個組単語の第2の頻度情報を生成させ、前記第1の頻度情報と、前記第2の頻度情報をマージしたものを基に、第2のN−gram言語モデルを作成させ、前記第1のN−gram言語モデルに対し、前記第2のN−gram言語モデルにより適応化したN−gram言語モデルを作成させることを特徴とする言語モデル作成プログラムを記録した記録媒体。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は、話しことばなどの音声認識や自然言語処理の技術分野に関し、特に書きことばで書かれた利用可能な原稿から話しことば特有の表現を含む単語列を自動生成し、自動生成した単語列を用いて話しことばを精度よく認識するための言語モデル作成装置および言語モデル作成プログラムを記録した記録媒体に関する。
【0002】
【従来の技術】NHK(日本放送協会)は平成12年度より、音声認識を利用した「ニュース7」の字幕放送を試行的に開始した。現在のところ、アナウンサーが原稿を読む部分に限って音声認識結果を人手で確認・修正して字幕を作成しているが、「ニュース解説」に該当する項目は、原稿通りに発話されないことが多いため、音声認識精度が低下し、確認・修正作業を困難にしている。
【0003】ここで、上記の「ニュース解説」とは、「ニュース7」の番組の中で、重要な項目や難解な項目を図表や模型などを用いて分かりやすく説明する箇所のことを指す。放送直前にアナウンサー自身が、記者が作成した原稿などを参考にして「読み原稿」を作成するが、実際の放送においてはこの読み原稿が一字一句忠実に読まれるケースは少ない。
【0004】このような場合に、電子化された話しことばの原稿や書き起こしを入手して、精度よい言語モデルを作成することができれば、上記のような音声認識の認識精度を向上させることができると考えられる。
【0005】
【発明が解決しようとする課題】しかしながら、一般に電子化された話しことばの原稿や書き起こしを入手することは困難であり、精度よい言語モデルを作成することが難しい。
【0006】本発明は、上述の点を鑑みてなされたもので、その目的は、書きことばで書かれた利用可能な原稿から話しことばや解説口調特有の言い回しを表わす単語列を自動生成し、自動生成した単語列を用いて話しことばや解説口調を精度よく認識することを図った言語モデル作成装置および言語モデル作成プログラムを記録した記録媒体を提供することにある。
【0007】
【課題を解決するための手段】上記目的を達成するため、請求項1の発明は、書きことばで書かれた原稿に対して書きことばを話しことばに変換するための変換規則を適用して話しことばの言語モデルを自動生成する手段を有することを特徴とする。
【0008】ここで、前記話しことばの言語モデルを自動生成する手段は、一定の長さの話しことば特有の言い回しを表わす単語列を生成し、生成された該単語列を言語モデルの学習に利用することを特徴とすることができる。
【0009】上記目的を達成するため、請求項3の発明は、入手可能な過去の原稿によりN−gram言語モデルを作成する第1の手段と、最新の原稿に対して形態素解析を行う第2の手段と、該第2の手段による前記形態素解析で出現するN個組単語(Nは正の整数)の頻度情報を生成する第3の手段と、前記第2の手段による前記形態素解析の結果に予め用意した変換規則を適用して、話しことばや解説口調特有の言い回しを表す単語列を自動生成する第4の手段と、該第4の手段で生成した単語列に出現するN個組単語の頻度情報を生成する第5の手段と、前記第3の手段で作成したN個組単語の頻度情報と、前記第5の手段で作成したN個組単語の頻度情報をマージしたものを基に、N−gram言語モデルを作成する第6の手段と、前記第1の手段で作成した前記N−gram言語モデルに対し、前記第6の手段で作成した前記N−gram言語モデルにより適応化したN−gram言語モデルを作成する第7の手段とを有することを特徴とする。
【0010】ここで、前記第4の手段における前記変換規則はテーブル化されており、トライグラム(trigram)に反映するため、前記自動生成される生成単語列には、該変換規則に当てはまる単語列に加えて、その前後の2単語も加えることを特徴とすることができる。
【0011】上記目的を達成するため、請求項5の発明は、コンピュータを使用して話しことばの言語モデルを作成するプログラムを記録した記録媒体であって、該プログラムはコンピュータに対し、入手可能な過去の原稿により第1のN−gram言語モデルを作成させ、最新の原稿に対して形態素解析を行わせ、前記形態素解析で出現するN個組単語(Nは正の整数)の第1の頻度情報を生成させ、前記形態素解析の結果に予め用意した変換規則を適用させて、話しことばや解説口調特有の言い回しを表す単語列を自動生成させ、該生成された単語列に出現するN個組単語の第2の頻度情報を生成させ、前記第1の頻度情報と、前記第2の頻度情報をマージしたものを基に、第2のN−gram言語モデルを作成させ、前記第1のN−gram言語モデルに対し、前記第2のN−gram言語モデルにより適応化したN−gram言語モデルを作成させることを特徴とする。
【0012】(作用)本発明は、上記構成により、電子化された書きことばの原稿から話しことば口調に変換し、変換したこの話しことば口調を言語モデル学習に利用することによって話しことばの音声認識や自然言語処理の処理精度を向上させる。具体的には、書きことばで書かれた原稿から、規則を適用して話しことば特有の表現を含む単語列を自動生成する。また、この自動生成単語列を利用して作成した言語モデルにより、話しことばの認識精度を向上させる。
【0013】
【発明の実施の形態】以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0014】図1は本発明の一実施形態における言語モデルの作成の工程(処理手順)を示すフローチャートである。
【0015】以下に、図1を参照し、放送ニュース番組中の解説口調を認識させる場合を例にとって、本発明を具体的に説明する。なお、本実施形態で実際に使用したコンピュータ資源は、UNIX(商標)のOSを搭載したワークステーションであるが、他のOSを搭載したワークステーション、あるいはパーソナルコンピュータ等の他のコンピュータシステムでも適用可能である。これらコンピュータシステムの構成は周知技術であり、また本発明の直接対象とするものではないので、その詳細説明は省略する。
【0016】(i)まず、放送前までに入稿した過去のすべての記者原稿(長期間ニュース原稿)によりN−gram言語モデル1を作成しておく。(N−gram言語モデル、後述のトライグラム(trigram)については、中川聖一著「確率モデルによる音声認識」電子情報通信学会、pp.109−pp.119,コロナ社、昭和63年7月1日初版を参照)。
【0017】(ii)次に、放送直前までに入稿した最新の記者原稿(最新ニュース原稿)2に対して形態素解析を行い(工程3)、出現するN個組単語の頻度情報を生成する(工程4)。
【0018】(iii) (ii)の形態素解析結果に変換規則を適用して、話しことば特有にみられる単語列を自動生成する(工程6)。この変換規則は、書きことばを話しことばに変換する規則を定めたものであらかじめテーブル化(変換規則テーブル5)しておく。
【0019】以下に変換規則テーブル5の変換規則の適用例を示す。なお、トライグラム(trigram:三つ組モデル)の言語モデルに反映するため、生成単語列には、規則に当てはまる単語列(以下の下線部)に加えて、その前後の2単語も加える。そして、この生成単語列に出現するN個組単語の頻度情報を生成する(工程7)。
[ルール例1]
[連用形|テ形]、→[連用形]まして(記者原稿)きょう 開かれ、今後 月 に 二回(生成単語列)開かれ まして 今後 月[ルール例2]
[連用形]ました→[タ形]んです(ね)
(記者原稿)まとめる こと を 確認 ました(/s)
(生成単語列)を 確認 した んです(/s)を 確認 した んです (/s)
[ルール例3]
[連用形]ますが → [基本形]んです[が|けれども]
(記者原稿)に 達して ます 、店頭 で の(生成単語列)に 達して いる んです 店頭 でに 達して いる んです けれども 店頭 で【0020】(iv)(ii)で作成したN個組単語の頻度情報と、(iii) で作成したN個組単語の頻度情報をマージしたものを基に、N−gram言語モデルを作成する(工程8)。
【0021】(v)(i)で作成した言語モデル1に対し、(iv)で作成した言語モデルにより適応化した言語モデルを作成する(工程9)。
【0022】
【実施例】図1の工程による本発明を適用した実施例によれば、解説口調の書き起こしテキストをテストセットに用いた場合、そのテストセットパープレキシティーが削減され、トライグラムのヒット率が向上した。すなわち、解説口調の音声について認識実験を行ったところ、82.5%の従来技術での認識率が本発明の適用により84.9%に向上した。また、解説口調以外の音声の認識精度に悪影響を及ぼさなかった。
【0023】その詳細は以下の通りである。
【0024】テストセットには、2000年3月27日から2000年4月28日の期間に「NHKニュース7」で放送されたすべてのニュース解説項目の音声を利用した。この音声に対応する書き起こしは、121文、2512単語である。なお、認識実験は、このテストセットを以下のAとBに分類して実行した。
【0025】A:解説口調の言語的特徴を含むテストセット52文、1288単語B:解決口調の言語的特徴を含まないテストセット69文、1224単語【0026】この認識実験の結果を表1に示す。表1中のLM−newは、本発明により生成した言語モデルを、LM−baseは、本発明を適用しない従来法による言語モデルを表している。表1から分かるように、テストセットAにおいて単語正解精度が2.4%改善した。また、テストセットBの単語正解精度には変化がなかった。両者のトータルでみると1.1%の認識率改善であった。
【0027】
【表1】

【0028】次に、2000年3月28日の「ニュース7]で放送された解説項目を除くアナウンサーが原稿を読んだ部分のすべて(57文2290単語)をテストセットとした認識実験を行った。この結果、言語モデルがLM−new、LM−baseのいずれであっても、単語正解精度は変わらず98.7%あった。言語モデルとしてLM−newを利用することによるニュース番組全体の認識率への悪影響はみられなかった。
【0029】(他の実施の形態)本発明の目的は、前述した実施の形態の機能を実現するソフトウエアのプログラムコードを記録した記録媒体(記憶媒体)を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し、実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施の形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。そのプログラムコードを記録し、またテーブル等の変数データを記録する記録媒体としては、例えばフロッピディスク(FD)、ハードディスク、光ディスク、光磁気ディスクなどを用いことができる。
【0030】
【発明の効果】以上説明したように、本発明によれば、書きことばで書かれた利用可能な原稿から、規則を適用して、話しことばや解説口調特有の言い回しを表わす単語列を自動生成し、この自動生成した単語列を言語モデルの学習データに加えるようにしたので、話しことばや解説口調を精度よく認識でき、話しことばの音声認識や自然言語処理の処理精度を向上させることができる。
【出願人】 【識別番号】000004352
【氏名又は名称】日本放送協会
【出願日】 平成12年9月14日(2000.9.14)
【代理人】 【識別番号】100077481
【弁理士】
【氏名又は名称】谷 義一 (外2名)
【公開番号】 特開2002−91967(P2002−91967A)
【公開日】 平成14年3月29日(2002.3.29)
【出願番号】 特願2000−280301(P2000−280301)