Warning: copy(htaccessbak): failed to open stream: No such file or directory in /home/jtokkyo/public_html/header.php on line 10
言語モデル作成装置およびそれにより作成された言語モデルを使用する言語処理装置 - 特開2007−4633 | j-tokkyo
トップ :: G 物理学 :: G06 計算;計数

【発明の名称】 言語モデル作成装置およびそれにより作成された言語モデルを使用する言語処理装置
【発明者】 【氏名】鹿子木 宏明

【氏名】関 美由紀

【氏名】佐藤 良治

【要約】 【課題】かな漢字変換候補のヒット率を向上させる。

【解決手段】かな漢字変換処理で使用する言語モデルの記載内容に読みの要素を加える。より具体的には言語モデルを作成する際に同一の表記および読みを有する複数の単語の出現頻度をコーパスの中で計数し、少なくとも、その計数結果から得られる出現確率を格納するフィールドと対応の単語の読みを格納するフィールドおよび対応する表記を格納するフィールドとで言語モデルを構成する。
【特許請求の範囲】
【請求項1】
複数の自然語の文が表記の文字の形態で記載されたコーパスを入力する入力手段と、
当該入力されたコーパスの中の文に対して単語単位で読みを付加する付加手段と、
当該付加された読みおよび対応する表記の前記コーパス中の出現個数を計数することにより該読みおよび対応する表記の出現確率を計算する計算手段と、
当該計算手段により計算された出現確率、対応する読みおよび対応する表記を言語モデルとして記憶する記憶手段と
を備えたことを特徴とする言語モデル作成装置。
【請求項2】
請求項1に記載の言語モデル作成装置において、前記記憶手段に記憶された言語モデルを出力する出力手段をさらに備えたことを特徴とする言語モデル作成装置。
【請求項3】
請求項1または2に記載の言語モデル作成装置において、前記入力手段から入力されたコーパスを表示する表示手段をさらに有することを特徴とする言語モデル作成装置。
【請求項4】
請求項1〜3のいずれかに記載の言語モデル作成装置において、前記付加手段は単語の読みと表記を記載した単語辞書を有し、前記付加手段は該単語辞書から、付加すべき読みを取得することを特徴とする言語モデル作成装置。
【請求項5】
請求項4に記載の言語モデル作成装置において、前記単語辞書から取得され、単語の表記に付加された読みを修正する修正手段をさらに備えたことを特徴とする言語モデル作成装置。
【請求項6】
請求項1〜5のいずれかに記載に言語モデル作成装置において、前記付加された読みおよび対応する表記のストリームを表示する表示手段をさらに備えたことを特徴とする言語モデル作成装置。
【請求項7】
入力手段と、付加手段と、計算手段と、記憶手段とを有する言語モデル作成装置の言語モデル作成方法であって、
前記入力手段から複数の自然語の文が表記の文字の形態で記載されたコーパスを入力する入力ステップと、
当該入力されたコーパスの中の文に対して単語単位で読みを前記付加手段により付加する付加ステップと、
当該付加された読みおよび対応する表記の前記コーパス中の出現個数を計数することにより該読みおよび対応する表記の出現確率を前記計算手段により計算する計算ステップと、
当該計算手段により計算された出現確率、対応する読みおよび対応する表記を言語モデルとして前記記憶手段に記憶する記憶ステップと
を備えたことを特徴とする言語モデル作成装置の言語モデル作成方法。
【請求項8】
請求項7に記載の言語モデル作成装置の言語モデル作成方法において、前記言語作成装置は出力手段をさらに有し、前記記憶手段に記憶された言語モデルを前記出力手段により出力する出力ステップをさらに備えたことを特徴とする言語モデル作成装置の言語モデル作成方法。
【請求項9】
請求項7または8に記載の言語モデル作成装置の言語モデル作成方法において、前記言語作成装置は表示手段をさらに有し、前記入力手段から入力されたコーパスを前記表示手段により表示する表示ステップをさらに有することを特徴とする言語モデル作成装置の言語モデル作成方法。
【請求項10】
請求項7〜9のいずれかに記載の言語モデル作成装置の言語モデル作成方法において、前記付加手段は単語の読みと表記を記載した単語辞書を有し、前記付加により該単語辞書から、付加すべき読みを取得するステップをさらに備えたことを特徴とする言語モデル作成装置の言語モデル作成方法。
【請求項11】
請求項10に記載の言語モデル作成装置の言語モデル作成方法において、前記言語作成装置は修正手段をさらに有し、前記単語辞書から取得され、単語の表記に付加された読みを前記修正手段により修正する修正ステップをさらに備えたことを特徴とする言語モデル作成装置の言語モデル作成方法。
【請求項12】
請求項7〜11のいずれかに記載に言語モデル作成装置の言語モデル作成方法において、前記付加された読みおよび対応する表記のストリームを前記表示手段により表示する表示ステップをさらに備えたことを特徴とする言語モデル作成装置の言語モデル作成方法。
【請求項13】
入力手段と、付加手段と、計算手段と、記憶手段とを有する言語モデル作成装置のためのプログラムであって、
前記入力手段から複数の自然語の文が表記の文字の形態で記載されたコーパスを入力する入力ステップと、
当該入力されたコーパスの中の文に対して単語単位で読みを前記付加手段により付加する付加ステップと、
当該付加された読みおよび対応する表記の前記コーパス中の出現個数を計数することにより該読みおよび対応する表記の出現確率を前記計算手段により計算する計算ステップと、
当該計算手段により計算された出現確率、対応する読みおよび対応する表記を言語モデルとして前記記憶手段に記憶する記憶ステップと
を備えたことを特徴とする言語モデル作成装置のためのプログラム。
【請求項14】
請求項13に記載の言語モデル作成装置のためのプログラムにおいて、前記言語作成装置は出力手段をさらに有し、前記記憶手段に記憶された言語モデルを前記出力手段により出力する出力ステップをさらに備えたことを特徴とする言語モデル作成装置のためのプログラム。
【請求項15】
請求項13または14に記載の言語モデル作成装置のためのプログラムにおいて、前記言語作成装置は表示手段をさらに有し、前記入力手段から入力されたコーパスを前記表示手段により表示する表示ステップをさらに有することを特徴とする言語モデル作成装置のためのプログラム。
【請求項16】
請求項13〜15のいずれかに記載の言語モデル作成装置のためのプログラムにおいて、前記付加手段は単語の読みと表記を記載した単語辞書を有し、前記付加手段により該単語辞書から、付加すべき読みを取得するステップをさらに備えたことを特徴とする言語モデル作成装置のためのプログラム。
【請求項17】
請求項16に記載の言語モデル作成装置のためのプログラムにおいて、前記言語作成装置は修正手段をさらに有し、前記単語辞書から取得され、単語の表記に付加された読みを前記修正手段により修正する修正ステップをさらに備えたことを特徴とする言語モデル作成装置のためのプログラム。
【請求項18】
請求項13〜17のいずれかに記載に言語モデル作成装置のためのプログラムにおいて、前記付加された読みおよび対応する表記のストリームを前記表示手段により表示する表示ステップをさらに備えたことを特徴とする言語モデル作成装置のためのプログラム。
【請求項19】
請求項1に記載の言語モデル作成装置により作成された言語モデルを使用して、入力の読みを、対応する表記に変換する言語処理装置であって、
前記言語モデルを記憶する記憶手段と、
前記記憶手段に記憶された言語モデルの出現確率に応じて、読みから変換すべき変換候補の順位付けを行なう情報処理手段と
を備えたことを特徴とする言語処理装置。
【請求項20】
記憶手段および情報処理手段を有し、請求項1に記載の言語モデル作成装置により作成された言語モデルを使用して、入力の読みを、対応する表記に変換する言語処理装置のための言語処理方法であって、
前記言語モデルを前記記憶手段に記憶する記憶ステップと、
前記記憶手段に記憶された言語モデルの出現確率に応じて、読みから変換すべき変換候補の順位付けを前記情報処理手段により行なう情報処理ステップと
を備えたことを特徴とする言語処理装置のための言語処理方法。
【請求項21】
記憶手段および情報処理手段を有し、請求項1に記載の言語モデル作成装置により作成された言語モデルを使用して、入力の読みを、対応する表記に変換する言語処理装置のためのプログラムであって、
前記言語モデルを前記記憶手段に記憶する記憶ステップと、
前記記憶手段に記憶された言語モデルの出現確率に応じて、読みから変換すべき変換候補の順位付けを前記情報処理手段により行なう情報処理ステップと
を備えたことを特徴とする言語処理装置のためのプログラム。
【発明の詳細な説明】【技術分野】
【0001】
本発明は、読みをその表記に変換する言語処理装置で使用される言語モデルを作成する言語モデル作成装置およびそれにより作成された言語モデルを使用する言語処理装置などに関する。
【背景技術】
【0002】
従来、読みをその表記に変換する処理は、一般的にはかな漢字変換と呼ばれている。日本語や中国語などのように、言語処理装置に対して文字を入力する場合、読みを示す文字列をキーボードから入力し、言語処理装置において、入力された読み(表音文字、いわゆるかな文字)の文字列をその表記を表す文字列(表意文字、いわゆる漢字)に変換した後、変換された文字列をアプリケーションプログラム、例えば、ワープロソフトに引き渡す。
【0003】
この際に、読みに対して、複数の変換候補、いわゆる同音異義語が存在する場合、言語処理装置は複数の変換候補あるいは最優先の変換候補を表示画面に表示してユーザの選択を受け付ける。同音異義語の優先順位を付ける場合に言語モデルを使用する言語処理方法が知られている(特許文献1参照)。
【0004】
従来の言語モデルの構成を図1に示す。
図1に示す言語モデル100はトライグラム(3つの連続する単語の組み合わせ)の例を示す
【0005】
図1において、101は第1番目の単語のフィールド(格納欄)で表記の文字列の形態で格納される。102は第1番目の単語に引き続いて使用される単語のフィールドで表記の文字列の形態で記憶される。103は第2番目の単語に引きついて使用される単語のフィールドであり、表記の文字列の形態で格納される。104はこれら3つの単語が存在する確率の値を格納するフィールドである。
【0006】
新聞や雑誌に記載されている多数の文に基づいて3つの連続する単語の同一の組み合わせの出現個数が計数されて、確率の値があらかじめ決められる。
【0007】
このような言語モデル100を使用して、同音異義語の順位付けを次に説明する。
図2(a)に示すように、ユーザがキーボードから「にほんはうつくしいくにです」と読みの文字列を入力し、第1番目の表記として「日本」を確定し、第2番目の表記として「は」を確定したとする。第3番目の表記を確定する前に情報処理装置は最初に「うつくしい」に相当する変換候補「美しい」、「うつくしい」、「ウツクシイ」、「倩」などの変換候補を漢字辞書から取得する。漢字辞書は単語辞書とも呼ばれ、読みと表記を記載した辞書である。
【0008】
次に情報処理装置は図2(b)に示すように第1番目および第2番目の表記の文字列の単語と第3番目の変換候補の表記の文字列の単語を組み合わせ、その組み合わせに対応する確率を図1の言語モデルから取得する。取得した確率の順に優先順位が決められる。
【0009】
上述の例はトライグラムの言語モデルを使用する変換例であるが、実際には、バイグラム(2つの単語の組み合わせ)の言語モデルと併用される。
【0010】
【特許文献1】特開平2002−117025
【発明の開示】
【発明が解決しようとする課題】
【0011】
上述したように言語モデルはn(2以上の整数)個の表記の組み合わせとその組み合わせの出現の確率で少なくとも構成されるので、読みのつながりを配慮していない。
【0012】
たとえば、「むだ」と入力した場合のかな漢字変換処理についての問題を説明する。
「夢」は「ゆめ」、「む」という読みを持つ。
読み「む」に対応する表記を有する単語しては以下のものがある。
夢 だ
白日 夢
無駄
夢 だ
【0013】
従来技術は、表記だけでとらえる。従って、仮に上記単語に読みをあてた場合、以下のいずれも許容して、従来の言語モデルでは同じ出現確率としてしまう。
夢(ゆめ) だ
夢(む) だ
【0014】
従来の言語モデルでは、上記の場合出現確率がP(夢)=3/7, P(だ|夢)=2/3, P(だ)=2/7, P(白日)=1/7, P(夢|白日)=1, P(無駄)=1/7 となる。
【0015】
したがって「むだ」という読みを入力として与えられた場合、かな漢字変換処理では漢字(単語)辞書を引いて、「無駄」「夢」「だ」を得る。
【0016】
次いで言語モデルを検索し、出現確率P(無駄)=1/7, P(夢)*P(だ|夢)=3/7*2/3=9/21を得る。その結果、「むだ」の読みに対して「夢だ」を変換結果として返してしまう。ユーザが「無駄」への変換を希望している場合、これはエラーである。
【0017】
そこで、本発明の目的は、上述の点に鑑みて、読みから表記への変換効率(ヒット率)を向上させる言語モデル作成装置およびそれにより作成された言語モデルを使用する言語処理装置、ならびに関連の方法およびプログラムを提供することにある。
【課題を解決するための手段】
【0018】
このような目的を達成するために、本発明は、複数の自然語の文が表記の文字の形態で記載されたコーパスを入力する入力手段と、当該入力されたコーパスの中の文に対して単語単位で読みを付加する付加手段と、当該付加された読みおよび対応する表記の前記コーパス中の出現個数を計数することにより該読みおよび対応する表記の出現確率を計算する計算手段と、当該計算手段により計算された出現確率、対応する読みおよび対応する表記を言語モデルとして記憶する記憶手段とを備えたことを特徴とする。
【0019】
本発明は、さらに、請求項1に記載の言語モデル作成装置により作成された言語モデルを使用して、入力の読みを、対応する表記に変換する言語処理装置であって、前記言語モデルを記憶する記憶手段と、前記記憶手段に記憶された言語モデルの出現確率に応じて、読みから変換すべき変換候補の順位付けを行なう情報処理手段とを備えたことを特徴とする。
【発明の効果】
【0020】
本発明によれば、従来の言語モデルの構成に単語の読みのつながりが単語の出現確率の値の中に加味されているので、表記のつながりの出現確率だけを使用する従来の言語モデルよりも出現確率の精度が向上する。
【0021】
さらに本発明のモデルを使用することにより、読みから表記の際に行なう変換候補の順位付けの精度(ヒット率)も向上する。
【0022】
具体例を挙げると、表記に読みを付加し、コーパスを以下の状態にする。
夢・ゆめ だ・だ
白日・はくじつ 夢・む
無駄・むだ
夢・ゆめ だ・だ
【0023】
表記および読みの対の出現確率は、 P(夢・ゆめ)=2/7, P(だ・だ|夢・ゆめ)=1, P(だ,だ)=1/7, P(白日・はくじつ)=1/7, P(夢・む|白日・はくじつ)=1, P(夢・む)=1/7, P(無駄・むだ)=1/7. となる。
【0024】
このため、入力として「むだ」を与えられた場合、かな漢字変換処理では漢字辞書を引き、「無駄・むだ」、「夢・む」、「だ・だ」を得る。次に、言語モデルを検索し、P(だ・だ|夢・む)という確率が存在しないので出現確率を0とし、さらに出現確率P(無駄・むだ)=1/7, P(夢・む)*P(だ・だ|夢・む)=1/7*0=0 を得る。「無駄・むだ」の方が(夢・む)(だ・だ)よりも出現確率が高いので、かな漢字変換処理では、そこで、出現確率の高い方の「無駄」を変換結果の候補として高い順位を与える。
【発明を実施するための最良の形態】
【0025】
以下、図面を参照して本発明の実施形態を詳細に説明する。
【0026】
最初に本発明に係わる言語モデルの構成を図3を参照して説明する。図3において、300は言語モデルである。310は第1の単語のためのフィールドで有り、単語の表記のためのサブフィールド311およびその単語の読みのためのサブフィールド312を有する。320は第第1の単語に隣接して接続して使用される2の単語のためのフィールドで有り、単語の表記のためのサブフィールド321およびその単語の読みのためのサブフィールド322を有する。
【0027】
330は第2の単語に隣接して接続して使用される3の単語のためのフィールドで有り、単語の表記のためのサブフィールド331およびその単語の読みのためのサブフィールド332を有する。
【0028】
一例を挙げると「日本」「は」「美しい」という3つの連続する単語に対して、
「日本」という第1番目の単語の表記がサブフィールド311に格納され、その読み「にほん」がサブフィールド312に格納される。第2番目の単語の表記「は」はサブフィールド321に格納され、その読み「は」がサブフィールド322に格納される。第3番目の単語の表記「美しい」はサブフィールド331に格納され、その読み「うつくしい」がサブフィールド332に格納される。
【0029】
なお、「日本」にはべつの読みとして「にっぽん」があるが、このように1つの単語の表記に対して複数の読みがある場合には、その読みを使用して、別のレコードを格納すればよい。
【0030】
この例では「日本、にほん、は、は、美しい、うつくしい」が1つのレコードであり、さらに、「日本、にっぽん、は、は、美しい、うつくしい」という別のレコードが言語モデルに格納される。
【0031】
340は上述した3つの単語の表記および読みの組み合わせが出現する確率(出現確率)の値を格納するフィールドである。
【0032】
以上が言語モデル300の必要最小限のデータ構成であるが、その他、複数の単語の組み合わせの分野を示す属性値などを言語モデル300に格納してもよい。
【0033】
図3に示す言語モデルを作成するための言語モデル作成装置を図4に示す。言語モデル作成装置としては市販されているパーソナルコンピュータを使用することができるので説明は簡単にとどめる。
【0034】
図4において、401は言語モデルを作成するための情報処理を実行するCPU401である。402にはディスプレイであり、言語モデル作成に係わる表示を行なう。403はシステムメモリであり、CPU401が実行する言語モデル作成プログラム、そのプログラムの実行に必要なデータを記憶する。システムメモリ403に加えて、ハードディスク記憶装置を併用してもよい。404は第1の入力装置であり、コーパスの入力を行なう。第1の入力装置404としては、コーパスを文字の形態で入力するキーボード、コーパスを電子データの形態でフロッピー(登録商標)ディスク、CDROMなどから入力するディスクドライブ(ディスク読取装置)、インターネットなどを介して外部のコンピュータから入力するモデムなどの通信装置およびその他のいずれかを使用することができる。本実施形態では、コーパスとは新聞、雑誌など複数の文章、すなわち、自然言語の複数の単語の表記が記載された文書を総称する用語を意味する。
【0035】
405は第2の入力装置であり、CPU401に対する指示などを入力する。第2の入力装置405としてはキーボードおよびマウスなどのポインティングデバイスを使用することができる。
【0036】
406は言語モデルを出力するための出力装置であり、出力装置406としては、フロッピー(登録商標)ディスク、CDROMに書き込むディスク書き込み装置、モデムなどの通信装置、プリンタなどを種々の出力装置を使用することができる。
【0037】
このようなシステム構成の言語モデル作成装置で実行される言語モデル作成処理を図5を参照して説明する。図5はCPU401が実行する言語モデル作成プログラムの内容を示す。
【0038】
言語モデル作成プログラムは、不図示のハードディスク装置からシステムメモリ403にロードされた後、CPU401により実行される。
【0039】
最初に第1の入力装置404からコーパスを入力する。一例としては、CPU401の制御でテキストファイルの形態で新聞記事が格納されたCDROMから新聞記事を第1の入力装置404により読み取り、システムメモリ403内の作業領域に格納する。次に、CPU401は格納されたテキストファイルをイメージに変換してディスプレイ402によりディスプレイ402の表示画面503に図6に示すように表示させる(S401)。ユーザはマウス(第2の入力装置405)を使用して作成ボタン501を操作するとCPU401は、システムメモリ403の作業領域に格納されている新聞記事(コーパス)の中の文(複数の単語の表記のつながり)を単語単位で区切る(S402)。単語を区切る方法は従来の言語モデル作成方法と同じ方法を使用することができ、また、その方法は良く知られているので、ここでは詳細な説明を省略する。続いて、CPU401は区切られた単語の表記の各々に読みを付加する。読みの付加の方法には
(1)キーボードを利用して読みを入力する。
(2)漢字辞書(表記とその読みを記載した辞書)を参照して、表記に対応する読みをCPU401により取得する。
などの方法を採用することができる。本実施形態は(2)の例を説明する。
【0040】
このようにし各単語に対する読みをCPU401が取得すると、システムメモリ403の作業領域中で、単語の表記とその読みを1組のデータとしたストリーム(複数のデータのつながり)を作成する(S403)。CPU401は図7に示すように表画面の左画面601に入力した新聞記事を表示させ、右画面602には、作成したストリームを表示させる。
【0041】
ユーザは自動的に付加された読みについて、修正すべき箇所をキーボード等により修正する。ユーザの修正に応じてCPU401はシステムメモリ403の作業領域中のストリームの中の該当箇所を修正する。最後にユーザがOKボタン502をマウスで操作するとCPU401は修正後のストリームに基づいて言語モデルを作成する。
【0042】
一例としては、システムメモリ403の作業領域中のストリームの中の先頭から3つの連続する表記および読みの対を順次に取り出す。ただし、先頭の単語については2つの仮想単語の表記および読みを与える。2番目の単語については1つの仮想単語の表記および読みを与える。この表記を「@」で表すとする。図7のストリームの例では、CPU401は
(1)3つの単語の組み合わせは、先頭の単語(日本/にほん)については(@/@)、(@/@)、(日本/にほん)となる。
(2)2番目の単語については、(@/@)、(日本/にほん)、(は/は)となる。
(3)3番目の単語については、(日本/にほん)、(は/は)、(美しい/うつくしい)となる。
(4)以下、ターゲットとする単語の表記および読みの対を3番目の単語位置に配置し、それ以前に隣接する単語の表記および読みの対を第1番目および第2番目の単語位置に配置した3つの単語の組み合わせをシステムメモリ403の作業領域上で作成する(S404)。
【0043】
CPU401は3つの単語の組み合わせを1組作成すると、ストリーム中を検索し、同じ組み合わせの出現個数を計数する(S405)。計数が終了すると、システムメモリ403中の言語モデル(図1参照)に、今回使用した3つの単語(表記および読み)および計数結果(出現確率)を対応するフィールドに書き込む(S406)。なお、計数結果の値の変わりに計数結果/ストリーム中の全単語数などを出現確率として使用してもよい。
【0044】
以下、ターゲットする単語を移動させながら3つの連続する単語(表記および表記)を順次に選択して上述と同様の処理を繰り返す(S404〜S407のループ処理)。
【0045】
ターゲットとする単語がストリーム中の最後の単語まで移動したときに図5の処理手順が終了する。ターゲットとなる単語を有する3つの単語の組み合わせの重複的な計数を避けるためには、計数に先立って、言語モデルの中に、これから計数しようとする3つの単語がすでに登録されているか、言語モデルを参照すればよい。登録されている場合には、計数を行なわずターゲットの単語を移動させる。
【0046】
上述のようにしてシステムメモリ403中で作成された言語モデルは出力装置406により、CDROMなどの携帯用記録媒体に出力したり、通信回線を使用して他の情報処理装置に出力すればよい。上述の実施形態ではトライグラム(つの単語の組み合わせ)の言語モデルを作成する例を説明したが、バイグラム(2つの単語の組み合わせ)の場合には、図1の言語モデル中の単語のフィールドが3つから2つに変わることは当業者であれば容易に理解しえよう。各単語のフィールドが読みと表記のサブフィールドを有することは言うまでもない。また、コーパスから取り出す単語が3つから2つに変わることも同様に理解しえよう。
【0047】
次に言語モデル作成装置により作成された言語モデルを使用してかな漢字変換(読みから表記へ変換する)処理を説明する。
【0048】
この処理を行う言語処理装置としては市販のパーソナルコンピュータ、携帯電話、サーバなどを使用することができるので、詳細な説明を省略する。なお、システム構成については図4を参照されたい。
【0049】
言語処理装置のハードディスクに対して上述の言語モデル作成装置により作成され、CDROM等に出力された本発明に係わる言語モデル(図3)が格納されているものとする。このための処理は、たとえば、かな漢字変換プログラムをCDROMからインストールする際に、言語モデルもCPU401によりハードディスクに記憶すればよい。CPU401はキーボード(第2の入力装置405)から表記へ変換すべき読み(たとえば、図9の(a)の読みの入力を受け付ける(S701)。「にほんは」の読みに対して「日本は」が確定されたものとすると、CPU401は、次に、読み「うつくしい」に対応する変換候補の表記「美しい」、「うつくしい」、「ウツクシイ」を単語辞書から取得する。次に、確定済の2つの単語の表記および各変換候補の表記および読みを組み合わせる、この例では、(日本/にほん)と(は/は)と変換候補の表記と読み(美しい/うつくしい)の組み合わせ、(日本/にほん)と(は/は)と変換候補の表記と読み(うつくしい/うつくしい)組み合わせ、(日本/にほん)と(は/は)と変換候補の表記と読み(ウツクシイ/うつくしい)の組み合わせがCPU401により作成される(S703)。CPU401は各組み合わせに対応する出現確率を言語モデルの検索により取得する(S704)。
【0050】
最後にCPU401は出現確率の値の大きさの順位にしたがって、変換候補「美しい」、「うつくしい」、「ウツクシイ」等の順位付けを行なう(S706)。この例では最高位の「美しい」が初期的に変換候補として表示される(S707)。
【0051】
以上の述べた変換候補の順位付け処理と従来のかな漢字変換時の順位付け処理の相違点をここで、説明しておく。
【0052】
従来の順位付けは、変換後の表記のみを組み合わせて言語モデルから出現確率を取り出す。これに対して、本実施形態では表記およびその読みを有する3つの単語を組み合わせ、その組み合わせに対応する出現確率を言語モデルから取り出す点が従来と相違する。
【0053】
このように、本実施形態では、たとえば、3つの単語の表記が一致し、および3つの単語の読みが一致するような変換候補(表記)を言語モデルから探すので、ヒット率が高くなることは理解されよう。
【0054】
(第2の実施形態)
コーパスに記載された単語の表記に読みを付加する方法として、表を使用することができる。表はシステムメモリ403上に設ける。
【0055】
第1の入力装置404からコーパスが入力されると、CPU401により、コーパスかに記載された単語を記載順に取り出して図10に示すように表記記載欄1001に格納していく。次に、表記記載欄1001に対応する読みをCPU401により、単語辞書から取得して読みの記載欄1002に格納する。全ての単語をコーパスから抽出し、読みを付加した後、ディスプレイに図10の表を表示してユーザのキーボードによる修正を受け付ける。修正の後、3つの単語(表記および読みの)を組み合わせて、出現頻度を計算する処理は上述と同様である。
【0056】
上述の実施形態の他に次の形態を実施できる。
1)上述の実施形態では、言語モデル作成装置はかな漢字変換プログラム製造会社側に設置する例であったが、かな漢字変換プログラムに言語モデル作成プログラムを付加し、ユーザサイドで言語モデルを作成してもよい。
2)さらに、サーバに本発明に係わる分野ごとの言語モデルを用意し、サーバにアクセスしてくるパソコンに言語モデルを搭載するようにしてもよいこと勿論である。
【0057】
上述の他にも種々の改良形態が存在するが、その改良形態が本発明の技術思想に基づくものである限り、その改良形態は本発明の技術範囲内に属する。
【図面の簡単な説明】
【0058】
【図1】従来の言語モデルの構成の一例を示す説明図である。
【図2】かな漢字変換処理を説明するための説明図である。
【図3】本発明実施形態の言語モデルの構成の一例を示す説明図である。
【図4】本発明実施形態のシステム構成を示すブロック図である。
【図5】本発明実施形態の言語モデルの作成手順を示すフローチャートである。
【図6】言語モデル作成途中の表示画面の内容を示す説明図である。
【図7】言語モデル作成途中の表示画面の内容を示す説明図である。
【図8】本発明実施形態の言語モデルを使用したかな漢字変換処理を示すフローチャートである。
【図9】本発明実施形態のかな漢字処理の内容を説明するための説明図である。
【図10】第2の実施形態の言語モデル作成方法を説明するための説明図である。
【符号の説明】
【0059】
401 CPU
402 ディスプレイ
403 システムメモリ
404 第1の入力装置
405 第2の入力装置
406 出力装置
【出願人】 【識別番号】500046438
【氏名又は名称】マイクロソフト コーポレーション
【出願日】 平成17年6月24日(2005.6.24)
【代理人】 【識別番号】100077481
【弁理士】
【氏名又は名称】谷 義一

【識別番号】100088915
【弁理士】
【氏名又は名称】阿部 和夫


【公開番号】 特開2007−4633(P2007−4633A)
【公開日】 平成19年1月11日(2007.1.11)
【出願番号】 特願2005−185764(P2005−185764)