| 【発明の名称】 |
対訳辞書データ抽出方法及び記録媒体 |
| 【発明者】 |
【氏名】熊野 明
【氏名】平川 秀樹
|
| 【要約】 |
【課題】本発明の目的は、既存の辞書に存在していないデータも利用し、かつ、第一言語の用語と第二言語の用語の部分的な照合であっても対訳辞書データとして抽出することのできる環境をユーザに提供することである。
【解決手段】第一言語の文書から一定の種類の用語を抽出する第一言語用語抽出方法と、第二言語の文書から一定の種類の用語を抽出する第二言語用語抽出方法と、上記第一言語の用語と上記第二言語の用語を発音の類似性を基に照合する用語照合方法と、上記照合した用語の対を、出力する対訳出力方法を備えることで実現する。 |
【特許請求の範囲】
【請求項1】第一言語および第二言語各々の文書から所定の種類の用語を抽出し、前記第一言語および第二言語の用語を発音の類似性を基に照合し、照合した用語の対を出力することを特徴とする対訳辞書データ抽出方法。 【請求項2】第一言語および第二言語各々の文書から所定の種類の用語を抽出し、前記第一言語および第二言語の用語を発音の類似性を基に照合し、照合した用語の対を関連付けて記憶することを特徴とする対訳辞書データ抽出方法。 【請求項3】第一言語および第二言語各々の文書から所定の種類の用語を抽出し、前記第一言語の表記を第二言語に合わせて変換し、変換された用語と第二言語の用語とを所定の類似性を基に照合し、照合した用語の対を出力することを特徴とする対訳辞書データ抽出方法。 【請求項4】第一言語が日本語で、第二言語が英語の場合、前記第一言語の表記をローマ字の表記に変換するか、あるいは前記第二言語の表記をローマ字読みのカタカナ表記に変換することを特徴とする請求項3記載の対訳辞書データ抽出方法。 【請求項5】類似性に基づく用語の照合は、第一言語及び第二言語の用語の部分的な照合に基づくことを特徴とする請求項1乃至請求項3記載の対訳辞書データ抽出方法。 【請求項6】入力される第一言語および第二言語各々の文書から所定の種類の用語を抽出する機能と、抽出された前記第一言語および第二言語の用語を発音の類似性を基に照合する機能とを記録することを特徴とする記録媒体。 【請求項7】入力される第一言語および第二言語各々の文書から所定の種類の用語を抽出する機能と、抽出した前記第一言語の表記を第二言語に合わせて変換する機能と、変換された前記第一言語の用語と第二言語の用語を発音の類似性を基に照合する機能とを記録することを特徴とする記録媒体。
|
【発明の詳細な説明】【0001】 【発明の属する技術の分野】本発明は、英語のニュース記事と、日本語のニュース記事から、新たな用語の対応関係を抽出して、新たな辞書登録を促すための、対訳辞書データ抽出方法に関する。 【0002】 【従来の技術】英語の文書と、それに対応する日本語の文書から、用語の対応関係を抽出して、新たな用語辞書知識として利用する技術は、最近盛んになってきた。しかし、これらの多くは、英語と日本語の文単位の対応が明確な場合に限定されるものであった。ところが、実際に存在する文書(インターネット上のニュース記事など)では直訳とは限らず、文単位の対応が付く場合はまれてある。また、対応関係の根拠となるデータとしては、既存の辞書知識に存在するものを利用していたが、新しい文書では既存の辞書に存在しない新語が多く含まれており、対応の根拠として利用できなかった。 【0003】 【発明が解決しようとする課題】このように、従来の技術では、実際の多くの文書に対して十分な処理ができなかった。本発明はこのような課題を解決するためになされたもので、その目的は、既存の辞書に存在していないデータも利用し、かつ、第一言語の用語と第二言語の用語の部分的な照合であっても対訳辞書データとして抽出することのできる環境をユーザに提供することである。 【0004】 【課題を解決するための手段】上記目的を達成するため、本発明は、第一言語及び第二言語の文書から一定の種類の用語を抽出し、抽出された第一言語の用語と第二言語の用語を発音の類似性を基に照合し、照合した用語の対を出力することを特徴とする対訳辞書データ抽出方法である。 【0005】 【発明の実施の形態】以下、本発明の一実施例を図面に基づいて説明する。 (第1の実施例)図1は、本願第1の発明の実施例に係る対訳辞書データ抽出方法の構成を示すブロック図である。ここでは、第一言語として日本語、第二言語として英語を例として説明する。入力された日本語テキストデータは、一旦、日本語テキストデータ(記憶部)101に記憶される。日本語用語抽出手段102では、日本語テキストデータ101中の所定の種類、例えば専門用語、固有名詞、新語などの候補を抽出する。抽出に際して、特定のものである必要はなく、例えば、既存の語彙辞書に入っていない語、カタカナ語(表記)などを従来の形態素解析処理で抽出してもよい。また、専門用語、固有名詞、新語などの種類、表記等を特定する際に、ユーザに選択させ、設定させる構成を採っても良い。 【0006】103は日本語用語抽出データ(記憶部)である。日本語用語抽出データ103は、日本語用語抽出手段102において日本語テキストデータ101中から抽出された、専門用語、固有名詞、新語などの候補を記憶する。日本語文字変換手段104は、日本語用語抽出データ103の各語を、英語の表現と比較しやすい表記に変換する。例えば、日本語のカタカナ読みをローマ字に変換する。あるいは、英語との発音の類似性を考慮した独自の表記に変換する。 【0007】201は英語テキストデータ(記憶部)である。英語用語抽出手段202では、英語テキストデータ201中から、専門用語、固有名詞、新語などの候補を抽出する。その方法は、特定のものである必要はなく、例えば、既存の語彙辞書に入っていない語、大文字で始まる語などを従来の形態素解析処理で抽出してもよい。203は英語用語抽出データ(記憶部)である。英語文字変換手段204は、英語用語抽出データ203の各語を、日本語の表現と比較しやすい表記に変換する。例えば、英語のスペルをローマ字読みのカタカナに変換する。あるいは、日本語語との発音類似性を考慮した独自の表記に変換する。 【0008】表記照合手段121には、日本語用語抽出データ103に記憶された専門用語、固有名詞、新語などの候補のデータと、日本語文字変換手段104からの変換後のデータと、英語用語抽出手段202に記憶された専門用語、固有名詞、新語などの候補のデータ、英語文字変換手段204からの変換後のデータが、各々入力される。この表記照合手段121では、各日本語用語候補と各英語用語候補の表記を、発音上の類似性から照合を行うものである。入力データの違いにより、3種類の方法がある。 【0009】第1の方法は、日本語文字変換手段104の出力である変換後の日本語用語候補と、英語文字変換手段204で変換する前の英語用語候補を照合する方法である。 【0010】第2の方法は、日本語文字変換手段104で変換する前の日本語用語候補と、英語文字変換手段204の出力である変換後の英語用語候補を照合する方法である。 【0011】第3の方法は、日本語文字変換手段104の出力である変換後の日本語用語候補と、英語文字変換手段204の出力である変換後の英語用語候補を照合する方法である。 【0012】抽出用語出力手段122では、表記照合手段121において照合することが判断された、日本語用語と英語用語の対を出力するものである。なお、ここで言う「照合」とは、例えば、「Indonesian」に対する「インドネシア」のように、英語の用語候補と日本語の用語候補の間で、発音の類似性が十分に高く、訳語として関係があると推測する処理のことです。日本語用語候補「インドネシア」と英語用語候補「Indonesian」の照合を例に上記3 種類の方法で詳しく説明する。 第1 の方法・照合対象 = (変換後の日本語用語候補) vs (英語用語候補)(1) 「インドネシア」を英語の表現と比較しやすい表記( ローマ字) に変換するJ-unit[1] : イ = e, i;J-unit[2] : ン = m, mm, n, nn;J-unit[3] : ド = d, do;J-unit[4] : ネ = ne;J-unit[5] : シ = ci, shi, si, sy;J-unit[6] : ア = a, ar, e, er, o, or, u, ur;(2) 「Indonesian」を照合単位に分割するE-unit[1] : i;E-unit[2] : n;E-unit[3] : do;E-unit[4] : ne;E-unit[5] : si;E-unit[6] : a;E-unit[7] : n;(3) (1) と(2) の対応を調べる (「 」内は一致したもの) イ = e, 「i 」; -> 一致 (J-unit[1]:E-unit[1]) ン = m, mm, 「n 」, nn; -> 一致 (J-unit[2]:E-unit[2]) ド = d, 「do」; -> 一致 (J-unit[3]:E-unit[3]) ネ = 「ne」; -> 一致 (J-unit[4]:E-unit[4]) シ = ci, shi, 「si」, sy; -> 一致 (J-unit[5]:E-unit[5]) ア =「a 」, ar, e, er, o, or, u, ur; -> 一致 (J-unit[6]:E-unit[6]) (なし) = n -> 不一致(4) 照合スコア = 6 / 7 = 0.86第2 の方法・照合対象 = (日本語用語候補) vs (変換後の英語用語候補)(1)「インドネシア」を照合単位に分割するJ-unit[1] : イ;J-unit[2] : ン;J-unit[3] : ド;J-unit[4] : ネ;J-unit[5] : シ;J-unit[6] : ア;(2)「Indonesian」を日本語の表現と比較しやすい表記( カタカナ) に変換するE-unit[1] : i = アイ, イ;E-unit[2] : n = ン;E-unit[3] : do = ド, ドゥ;E-unit[4] : ne = ニ, ネ;E-unit[5] : si = サイ, シ, ジ;E-unit[6] : a = ア;E-unit[7] : n = ン; (3) (1)と(2) の対応を調べる (「 」内は一致したもの) i = アイ, 「イ」; -> 一致 (E-unit[1]:J-unit[1]) n = 「ン」; -> 一致 (E-unit[2]:J-unit[2]) do = 「ド」, ドゥ; -> 一致 (E-unit[3]:J-unit[3]) ne = ニ, 「ネ」; -> 一致 (E-unit[4]:J-unit[4]) si = サイ, 「シ」, ジ; -> 一致 (E-unit[5]:J-unit[5]) a = 「ア」; -> 一致 (E-unit[6]:J-unit[6]) n = ン; -> 不一致(4) 照合スコア = 6 / 7 = 0.86第3 の方法・照合対象 = (変換後の日本語用語候補) vs (変換後の英語用語候補)(1)「インドネシア」を日本語・英語の中間的表記( 発音記号に似たもの) に変換するJ-unit[1] : イ = E, I;J-unit[2] : ン = M, N;J-unit[3] : ド = D, DO;J-unit[4] : ネ = NE;J-unit[5] : シ = CI, SI;J-unit[6] : ア = A, AR;(2) 「Indonesian」を日本語・英語の中間的表記( 発音記号に似たもの) に変換するE-unit[1] : i = AI, I;E-unit[2] : n = N;E-unit[3] : do = DO;E-unit[4] : ne = NE, NI;E-unit[5] : si = SAI, SI, ZI;E-unit[6] : a = A;E-unit[7] : n = N;(3) (1) と(2) の対応を調べる (「 」内は一致したもの) イ = E, 「I 」; -> 一致 (J-unit[1]:E-unit[1]) ン = M, 「N 」; -> 一致 (J-unit[2]:E-unit[2]) ド = D, 「DO」; -> 一致 (J-unit[3]:E-unit[3]) ネ = 「NE」; -> 一致 (J-unit[4]:E-unit[4]) シ = CI, 「SI」; -> 一致 (J-unit[5]:E-unit[5]) ア = 「A 」, AR; -> 一致 (J-unit[6]:E-unit[6]) (なし) = n -> 不一致(4) 照合スコア = 6 / 7 = 0.86図2は、図1に示す実施例の表記照合手段121での処理を表す流れ図である。 【0013】以下では、日本語用語候補と英語用語候補の両方が文字変換手段104、204で変換されたものとし、それぞれの変換結果が、複数の照合単位(例えば、日本語のローマ字1音節相当部分)に分割できるものとする。 【0014】最初のステップS000では、照合スコアScore を0に初期化する。ステップS001では、日本語の照合単位のポインタJptrを先頭(1) に設定する。次のステップS002では、ポインタJptrの値から、日本語の照合単位J-unit[Jptr]を取り出す。ステップS003では、ステップS002で取り出せたか否かを判断し、取り出せれば次のステップS004に進み、取り出せなければ、処理を終了する。 【0015】ステップS004では、英語の照合単位のポインタEptrを先頭(1) に設定する。次のステップS005では、ポインタEptrの値から、英語の照合単位E-unit[Eptr]を取り出す。ステップS006では、ステップS005で取り出せたか否かを判断し、取り出せれば次のステップS007に進み、取り出せなければ、ステップS010に進む。 【0016】ステップS007では、日本語の照合単位J-unit[Jptr]と英語の照合単位E-unit[Eptr]が一致するかを調べ、一致すればステップS009に進み、一致しなければステップS008に進む。ステップS008では、英語の照合単位のポインタEptrを1 つ増やし、ステップS005に戻って、次の英語の照合単位E-unit[Eptr]を取り出す。 【0017】ステップS009では、照合スコアScore を1 増やし、ステップS010に進む。ステップS010では、日本語の照合単位のポインタJptrを1 つ増やし、ステップS002に戻って、次の日本語の照合単位J-unit[Jptr]を取り出す。 【0018】以上の処理を行うことによって、日本語用語候補と英語用語候補の照合スコアScore が算出できる。用語候補の照合単位の数に対する照合スコアScore の比が、一定値(例えば0.8)以上なら、日本語用語候補と英語用語候補は照合すると判断する。なお、この一定値の設定は、類似性が十分高いことを示す数値であれば0.9でも0.75でもかまわない。 【0019】図3は、図1に示す実施例の抽出用語出力手段の出力例である。日本語の用語と英語の用語を対にして表示している。このような対が表示された後、対訳辞書データ抽出方法として、(1) 対訳のペアごとに、ユーザが正しいと認めることによって、辞書に自動的に登録される。 【0020】(2) もしくは、複数の対訳ペアのリストから、ユーザが正しいものを選択し、また、一部修正できるものは修正して辞書に登録する。等により辞書作成される。 【0021】以上説明した実施例において、少なくとも第1図の日本語用語抽出手段102、英語用語抽出手段202、表記照合手段121に相当する機能を実現するプログラムが静的に記録されているFD、HD、CD−ROM等の記録媒体を用いて実現しても良い。この場合、日本語テキストデータ(記憶部)101等の構成と協調して本願発明を実施できる。又、第1図の日本語用語抽出手段102、英語用語抽出手段202、日本語文字変換手段104、英語文字変換手段204、表記照合手段121に相当する機能を実現するプログラムが静的に記録されているFD、HD、CD−ROM等の記録媒体を用いて実現しても良い。 【0022】なお、本発明は上記の実施例に限定されるものではない。対象とする言語は、ドイツ語と日本語など、他の言語間で行ってもよい。また、対訳データ出力内容には、照合スコアを併記してもよいし、照合スコアの高い順、すなわち、照合が確からしいと判断した順に、並べ変えて表示することで、ユーザに有効な情報を効率よく呈示することができる。 【0023】要するに、既存辞書に存在しない新語を多く含み、かつ、文単位での対応関係が明確でない2か国語文書データから、対訳辞書データを抽出することが可能になる。また、本願発明は、このような主旨を逸脱しない範囲で種々変形して実施することができる。 【0024】 【発明の効果】以上説明したように本発明によれば、既存の辞書に存在していないデータを利用し、かつ、第一言語の用語と第二言語の用語の部分的な照合であっても対訳辞書データとして抽出することのできる環境をユーザに提供することができる。
|
| 【出願人】 |
【識別番号】000003078 【氏名又は名称】株式会社東芝
|
| 【出願日】 |
平成9年(1997)9月12日 |
| 【代理人】 |
【弁理士】 【氏名又は名称】外川 英明
|
| 【公開番号】 |
特開平11−85760 |
| 【公開日】 |
平成11年(1999)3月30日 |
| 【出願番号】 |
特願平9−248158 |
|