トップ :: G 物理学 :: G06 計算;計数




【発明の名称】 原文書き換え装置及び原文書き換え方法
【発明者】 【氏名】吉見 毅彦

【要約】 【課題】この発明は、原文書き換え装置に関し、原言語の文を、自然でわかりやすい目的言語の文に変換しやすいように書き換えることを課題とする。

【解決手段】自然言語で記述された原文を入力する入力部と、辞書テーブル,形態素解析テーブル,書き換え規則テーブル及び派生語テーブルを含むテーブル記憶部と、辞書テーブル及び形態素解析テーブルを参照しながら、入力された原文を解析して単語ごとの形態素を出力する形態素解析部と、書き換え規則テーブルと派生語テーブルを参照しながら、入力された原文の形態素を所定の形式の原文に書き換える書き換え部とを備え、書き換え規則テーブルが、書き換え前パターンと書き換え後パターンとからなる複数の書き換え規則からなり、派生語テーブルが、1対の基本語とその派生語からなる複数の派生表現対からなり、書き換え部が、書き換え前パターンと一致可能な原文の一部分を、派生表現対を用いて書き換え後パターンの文に書き換えること。
【特許請求の範囲】
【請求項1】 自然言語で記述された原文を入力する入力部と、辞書テーブル,形態素解析テーブル,書き換え前パターンと書き換え後パターンとから構成される複数の書き換え規則からなる書き換え規則テーブル、及び1対の基本語とその派生語から構成される複数の派生表現対からなる派生語テーブルを含むテーブル記憶部と、前記辞書テーブル及び形態素解析テーブルを参照しながら、入力された原文を解析して単語ごとの形態素情報を生成する形態素解析部と、この形態素情報と前記書き換え規則テーブル及び派生語テーブルを参照しながら、入力された原文を所定の表現形式の原文に書き換える書き換え部とを備え、前記書き換え部が、前記書き換え前パターンと一致可能な原文の一部分を、前記派生表現対を用いて書き換え後パターンの文に書き換えることを特徴とする原文書き換え装置。
【請求項2】 前記書き換え規則テーブルが、書き換え前パターンに一致する英語の表現形式を、動詞的性質を強めた書き換え後パターンに変換するための書き換え規則を含むことを特徴とする請求項1の原文書き換え装置。
【請求項3】 前記派生語テーブルが、名詞と動名詞を対応づけた派生表現対を含み、前記書き換え規則テーブルが、所定の名詞句を構成する名詞を動名詞に変換する書き換え規則R1を含み、前記書き換え部が、前記書き換え規則R1の書き換え前パターンに一致した原文に含まれる所定の名詞を、前記派生表現対でこの所定の名詞に対応づけられた動名詞に書き換えて書き換え後パターンの文を生成することを特徴とする請求項1の原文書き換え装置。
【請求項4】 前記派生語テーブルが、名詞と定形述語を対応づけた派生表現対を含み、前記書き換え規則テーブルが、所定の名詞句を構成する名詞を定形述語に変換する書き換え規則R2を含み、前記書き換え部が、前記書き換え規則R2の書き換え前パターンに一致した原文に含まれる所定の名詞を、前記派生表現対でこの所定の名詞に対応づけられた定形述語に書き換えて書き換え後パターンの文を生成することを特徴とする請求項1の原文書き換え装置。
【請求項5】 前記書き換え規則の書き換え前パターンが、中心となる名詞と、その名詞の直前の表現形式を示した前方パターンと、その名詞の直後の表現形式を示した後方パターンからなる名詞句であり、書き換え後パターンが、前記中心となる名詞を動名詞に置換したパターンであることを特徴とする請求項2の原文書き換え装置。
【請求項6】 前記書き換え規則の書き換え前パターンが、中心となる名詞と、その名詞の直前の表現形式を示した前方パターンと、その名詞の直後の表現形式を示した後方パターンからなる名詞句であり、書き換え後パターンが、前記中心となる名詞を定形述語に置換したパターンであることを特徴とする請求項2の原文書き換え装置。
【請求項7】 自然言語で記述された原文を入力し、辞書テーブル及び形態素解析テーブルを参照しながら入力された原文を解析して単語ごとの形態素情報を生成し、書き換え前パターンと書き換え後パターンとからなる複数の書き換え規則からなる書き換え規則テーブルと、1対の基本語とその派生語からなる複数の派生表現対からなる派生語テーブルと前記形態素情報とを参照しながら、前記書き換え規則の書き換え前パターンと一致可能な原文の一部分を、前記派生表現対を用いて書き換え後パターンの文に書き換えることを特徴とする原文書き換え方法。
【請求項8】 前記書き換え規則テーブルが、書き換え前パターンに一致する英語の表現形式を、動詞的性質を強めた書き換え後パターンに変換するための書き換え規則を含むことを特徴とする請求項7の原文書き換え方法。
【請求項9】 前記派生語テーブルが、名詞と動名詞を対応づけた派生表現対を含み、前記書き換え規則テーブルが、所定の名詞句を構成する名詞を動名詞に変換する書き換え規則R1を含み、前記書き換え規則R1の書き換え前パターンに一致した原文に含まれる所定の名詞を、前記派生表現対でこの所定の名詞に対応づけられた動名詞に書き換えて書き換え後パターンの文を生成することを特徴とする請求項7の原文書き換え方法。
【請求項10】 前記派生語テーブルが、名詞と定形述語を対応づけた派生表現対を含み、前記書き換え規則テーブルが、所定の名詞句を構成する名詞を定形述語に変換する書き換え規則R2を含み、前記書き換え規則R2の書き換え前パターンに一致した原文に含まれる所定の名詞を、前記派生表現対でこの所定の名詞に対応づけられた定形述語に書き換えて書き換え後パターンの文を生成することを特徴とする請求項7の原文書き換え方法。
【請求項11】 自然言語で記述された原文を入力させる入力機能と、辞書テーブル及び形態素解析テーブルを参照しながら、入力された原文を解析して単語ごとの形態素情報を生成させる形態素解析機能と、書き換え前パターンと書き換え後パターンとからなる複数の書き換え規則からなる書き換え規則テーブルと、1対の基本語とその派生語からなる複数の派生表現対からなる派生語テーブルと前記形態素情報とを参照しながら、前記書き換え規則の書き換え前パターンと一致可能な原文の一部分を、前記派生表現対を用いて書き換え後パターンの文に書き換える書き換え機能を含むことを特徴とする原文書き換えプログラムを記憶した記憶媒体。
【請求項12】 前記派生語テーブルが、名詞と動名詞を対応づけた派生表現対を含み、前記書き換え規則テーブルが、所定の名詞句を構成する名詞を動名詞に変換する書き換え規則R1を含み、前記書き換え規則R1の書き換え前パターンに一致した原文に含まれる所定の名詞を、前記派生表現対でこの所定の名詞に対応づけられた動名詞に書き換えて書き換え後パターンの文を生成する機能を含むことを特徴とする原文書き換えプログラムを記憶した請求項11の記憶媒体。
【請求項13】 前記派生語テーブルが、名詞と定形述語を対応づけた派生表現対を含み、前記書き換え規則テーブルが、所定の名詞句を構成する名詞を定形述語に変換する書き換え規則R2を含み、前記書き換え規則R2の書き換え前パターンに一致した原文に含まれる所定の名詞を、前記派生表現対でこの所定の名詞に対応づけられた定形述語に書き換えて書き換え後パターンの文を生成する機能を含むことを特徴とする原文書き換えプログラムを記憶した請求項11の記憶媒体。
【発明の詳細な説明】【0001】
【発明の属する技術分野】この発明は、原文書き換え装置及び方法に関し、特に、機械翻訳システムにおいて、翻訳品質を向上させるために、原言語の表現を、翻訳後の言語的特徴(言語慣習)を考慮した表現に書き換える原文書き換え装置及び方法に関する。
【0002】
【従来の技術】今日、英語の文章を日本語の文章に変換する英日翻訳や、逆に日本語の文章を英語の文章に変換する日英翻訳など、2ヶ国間の言語の置換をパソコン等を用いて行う機械翻訳システムが多数開発され、販売されている。これらの機械翻訳システムでは、一般にメモリに予め記憶された辞書や形態素規則を用いて、「辞書引き」,「形態素解析」,「構文解析」及び「翻訳文生成」という一連の処理を行って、原言語で書かれた文章を、目的言語の文章に置換する。
【0003】しかし、たとえば英語と日本語のように言語慣習が著しくなる言語間の翻訳では、原言語の構文構造を目的言語の構文構造に直接対応づけると、目的言語の言語慣習に適う自然な訳文が得られないことが多い。英語の言語慣習と日本語の言語慣習が著しく異なる典型的な例として、英語の名詞構文に対応するのは、日本語では必ずしも名詞構文ではないことが知られている。
【0004】英語は名詞文体の言語であり、日本語は動詞文体の言語であるため、英語の名詞句を日本語の名詞句に直接対応付けると、不自然で読みにくい訳文が生成されることがある。例えば、次のような文ESを、実用に供されているある英日機械翻訳システムで翻訳すると、文JSのような日本語の翻訳文が出力される。
ES:The financial system is one example of the Japanese government's adoption of the U.S.system.JS:金融制度は、米国のシステムの日本の政府の採用の1つの例である。
【0005】このシステムでは文ESの“the Japanese government's adoption of the U.S. system”という英語の名詞句を、直接対応する日本語の名詞句「米国のシステムの日本の政府の採用」に翻訳している。文ESのこの名詞句の真の意味は、「米国のシステムを日本の政府が採用したこと」であるが、利用者が翻訳文「米国のシステムの日本の政府の採用」を見て、この真の意味に解釈するのには、困難が伴う。
【0006】ところで、英語と日本語の言語慣習の違いを考慮した英日翻訳技法の一つとして、英語の「名詞句」を、「文あるいはそれに近い形式」に変換した後、日本語に翻訳すると、日本語として自然な翻訳が得られることが知られている(「英語の発想」、安西徹雄著、講談社、1983年、参照)。以下、「名詞句」を、「文あるいはそれに近い形式」に変換することを、「名詞句から文への変換」と呼ぶ。
【0007】同一の意味内容の「文」という表現形式と、「名詞句」という表現形式の間には、動詞的性質の強さ、言いかえれば、名詞的性質の弱さに応じて、いくつかのレベルを設定できることが、文献「分詞・動名詞」(乾亮一、研究社、1954年)や、“The Grammar of English Nominalization”(R.B. Lees, Mouton,1968年)などに記載されている。例えば、“The Japanese government has adoptedthe U.S. system.”という「文」から、この文を名詞化した“the Japanese government's adoption of the U.S. system”という「名詞句」に至るまでには、次のような5段階の表現形式が存在する。
【0008】レベル1:The Japanese government has adopted the U.S. system.レベル2:the fact that the Japanese government has adopted the U.S. systemレベル3:the Japanese government's adopting the U.S. systemレベル4:the Japanese government's adopting of the U.S. systemレベル5:the Japanese government's adoption of the U.S. system【0009】これらの表現を比べると、レベルの値が大きくなるにつれて、動詞的性質は徐々に弱まり、逆に名詞的性質が徐々に強まっていることがわかる。レベル2,3,4,5の表現形式は、それぞれ、事実名詞化形,動名詞的名詞化形,行為名詞化形,派生名詞化形と呼ばれている。
【0010】
【発明が解決しようとする課題】しかし、このような「名詞句から文への変換」は、人間自身が英日翻訳を行う場合の技法として確立されているに過ぎず、「名詞句から文への変換」を機械処理で実現するのにどのような処理を行えばよいかまだ十分に明らかになっておらず、この技法を機械翻訳システムに取り入れたものは存在しない。また、多くの英日機械翻訳システムでは、主語,述語,名詞句などの構文構造の直接的な対応付けしか行っていないので、前記した文JSのような不自然な翻訳文しか得られない。
【0011】そこで、この発明は、以上のような事情を考慮してなされたものであり、機械翻訳システムでできるだけ自然でわかりやすい翻訳文を生成することができるようにするために、原言語を目的言語に置換する前に、原言語の段階で、翻訳後の目的言語の言語慣習を考慮した表現に書きかえる原文書き換え装置及び方法を提供するものである。
【0012】
【課題を解決するための手段】この発明は、自然言語で記述された原文を入力する入力部と、辞書テーブル,形態素解析テーブル,書き換え前パターンと書き換え後パターンとから構成される複数の書き換え規則からなる書き換え規則テーブル、及び1対の基本語とその派生語から構成される複数の派生表現対からなる派生語テーブルを含むテーブル記憶部と、前記辞書テーブル及び形態素解析テーブルを参照しながら、入力された原文を解析して単語ごとの形態素情報を生成する形態素解析部と、この形態素情報と前記書き換え規則テーブル及び派生語テーブルを参照しながら、入力された原文を所定の表現形式の原文に書き換える書き換え部とを備え、前記書き換え部が、前記書き換え前パターンと一致可能な原文の一部分を、前記派生表現対を用いて書き換え後パターンの文に書き換えることを特徴とする原文書き換え装置を提供するものである。
【0013】この発明によれば、原言語から目的言語への実際の翻訳処理を行う前に、この発明の原文書き換えを行うことにより、入力された原言語の文をより自然でかつわかりやすい目的言語の文に変換できる。
【0014】また、この発明は、前記書き換え規則テーブルが、書き換え前パターンに一致する英語の表現形式を、動詞的性質を強めた書き換え後パターンに変換するための書き換え規則を含んでもよい。
【0015】さらに、前記派生語テーブルが、名詞と動名詞を対応づけた派生表現対を含み、前記書き換え規則テーブルが、所定の名詞句を構成する名詞を動名詞に変換する書き換え規則Rを含み、前記書き換え部が、前記書き換え規則Rの書き換え前パターンに一致した原文に含まれる所定の名詞を、前記派生表現対でこの所定の名詞に対応づけられた動名詞に書き換えて書き換え後パターンの文を生成するようにしてもよい。
【0016】また、前記派生語テーブルが、名詞と定形述語を対応づけた派生表現対を含み、前記書き換え規則テーブルが、所定の名詞句を構成する名詞を定形述語に変換する書き換え規則Rを含み、前記書き換え部が、前記書き換え規則Rの書き換え前パターンに一致した原文に含まれる所定の名詞を、前記派生表現対でこの所定の名詞に対応づけられた定形述語に書き換えて書き換え後パターンの文を生成してもよい。ここで、定形述語とは、take,haveのような一語からなる定形動詞、あるいは「be動詞+形容詞」のような単語の組合せ(たとえば、is willing)からなる述語をいう。
【0017】また、前記書き換え規則の書き換え前パターンが、中心となる名詞と、その名詞の直前の表現形式を示した前方パターンと、その名詞の直後の表現形式を示した後方パターンからなる名詞句であり、書き換え後パターンが、前記中心となる名詞を動名詞に置換したパターンからなるようにしてもよい。また、前記書き換え規則の書き換え前パターンが、中心となる名詞と、その名詞の直前の表現形式を示した前方パターンと、その名詞の直後の表現形式を示した後方パターンからなる名詞句であり、書き換え後パターンが、前記中心となる名詞を定形述語に置換したパターンであってもよい。
【0018】さらに、この発明は、自然言語で記述された原文を入力し、辞書テーブル及び形態素解析テーブルを参照しながら入力された原文を解析して単語ごとの形態素情報を生成し、書き換え前パターンと書き換え後パターンとからなる複数の書き換え規則からなる書き換え規則テーブルと、1対の基本語とその派生語からなる複数の派生表現対からなる派生語テーブルと前記形態素情報とを参照しながら、前記書き換え規則の書き換え前パターンと一致可能な原文の一部分を、前記派生表現対を用いて書き換え後パターンの文に書き換えることを特徴とする原文書き換え方法を提供するものである。
【0019】この発明において、入力部は、キーボード、マウスなどのポインティングデバイス、ペンなどを用いることができる。テーブル記憶部は、主として読み出し専用メモリが用いられるが、書き換え可能なメモリを用いてもよい。読み出し専用メモリとしては、各種ROMなどの半導体メモリ、CD−ROM、DVD−ROMなどのディスク系メモリを用いることができるが、高速読出しの観点からは半導体メモリが好ましい。また、書き換え可能なメモリとしては、各種RAMなどの半導体メモリ、ハードディスク、FD、MD、MO、DVD−RAMなどのディスク系メモリの他、カード系メモリ、テープ系メモリを用いることができる。
【0020】形態素解析部及び書き換え部は、CPU、RAM、ROM、I/Oコントローラ、タイマー等からなるマイクロプロセッサによって実現されるが、形態素解析部及び書き換え部の処理は、各種記憶媒体に記憶された制御プログラムに基づいて、実行される。
【0021】この発明の書き換え処理を実行させる制御プログラムは、RAM、ROM等の半導体メモリ、FD、ハードディスク、MD、MO、CD−ROM、DVD−ROM、DVD−RAMなどのディスク系メモリやカード系メモリなどの各種記憶媒体に記憶されて供給されるが、実行時は、マイクロプロセッサの主記憶にロードされて利用される。また、制御プログラムは、LANに接続されたサーバやネットワークを介した他のパソコンやサーバからダウンロードして、この発明の原文書き換え装置のハードディスク等に記憶してもよい。
【0022】
【発明の実施の形態】以下、図面に示す実施の形態に基づいてこの発明を詳述する。なお、これによってこの発明が限定されるものではない。以下に示す実施の形態では、原言語を「英語」とし、翻訳後の目的言語を「日本語」とする機械翻訳システムを対象とし、日本語の自然な翻訳文となるように英語の「名詞句」を、「文またはそれに近い形式」に変換する処理について説明する。ただし、以下に示した処理は、「名詞句から文への変換」以外の、他の表現形式間の変換にも適用でき、英語から日本語への英日翻訳だけでなく、日英翻訳や他の言語間の翻訳にも適用できる。
【0023】図1に、この発明の原文書き換え装置の一実施例の構成図を示す。この発明の原文書き換え装置は、制御部1,入力部2,出力部3,テーブルメモリ4,プログラムメモリ5,バッファメモリ6,バス7,記憶媒体8から構成される。
【0024】制御部1は、プログラムメモリ5から制御プログラムを読み出し、この制御プログラムに従って、バス7を解して各部を制御することにより本発明の原文書き換え機能を実現するものであり、主として、CPU,ROM,RAM,I/Oコントローラ,タイマ等からなるマイクロプロセッサに相当する。入力部2は、自然言語で記述された文の入力を行うものであり、主として、キーボード,マウス等が用いられる。出力部3は、プログラムメモリ5に記憶されている制御プログラムによって処理された結果、例えば翻訳文を出力するものであり、主として表示装置,印刷装置が用いられる。
【0025】テーブルメモリ4は、各種の情報を記憶したメモリであり、主として次のような4つのテーブルとして機能する領域を備えたものである。
(1)形態素情報を記憶した辞書テーブル4a,(2)文を形態素解析するための規則を記憶した形態素解析規則テーブル4b,(3)名詞句を文に変換するための規則を記憶した書き換え規則テーブル4c,(4)動詞とその名詞化形の対応や、形容詞とその名詞化形の対応、形容詞とその副詞化形の対応などを記憶した派生語テーブル4d。プログラムメモリ5は、形態素解析部5a,書き換え部5bとして機能する制御プログラムが記憶されたメモリである。
【0026】テーブルメモリ4及びプログラムメモリ5には、各種ROM,RAMなどの半導体メモリの他、FD,ハードディスク,MO,MD,CD−ROM,DVD−ROM,DVD−RAM,DATなどの記憶装置やテープ,ディスクまたはカード系の可搬型の記憶媒体が用いられる。
【0027】形態素解析部5aは、原文バッファ6aに記憶されている文に対して、辞書テーブル4aと形態素解析規則テーブル4bを参照しながら形態素解析を行い、文中の各語について品詞などの形態素・語彙属性を出力するものである。形態素解析の結果は、形態素解析結果バッファ6bに記憶される。書き換え部5bは、書き換え規則テーブル4cと派生語テーブル4dを参照しながら、形態素解析結果バッファ6bに記憶されている形態素結果に対して書き換えを行い、解析結果を書き換え結果バッファ6cに記憶するものである。
【0028】バッファメモリ6は、翻訳のための各処理の実行中の情報を一時記憶するためのメモリであり、主として、次の3つのバッファとして機能する領域を備えたものである。
(1)入力部2により入力された文を記憶する原文バッファ6a,(2)形態素解析部5aにより得られた形態素解析結果を記憶する形態素解析結果バッファ6b,(3)書き換え部5bにより得られた書き換え結果を記憶する書き換え結果バッファ6c。
【0029】バス7は、命令,データが流れる信号線路であり、いわゆるデータバス,アドレスバス等からなる。記憶媒体8は、各種情報を記憶したメモリであり、CD−ROM,DVD−ROMなどの読み出し専用の可搬型メモリ、FD,MD,MO,DVD−RAMなどの書き換え可能な可搬型メモリ,カード型メモリ,ハードディスクなどを用いることができる。たとえば、この記憶媒体8には、キーボードから入力された原語の文章の他、インターネット等の通信回線を介してダウンロードしてきた電子メールや原語の文書,技術資料,取扱説明書などが格納される。
【0030】次に、この発明の名詞句から文への変換処理の一実施例について説明する。図2は、この発明の書き換え装置で実行される名詞句から文への変換処理の一実施例のフローチャートである。まず、制御部1は、入力部2から入力された文字列あるいは記憶媒体8に格納された文書から、翻訳したい原語の文章を原文バッファ6aに記憶させる。また、文の全単語数n、あるいは書き換えたい原文の末尾の単語の番号nを、バッファメモリ6等に記憶させる。この後、ステップ1において、原文の形態素解析処理を行う。
【0031】形態素解析処理では、原文を形態素に分解し、形態素ごとの訳語及び品詞などの形態素情報を抽出することが実行される。この形態素解析の詳細な処理内容は、各種文献(たとえば、「自然言語処理」長尾 真、岩波書店、1997年)に記載されているので、ここでは省略する。この処理は、形態素解析部5aが、辞書テーブル4a及び形態素解析規則テーブル4bを参照しながら実行するものである。形態素解析の処理の結果、得られた情報は、形態素解析結果バッファ6bに記憶されるものとする。
【0032】次に、ステップ2において、制御部1は、現在着目している単語が原文中の何番目の単語であるかを示すカウンタ「i」を、初期値1にセットする。次にステップ3において、書き換え部5bが書き換え規則の検索を行う。すなわち、原文中の第i番目の単語及びその前後のパターンと、書き換え規則テーブル4cに記憶されている書き換え規則のキー及びその前後のパターンとがマッチするか否か調べる。マッチする書き換え規則がある場合は、ステップ4へ進み、ない場合はステップ5へ進む。
【0033】図3に、この発明の書き換え規則テーブルの一実施例の説明図を示す。ここでは、規則番号1,2の2つの書き換え規則を示している。一つの書き換え規則は、「書き換え前パターン」と、「書き換え後パターン」とから構成される。また、「書き換え前パターン」は、「キー」と、「キーの前方パターン」と、「キーの後方パターン」とから構成される。
【0034】図3において、NP'sは名詞句あるいは代名詞の所有格形を、Nは名詞を、NPは名詞句を、Vingは動名詞を、ADJは形容詞を、ADVは副詞をそれぞれ意味する。V9は、文献「英語の型と語法」(A.S.Hornby著、伊藤健三訳、オックスフォード大学出版局、1977年)で定義された動詞の型のうち、第9型を持つ動詞を意味し、ADJnessは形容詞から派生した名詞を意味する。Vinfは、原形動詞である。{is,was}は、isまたはwasのいずれかをV9の時制に応じて選択することを意味する。書き換え規則の書き換え前パターンとマッチするのは、前記した5段階レベルの表現形式のうち、レベル5の派生名詞化形である。
【0035】規則番号1について説明すると、ステップ3において、まず、原文中の第i番目の単語が、この規則の「キー」に相当する名詞Nと一致するか否か判断する。次に、原文中の第i番目の単語が名詞Nであった場合には、この第i番目の単語の直前のパターンが「NP's」であって、かつ直後のパターンが「of NP」に一致するか否か判断する。
【0036】そして、規則の「キー」,「前方パターン」及び「後方パターン」の3つが、現在着目している第i番目の単語及びその前後パターンと一致していれば、ステップ4へ進む。なお、書き換え部5bの処理は、実際には、制御部1が、書き換え部5bに予め記憶されている制御プログラムに基づいて行うものである。
【0037】次に、ステップ4において、書き換え部5bは、ステップ3で一致したパターンの書き換えを行う。すなわち、ステップ3で一致した「前方パターン,キー,後方パターン」からなる書き換え前パターンの原語表現を、書き換え後パターンに相当する表現に書き換える。この書き換えは、図4に示した派生語テーブル4dを参照することによって行われる。
【0038】図4は、派生語テーブル4dの一実施例を示したものであり、たとえば「名詞−動名詞」,「形容詞−副詞」などの同じ意味を表す単語の異なる品詞形を、派生表現対として記憶したものである。
【0039】図3の規則番号1の規則においては、書き換え前パターンである「NP'sN of NP」に一致する原文が、「NP's Ving NP」という書き換え後パターンの文に書き換えられることになる。ここで、この書き換え後パターンは、「キー」である名詞Nを、「Ving」という動名詞形に変化したものであり、前記した5段階の表現形式のレベル3の動名詞的名詞化形に相当する。
【0040】図3の規則番号3の規則によって、書き換え前パターンである“V9 NP's ADJness to Vinf”に一致する原文が、“V9 that NP is ADJ to Vinf”または“V9 that NP was ADJ to Vinf”という書き換え後パターンの文に書き換えられる。ここで、書き換え後パターンは、キーである形容詞から派生した名詞ADJnessを、“is+ADJ”または“was+ADJ”という定形述語に変換したものであり、前記した5段階の表現形式のレベル2の事実名詞化形に相当する。
【0041】従って、ステップ4では、図3に示した書き換え規則のうち規則番号1と2の規則は、レベル5の派生名詞化形を、より文に近い表現形式であるレベル3の動名詞的名詞化形に書き換えるものであり、規則番号3の規則は、レベル5の派生名詞化形を、レベル3よりもさらに文に近い表現形式であるレベル2の事実名詞化形に書き換えるものである。
【0042】次に、ステップ5において、原文中の全単語についてステップ3の検索処理を実行したか否か判断する。全単語の検索が終了した場合は、処理を終了するが、終了していない場合は、ステップ6へ進む。すなわち、i>nならば処理を終了し、i≦nならばステップ6へ進む。ステップ6では、原文中の次の単語を検索対象とするために、カウンターiの値を1だけ増加させてステップ3へ戻る。以上が、この発明の書き換え処理のフローである。
【0043】次に、この発明の最も特徴的な処理であるステップ3及び4の処理について、具体的に説明する。ここでは、前記した文ES、すなわち“The financial system is one exampleof the Japanese government's adoption of the U.S. system.”という文が、原文として与えられたものとする。
【0044】ステップ3において、原文中の第i番目の単語と一致することのできる「キー」を持つ書き換え規則が検索される。ここで、カウンターi=1〜15であり、全単語数n=15である。この文ESの場合、カウンターの値がi=11となったとき、文ESの中の“theJapanese government's adoption of the U.S. system”と、図3の規則番号1の書き換え前パターンが次のように一致する。
キー:N=adoption前方パターン:NP's=the Japanese government's後方パターン:NP=the U.S. system【0045】次に、ステップ4において、この一致した名詞句“the Japanese government's adoption of the U.S. system”が、規則番号1の書き換え後パターンの表現に書き換えられる。規則番号1の書き換え規則では、次の二つの処理を行うことによって、書き換えが行われる。
1.キーの名詞Nをその派生元の動名詞に置き換える。
2.後方パターンの先頭にある“of”を削除する。
【0046】この第1の処理では、図4に示した派生語テーブル4dが用いられ、「キー」である名詞“adoption”が、これに対応する動名詞“adopting”に書き換えられる。したがって、以上の2つの処理を実行した後、原文中の名詞句“the Japanesegovernment's adoption of the U.S. system”は、“the Japanese government's adopting of the U.S. system”という動名詞的名詞化形の形式に書き換えられる。以上より、前記した文ESは、次の文ES'に書き換えられたことになる。
ES':The financial system is one example of the Japanese government's adopting the U.S. system.【0047】文ESを、日本文JSに翻訳した前記の英日機械翻訳システムを用いて、書き換えた後の文ES'を実際に翻訳してみると、次のような日本文JS'が得られた。
JS':金融制度は、日本の政府が米国のシステムを採用することの1つの例である。この文JS'と、前記した文JSとを比較すると、この発明の書き換え処理を事前に行った後に翻訳をした方が、日本語としてより自然で分かりやすい文JS'が得られると言える。
【0048】次に、レベル5の派生名詞化形をレベル2の事実名詞化形に書き換える処理例について説明する。ここでは、次の文ES2という文が原文として与えられたものとする。
ES2:The President conveyed his willingness to promote good bilateral relations.なお、文ES2を前記の英日機械翻訳システムを用いて実際に翻訳すると次のような訳文JS2が得られる。
JS2:大統領は、良い双方の関係を促進しようとする彼の意欲を伝えた。
【0049】ステップ3において、原文中の第i番目の単語と一致することのできるキーを持つ書き換え規則が検索される。ここで、全単語数n=10である。文ES2の場合、カウンターの値がi=5となったとき、“conveyed his willingness topromote”と図3の規則番号3の書き換え前パターンが次のように一致する。
キー:ADJness=willingness前方パターン:V9 NP's = conveyed his後方パターン:to Vinf = to promote【0050】次にステップ4において、名詞句“his willingness to promote”を含むパターンが、規則番号3の書き換え後パターンの表現に書き換えられる。規則番号3の書き換え規則では、次の4つの処理を行うことによって書き換えが行われる。
1.キーの名詞ADJnessをその派生元の形容詞に置き換える。
2.主節の動詞の時制に合わせてbe動詞の時制を選択し、主節の動詞の時制が現在時制ならばisを生成し、過去時制ならばwasを生成する。
3.前方パターンの動詞の直後に接続詞thatを挿入する。
4.名詞あるいは代名詞の所有格形を主格形に書き換える。
【0051】この第1の処理では、図4に示した派生語テーブル4dが用いられ、キーである名詞“willingness”が、これに対応する形容詞“willing”に書き換えられる。ES2の場合、主節の動詞の時制は過去時制であるので、第2の処理ではbe動詞としてwasが選択される。従って、以上の4つの処理を実行した結果、文ES2中の名詞句“his willingness to promote”は、“that he was his willingness to promote”という事実名詞化形の形式に書き換えられる。
【0052】以上より、文ES2は、次の文ES2’に書き換えられることになる。
ES2':The President conveyed that he was willing to promote good bilateral relations.文ES2’を前記の英日機械翻訳システムを用いて実際に翻訳してみると、次のような訳文JS2’が得られた。
JS2':大統領は、彼が良い双方の関係を快く促進すると伝えた。本発明の書き換え処理を行った場合の訳文JS2’と、行わない場合の文JS2を比較すると、前者の方がより自然で分かりやすい文である。
【0053】
【発明の効果】この発明によれば、機械翻訳処理の前に、原言語の表現を、目的言語の言語慣習を考慮した原言語の他の表現に変換することができる。また、この発明の原文書き換え装置及び方法を、種々の既存の機械翻訳システムの翻訳処理の前処理として用いることにより、既存の機械翻訳システムでも、より品質の高い自然なわかりやすい翻訳文を得ることができる。
【出願人】 【識別番号】000005049
【氏名又は名称】シャープ株式会社
【出願日】 平成12年10月26日(2000.10.26)
【代理人】 【識別番号】100065248
【弁理士】
【氏名又は名称】野河 信太郎
【公開番号】 特開2002−132763(P2002−132763A)
【公開日】 平成14年5月10日(2002.5.10)
【出願番号】 特願2000−327164(P2000−327164)