トップ :: G 物理学 :: G06 計算;計数




【発明の名称】 機械翻訳前処理装置
【発明者】 【氏名】木村 こずえ

【要約】 【課題】機械翻訳システムの内部に組み込まれた辞書の内容を変更することなく、辞書の登録語数を実質的に増大させた場合と同様の精度で機械翻訳することを可能とする。

【解決手段】ソース言語の入力テキストを機械翻訳装置に入力するに先立って、機械翻訳の精度を高めるために入力テキストを前処理するための機械翻訳前処理装置は、ソース言語のテキストを入力するための入力部102と、ソース言語の見出し語と、予め定められた言語の対応語との対を含むエントリを有する前処理辞書テーブル1041を記憶するテーブルメモリ104と、入力されたテキストに含まれる語に対し、前処理辞書テーブル1041から該当する見出し語を有するエントリを検索する辞書引き部1051と、検索されたエントリに含まれる予め定められた言語の対応語で、テキストの一部を置換する置換部1052とを含む。
【特許請求の範囲】
【請求項1】 ソース言語の入力テキストを機械翻訳装置に入力するに先立って、機械翻訳の精度を高めるために入力テキストを前処理するための機械翻訳前処理装置であって、前記ソース言語のテキストを入力するための入力手段と、前記ソース言語の見出し語と、予め定められた言語の対応語との対を含むエントリを有する前処理辞書テーブルを記憶するための手段と、前記入力手段によって入力された前記テキストに含まれる語に対し、前記前処理辞書テーブルから該当する見出し語を有するエントリを検索するための検索手段と、前記検索手段によって検索されたエントリに含まれる前記予め定められた言語の対応語で、前記テキストの一部を置換するための置換手段とを含む、機械翻訳前処理装置。
【請求項2】 さらに、前記ソース言語の単語についての形態素情報を含んだ形態素情報テーブルを記憶するための手段と、前記形態素情報テーブルを参照して前記テキストを解析し形態素に分割して前記検索手段に与えるための形態素解析手段とを含む、請求項1に記載の機械翻訳前処理装置。
【請求項3】 前記予め定められた言語は、前記ソース言語とは異なる言語であり、前記前処理辞書テーブルのエントリの各々は、前記ソース言語の見出し語と、前記予め定められた言語の対応語との対に加えて、前記ソース言語の見出し語の意味情報をさらに含み、前記置換手段は、前記検索手段によって検索されたエントリに含まれる前記予め定められた言語の対応語で、前記テキストの一部を置換し、さらに前記予め定められた言語の対応語に対応の見出し語の意味情報を付与するための手段を含み、前記機械翻訳前処理装置は、前記付与手段によって一部が置換された前記テキストを前記機械翻訳装置によって前記予め定められた言語の文に機械翻訳した結果から、前記付与するための手段によって付与された意味情報を削除するための手段をさらに含む、請求項1または2に記載の機械翻訳前処理装置。
【請求項4】 前記前処理辞書テーブルのエントリの各々の、前記ソース言語の見出し語に対応する意味情報は、対応の見出し語を構成する形態素の中の一つである、請求項2に記載の機械翻訳前処理装置。
【請求項5】 前記前処理辞書テーブルのエントリの見出し語は表意文字の組合わせを含み、前記見出し語に対応する意味情報は、前記見出し語の末尾の一文字のみを含む、請求項2に記載の機械翻訳前処理装置。
【請求項6】 前記ソース言語は、表意文字として漢字を使用する言語であり、前記意味情報は、対応の見出しの末尾の漢字一文字のみを含む、請求項5に記載の機械翻訳前処理装置。
【請求項7】 前記前処理辞書テーブルのエントリの各々は、前記ソース言語の見出し語と、前記予め定められた言語の対応語との対に加えて、前記予め定められた言語の対応語の語形情報をさらに含み、前記置換手段は、前記検索手段によって検索されたエントリに含まれる前記予め定められた言語の対応語で、前記テキストの一部を置換し、さらに前記予め定められた言語の対応語の語形情報を付与するための手段を含み、前記機械翻訳前処理装置は、前記付与手段によって一部が置換された前記テキストを前記機械翻訳装置によって前記予め定められた言語の文に機械翻訳した結果から、前記付与するための手段によって付与された語形情報にしたがって、前記機械翻訳した結果中に含まれる前記予め定められた言語の前記対応語の語形を修正するための手段をさらに含む、請求項1または2に記載の機械翻訳前処理装置。
【請求項8】 前記予め定められた言語は、前記ソース言語と同一言語である、請求項1または2に記載の機械翻訳前処理装置。
【発明の詳細な説明】【0001】
【発明の属する技術分野】この発明はソース言語のテキストをターゲット言語のテキストに翻訳する機械翻訳システムに関し、特に、機械翻訳に先立ち、機械翻訳の制度を向上させることおよび機械翻訳の速度を向上させることを目的として、ソース言語のテキストを前処理するための装置に関する。
【0002】
【従来の技術】機械翻訳システムは、自然言語で書かれたテキストを、主としてコンピュータ処理を用いて他の言語のテキストに翻訳する。機械翻訳においては、ソース言語の翻訳対象の文をすべて正しく解析し、適切にターゲット言語に翻訳することが望まれる。
【0003】文の解析には、ソース言語の辞書が参照される。ソース言語の翻訳対象の文に辞書にない単語があらわれたときには、その部分の解析に失敗するため、その部分の翻訳も失敗することが多い。
【0004】したがって、機械翻訳を適切に行なうためには、システムのソース言語の辞書にできるだけ多く語彙を登録すること、および辞書の内容を充実させることが最も重要となる。
【0005】しかし、辞書に登録された語数を増大させようとすると、多大な手間が必要となり、実用的な機械翻訳システムを商業的に市場に供給しようとする場合には問題である。特に機械翻訳システムが大きくなればなるほど、また辞書に登録されている単語数が多くなればなるほど、それまでに構築されてきた辞書およびシステムとの整合性を保ちながら辞書の登録語数を増大させることは困難な作業で、多大な人的資源を必要とし、その結果辞書のコスト、したがって機械翻訳システムのコストを上昇させてしまう。
【0006】また、他から購入した機械翻訳システムを使用する場合などには、システムの内部を参照できなかったり、変更できなかったりして、辞書の登録語数を増大させることが不可能な場合がある。したがって、こうした制約にもかかわらず、実質的に辞書の登録語数を増大させたのと同じように精度の高い機械翻訳が可能な機械翻訳システムが望まれている。機械翻訳システム自体に組込まれている辞書の内容を変更できないのであるから、機械翻訳の前処理としてなんらかの形でソース言語のテキストを前処理することによって、こうした効果を達成することが必要である。
【0007】
【発明が解決しようとする課題】ソース言語のテキストを前処理することによって機械翻訳の精度を高める先行技術として、機械翻訳の前処理を行なうための、特開平5−225232号公報に開示されたものがある。しかしこの先行技術の公報は、通常は人手で行なう、機械翻訳のためのテキストの前編集を自動化することによって、機械翻訳の精度については間接的に高めようとするものであって、実質的に辞書の登録語数を増大させたのと同じ効果をもたらすことによって直接的に機械翻訳の精度を向上させるものではない。
【0008】したがって、本発明の目的は、機械翻訳システムの内部に組み込まれた辞書の内容を変更することなく、辞書の登録語数を実質的に増大させた場合と同様の精度で機械翻訳することを可能とする機械翻訳のための前処理装置を提供することである。
【0009】
【課題を解決するための手段】この発明のある局面による機械翻訳前処理装置は、ソース言語の入力テキストを機械翻訳装置に入力するに先立って、機械翻訳の精度を高めるために入力テキストを前処理するための機械翻訳前処理装置であって、ソース言語のテキストを入力するための入力手段と、ソース言語の見出し語と、予め定められた言語の対応語との対を含むエントリを有する前処理辞書テーブルを記憶するための手段と、入力手段によって入力されたテキストに含まれる語に対し、前処理辞書テーブルから該当する見出し語を有するエントリを検索するための検索手段と、検索手段によって検索されたエントリに含まれる予め定められた言語の対応語で、テキストの一部を置換するための置換手段とを含む。
【0010】好ましくは機械翻訳前処理装置はさらに、ソース言語の単語についての形態素情報を含んだ形態素情報テーブルを記憶するための手段と、形態素情報テーブルを参照してテキストを解析し形態素に分割して検索手段に与えるための形態素解析手段とを含む。
【0011】好ましくは、予め定められた言語は、ソース言語とは異なる言語であり、前処理辞書テーブルのエントリの各々は、ソース言語の見出し語と、予め定められた言語の対応語との対に加えて、ソース言語の見出し語の意味情報をさらに含み、置換手段は、検索手段によって検索されたエントリに含まれる予め定められた言語の対応語で、テキストの一部を置換し、さらに予め定められた言語の対応語に対応の見出し語の意味情報を付与するための手段を含み、機械翻訳前処理装置は、付与手段によって一部が置換されたテキストを機械翻訳装置によって予め定められた言語の文に機械翻訳した結果から、付与するための手段によって付与された意味情報を削除するための手段をさらに含む。
【0012】好ましくはまた、前処理辞書テーブルのエントリの各々の、ソース言語の見出し語に対応する意味情報は、対応の見出し語を構成する形態素の中の一つである。
【0013】好ましくは、前処理辞書テーブルのエントリの見出し語は表意文字の組合わせを含み、見出し語に対応する意味情報は、見出し語の末尾の一文字のみを含んでもよい。
【0014】本発明のある局面によれば、ソース言語は、表意文字として漢字を使用する言語であり、意味情報は、対応の見出しの末尾の漢字一文字のみを含む。
【0015】さらに他の局面によれば、前処理辞書テーブルのエントリの各々は、ソース言語の見出し語と、予め定められた言語の対応語との対に加えて、予め定められた言語の対応語の語形情報をさらに含み、置換手段は、検索手段によって検索されたエントリに含まれる予め定められた言語の対応語で、テキストの一部を置換し、さらに予め定められた言語の対応語の語形情報を付与するための手段を含み、機械翻訳前処理装置は、付与手段によって一部が置換されたテキストを機械翻訳装置によって予め定められた言語の文に機械翻訳した結果から、付与するための手段によって付与された語形情報にしたがって、機械翻訳した結果中に含まれる予め定められた言語の対応語の語形を修正するための手段をさらに含む。
【0016】予め定められた言語は、ソース言語と同一言語であってもよい。
【0017】
【発明の実施の形態】以下、本発明の機械翻訳前処理装置について第1〜第7の実施の形態の装置について説明する。以下の説明では機械翻訳は日本語から英語への翻訳であるもの(日英翻訳システム)とするが、本発明は日英翻訳システムに限定されるわけではない。
[第1の実施の形態]図1を参照して、本願発明の第1の実施の形態にかかる機械翻訳前処理装置は、コンピュータのCPU(中央演算処理装置)によって構成され、制御プログラムにしたがって機械翻訳前処理装置の各部を制御するための制御部101と、自然言語で入力された文の入力、前編集処理のためのオペレータによる指示の入力、他の情報処理端末とのデータ通信、および制御プログラムのインストールなどを行なうための入力部102と、入力部102による入力結果、制御部101の制御によるソース言語のテキストの前処理による変換結果などを表示したり印刷したりするための出力部103と、ソース言語のテキストを前処理するための見出し語とその訳語との対からなるエントリを含む前編集のための辞書を記憶するためのテーブルメモリ104と、制御部101によって実行される制御プログラムを記憶するためのプログラムメモリ105と、ソース言語の前編集処理における作業領域として使用されるバッファメモリ106と、これら各部101、102、103、104、105および106を互いに結合し、制御プログラムおよびアドレスデータをこれらの間で転送するためのバス108とを含む。
【0018】制御部101は、プログラムメモリ105から制御プログラムを読出し、この制御プログラムを実行することによってバス108を介して各部を制御し、本実施の形態の機械翻訳前処理装置を実現する。
【0019】入力部102は、キーボード、マウス、ペン、タブレット、スキャナーなどの入力装置、文字認識装置、CD−ROM(Compact Disc−ReadOnly Memory)、FD(Flexible Disk)、DVD(Digital Video Disc)などの記憶媒体から情報を読取るための記憶媒体読取装置、通信回線と接続される通信装置などを含む。
【0020】出力部103は、CRT(陰極線管)ディスプレイ、LCD(液晶表示装置)、PD(プラズマディスプレイ)などからなる表示装置と、サーマルプリンタ、レーザプリンタなどからなる印刷装置とを含む。
【0021】テーブルメモリ104、プログラムメモリ105、およびバッファメモリ106は、たとえば、マスクROM(Read−Only Mmeory)、EPROM(Erasable Programmable ROM),EEPROM(Electrically Erasable ROM)、フラッシュROMなどからなる半導体メモリ、または磁気テープもしくはカセットテープなどのテープ系の記憶媒体、またはFDもしくはハードディスクなどの磁気ディスク、またはCD−ROM,MO(Magneto−Optical),DVDなどの光ディスクもしくは光磁気ディスク、またはメモリカードも含むICカードもしくは光カードなどのカード系の記憶媒体の任意の組み合わせを含む。
【0022】テーブルメモリ104は、前処理に必要な日本語の見出し語と、その英語の訳語とを連付けて記憶した前編集辞書テーブル1041を記憶している。
【0023】図2を参照して、前編集辞書テーブル1041は、ソース言語の語彙と、機械翻訳システムにおけるターゲット言語の訳語に相当する語彙とが対となった見出しを複数個記憶している。
【0024】プログラムメモリ105は、入力されたソース言語のテキストに対して、前処理辞書テーブル1041を参照した辞書引き処理を行なう辞書引き部1051と、前処理辞書テーブル1041内に対応の見出し語が見出された語彙を見出し語の内容にしたがってしかるべき語彙で置換するための置換部1052として機能するプログラムとを記憶している。
【0025】バッファメモリ106は、入力されたソース言語の翻訳対象の文を記憶するための入力文バッファ1061と、入力文に対して前処理辞書テーブル1041を参照して行なわれた辞書引き処理の結果を記憶するための辞書引き結果バッファ1062と、入力文の語彙を、辞書引きの結果にしたがってしかるべき語彙で置換した結果を記憶するための置換結果バッファ1063とを含む。
【0026】記憶媒体107は、たとえば、マスクROM(Read−Only Mmeory)、EPROM(Erasable Programmable ROM),EEPROM(Electrically Erasable ROM)、フラッシュROMなどからなる半導体メモリ、または磁気テープもしくはカセットテープなどのテープ系の記憶媒体、またはFDもしくはハードディスクなどの磁気ディスク、またはCD−ROM,MO(Magneto−Optical),DVDなどの光ディスクもしくは光磁気ディスク、またはメモリカードも含むICカードもしくは光カードなどのカード系の記憶媒体の任意の組み合わせを含む。記憶媒体107は、この機械翻訳前処理装置の入力部102に着脱可能であって、本実施の形態の機械翻訳前処理を実現するための機械翻訳前処理プログラムを固定的に担持するためのものである。
【0027】この機械翻訳前処理プログラムを入力部102の記憶媒体読取装置を介してプログラム105内の領域にインストールすることにより、本実施の形態の機械翻訳前処理装置が実現できる。または、入力部102中の通信装置を介して接続された外部ネットワークのいずれかのコンピュータからプログラムを受信し、プログラムメモリ105にインストールしてもよい。通信ネットワークからプログラムを受信する場合には、そのための通信プログラムをあらかじめプログラムメモリ105等に格納しておけばよい。
【0028】図3を参照して、この第1の実施の形態の機械翻訳前処理装置を実現するための制御プログラムは次のような制御構造を有する。入力部102に入力された日本語文を、制御部101により入力バッファ1061に格納する(ステップ201)。
【0029】辞書引き部1051により、入力バッファ1061に格納した日本語文の各語に対して前処理辞書テーブル1041内に対応するエントリがあるか否かを調べる(202)。対応するエントリがあった場合には、そのエントリの見出し語と訳語とを辞書引き結果バッファ1062に格納してステップ204に進む。対応するエントリがなかった場合には、入力文バッファ1061の内容を置換結果バッファ1063にコピーしてステップ205に進む。
【0030】ステップ204では、置換部1052が、入力文バッファ1061に格納された日本語文中の、辞書引き結果バッファ1062に格納された見出し語を辞書引き結果バッファ1062に格納された対応する訳語に変換して置換結果バッファ1063に格納する。
【0031】続いてステップ205で、置換結果バッファ1063に格納されている日本語文を出力部103を介して図示しない機械翻訳システムに与え、翻訳を行なわせる。こうして、翻訳結果が得られる。得られた翻訳結果は、機械翻訳システムの辞書にない単語であっても、この機械翻訳前処理装置による前処理を行なうことにより、機械翻訳の前に適切な訳語に置換されているため、得られた翻訳結果は前処理を行なわなかった場合と比較してより適切なものとなる。
【0032】たとえば、例として「彼はプリンストン大学に入学した。」という文を翻訳する場合を例として説明する。機械翻訳システムの辞書には「プリンストン大学」という語がなかったものとする。すると、前処理を行なわなかった場合には「プリンストン」という語が適切に訳されないこととなり、望ましい結果を得られない。これに対して、前処理辞書テーブル1041の内容が図2に示すようなものである場合には、辞書引き部1051の機能によって、入力文バッファ中の「プリンストン大学」という語(図4の上段参照)に対して、「Princeton University」という語が訳語として辞書引き結果バッファに格納される。さらに置換部1052の機能によって、入力文バッファ中の文の「プリンストン大学」という語が「Princeton University」と置換されて置換結果バッファ1063に「彼はPrinceton Universityに入学した。」となって格納される。この文を機械翻訳システムに与えて翻訳することにより、「He entered Princeton University」と翻訳される。
【0033】一方、このような前処理を行なわず、入力文バッファ1061の内容をそのまま同じ機械翻訳システムに与えて翻訳させたところ、「He entered プリンストン university」となる。両者を比較すると、本実施の形態の機械翻訳前処理システムを行なった場合の方が、原文の「プリンストン大学」の部分がきちんと訳されており、より適切な英文が翻訳結果として得られた。
【0034】本実施の形態のシステムでは、機械翻訳システム内の辞書に「プリンストン大学」と「Princeton University」という語との対からなるエントリを登録することなく、適切な翻訳を得ることができる。仮に機械翻訳システムの辞書の内容を変更することが不可能な場合であっても、実質的に機械翻訳システムの辞書の登録語数を増加させたのと同様の効果を得ることができる。しかも本実施の形態の機械翻訳前処理装置では、機械翻訳システムの辞書の形式とは独立に前処理辞書テーブル1041を作成すればよく、その登録語数も自由に設定することができる。そのため、機械翻訳システムの内部を全く変更することなく、実質的に機械翻訳システムに含まれる辞書の登録語数を大幅に増やしたのと同様に翻訳の精度を向上させることができるという効果を得ることができる。
[第2の実施の形態]第2の実施の形態にかかる機械翻訳前処理装置は、入力文に対して形態素解析を行なう点で第1の実施の形態の装置とは異なる。図5を参照して、この第2の実施の形態の装置が、その構成上で第1の実施の形態の装置と異なるのは、テーブルメモリ104が前処理辞書テーブル1041に加えて、形態素解析のための形態素情報テーブル1042を含むことと、プログラムメモリ105が、辞書引き部1051、置換部1052に加えて、入力文バッファ1061に格納されたソース言語の入力文に対して形態素解析を行なうための形態素解析部1054を含むことと、バッファメモリ106が、入力文1061、辞書引き結果バッファ1062,置換結果バッファ1063に加えて、形態素解析部1054による形態素解析結果を格納するための形態素解析結果バッファ1064をさらに含むこととである。図5において、図1と同じ部品には同じ参照番号および同じ名称を付してある。それらの機能も同じである。したがってここではそれらについての詳細な説明は繰り返さない。なお、形態素解析はこの分野においては周知の事項であり、その実現方法についても周知である。したがってここではその内容の詳細については触れない。
【0035】図6を参照して、この第2の実施の形態の機械翻訳前処理装置を実現するプログラムは、図3に示される第1の実施の形態の装置の制御プログラムにおいて、ステップ202に代えて、形態素解析部1054に相当するステップ3021および3022を含んでいる点が異なる。図6において、図3と同じステップには図3と同じ参照番号を付してある。
【0036】この第2の実施の形態の装置では、入力文バッファ1061に格納された入力文に対して、ステップ3021において、形態素情報テーブル1042を参照した形態素解析が行なわれ、その結果が形態素解析結果バッファ1064に格納される。その形態素解析された結果に基づいて、辞書引き部1051がステップ3022で前処理辞書テーブル1041に対応のエントリが存在するか否かを調べる。入力文が形態素解析の結果、適切に形態素に分割されているので、辞書引き部1051は、分割された形態素と、それらの結合のみについて、対応のエントリを検索すればよい。そのため、文を不適切な形で分割した結果をも含んで辞書引きを行なう場合と比較して、処理を高速化でき、辞書引きの精度、したがって最終的な機械翻訳の精度も向上させることができる。
【0037】たとえば、前述の例文「彼はプリンストン大学に入学した。」という文を考える。この文は、形態素解析の結果「彼/は/プリンストン/大学/に/入学し/た/。」というように形態素に分割される。辞書引きの際には、これら単語と、その結合のみについて、対応のエントリを検索すればよい。この結果、たとえば「彼はプ」とか、「学に入学し」などのように辞書のエントリとして存在するはずのない文字列でエントリを検索することがなくなり、辞書引きが高速化できること、精度も向上することがわかる。
【0038】以上のようにこの第2の実施の形態の装置では、第1の実施の形態の効果に加えて、前処理を高速化でき、かつその精度を向上させることができる。その結果、機械翻訳システムによる翻訳の精度も向上させることができる。
[第3の実施の形態]図7に、本発明の第3の実施の形態の機械翻訳前処理システムのブロック図を示す。この装置が図1に示すものと異なるのは、前処理辞書テーブル1041の各エントリが、見出し語と、訳語と、意味情報とを含んでいることと、プログラムメモリ105が、辞書引き部1051、置換部1052に加えて、辞書引きの結果得られた単語の意味情報を含んで置き換えられた単語を用いて機械翻訳された結果から、意味情報に相当する部分を削除する後処理を行なうための後処理部1053を含んでいる点と、バッファメモリ106が、図示しない機械翻訳システムで翻訳された結果を格納するための翻訳結果バッファ1065を含んでいる点とである。
【0039】図8に、この第3の実施の形態の前処理辞書テーブル1041の見出しの例を示す。たとえば「大量出血」という見出しには「hemorrhage」という訳語が割り当てられているが、さらに意味情報として[出血]が割り当てられている。ほかの見出しについても同様である。
【0040】図9に、この第3の実施の形態の装置における制御プログラムのフローチャートを示す。図9を参照して、入力部102に入力された日本語文を、制御部101により入力文バッファ1061に格納する(401)。
【0041】辞書引き部1051により、入力文バッファ1061に格納された日本語文に対して前処理辞書テーブル1041のエントリを辞書引きする。続いてステップ403で辞書引きが成功したか否かを判定し、成功した場合には結果の見出し語と訳語と意味情報とを辞書引き結果バッファ1062に格納して制御はステップ404に進み、失敗した場合には入力文を置換結果バッファ1063にコピーして制御はステップ405に進む。
【0042】ステップ404では、置換部1052により、入力文バッファ1061に格納された日本語文中の、辞書引き結果バッファ1062に格納された見出し語を訳語に変換し、置換結果バッファ1063に格納する。このとき、辞書引き結果バッファ1062に格納された意味情報を、機械翻訳システムが正しく解釈できる形式で置換結果バッファ1063に格納する。たとえば機械翻訳システムが、ある単語に対して記号「◎」を挟んで意味情報が後置されている場合に、記号「◎」の前の語の関連部分を訳すときに、記号「◎」の後の意味情報に即した単語を使用する機能を有している場合、ステップ404では訳語の後ろに記号「◎」を挟んで意味情報を後置する。
【0043】続いて、置換結果バッファ1063に格納された日本語文を出力部103を介して図示しない機械翻訳システムで翻訳する。その結果を翻訳結果バッファ1065に格納する。
【0044】ステップ406では、ステップ404での意味情報の付加が行なわれた文か否かについての判定が行なわれ、付加が行なわれた文である場合には制御はステップ407に、それ以外の場合には制御はステップ408に、それぞれ進む。
【0045】ステップ407では、翻訳結果バッファ1065に格納された翻訳結果文から、ステップ404で付与された意味情報に該当する部分を削除する後処理を行ない、翻訳結果バッファ1065に格納し直す処理が行なわれる。この処理が図7の後処理部1053が行なう処理に相当する。上の説明の場合、記号「◎」に続く語が削除される。こうして得られた結果の文をステップ408で出力する。
【0046】より具体的な文を例としてこの第3の実施の形態の機械翻訳前処理装置の動作について説明する。例として「妊婦が大量出血を起こした。」という文が入力されたものとする。この文に対する辞書引きの結果、「大量出血」という語に対して「hemorrhage」が辞書引きされたとする。このとき、辞書引き結果バッファ1062には、「大量出血」「hemorrhage」という、見出し語、訳語の対に加えて「病気」という意味情報も格納される。図8に示すように、「大量出血」「hemorrhage」という対には「病気」という意味情報が付加されているためである。
【0047】ステップ404の結果、置換結果バッファ1062の内容は「妊婦が<hemorrhage◎病気>を起こした。」となる。これを機械翻訳装置に与えたとすると、前述の通りこの機械翻訳システムが、記号「◎」の前の単語の関連部分については、記号「◎」に後置されている意味情報を考慮して翻訳する機能を有しているので、「A pregnant woman caused hemorrhage◎illness.」が翻訳結果として得られる。後処理部1053によりステップ407で「◎illness」が削除されるので、最終的に得られる訳文は「A preg nant woman caused hemorrhage.」となる。この結果は、意味情報を付与せずに入力文の「大量出血」を「hemorrhage」と置換しただけの文「妊婦がhemorrhageを起こした。」を機械翻訳した結果得られた訳文「A pregnant woman set up large-scale bleeding.」と比較すると、より適切な英文が得られていることがわかる。つまり、「起こした」の箇所が「set up」から「caused」に、「大量出血」の意味を反映してより適切な単語に置き換えられている。
【0048】以上のようにこの第3の実施の形態の装置によれば、前処理辞書テーブルに意味情報が付与されており、機械翻訳システムには英語訳語に加えてその意味情報が与えられる。そのため、機械翻訳システムはこの意味情報を用いてより適切な翻訳を行なうことができ、翻訳システム全体の翻訳精度を向上させることができる。
[第4の実施の形態]第4の実施の形態の機械翻訳前処理装置は、第3の実施の形態の装置とほぼ同様の構成であるが、前処理情報テーブル1041の中の意味情報として見出し語の部分形態素を採用している点が異なる。つまり、予め見出し語を形態素分析しておき、得られた形態素のうちの一つを意味情報として用いる。
【0049】この場合の前処理辞書テーブル1041の内容の一例を図10に示す。図10を参照して、たとえば「大量出血」という見出し語は、「大量/出血」と形態素分析される。そこで、この二つの形態素「大量」および「出血」のうち、意味を表すためにより適切と思われる「出血」という語を意味情報として用いる。
【0050】前処理辞書テーブル1041をこのように作成した場合、第3の実施の形態の装置と全く同様のハードウェア構成、機能ブロック構成およびソフトウェア構成で、第3の実施の形態と同様に、意味情報を用いた精度の高い機械翻訳を実現するための前編集処理が可能となる。
【0051】たとえば、第3の実施の形態の装置では、「妊婦が大量出血を起こした。」という入力文に対する置換結果バッファ1063の内容は、「妊婦が<hemorrhage◎病気>を起こした。」となっていた。それに対して本実施の形態の装置では、置換結果バッファ1063の内容は「妊婦が<hemorrhage◎出血>を起こした。」となる。この文を機械翻訳にかけた結果、「出血」という意味情報に応じて適切な訳語が選択され、「A pregnant woman caused hemorrhage◎bleeding.」という翻訳結果が得られる。後処理部1053による後処理によって「◎」の次の語を削除した結果、「A pregnant woman caused hemorrhage.」という、第3の実施の形態の装置によるものと同じ訳文が得られる。
【0052】前処理辞書テーブルの見出し語に意味情報を付与するためには、大規模なシソーラスを用いて見出し語に対する意味情報を決定したり、人手で意味情報をチェックしたりする必要がある。そのために、前処理辞書テーブルのコストが上昇するおそれがある。しかしこの第4の実施の形態の装置では、予め見出し語を形態素解析し、分割された形態素のうちの一つを意味情報として用いる。特に、日本語の漢字の組合わせからなる複合語の場合には、分割された形態素のうちの一つ、たとえば最後の一つが適切にその複合語の意味情報を表す場合が多い。そのため、大規模なシソーラスを用いる必要がなく、各見出し語に意味情報を付与することができる。また、形態素分析し、そのうちの一語を意味情報として見出し語に付与する操作は自動的に行なうことができる。そのため、前処理辞書テーブル1041のコストの上昇を抑えることができる。
[第5の実施の形態]第5の実施の形態の機械翻訳前処理装置は、図7に示す第3の実施の形態にかかる機械翻訳前処理装置と同様のハードウェア構成、機能ブロック構成およびソフトウェア構成で、ただ前処理辞書テーブルの各見出し語への意味情報の付与の方法のみが異なる。したがってこの第5の実施の形態の装置の構成および機能は、第4の実施の形態にかかる機械翻訳前処理装置の場合と類似している。
【0053】この第5の実施の形態の装置の前処理辞書テーブルでは、各見出し語に付与される意味情報として、見出し語の末尾の一文字を用いる。たとえば図11に示すように、「大量出血」に対して「血」を、「血友病患者」に対して「者」を、「血色素」に対して「素」のごとくである。
【0054】一般に、日本語の漢字の組合わせからなる複合語では末尾の語がその複合語の意味を最もよく表している。また漢字は表意文字であって、一文字である意味を表せる。複合語では、「形容詞的な漢字」+「修飾される概念を表す漢字」という組合わせがおおい。つまりある語がたとえば二文字の漢字からなっている場合、「出血」「止血」「吐血」がいずれも「血」に関連する語群に属し、「白雲」「黒雲」「青雲」がいずれも「雲」に関連する語群に属するように、二文字のうちの末尾の漢字一文字によって、その語が属する包括的な語群が表わされていることが多い。そこで、この第5の実施の形態のように見出し語の末尾の一文字を見出し語の意味情報として採用した。
【0055】この第5の実施の形態の場合、前述の「妊婦が大量出血を起こした。」という入力文に対する置換結果バッファ1063の内容は、「妊婦が<hemorrhage◎血>を起こした。」となる。この文を機械翻訳にかけた結果、「血」という意味情報に応じて適切な訳語が選択され、「A pregnant woman caused hemorrhage◎blood.」という翻訳結果が得られる。後処理部1053による後処理によって「◎」の次の語を削除した結果、「A pregnant woman caused hemorrhage.」という、第3および第4の実施の形態の装置によるものと同じ訳文が得られる。
【0056】このように、見出し語の末尾の一文字をその意味情報として採用する場合、第4の実施の形態の場合よりもさらに意味情報の付与作業が簡単となる。そのため前処理辞書テーブル1041を作成する場合に要する手間を削減でき、コストの上昇を抑えることができる。さらにこのような方法を採用する場合には、前処理辞書テーブル1041に意味情報を付与しておくことなく、前処理時に、置換部1052による作業のときに意味情報を付与することが容易に行なえる。
[第6の実施の形態]第6の実施の形態にかかる機械翻訳前処理装置のハードウェア、および機能ブロックの構成は、図7に示した第3の実施の形態のものと同様である。第6の実施の形態の装置では、前処理辞書テーブル1041において、各エントリを、見出し語と、英語訳語、および英語の語形情報とからなるようにした点が第3の実施の形態と異なる点である。図12に、この第6の実施の形態における前処理辞書テーブル1041の内容の例について示す。
【0057】図12に示す例では、語形情報として英語単語の複数形に関する語形情報を与えている。
【0058】図13に、この第6の実施の形態の機械翻訳前処理装置の制御プログラムのフローチャートを示す。図13に示すフローチャートは、図9に示した第3の実施の形態の装置のフローチャートにおいて、ステップ403および404をそれぞれステップ503および504で置換し、ステップ406および407をそれぞれステップ506および507で置換したものである。ステップ401、402、405、および408は図9に示すものと同様である。したがってこれらステップについてはその詳細な説明はここでは繰返さない。
【0059】ステップ503では、ステップ402での辞書引き処理の結果、辞書引きが成功したか否かを判定する。辞書引きに成功した場合には、結果の見出し語と訳語と語形情報とを辞書引き結果バッファ1062に格納して、制御はステップ504に進む。辞書引きに失敗した場合には、入力文を置換結果バッファ1063にコピーして制御はステップ405に進む。
【0060】ステップ504では、置換部1052により、入力文バッファ1061に格納された日本語文中の、辞書引き結果バッファ1062に格納された見出し語を訳語に置換し、置換結果バッファ1063に格納する。このとき、後に見出し語に対応する語形情報により、置換後の訳語を複数形にするために、この後に用いる機械翻訳システムにおいて複数形情報が正しく解釈できる形式に置換結果バッファ1063の内容を修正する。ここでは、後に使用する機械翻訳システムにおいて、複数形情報を正しく解釈し翻訳できるようにするためには、辞書引きによって得られた英語訳語の後に、一例として記号「◎」をはさんで、見出し語の意味を表す語であって、機械翻訳システムが容易に複数形にできる語を付加するものとする。
【0061】ステップ405で、置換結果バッファ1063の内容を機械翻訳システムによって翻訳する。
【0062】ステップ506において、ステップ504で語形情報を付与したか否かについて判定し、付与した場合には制御はステップ507に進み、付与しなかった場合には制御はステップ408に進む。
【0063】ステップ507では、ステップ504で入力文に付与した情報の翻訳結果と、ステップ402での辞書引きの結果得られた語形情報とから、見出し語に対応する語の語形を修正する。ここでは、機械翻訳の結果、見出し語に対応する英語訳語の直後に、記号「◎」を挟んでステップ504で付与された語の複数形が出力され、翻訳結果バッファ1065に格納される。この記号「◎」の直後の語が機械翻訳システムにより複数形として訳されていれば、その直前の語を複数形にしなければならないことが分かる。そこで、辞書引きの結果得られた複数形に基づき、翻訳結果中の英語訳語を複数形に修正し、翻訳結果バッファ1065に結果を再格納する。
【0064】ステップ408で翻訳結果を出力し、処理を終了する。具体的な例を挙げて説明する。入力文として「3人の妊産婦が呼ばれた。」が与えられたものとする。図12に示される前処理辞書テーブルに対する辞書引きにより、「妊産婦」に対する英語訳語として「parturient」が得られ、さらにその複数形に関する語形情報「-s」も得られる。
【0065】ステップ504では、「3人の妊産婦が呼ばれた。」という語が置換部1052の処理によって「3人の<parturient◎少女>が呼ばれた。」という文に変換される。「◎」の直後の「少女」が翻訳後の語形修正のために原文に付与される情報であるこの文を機械翻訳システムに与えることにより、翻訳結果として「Three parturient◎, girls, were called.」という文が得られたものとする。「少女」が「girls」と訳されていることから、「◎」の直前の「parturient」を複数形にしなければならないことが分かる。一方、ステップ402および503での辞書引き処理の結果、「parturient」の複数形が「parturients」であることは分かっている。そこで、ステップ507においては後処理として「Three parturient◎, girls, were called.」の「parturient」をその複数形である「parturients」に修正し、ステップ504で付与された記号「◎」とその直後の単語に該当する部分「◎, girs」とを翻訳結果から削除する。その結果、「Three parturients were called.」という正しい翻訳結果が得られる。
【0066】以上のようにこの第6の実施の形態の機械翻訳前処理装置によれば、翻訳後の単語の複数形などの語形を正しく修正し、翻訳の精度を高めることが可能となる。
[第7の実施の形態]第7の実施の形態にかかる機械翻訳前処理装置は、図1に示した第1の実施の形態の装置と同様のハードウェア構成、機能ブロック構成およびソフトウェア構成を有する。この第7の実施の形態の装置は、前処理辞書テーブル1041の各エントリが、図14に示すように、ソース言語である日本語の見出し語と、同じ日本語で見出し語を言い換えた語との対からなる点で第1の実施例と異なっている。その他の点では両者は同じである。
【0067】ここでの「言い換え」とは、機械翻訳システムの辞書中に含まれていない単語を、機械翻訳システムの辞書に登録されているそれとほぼ同じ意味の単語に置換することをいう。このように、入力文に含まれる、機械翻訳システムの辞書に含まれていない単語を、機械翻訳システムに含まれているよく似た意味の単語と置換する処理を予め前処理として入力文に適用することにより、機械翻訳の精度が向上するであろうことは当業者であれば容易に理解できるであろう。
【0068】たとえば、ある機械翻訳システムの辞書に「懐妊」はないが「妊娠」ならある場合を考える。入力文が「王女の懐妊が伝えられた。」というものである場合、これを直接この機械翻訳システムで翻訳すると、「懐妊」がうまく翻訳できず、たとえば「Princess' bosom 妊 was transmitted.」などという翻訳結果となる。しかしこれを前処理によって「王女の妊娠が伝えられた。」と言い換えておくことにより、同じ機械翻訳システムで翻訳すると「Princess' pregnancy was transmitted.」となり、言い換えをしなかった場合と比較してより適切な翻訳結果を得ることができる。
【0069】この実施の形態の装置では、前処理辞書テーブル1041として、「懐妊」「妊娠」のような類義語を登録しておくだけでなく、「見積もり」「見積り」などの異綴り語を言い換え語として登録してもよい。また、「資料収集」などの複合語を「資料の収集」と基本的な語の組合わせに言い換えるエントリを登録してもよい。要は、機械翻訳システムの辞書に登録されていない単語を、前処理によって、機械翻訳システムの辞書に登録されている単語またはそれらの組合わせに置換えてしまう、ということである。
【0070】この実施の形態の装置によれば、前処理辞書の各エントリが、ソース言語の語の対となるため、ソース言語と訳語との対でエントリを構成する場合と比較して、前処理辞書テーブルの作成が容易であるという効果がある。
【0071】今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【出願人】 【識別番号】000005049
【氏名又は名称】シャープ株式会社
【出願日】 平成12年10月27日(2000.10.27)
【代理人】 【識別番号】100064746
【弁理士】
【氏名又は名称】深見 久郎
【公開番号】 特開2002−132764(P2002−132764A)
【公開日】 平成14年5月10日(2002.5.10)
【出願番号】 特願2000−328469(P2000−328469)