トップ :: G 物理学 :: G06 計算;計数




【発明の名称】 イディオム処理機能を有する電子辞書
【発明者】 【氏名】ヤン リー・ピン

【要約】 【課題】イディオム処理機能を有する電子辞書を提供すること。

【解決手段】第1の言語のテキストから現在の文章内に含まれるイディオムを自動的に識別し、第2の言語での対応する翻訳表現を出力することができる。この電子辞書はイディオム処理手段を含み、これは、テキスト収集、文章分割、ローカル解析、トランスファー辞書突合せにより自動識別を可能にする。この電子辞書は、イディオム・レベルでインテリジェント翻訳を行うものである。
【特許請求の範囲】
【請求項1】イディオム処理機能を有する電子辞書であって、複数の項目を電子データの形で記憶する手段であって、各項目が第1の言語のヘッダと該ヘッダに対応する第2の言語での翻訳表現を有し、前記ヘッダが第1の言語のイディオムを含む手段と、新しい項目を前記記憶手段に登録する手段と、照会単語に対応する項目を前記記憶手段から検索する手段とを含み、前記検索手段がイディオム処理手段を含み、該イディオム処理手段が第1の言語のテキストから現在の文章に含まれるイディオムを自動的に識別し、第2の言語での対応する翻訳表現を検索できることを特徴とする、電子辞書。
【請求項2】前記イディオム処理手段が、照会単語を含むテキストを収集する手段と、照会単語を含む文章を分割する手段と、前記文章から可能な文法成分をすべて識別するためにローカル解析を行う手段と、前記記憶手段内の項目を前記文章の解析結果と突き合わせる手段と、突合せ項目を出力する手段とを含む、請求項1に記載の電子辞書。
【請求項3】前記出力手段が、一致の程度に応じて出力すべき項目にランク付けをする、請求項2に記載の電子辞書。
【請求項4】第1の言語が英語であり、第2の言語が中国語である、請求項1に記載の電子辞書。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は、電子辞書に関し、特に、イディオムを処理可能な電子辞書に関する。
【0002】
【従来の技術】何年もの間、文書表現または口頭表現をコンピュータによりある言語から別の言語に翻訳できる機械翻訳技術が研究されてきた。機械翻訳は、人間の補助なしに、ある言語から別の言語(または他の多くの言語)へのある種の自動翻訳をする。言語の形式および構造に関する言語分析を基礎として、記憶およびデータ処理におけるコンピュータの巨大なパワーを利用することにより、数学的手法によって機械用辞書および機械用文法を構築する。この言語翻訳を実現するため、機械翻訳システムは、辞書解析、構文解析、文法解析、辞書、イディオム辞書、意味解析、目標言語合成の諸機能を持っていなければならない。しかし、機械翻訳は、言語学、コンピュータ言語学、コンピュータ科学、その他多くの主題に関する最先端の応用科学なので、依然として適用可能なシステムは入手可能になっていない。このような状況下で、焦点は、単語レベルで翻訳を実行し、しかもより実用的な、電子辞書に移った。電子辞書は、データを電子形式で記憶し使用するある種の新しい辞書である。電子辞書は柔軟性の高いものである。これは、ハイパーメディアおよびハイパーテキストとして情報を編成し、様々な検索方法をサポートし、動的翻訳の機能を提供し、検索した単語の説明をテキスト、音声、画像の形で提供することができる。
【0003】しかし、既存のほとんどの電子辞書は、単語レベルの翻訳しか実行できない。「He takes part in the activity.」という英語の文章がある場合、既存の電子辞書は単一の単語「take」の中国語訳を示すことができるが、ユーザは「take part in」の中国語の意味を得ることはできない。
【0004】イディオム・レベルの翻訳が可能な電子辞書がいくつか存在する。しかし、これらにもユーザにとって以下のような制約がある。
【0005】ユーザが「take part in」というイディオムを入力すると、その翻訳を示すことができる。ユーザが「take an active part in」という句を入力した場合、これらの電子辞書は「take part in」というイディオムを識別することができなくなり、したがって、有用な中国語訳を示すことができない。
【0006】ユーザがイディオム内の正しい見出し単語を入力しない場合、これらの辞書はイディオム・レベルの翻訳を示さなくなる。「take part in」という例では、ユーザが辞書で「part」または「in」という単語を調べた場合、「take part in」というイディオムの翻訳を得ることはできない。
【0007】
【発明が解決しようとする課題】したがって、本願発明の目的は、イディオム処理機能を有する電子辞書を提供することである。
【0008】
【課題を解決するための手段】本発明によるイディオム処理機能を備えた電子辞書は、上記の問題を解決するだろう。
【0009】本発明によるイディオム処理機能を備えた電子辞書は、複数の項目を電子データの形で記憶する手段であって、各項目が第1の言語のヘッダと該ヘッダに対応する第2の言語での翻訳表現を有し、前記ヘッダが第1の言語のイディオムを含む手段と、新しい項目を前記記憶手段に登録する手段と、照会単語に対応する項目を記憶手段から検索する手段とを含み、前記検索手段がイディオム処理手段を含み、該イディオム処理手段は第1の言語のテキストから現在の文章に含まれるイディオムを自動的に識別し、第2の言語での対応する翻訳表現を検索することができる。
【0010】本発明の目的、特徴、および利点については、添付図面に関連して示す以下の詳細な説明により完全に理解できるだろう。
【0011】
【発明の実施の形態】本発明による電子辞書を図1に示す。入力手段100は原始言語の単語ストリングまたはテキストを入力するために使用し、項目記憶手段200は複数の項目を電子データの形で記憶するために使用し、項目登録手段300は新しい項目を項目記憶手段200に登録するために使用し、項目検索手段400は照会単語と一致する項目を項目記憶手段200から検索するために使用し、出力手段500は照会単語と一致する項目を出力するために使用する。
【0012】図1に示すように、本発明による電子辞書内の項目検索手段400はイディオム処理手段600を含む。イディオム処理手段600は、テキスト・キャプチャ・ユニット601と、文章分割ユニット602と、ローカル文法解析ユニット603と、トランスファー辞書突合せユニット604を具備する。
【0013】図2は、イディオム処理手段600の構成とその作業の流れを詳細に示している。図2に示すように、イディオム処理手段600が活動化されると、テキスト・キャプチャ・ユニット601は照会単語を含む1つのテキストを画面表示から収集するが、照会単語はカーソルによってユーザが指し示したものである。次に、文章分割ユニット602が照会単語を含む文章を識別する。ローカル文法解析ユニット603がその文章から可能な文法成分をすべて識別する。トランスファー辞書突合せユニット604は解析結果を辞書内の項目と突き合わせ、突き合わせた各項目は文章内の1つのセグメントの翻訳を示すことができる。照会単語をカバーする突合せ項目は1つの項目セットを形成する。項目と文章との一致の程度に応じて上記項目セット内の項目をランク付けた後、出力が画面上に表示される。
【0014】英中電子辞書の場合、ローカル文法解析ユニット603は以下の文法成分を識別する。
1.名詞句2.動詞句3.前置詞句4.形容詞句5.副詞句6.単独不変化詞【0015】名詞句は以下の基本構造の1つまたは複数の基本構造からなる構成を有する。
1.1.単一名詞1.2.名詞+名詞1.3.名詞+of+名詞1.4.名詞の名詞1.5.形容詞+名詞1.6.冠詞+名詞1.7.代名詞+名詞1.8.数詞+名詞【0016】動詞句は以下の基本構造の1つまたは複数の基本構造からなる構成を有する。
2.1.単一動詞2.2.be+動詞2.3.have+動詞2.4.副詞+動詞2.5.動詞+副詞【0017】前置詞句は以下の構造を有する。
3.1.前置詞+名詞句【0018】形容詞句は以下の基本構造の1つを有する。
4.1.単一形容詞4.2.more+形容詞4.3.the most+形容詞【0019】副詞句は以下の基本構造の1つを有する。
5.1.単純副詞5.2.more+副詞5.3.the most+副詞【0020】以下の説明では、ローカル解析手順を示すための一例として「He takes an active part in the activity.」という文章を取り上げる。
ステップIhe→名詞take→動詞a→冠詞active→形容詞part→名詞part→形容詞in→前置詞in→不変化詞the→冠詞activity→名詞ステップIIhe:名詞take:動詞a:冠詞active:形容詞part:名詞part:形容詞in:前置詞in:不変化詞the:冠詞activity:名詞active part:形容詞+名詞→名詞the activity:冠詞+名詞→名詞ステップIIIhe:名詞take:動詞a:冠詞active:形容詞part:名詞part:形容詞in:前置詞in:不変化詞the:冠詞activity:名詞active part:名詞the activity:名詞an active part:冠詞+名詞→名詞in the activity:前置詞+名詞→前置詞句【0021】文章内の文法成分を識別している間に、1つの単語が、まったく品詞が異なる複数の成分に属す場合がある。上記の文章では、「part」という単語は形容詞または名詞のいずれかになり、「in」という単語は前置詞または不変化詞のいずれかになる可能性がある。この場合、ローカル解析の結果により、可能な文法成分のすべてが保管される。
【0022】ローカル文法解析が完了した後、イディオム処理手段600はトランスファー辞書突合せユニット604を活動化し、トランスファー辞書内の項目とローカル文法解析の結果との突合せを実行する。
【0023】トランスファー辞書の構造を以下に示す。辞書内の1つの項目は、見出し、文法、翻訳の3つの部分を含む。
【表1】

【0024】上記の表の表記は以下のように解釈する。
表記 解釈a 形容詞adj 形容詞comp 補語fin 定動詞inf 不定詞n 名詞nobj それより先行する名詞の目的語n loc 位置を示す名詞Obj 指定の単語が先頭に付く目的語obj その後の文法成分リストの1つになりうる目的語p 前置詞pt 不変化詞thatc 「that」が先頭に付く節v 動詞wh 「who」、「where」、「when」、または「what」が先頭に付く節【0025】1つの項目の見出しは複数の単語からなる可能性があり、たとえば、make sure<v comp(a about of)<【外1】

objprepは、項目の見出しとして最初の単語を取る。
【0026】項目の文法部分の最初の成分は見出し単語の品詞である。品詞の次に一連の文法成分が続く。1つの文法成分はその名前とその記述からなる。これは、複数の副成分からなる可能性がある。
【0027】この例では、obj n fin whは目的語文法成分を記述するものである。この目的語は、名詞、定動詞句、またはwhが先頭に付いた節でなければならない。
【0028】この例では、p about ofは前置詞句を記述するものである。この前置詞句は、「about」または「of」が先頭に付いたものでなければならない。
【0029】翻訳部分には、項目の英語部分の翻訳として中国語の単語とともに文法部分が含まれる。
【0030】図3は、トランスファー辞書内の項目を文章の解析結果と突き合わせるための手順を示している。トランスファー辞書項目の2つの例を以下に示す。
【0031】第1の例はtake<v(Obj part)(comp (p in))<t(【外2】

objprep)である。この項目の骨組みイディオムは「take part in」である(骨組みイディオムとは必要な単語のみを含むイディオムである)。この項目内の「take」は見出し単語である。「v」はこれが動詞句であることを示す。「(Obj part)」は「take」という動詞がその目的語として「part」という単語を持つ必要があることを示す。「comp」は目的語の後の補語成分を指定する。「(p in)」はその補語が「in」が先頭に付いた前置詞句でなければならないことを示す。「t(【外3】

objprep)」はそのイディオムを中国語に翻訳する方法を示す。「objprep」は前置詞「in」の目的語を表す。
【0032】第2の例はtake<v (obj n fin wh)(comp (pt in))<t(【外4】

obj)である。この項目の骨組みイディオムは「take in」である。この項目内の「(obj n fin wh)」は「take」という動詞が目的語を持つ必要があることを示す。この目的語は、名詞句、定動詞句、または「what」、「where」、「when」などが先頭に付く節にすることができる。「(pt in)」はその補語が「in」という不変化詞でなければならないことを示す。
【0033】上記2つの項目を「He takes an active part in the activity.」の解析結果と比較すると、以下のように1つずつの突合せが示される。
1.takes vs. take<v2.an active part vs.(Obj part)3.in the activity vs.(comp (p in))および1.takes vs. take<v2.an active part vs.(obj n)3.in vs.(comp (pt in))【0034】上記の例では、2つの項目の両方が文章と突き合わされる。照会単語が「take」または「in」である場合、どちらも辞書索引のセット内に含まれる。しかし、照会単語が「part」である場合、「take part in」という項目のみが辞書索引のセット内に含まれる。
【0035】最後に、突合せ項目は、その項目と解析結果との一致の程度に応じてランク付けされる。たとえば、「He takes an active part in the activity」という文章と「take」という照会単語の場合、「take part in」、「take in」、「take」という3つの突合せ項目が得られる。骨組みイディオムの長さ、すなわち、骨組みイディオム内の単語の数に応じて、以下のように出力項目がランク付けされる。
1.take part in:【外5】

2.take in:【外6】

3.take:【外7】

【0036】上記の内容から、本発明で説明する電子辞書は、照会単語を含むすべてのイディオムを入力テキストから識別することができる。本発明は、イディオム・レベルのインテリジェント翻訳を実現した。
【0037】当業者にとって、本発明は、本発明の精神およびカテゴリが変わらないという条件下で様々な変更態様および変形態様を可能にするものであり、本発明はこのような変更態様および変形態様のすべてを保護するためのものである。
【0038】まとめとして、本発明の構成に関して以下の事項を開示する。
【0039】(1)イディオム処理機能を有する電子辞書であって、複数の項目を電子データの形で記憶する手段であって、各項目が第1の言語のヘッダと該ヘッダに対応する第2の言語での翻訳表現を有し、前記ヘッダが第1の言語のイディオムを含む手段と、新しい項目を前記記憶手段に登録する手段と、照会単語に対応する項目を前記記憶手段から検索する手段とを含み、前記検索手段がイディオム処理手段を含み、該イディオム処理手段が第1の言語のテキストから現在の文章に含まれるイディオムを自動的に識別し、第2の言語での対応する翻訳表現を検索できることを特徴とする、電子辞書。
(2)前記イディオム処理手段が、照会単語を含むテキストを収集する手段と、照会単語を含む文章を分割する手段と、前記文章から可能な文法成分をすべて識別するためにローカル解析を行う手段と、前記記憶手段内の項目を前記文章の解析結果と突き合わせる手段と、突合せ項目を出力する手段とを含む、上記(1)に記載の電子辞書。
(3)前記出力手段が、一致の程度に応じて出力すべき項目にランク付けをする、上記(2)に記載の電子辞書。
(4)第1の言語が英語であり、第2の言語が中国語である、上記(1)に記載の電子辞書。
【出願人】 【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレイション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MASCHINES CORPORATION
【出願日】 平成11年10月4日(1999.10.4)
【代理人】 【識別番号】100086243
【弁理士】
【氏名又は名称】坂口 博 (外1名)
【公開番号】 特開2000−112941(P2000−112941A)
【公開日】 平成12年4月21日(2000.4.21)
【出願番号】 特願平11−282996