トップ :: G 物理学 :: G06 計算;計数




【発明の名称】 構文解析装置、構文解析方法および構文解析プログラムを記録した媒体
【発明者】 【氏名】吉見 毅彦

【要約】 【課題】節と名詞句の照応関係を解析し、節と名詞句の両方あるいは一方の構文的曖昧性を解消することが可能な構文解析装置を提供すること。

【解決手段】構文解析装置は、入力テキストに対して形態素解析を行ない、構文木を作成するための入力テキスト解析部2と、入力テキスト解析部2によって作成された構文木の中から動詞を取出すための動詞取出部32と、動詞取出部32によって取出された動詞の名詞形を生成するための名詞化部33と、入力テキスト解析部2によって作成された構文木の中から名詞化部33によって生成された名詞形と一致する名詞を取出すための名詞取出部35と、動詞取出部32によって取出された動詞を主辞とする節を構成する構成要素と、名詞取出部35によって取出された名詞を主辞とする名詞句を構成する構成要素とを照合するための構造照合部36と、構造照合部36による照合に基づいて入力テキストの解釈を一意に決定するための出力部4とを含む。
【特許請求の範囲】
【請求項1】 入力テキストに対して形態素解析を行ない、構文木を作成するための解析手段と、前記解析手段によって作成された構文木の中から動詞を抽出するための動詞抽出手段と、前記動詞抽出手段によって抽出された動詞の名詞形を生成するための生成手段と、前記解析手段によって作成された構文木の中から前記生成手段によって生成された名詞形と一致する名詞を抽出するための名詞抽出手段と、前記動詞抽出手段によって抽出された動詞を主辞とする節を構成する構成要素と、前記名詞抽出手段によって抽出された名詞を主辞とする名詞句を構成する構成要素とを照合するための照合手段と、前記照合手段による照合に基づいて前記入力テキストの解釈を一意に決定するための決定手段とを含む構文解析装置。
【請求項2】 前記照合手段は、前記動詞抽出手段によって抽出された動詞を主辞とする節を構成する構成要素と、前記名詞抽出手段によって抽出された名詞を主辞とする名詞句を構成する構成要素とが部分一致する場合、前記動詞を主辞とする節の連用助詞と前記名詞を主辞とする名詞句の連体助詞とが予め定められた変化規則に一致するか否かによって照合する、請求項1記載の構文解析装置。
【請求項3】 前記構文解析装置はさらに、語の上位下位関係または類義関係を記憶するためのシソーラス記憶手段を含み、前記生成手段は、前記動詞抽出手段によって抽出された動詞の名詞形を生成する際、前記シソーラス記憶手段を参照して上位関係または類義関係にある名詞形を生成する、請求項1または2記載の構文解析装置。
【請求項4】 前記構文解析装置はさらに、節と名詞句との間に照応関係が成立しないことを示す語彙を記憶するための前方照応中断詞記憶手段を含み、前記照合手段は、前記動詞抽出手段によって抽出された動詞を主辞とする節を構成する構成要素または前記名詞抽出手段によって抽出された名詞を主辞とする名詞句を構成する構成要素が前記前方照応中断詞記憶手段にある場合は、照応関係がないとする、請求項1記載の構文解析装置。
【請求項5】 前記照合手段は、前記名詞句の主辞に直接支配される構成要素が、前記照応中断詞記憶手段にある場合は、照合が失敗したとする、請求項4記載の構文解析装置。
【請求項6】 前記照合手段は、前記節の主辞に直接支配される第1の固有名詞が存在し、前記名詞句の主辞に直接支配される第2の固有名詞が存在する場合、前記第1の固有名詞と第2の固有名詞とが完全文字列一致しなければ、前記節と前記名詞句との照合が失敗したとする、請求項1記載の構文解析装置。
【請求項7】 入力テキストに対して形態素解析を行ない、構文木を作成するステップと、前記構文木の中から動詞を抽出するステップと、前記抽出された動詞の名詞形を生成するステップと、前記構文木の中から前記名詞形と一致する名詞を抽出するステップと、前記抽出された動詞を主辞とする節を構成する構成要素と、前記抽出された名詞を主辞とする名詞句を構成する構成要素とを照合するステップと、前記照合に基づいて前記入力テキストの解釈を一意に決定するステップとを含む構文解析方法。
【請求項8】 前記動詞の名詞形を生成するステップは、前記動詞の上位関係または類義関係にある名詞形を生成する、請求項7記載の構文解析方法。
【請求項9】 入力テキストに対して形態素解析を行ない、構文木を作成するステップと、前記構文木の中から動詞を抽出するステップと、前記抽出された動詞の名詞形を生成するステップと、前記構文木の中から前記名詞形と一致する名詞を抽出するステップと、前記抽出された動詞を主辞とする節を構成する構成要素と、前記抽出された名詞を主辞とする名詞句を構成する構成要素とを照合するステップと、前記照合に基づいて前記入力テキストの解釈を一意に決定するステップとを含む構文解析プログラムを記録した媒体。
【請求項10】 前記動詞の名詞形を生成するステップは、前記動詞の上位関係または類義関係にある名詞形を生成する、請求項9記載の構文解析プログラムを記録した媒体。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は、入力テキストの解釈を行なうための構文解析装置、構文解析方法および構文解析プログラムを記録した媒体に関し、特に、入力テキストを構成する要素の間に成り立つ照応関係を解析することにより解釈を行なう構文解析装置、構文解析方法および構文解析プログラムを記録した媒体に関する。
【0002】
【従来の技術】近年、機械翻訳等の分野において、日本語の形態素解析が盛んに研究されている。自然言語処理システムにおいては、入力テキストの解釈を一意に決定することが最も重要な問題であると同時に、最も解決が困難な問題の1つでもある。この問題を解決するために必要不可欠な基本的技術の1つとして、入力テキストを構成する要素間の照応関係を解析する技術が挙げられる。照応関係を解析することにより、照応に関与する要素の構文的な曖昧性を解消できる場合が多い。
【0003】この照応関係の解析を行なう技術として、文献「Jelinek, J., Yoshimi, T.,Nishida, O., Tamura, N. and Murakami, H.: Text-Wide MT Grammar, In Proceedings of the 3rd Natural Language Processing Pacific Rim Symposium, 1995.」等において、テキスト構成要素間の照応関係を解析するための手法が提案されている。この文献において、テキスト構成要素YとXとが次の3つの制約を満たすとき、YがXを指せることが示されている。
【0004】(構文制約)Yは、ある構文木上でXの後方に位置する。(縮約制約)Yは、Xを縮約した言語形式である。
【0005】(意味制約)Yの意味は、Xの意味に包含される。テキスト構成要素Xで触れた事象に他の構成要素Yが再言及しているかどうかを決定するためには、XとYとが上述した3つの制約を満たすかどうかを判定するための知識と機構とを計算機上に実装すればよい。実際に、上述した3つの制約のうち構文制約と縮約制約については、計算機上に実装できるように既に定式化されている。
【0006】
【発明が解決しようとする課題】しかし、上述した文献においては、任意のテキスト構成要素XとYとが意味制約を満たすかどうかを調べる方法が示されているわけではない。たとえば、XとYとがともに辞書に登録されている見出し語である場合、すなわち、テキスト構成要素XとYとを構文解析木上の節点とみなし、XとYとがともに終端節点である場合には、意味制約が満たされているか否かは、上位下位関係を記述したシソーラスがあれば調べることができる。これに対して、XとYとの少なくともいずれか一方が辞書に登録されている見出し語ではなく句や節である場合、すなわちXとYとの少なくともいずれか一方が構文解析木上の非終端節点である場合には、その句や節を構成する見出し語の意味から句や節の意味を合成する必要がある。しかし、上述した文献においても、見出し語が辞書に登録されていない場合には、意味制約が満たされているか否かをどのように判定するかが示されていない。
【0007】本発明は、上記問題点を解決するためになされたものであり、請求項1〜6記載の発明の目的は、節と名詞句との照応関係を解析し、節と名詞句との両方または一方の構文的曖昧性を解消することが可能な構文解析装置を提供することである。
【0008】請求項7および8記載の発明の目的は、節と名詞句との照応関係を解析し、節と名詞句の両方または一方の構文的曖昧性を解決することが可能な構文解析方法を提供することである。
【0009】請求項9および10記載の発明の目的は、節と名詞句との照応関係を解析し、節と名詞句の両方または一方の構文的曖昧性を解決することが可能な構文解析プログラムを記録した媒体を提供することである。
【0010】
【課題を解決するための手段】請求項1に記載の構文解析装置は、入力テキストに対して形態素解析を行ない、構文木を作成するための解析手段と、解析手段によって作成された構文木の中から動詞を抽出するための動詞抽出手段と、動詞抽出手段によって抽出された動詞の名詞形を生成するための生成手段と、解析手段によって作成された構文木の中から生成手段によって生成された名詞形と一致する名詞を抽出するための名詞抽出手段と、動詞抽出手段によって抽出された動詞を主辞とする節を構成する構成要素と、名詞抽出手段によって抽出された名詞を主辞とする名詞句を構成する構成要素とを照合するための照合手段と、照合手段による照合に基づいて入力テキストの解釈を一意に決定するための決定手段とを含む。
【0011】請求項2に記載の構文解析装置は、請求項1記載の構文解析装置であって、照合手段は動詞抽出手段によって抽出された動詞を主辞とする節を構成する構成要素と、名詞抽出手段によって抽出された名詞を主辞とする名詞句を構成する構成要素とが部分一致する場合、動詞を主辞とする節の連用助詞と名詞を主辞とする名詞句の連体助詞とが予め定められた変化規則に一致するか否かによって照合する。
【0012】請求項3記載の構文解析装置は、請求項1または2記載の構文解析装置であって、構文解析装置はさらに語の上位下位関係または類義関係を記憶するためのシソーラス記憶手段を含み、生成手段は、動詞抽出手段によって抽出された動詞の名詞形を生成する際、シソーラス記憶手段を参照して上位関係または類義関係にある名詞形を生成する。
【0013】請求項4に記載の構文解析装置は、請求項1記載の構文解析装置であって、構文解析装置はさらに節と名詞句との間に照応関係が成立しないことを示す語彙を記憶するための照応中断詞記憶手段を含み、照合手段は動詞抽出手段によって抽出された動詞を主辞とする節を構成する構成要素または名詞抽出手段によって抽出された名詞を主辞とする名詞句を構成する構成要素が前方照応中断詞記憶手段にある場合は、照応関係がないとする。
【0014】請求項5に記載の構文解析装置は、請求項4記載の構文解析装置であって、照合手段は名詞句の主辞に直接支配される構成要素が照応中断詞記憶手段にある場合は、照合が失敗したとする。
【0015】請求項6に記載の構文解析装置は、請求項1記載の構文解析装置であって、照合手段は節の主辞に直接支配される第1の固有名詞が存在し、名詞句の主辞に直接支配される第2の固有名詞が存在する場合、第1の固有名詞と第2の固有名詞とが完全文字列一致しなければ、節と名詞句との照合が失敗したとする。
【0016】請求項7に記載の構文解析方法は、入力テキストに対して形態素解析を行ない、構文木を作成するステップと、構文木の中から動詞を抽出するステップと、抽出された動詞の名詞形を生成するステップと、構文木の中から名詞形と一致する名詞を抽出するステップと、抽出された動詞を主辞とする節を構成する構成要素と、抽出された名詞を主辞とする名詞句を構成する構成要素とを照合するステップと、照合に基づいて入力テキストの解釈を一意に決定するステップとを含む。
【0017】請求項8に記載の構文解析方法は、請求項7記載の構文解析方法であって、動詞の名詞形を生成するステップは動詞の上位関係または類義関係にある名詞形を生成する。
【0018】請求項9に記載の媒体に記録された構文解析プログラムは、入力テキストに対して形態素解析を行ない、構文木を作成するステップと、構文木の中から動詞を抽出するステップと、抽出された動詞の名詞形を生成するステップと、構文木の中から名詞形と一致する名詞を抽出するステップと、抽出された動詞を主辞とする節を構成する構成要素と、抽出された名詞を主辞とする名詞句を構成する構成要素とを照合するステップと、照合に基づいて入力テキストの解釈を一意に決定するステップとを含む。
【0019】請求項10に記載の媒体に記録された構文解析プログラムは、請求項9記載の構文解析プログラムであって、動詞の名詞形を生成するステップは、動詞の上位関係または類義関係にある名詞形を生成する。
【0020】
【発明の実施の形態】図1は、本発明の構文解析装置の外観を示す図である。構文解析装置は、コンピュータ本体101、グラフィックディスプレイ装置102、磁気テープ104が装着される磁気テープ装置103、キーボード105、マウス106、CD−ROM(Compact Disc-Read Only Memory )108が装着されるCD−ROM装置107、および通信モデム109を含む。後述するように構文解析プログラムは、磁気テープ104またはCD−ROM108等の記録媒体によって供給される。構文解析プログラムはコンピュータ本体101によって実行され、操作者はグラフィックディスプレイ装置102を見ながらキーボード105またはマウス106を操作することによって構文の解析を行なう。また、構文解析プログラムは他のコンピュータにより通信回線を経由し、通信モデム109を介してコンピュータ本体1に供給されてもよい。
【0021】図2は、本発明の構文解析装置の構成を示すブロック図である。図1に示すコンピュータ本体101は、CPU(Central Processing Unit )110、ROM(Read Only Memory)111、RAM(Random Access Memory)112およびハードディスク113を含む。CPU110は、グラフィックディスプレイ装置102、磁気テープ装置103、キーボード105、マウス106、CD−ROM装置107、通信モデム109、ROM111、RAM112またはハードディスク113との間でデータを入出力しながら処理を行なう。磁気テープ104またはCD−ROM108に記録された構文解析プログラムは、CPU110によって磁気テープ装置103またはCD−ROM装置107を介して一旦ハードディスク113に格納される。CPU110は、ハードディスク113から適宜構文解析プログラムをRAM112にロードして実行することによって、構文の解析が行なわれる。以下、本発明の各実施の形態における構文解析装置について説明するが、図1に示す構文解析装置の外観および図2に示す構文解析装置の構成ブロック図は各実施の形態において共通である。
【0022】[実施の形態1]図3は、本発明の実施の形態1における構文解析装置の概略構成を示すブロック図である。構文解析装置は、テキストを入力するための入力部1と、入力テキストの形態素・構文解析を行なうための入力テキスト解析部2と、入力テキスト解析部2によって生成された構文木に含まれる節の構成要素と名詞句の構成要素とを照合するための照応解析部3と、照応解析部3による照合結果に基づいて構文の解釈を一意に決定して出力するための出力部4とを含む。
【0023】また、照応解析部3は、入力テキスト解析部2で生成された複数の構文木を記憶するための構文木記憶バッファ31と、構文木に含まれる動詞を取出すための動詞取出部32と、動詞取出部32によって取出された動詞を名詞化するための名詞化部33と、動詞と名詞の対応関係が記述された動詞/名詞対応テーブル記憶メモリ34と、名詞化部33によって生成された名詞を構文木の中から取出すための名詞取出部35と、動詞取出部32によって取出された動詞および名詞取出部35によって取出された名詞に基づいて構文木の構成要素の照合を行なうための構造照合部36と、構造照合部36によって照合された結果を記憶するための照合結果記憶バッファ37とを含む。
【0024】入力テキスト解析部2は、たとえば、文献「Kay, M.: Algorithm Schemata and Data Structures in Syntactic Processing, CSL-80-12, Xerox PARC, 1980.」に示されるような上昇型チャート法によって形態素・構文解析を行なう。
【0025】図4は、この上昇型チャート法による形態素・構文解析の処理手順を示すフローチャートである。まず、図4に示すフローチャートの中で使用される用語について説明する。
【0026】弧とは構文木を表わすデータ構造であり、入力テキストのある位置から別の位置までを結ぶものである。完成した構造木に相当する弧を不活性弧、未完成の構文木に相当する弧を活性弧と呼ぶ。また、初期弧とは、ラベルが終端構文範疇である不活性弧であり、目標弧とは、ラベルが目標構文範疇であり、位置が[0,n](nは入力の終了位置)である不活性弧である。
【0027】予測手続とは、位置が[x,y]である不活性弧β1 が存在するとき、右辺第1項がβ1 であるすべての規則α→β1 …βm を適用し、位置が[x,y]である活性弧(次式)を新たに生成する。m=1ならば不活性弧を生成する。
【0028】
【数1】

【0029】結合手続とは、活性弧αの位置が[x,y]であり、最左空所が(2)式であるとき、位置が[y,z]であるすべての不活性弧βi で(2)式を埋め、位置が[x,z]である活性弧を新たに生成する手続である。i=mならば不活性弧を生成する。
【0030】
【数2】

【0031】アジェンダとは、弧の選択順序、すなわち、上述した予測手続と結合手続との適用順序を制御するためのリストである。
【0032】上昇型チャート法においては、途中結果をチャート表と呼ばれる表に格納しながら、解析を進める。途中結果を表わすデータ構造が、上述した弧に相当する。
【0033】まず、ラベルの初期化、初期弧、目標弧およびアジェンダの設定等の初期設定を行なう(S1)。そして、アジェンダが空か否かを判定する(S2)。
【0034】ステップS2において、アジェンダが空であると判定された場合に(S2,YES)、形態素・構文解析は失敗したとして終了する(S3)。また、アジェンダが空でなければ(S2,NO)、最小コスト法により弧をアジェンダから取出し、チャート表に格納する(S4)。
【0035】次に、ステップS4によってチャート表に格納された弧が、目標弧であるか否かを判定する(S5)。目標弧であれば(S5,YES)、形態素・構文解析が成功したとして終了する(S6)。また、目標弧でなければ(S5,NO)、この弧が不活性弧であるか否かを判定する(S7)。
【0036】ステップS7において、弧が不活性弧でなければ(S7,NO)、上述した結合手続を実行する(S9)。また弧が不活性弧であれば(S7,YES)、上述した予測手続を実行する(S8)。
【0037】次に、ステップS8における予測手続、またはステップS9における結合手続によって新たな弧が生成されたか否かを判定する(S10)。新たな弧が生成されなかった場合(S10,NO)、ステップS2へ戻り以上の処理を繰返す。また、新たな弧が生成された場合には(S10,YES)、新たな弧をアジェンダに追加し(S11)、新たな弧が不活性弧であるか否かを判定する(S12)。
【0038】ステップS12において、新たな弧が不活性弧でない場合は(S12,NO)、ステップS2へ戻り以上の処理を繰返す。また、新たな弧が不活性弧である場合(S12,YES)、チャート表中の活性弧のうち、新たな弧と結合できる活性弧を1つの活性弧としてアジェンダに追加する(S13)。
【0039】以上の処理を繰返し、アジェンダから取出された最小コストの弧が目標弧であるときに形態素・構文解析が成功したとして、解析を終了する。
【0040】以上説明した上昇型チャート法によって、次のテキスト1の形態素・構文解析を行なった場合について説明する。
【0041】(テキスト1)社会党は25日の予算委員会で改正案を採択するよう提案した。自民党は委員会提案に難色を示している。
【0042】テキスト1の第1文から、上昇型チャート法によって3通りの構文木が、第2文からは2通りの構文木が生成される。構文木は、基本的には、節点間の親子関係によって表現される。ある節点がどの節点を子節点としてもつかが曖昧な場合、この曖昧性は別々の構文木で表現するが、枝のラベル(支配従属関係)の曖昧性は重複が許されていない支配従属関係の重複が生じないかぎり、枝のラベルを集合として1つの構文木上にまとめて表現する。たとえば、テキスト1の場合、構文木はテキスト全体として6通りあるが、識別番号8の「委員会」が識別番号9の「提案」の主格である木と場所格である木をまとめて「8(連体修飾/φ)」と表現すると、図5〜7に示すように、見掛け上3通りの構文木となる。ここで、φとはゼロ助詞のことを示している。
【0043】図5は、「採択する」が「社会党は」と「予算委員会で」との両方を支配する解釈である。
【0044】また、図6は、「採択する」が「予算委員会で」を支配し、「提案した」が「社会党は」を支配する解釈である。
【0045】さらには、図7は、「提案した」が「社会党は」と「予算委員会で」との両方を支配する解釈である。なお、図5の構文木を模式的に示すと、図8に示すとおりとなる。
【0046】図9は、本実施の形態における構文解析装置の照応解析部3の処理手順を示すフローチャートである。まず、構文木記憶バッファ31内に存在する構文木の総数をMに代入し、“1”をkに代入する(S21)。
【0047】kとMとを比較し、kがM以下であれば(S22,NO)、構文木記憶バッファ31からk番目の構文木Tk を取出す(S23)。構文木Tk 内に未抽出の動詞Vが存在するか否かを判定し、存在しない場合には(S24,NO)、k+1をkに代入し(S25)、ステップS22へ戻る。
【0048】また、ステップS24において、構文木Tk 内に未抽出の動詞Vが存在する場合(S24,YES)、動詞取出部32は動詞Vを取出し、名詞化部33は動詞/名詞対応テーブル記憶メモリ34を検索し、動詞Vの名詞形Nを生成する(S26)。そして、名詞取出部35は、構文木Tk における動詞Vより下(末尾側)に名詞形Nが存在するか否かを判定する(S27)。
【0049】ステップS27において、構文木TK における、動詞Vより下に名詞形Nが存在しない場合(S27,NO)、ステップS24へ戻り以上の処理を繰返す。
【0050】また、ステップS27において、構文木Tk における動詞Vより下に名詞形Nが存在する場合(S27,YES)、構造照合部36は動詞Vを主辞とする木と名詞形Nを主辞とする木との照合を行なう(S28)。この照合については、後述する。
【0051】また、ステップS22において、kがMより大きければ(S22,YES)、照合結果記憶バッファ37から得点が最大である構文木を選択して解析結果とする(S29)。
【0052】図10は、動詞/名詞対応テーブルの内容の一例を示す図である。たとえば、動詞形「動か」、「動き」、「動く」、「動け」、「動こ」、または「動い」の名詞形が「動き」であることを示している。
【0053】図11は、図3の照応解析部3内の構造照合部36の概略構成を示すブロック図である。構造照合部36は、動詞取出部32によって取出された動詞Vの子節点と名詞取出部35によって取出された名詞Nの子節点とのペアを生成するための子節点ペア生成部361と、子節点生成部361で生成された子節点ペアを格納するための子孫節点記憶バッファ362と、子孫節点記憶バッファ362に格納された子節点ペアを取出すための子節点ペア取出部363と、子節点ペア取出部363によって取出された子節点ペアを照合するための子節点ペア照合部364と、子節点ペアの助詞の変化が予め定められた規則に従っているか否かを判定するための助詞変化規則照合部365と、助詞変化規則照合部365が照合する際に参照する助詞変化テーブル記録メモリ366とを含む。
【0054】図12は、この構造照合部36の処理手順を示すフローチャートである。この処理は、図9のステップS28に相当する。
【0055】まず、子節点ペア生成部361は、動詞取出部32から出力された動詞VをXに代入し、名詞取出部35から出力された名詞NをYに代入する(S31)。Xの子節点を、x1〜xmとし、Yの子節点をy1〜ynとする(S32)。そして、m以下の任意のiとn以下の任意のjについて、子節点ペア[xi,yj]を生成し、子孫節点記憶バッファ362に格納する(S33)。
【0056】ステップS34において、子孫節点記憶バッファ362が空か否かを判定し、子孫節点記憶バッファ362が空であれば(S34,YES)、処理を終了する。また、子孫節点記憶バッファ362が空でなければ(S34,NO)、子節点ペア取出部363は子孫節点記憶バッファ362から子節点ペア[xi,yj]を取出し(S36)、子節点ペア取出部364はxiとyjの部分文字列照合に成功したか否かを判定する(S36)。
【0057】ステップS36において、部分文字列照合に失敗すれば(S36,NO)、子節点ペア[xi,yj]を得点“0”とともに照合結果記憶バッファ37に格納する(S38)。また、ステップS36において、部分文字列照合に成功すれば(S36,YES)、助詞変化規則照合部365はxiとyjの助詞変化規則が助詞変化テーブル記憶メモリ366に格納されたものと照合するか否かを判定する(S37)。
【0058】ステップS37において、助詞変化規則との照合に失敗すれば(S37,NO)、子節点ペア[xi,yj]を得点“0”とともに照合結果記憶バッファ37に格納し(S38)、ステップS34へ戻り以上の処理を繰返す。
【0059】また、ステップS37において、助詞変化規則との照合に成功すれば(S37,YES)、子節点ペア[xi,yj]を得点“正整数”とともに照合結果記憶バッファ37に格納する(S39)。そして、Xにxiを代入し、Yにyjを代入して(S40)、ステップS32へ戻り以上の処理を繰返す。
【0060】図13は、助詞変化テーブル記憶メモリ366に記憶される連用助詞/連体助詞変化テーブルの内容の一例を示す図である。たとえば、主格+「が」、「は」、または「も」(連用助詞)の連体助詞への変化が、「による」、「の」、または「φ」であることを示している。
【0061】以下、図3と図9〜図13とを用いて説明した照応解析部3にテキスト1の構文木が入力された場合の解析を説明する。
【0062】(図5の構文木が照応解析部3に入力された場合)まず、図9のステップS21において、構文木の総数“3”がMに代入され、“1”がkに代入される。ステップS23において、構文木記憶バッファ31から1番目の構文木T1 (図5の構文木)が取出される。ステップS24において、構文木を上から下へ(入力テキストの先頭から末尾に向け)走査すると、まず、識別番号5の動詞「採択する」が検出される。
【0063】ステップS26において、名詞化部33が動詞/名詞対応テーブル記憶メモリ34を検索することにより、動詞「採択する」の名詞形を生成する。名詞化部33は、図10に示す動詞/名詞対応テーブルの内容を検索することにより、「採択す」の部分文字列一致に成功し、その名詞形である「採択」を検索結果として出力する。
【0064】しかし、名詞形「採択」は、動詞「採択する」より下側(入力テキストの末尾側)には出現しないので、ステップS24へ戻る。
【0065】次に、ステップS24において、識別番号6の動詞「提案した」が検出され、ステップS26において名詞形「提案」が検索結果として出力される。そして、ステップS27において、識別番号9の「提案」が検出される。
【0066】図12のステップS31において、識別番号6の動詞「提案した」をXとし、識別番号9の名詞「提案」をYとする。図5に示すように、Xの子節点は、識別番号5の動詞「採択する」であり、Yの子節点は識別番号8の名詞「委員会」である。したがって、子節点ペア生成部361は[採択する、委員会]という子節点ペアを生成し、子孫節点記憶バッファ362に格納する。
【0067】ステップS35において、子節点ペア[採択する、委員会]が取出され、ステップS36において「採択する」と「委員会」との部分文字列照合を行なう。この部分文字列照合に失敗するので、ステップS38において[採択する、委員会]の得点を“0”として照合結果記憶バッファ37に格納する。そして、ステップS34において、子孫節点記憶バッファ362は空となっているので、図12に示す処理を終了し、図9のステップS24に戻る。
【0068】図5に示す構文木には、識別番号11の動詞「示している」があるが、テキスト1の最後の識別番号の節点であるので、ステップS26以降の処理は行なわれない。以上の処理により、照合結果記憶バッファ37には、子節点ペア[採択する、委員会]と得点“0”とが格納される。
【0069】(図6の構文木が照応解析部3に入力された場合)図5の構文木の解析が終了したときに、ステップS25においてkの値が“2”に更新され、ステップS23において、構文木記憶バッファ31から2番目の構文木T2 (図6の構文木)が取出される。
【0070】ステップS24〜S27において、図5の構文木を用いて説明した処理と同様の処理が行なわれ、識別番号6の動詞[提案した]がXとなり、識別番号9の名詞[提案]がYとなる。
【0071】図12のステップS32において、Xの子節点として識別番号1の名詞「社会党」と識別番号5の動詞「採択する」とが抽出され、Yの子節点として識別番号8の名詞「委員会」が抽出される。ステップS33において、子節点ペア生成部361が、[社会党、委員会]と[採択する、委員会]との2つの子節点ペアを子孫節点記憶バッファ362に格納する。
【0072】ステップS35において、子節点ペア[社会党、委員会]が取出される。そして、ステップS36において、「社会党」と「委員会」との部分文字列照合に失敗するので、子節点ペア[社会党、委員会]を得点“0”とともに照合結果記憶バッファ37に格納する。
【0073】また、ステップS35において、次の子節点ペア[採択する、委員会]が取出され、ステップS36において同様に部分文字列照合に失敗するので、子節点ペア[採択する、委員会]を得点“0”とともに照合結果記憶バッファ37に格納する。
【0074】ステップS34において、子孫節点記憶バッファ362が空であるので、構造照合部36の処理を終了し図9のステップS24に戻る。そして、ステップS25へ進む。
【0075】(図7の構文木が照応解析部3に入力された場合)図6の構文木の解析後、ステップS25においてkの値が“3”に更新される。ステップS23において、構文木記憶バッファ31から3番目の構文木T3 (図7の構文木)が取出され、ステップS24〜S27において、図5の構文木を用いて説明したのと同様の処理を行ない、識別番号6の動詞「提案した」がXとなり、識別番号9の名詞「提案」がYとなる。
【0076】図12のステップS32において、Xの子節点が識別番号1の名詞「社会党」、識別番号3の名詞「予算委員会」および識別番号5の動詞「採択する」となり、Yの子節点が識別番号8の名詞「委員会」となる。ステップS33において、[社会党、委員会]、[予算委員会、委員会]および[採択する、委員会]の3つの子節点ペアが子孫節点記憶バッファ362に記憶される。
【0077】ステップS35において、子節点ペア[社会党、委員会]が取出され、ステップS36において、「社会党」と「委員会」との部分文字列照合に失敗し、ステップS38において、[社会党、委員会]が得点“0”とともに照合結果記憶バッファ37に格納される。
【0078】ステップS35において、次の子節点ペア[予算委員会、委員会]が取出され、ステップS36において[予算委員会]と[委員会]との部分文字列照合に成功する。そして、ステップS37において、助詞変化テーブル記憶メモリ366に格納される連用助詞から連体助詞への変化テーブルを検索し、動詞を主辞とする木と名詞を主辞とする木とにおける助詞の変化が、規則に従っているか否かを判定する。識別番号3の名詞「予算委員会」は、「場所/で」という関係で、識別番号6の動詞「提案した」に支配されている。また、識別番号8の名詞「委員会」は、「主格、場所/φ」という関係で、識別番号9の名詞「提案」に支配されている。この「場所/で」から「主格、場所/φ」への変化は、図13に示す連用助詞/連体助詞変化テーブルに格納される規則に従う変化であるので、ステップS37において助詞変化規則との照合に成功する。
【0079】ステップS39において、子節点[予算委員会、委員会]を得点“正整数”とともに照合結果記憶バッファ37に格納する。
【0080】以上の処理により、図3の出力部4は、図5に示す構文木および図6に示す構文木のそれぞれの得点の合計が“0”であると判定する。また、出力部4は、図7の構文木の得点の合計を“正整数”と判定する。したがって、出力部4は、図7の構文木が最大得点を有する構文木であるとし、この構文木をテキスト1の構文解析結果として出力する。このようにして、テキスト1の解釈が一意に決定される。
【0081】以上説明したように、本実施の形態においては、照応解析において必要とされる入力テキストの構成要素の意味合成を、その構成要素を構成する見出し語の意味同士の照合で近似することによって、照応に関与する構成要素の構文的曖昧性を解消することが可能となった。また、構築に多くのコストを用いるシソーラスを用いることなく、文字列照合という単純な処理で節と名詞句との間で成り立つ照応関係の解析による構文的曖昧性の解消が可能となる。したがって、入力テキストの対象分野を限定しない機械翻訳システム等で、本来であれば、構文的曖昧性の解消に膨大な量の知識や複雑な機構を構築することが必要となるアプリケーションへの適用が容易になった。
【0082】[実施の形態2]本発明の実施の形態2における構文解析装置は、図3に示す実施の形態1における構文解析装置の構成と同じである。ただし、構造照合部36の構成と機能のみが異なる。したがって、本実施の形態における構造照合部の参照符号を36′として説明する。
【0083】図14は、本実施の形態における構造照合部36′の概略構成を示すブロック図である。図11の実施の形態1における構造照合部36と比較して、シソーラス記憶メモリ367が付加された点および子節点ペア照合部364′の機能が異なる点のみが異なる。したがって、他の部分についての詳細な説明は繰返さない。
【0084】シソーラス記憶メモリ367は、語の上位下位関係と類義関係を記憶している。このシソーラス記憶メモリ367に記憶される内容の一例を、図15に示す。たとえば、上位語「成功」の類義語として、「実る」、「達成」および「大成」等が定義されている。
【0085】図16は、構造照合部36′の処理手順を示すフローチャートである。図12に示す実施の形態1における構造照合部36の処理手順を示すフローチャートと比較して、ステップS36がステップS36′に置換されている点のみが異なる。
【0086】ステップS36′において、子節点ペア照合部364′は、シソーラス記憶メモリ367を検索することにより、xiとyjの照合に成功するか否かを判定する。xiとyjとの照合に失敗すれば(S36′,NO)、子節点ペア[xi,yj]を得点“0”とともに照合結果記憶バッファ37に格納する。また、ステップS36′において、xiとyjとの照合に成功すれば(S36′,YES)、ステップS37へ進み図12を用いて説明した処理と同様の処理を行なう。
【0087】(テキスト2)デクエアル事務総長は、イラク説得の使命の成功を期待する旨のメッセージをゴルバチョフ大統領から受け取った。使命達成への期待は電話で同事務総長に直接伝えられたもの。
【0088】実施の形態1における構文解析装置によって、テキスト2の構文解析を行なった場合、「成功」と「達成」とが文字列として一致しないので、「イラク説得の使命の成功を期待する」と「使命達成への期待」との間に照応関係がないという解析結果が得られる。
【0089】しかし、本実施の形態においては、ステップS36′において、シソーラス記憶メモリ367に記憶されているシソーラスを検索することにより、図15に示すように「成功」と「達成」とが上位下位関係にあることがわかり、「イラク説得の使命の成功を期待する」と「使命達成への期待」との間に照応関係があると正しく解析できるようになる。
【0090】以上説明したように、既に構築されたシソーラスが入手可能である場合に、このシソーラスを用いることによって、節と名詞句との間で成り立つ照応関係をより正確に解析することができるようになるので、構文的曖昧性解消の精度を上げることが可能となる。
【0091】[実施の形態3]図17は、本発明の実施の形態3における構文解析装置の概略構成を示すブロック図である。図3に示す実施の形態1における構文解析装置と比較して、前方照応中断詞記憶メモリ38が付加されている点と、構造照合部36″の機能が異なる点のみが異なる。したがって、重複する部分の詳細な説明は繰返さない。
【0092】前方照応中断詞記憶メモリ38は、節と名詞句との間に照応関係がないことを示す語(前方照応中断詞)が格納されている。図18は、前方照応中断詞の一例を示す図である。
【0093】図19は、本実施の形態における構造照合部36″の処理手順を示すフローチャートである。図12に示す実施の形態1における構造照合部36の処理手順を示すフローチャートと比較して、ステップS41およびS42が付加されている点のみが異なる。したがって、重複する処理手順の詳細な説明は繰返さない。
【0094】ステップS41において、Yの子節点に前方照応中断詞があるか否かを判定する。Yの子節点に前方照応中断詞がある場合(S41,YES)、Yの子節点を得点“負整数”とともに照合結果記憶バッファ37に格納して処理を終了する。また、Yの子節点に前方照応中断詞がなければ(S41,NO)、ステップS32へ進み、図12を用いて説明した処理と同様の処理を行なう。
【0095】(テキスト3)イスラエルは既に2日続けて攻撃されている。次の攻撃が始まるまでに、軍はイラクを叩くべきだ。
【0096】実施の形態1における構文解析装置を用いて、テキスト3の解析を行なうと、「イスラエルは既に2日続けて攻撃されている。」と「次の攻撃」との間に照応関係があると解析される。
【0097】しかし、本実施の形態における構文解析装置を用いてテキスト3を解析すれば、ステップS41において、Yの子節点に前方照応中断詞「次の」があると判定され、Yの子節点を得点“負整数”とともに照合結果記憶バッファ37に格納する。したがって、「イスラエルは既に2日続けて攻撃されている。」と「次の攻撃」との間に照応関係がないと正しく解析される。
【0098】以上説明したように、本実施の形態における構文解析装置によれば、構文木において照応関係にない節と名詞句が存在する場合、得点として負整数が記憶されるので、得点合計が誤って加算されることが防止でき、誤って曖昧性が絞り込まれるのを防ぐことが可能となる。また、名詞句において主辞に直接支配される前方照応中断詞が存在する場合、節と名詞句とが照応関係にないと判定されるので、さらに構文的曖昧性解消の精度を上げることが可能となる。
【0099】[実施の形態4]実施の形態4における構文解析装置は、図17に示す実施の形態3の構文解析装置の構成と同じである。ただし、構造照合部36″の機能のみが異なる。したがって、他の部分の詳細な説明は繰返さない。
【0100】図20は、本実施の形態における構造照合部36″の処理手順を示すフローチャートである。図12に示す実施の形態1における構造照合部36の処理手順を示すフローチャートと比較して、ステップS43〜S45が付加されている点のみが異なる。したがって重複する処理手順についての詳細な説明は繰返さない。
【0101】ステップS43において、xiとyjとの両方が固有名詞であるか否かが判定される。両方が固有名詞の場合(S43,YES)、xiとyjの完全文字列照合が成功するか否かが判定される(S44)。
【0102】ステップS44において、xiとyjとの完全文字列照合が成功した場合(S44,YES)、ステップS37へ進み、図12を用いて説明した処理と同様の処理を行なう。また、S44において、xiとyjとの完全文字列照合が成功しなければ(S44,NO)、Yの子節点を得点“負整数”とともに照合結果記憶バッファ37に格納し(S45)、処理を終了する。
【0103】(テキスト4)デクエヤル国連事務総長は、フセイン大統領と会談するためニューヨークを出発した。同事務総長のバグダッド訪問は、ブッシュ大統領との会談で示された米国側の武力行使の決意を、改めてイラク側に伝える必要を感じたためと見られている。
【0104】実施の形態1における構文解析装置を用いて、テキスト4を解析した場合、「デクエヤル国連事務総長はフセイン大統領と会談する」と「ブッシュ大統領」との間に照応関係があると判定される。
【0105】しかし、本実施の形態における構文解析装置を用いてテキスト4を解析した場合、ステップS43において、xiとyjの両方ともが固有名詞であると判定される。テキスト4に対応する固有名詞は、図21に示すように、予め前方照応中断詞記憶メモリ38に格納されている。この前方照応中断詞記憶メモリ38を検索することにより、xiとyjとが固有名詞であるか否かが判定される。
【0106】子節点ペア[フセイン大統領、ブッシュ大統領]の「フセイン大統領」と「ブッシュ大統領」の両方ともが固有名詞であると判定されるので、「フセイン大統領」と「ブッシュ大統領」との完全文字列照合が成功するか否かが判定される。しかし、「フセイン大統領」と「ブッシュ大統領」とは完全文字列一致しないので、ステップS45において、Yの子節点を得点“負整数”とともに照合結果記憶バッファ37に格納する。したがって、「デクエヤル国連事務総長はフセイン大統領と会談する」と「ブッシュ大統領との会談」との間に照応関係がないと正しく解析することができる。
【0107】以上説明したように、本実施の形態における構文解析装置によれば、節において主辞に直接支配される固有名詞と完全文字列一致しない固有名詞が、名詞句において主辞に直接支配されている場合、節と名詞句とが照応関係にないと正しく判定できるので、さらに構文的曖昧性解消の精度を上げることが可能となった。
【出願人】 【識別番号】000005049
【氏名又は名称】シャープ株式会社
【出願日】 平成9年(1997)9月12日
【代理人】 【弁理士】
【氏名又は名称】深見 久郎
【公開番号】 特開平11−85745
【公開日】 平成11年(1999)3月30日
【出願番号】 特願平9−248389