トップ :: G 物理学 :: G06 計算;計数




【発明の名称】 構文情報タグ付与支援システムおよび方法
【発明者】 【氏名】増市 博
【住所又は居所】神奈川県足柄上郡中井町境430 グリーンテクなかい 富士ゼロックス株式会社内

【氏名】大熊 智子
【住所又は居所】神奈川県足柄上郡中井町境430 グリーンテクなかい 富士ゼロックス株式会社内

【要約】 【課題】言語学に精通したものでなくとも容易に構文情報タグを付与できるようにする。

【解決手段】構文解析手段2は、対象文に対して構文解析を施し、文の係り受け関係等の構文解析結果候補を出力する。意味解析手段3は、対象文に対して意味解析を行い、文の格構造等の意味解析結果候補を出力する。意味解析結果確定手段5は、意味解析結果の候補を利用者に提示し、利用者に正しい意味解析結果を選択させるユーザインタフェースを有する。利用者の選択により意味解析結果が確定される。構文解析結果確定手段6は、確定した意味解析結果と、解析結果情報に基づき構文解析結果を確定する。タグ付与手段7は、確定した構文解析結果に基づき、対象文に対して構文情報を示すタグを付与する。
【特許請求の範囲】
【請求項1】 構文解析の対象となる文の集合を保持する解析対象文章保持手段と、上記解析対象文章保持手段に保持されているそれぞれの文に対して構文解析処理を施し、文の係り受け関係等の構文解析結果候補を出力する構文解析手段と、上記解析対象文章保持手段に保持されているそれぞれの文に対して意味解析処理を行い、文の格構造等の意味解析結果候補を出力する意味解析手段と、上記構文解析結果候補と上記意味解析結果候補および両者の間の対応関係を保持する解析結果保持手段と、上記意味解析結果の候補を利用者に提示し、正しい意味解析結果を選択させるユーザインタフェースを有する意味解析結果確定手段と、確定した意味解析結果と上記解析結果保持手段に保持された解析結果情報に基づき構文解析結果を確定する構文解析結果確定手段と、確定した構文解析結果に基づき、上記解析対象文章保持手段に保持されているそれぞれの文に対して構文情報を示すタグを付与するタグ付与手段と、を備えることを特徴とする構文情報タグ付与支援システム。
【請求項2】 構文解析の対象となる文の集合を保持する解析対象文章保持手段と、上記解析対象文章保持手段に保持されているそれぞれの文に対して構文解析処理を施し、文の係り受け関係等の構文解析結果候補を出力する構文解析手段と、上記解析対象文章保持手段に保持されているそれぞれの文に対して意味解析処理を行い、文の格構造等の意味解析結果候補を出力する意味解析手段と、上記構文解析結果候補と上記意味解析結果候補および両者の間の対応関係を保持する解析結果保持手段と、上記構文解析手段から得られる上記構文解析結果候補と上記意味解析手段から得られる上記意味解析結果候補に基づき、解析結果を特定するために必要となる少なくとも1つの選択項目を利用者に提示し、上記利用者に正しい意味解析結果を選択させるユーザインタフェースを有する意味解析結果確定手段と、確定した意味解析結果と上記解析結果保持手段に保持された解析結果情報に基づき構文解析結果を確定する構文解析結果確定手段と、確定した構文解析結果に基づき、上記解析対象文章保持手段に保持されているそれぞれの文に対して構文情報を示すタグを付与するタグ付与手段と、を備えることを特徴とする構文情報タグ付与支援システム。
【請求項3】 構文解析の対象となる文の集合を保持する解析対象文章保持手段と、上記解析対象文章保持手段に保持されているそれぞれの文に対して構文解析処理を施し、文の係り受け関係等の構文解析結果候補を出力する構文解析手段と、上記解析対象文章保持手段に保持されているそれぞれの文に対して意味解析処理を行い、文の格構造等の意味解析結果候補を出力する意味解析手段と、上記構文解析結果候補と上記意味解析結果候補および両者の間の対応関係を保持する解析結果保持手段と、上記構文解析手段から得られる上記構文解析結果候補と上記意味解析手段から得られる上記意味解析結果候補に基づき、解析結果を特定するために必要となる複数の選択項目を所定の優先順位で利用者に提示し、上記利用者に正しい意味解析結果を選択させるユーザインタフェースを有する意味解析結果確定手段と、確定した意味解析結果と上記解析結果保持手段に保持された解析結果情報に基づき構文解析結果を確定する構文解析結果確定手段と、確定した構文解析結果に基づき、上記解析対象文章保持手段に保持されているそれぞれの文に対して構文情報を示すタグを付与するタグ付与手段と、を備えることを特徴とする構文情報タグ付与支援システム。
【請求項4】 上記構文解析手段から得られる上記構文解析結果候補と上記意味解析手段から得られる上記意味解析結果候補に基づき、上記複数の選択項目を提示する上記優先順位を決定する選択項目決定手段をさらに有する請求項3記載の構文情報タグ付与支援システム。
【請求項5】 上記選択項目決定手段が、述部の曖昧性、格構造の曖昧性、格要素の曖昧性、非格要素の修飾先の曖昧性の順に、選択項目の優先順位を決定する請求項4記載の構文情報タグ付与支援システム。
【請求項6】 上記構文解析手段が確率付構文木を出力し、選択項目決定手段が構文木の信頼度に基づいて選択項目の優先順位を決定する請求項4記載の構文情報タグ付与支援システム。
【請求項7】 上記意味解析手段が文法役割による分類に基づいた格情報を出力する請求項1〜6のいずれかに記載の構文情報タグ付与支援システム。
【請求項8】 上記意味解析手段が、意味役割による分類に基づいた格情報を出力する請求項第1〜6のいずれかに記載の構文情報タグ付与支援システム。
【請求項9】 構文解析の対象となる文の集合を保持する解析対象文章保持ステップと、上記解析対象文章保持ステップにより保持されているそれぞれの文に対して構文解析処理を施し、文の係り受け関係等の構文解析結果候補を出力する構文解析ステップと、上記解析対象文章保持ステップにより保持されているそれぞれの文に対して意味解析処理を行い、文の格構造等の意味解析結果候補を出力する意味解析ステップと、上記構文解析結果候補と上記意味解析結果候補および両者の間の対応関係を保持する解析結果保持ステップと、上記意味解析結果の候補を利用者に提示し、正しい意味解析結果を選択させるユーザインタフェースを用いて意味解析結果を確定する意味解析結果確定ステップと、確定した意味解析結果と上記解析結果保持ステップにより保持された解析結果情報に基づき構文解析結果を確定する構文解析結果確定ステップと、確定した構文解析結果に基づき、上記解析対象文章保持ステップにより保持されているそれぞれの文に対して構文情報を示すタグを付与するタグ付与ステップと、を有することを特徴とする構文情報タグ付与支援方法。
【請求項10】 構文解析の対象となる文の集合を保持する解析対象文章保持ステップと、上記解析対象文章保持ステップにより保持されているそれぞれの文に対して構文解析処理を施し、文の係り受け関係等の構文解析結果候補を出力する構文解析ステップと、上記解析対象文章保持ステップにより保持されているそれぞれの文に対して意味解析処理を行い、文の格構造等の意味解析結果候補を出力する意味解析ステップと、上記構文解析結果候補と上記意味解析結果候補および両者の間の対応関係を保持する解析結果保持ステップと、上記意味解析結果の候補を利用者に提示し、正しい意味解析結果を選択させるユーザインタフェースを用いて意味解析結果を確定する意味解析結果確定ステップと、確定した意味解析結果と上記解析結果保持ステップにより保持された解析結果情報に基づき構文解析結果を確定する構文解析結果確定ステップと、確定した構文解析結果に基づき、上記解析対象文章保持ステップにより保持されているそれぞれの文に対して構文情報を示すタグを付与するタグ付与ステップとをコンピュータに実行させるために用いられることを特徴とする構文情報タグ付与支援用コンピュータプログラム。
【請求項11】 構文解析の対象となる文に対して構文解析処理を施し、文の係り受け関係等の構文解析結果候補を出力する構文解析手段と、上記構文解析の対象となる文に対して意味解析処理を行い、文の格構造等の意味解析結果候補を出力する意味解析手段と、上記構文解析結果候補と上記意味解析結果候補および両者の間の対応関係を保持する解析結果保持手段と、上記意味解析結果の候補を利用者に提示し、正しい意味解析結果を選択させるユーザインタフェースを有する意味解析結果確定手段と、確定した意味解析結果と上記解析結果保持手段に保持された解析結果情報に基づき構文解析結果を確定する構文解析結果確定手段と、を備えることを特徴とする文章解析システム。
【請求項12】 構文解析の対象となる文に対して構文解析処理を施し、文の係り受け関係等の構文解析結果候補を出力する構文解析ステップと、上記構文解析の対象となる文に対して意味解析処理を行い、文の格構造等の意味解析結果候補を出力する意味解析ステップと、上記構文解析結果候補と上記意味解析結果候補および両者の間の対応関係を保持する解析結果保持ステップと、上記意味解析結果の候補を利用者に提示し、正しい意味解析結果を選択させるユーザインタフェースを用いて意味解析結果を確定する意味解析結果確定ステップと、確定した意味解析結果と上記解析結果保持ステップにより保持された解析結果情報に基づき構文解析結果を確定する構文解析結果確定ステップと、を有することを特徴とする文章解析方法。
【請求項13】 構文解析の対象となる文に対して構文解析処理を施し、文の係り受け関係等の構文解析結果候補を出力する構文解析ステップと、上記構文解析の対象となる文に対して意味解析処理を行い、文の格構造等の意味解析結果候補を出力する意味解析ステップと、上記構文解析結果候補と上記意味解析結果候補および両者の間の対応関係を保持する解析結果保持ステップと、上記意味解析結果の候補を利用者に提示し、正しい意味解析結果を選択させるユーザインタフェースを用いて意味解析結果を確定する意味解析結果確定ステップと、確定した意味解析結果と上記解析結果保持ステップにより保持された解析結果情報に基づき構文解析結果を確定する構文解析結果確定ステップと、をコンピュータに実行させるために用いられることを特徴とする文章解析用コンピュータプログラム。
【請求項14】 構文解析の対象となる文の集合を保持する解析対象文章保持手段と、上記解析対象文章保持手段に保持されているそれぞれの文に対して構文解析処理を施し、文の係り受け関係等の構文解析結果候補を出力する構文解析手段と、上記解析対象文章保持手段に保持されているそれぞれの文に対して意味解析処理を行い、文の格構造等の意味解析結果候補を出力する意味解析手段と、上記構文解析結果候補と上記意味解析結果候補および両者の間の対応関係を保持する解析結果保持手段と、上記意味解析結果の候補を利用者に提示し、正しい意味解析結果を選択させるユーザインタフェースを有する意味解析結果確定手段と、確定した意味解析結果と上記解析結果保持手段に保持された解析結果情報に基づき構文解析結果を確定する構文解析結果確定手段と、確定した構文解析結果に基づき、上記解析対象文章保持手段に保持されているそれぞれの文に対して構文情報を示すタグを付与するタグ付与手段と、上記タグ付与手段により構文情報を示すタグが付与された文を出力する文出力手段と、を備えることを特徴とする構文情報タグ付文作成システム。
【請求項15】 請求項14記載の構文情報タグ付文作成システムから出力された構文情報タグ付文を記憶した記録媒体。
【請求項16】 構文解析の対象となる文の集合を保持する解析対象文章保持ステップと、上記解析対象文章保持ステップにより保持されているそれぞれの文に対して構文解析処理を施し、文の係り受け関係等の構文解析結果候補を出力する構文解析ステップと、上記解析対象文章保持ステップにより保持されているそれぞれの文に対して意味解析処理を行い、文の格構造等の意味解析結果候補を出力する意味解析ステップと、上記構文解析結果候補と上記意味解析結果候補および両者の間の対応関係を保持する解析結果保持ステップと、上記意味解析結果の候補を利用者に提示し、正しい意味解析結果を選択させるユーザインタフェースを用いて意味解析結果を確定する意味解析結果確定ステップと、確定した意味解析結果と上記解析結果保持ステップにより保持された解析結果情報に基づき構文解析結果を確定する構文解析結果確定ステップと、確定した構文解析結果に基づき、上記解析対象文章保持ステップにより保持されているそれぞれの文に対して構文情報を示すタグを付与するタグ付与ステップと、上記タグ付与ステップにより構文情報を示すタグが付与された文を出力する文出力ステップと、を有することを特徴とする構文情報タグ付文作成方法。
【請求項17】 構文解析の対象となる文の集合を保持する解析対象文章保持ステップと、上記解析対象文章保持ステップにより保持されているそれぞれの文に対して構文解析処理を施し、文の係り受け関係等の構文解析結果候補を出力する構文解析ステップと、上記解析対象文章保持ステップにより保持されているそれぞれの文に対して意味解析処理を行い、文の格構造等の意味解析結果候補を出力する意味解析ステップと、上記構文解析結果候補と上記意味解析結果候補および両者の間の対応関係を保持する解析結果保持ステップと、上記意味解析結果の候補を利用者に提示し、正しい意味解析結果を選択させるユーザインタフェースを用いて意味解析結果を確定する意味解析結果確定ステップと、確定した意味解析結果と上記解析結果保持ステップにより保持された解析結果情報に基づき構文解析結果を確定する構文解析結果確定ステップと、確定した構文解析結果に基づき、上記解析対象文章保持ステップにより保持されているそれぞれの文に対して構文情報を示すタグを付与するタグ付与ステップと、上記タグ付与ステップにより構文情報を示すタグが付与された文を出力する文出力ステップと、をコンピュータに実行させるために用いられることを特徴とする構文情報タグ付文作成用コンピュータプログラム。
【請求項18】 構文解析の対象となる第1の自然言語で記述された文に対して構文解析処理を施し、文の係り受け関係等の構文解析結果候補を出力する構文解析手段と、上記文に対して意味解析処理を行い、文の格構造等の意味解析結果候補を出力する意味解析手段と、上記構文解析結果候補と上記意味解析結果候補および両者の間の対応関係を保持する解析結果保持手段と、上記意味解析結果の候補を利用者に提示し、正しい意味解析結果を選択させるユーザインタフェースを有する意味解析結果確定手段と、確定した意味解析結果と上記解析結果保持手段に保持された解析結果情報に基づき構文解析結果を確定する構文解析結果確定手段と、確定した構文解析結果に基づき、上記第1の自然言語で記述された文を第2の自然言語で記述された文に変換する言語変換手段と、を備えることを特徴とする機械翻訳システム。
【請求項19】 構文解析の対象となる第1の自然言語で記述された文に対して構文解析処理を施し、文の係り受け関係等の構文解析結果候補を出力する構文解析ステップと、上記文に対して意味解析処理を行い、文の格構造等の意味解析結果候補を出力する意味解析ステップと、上記構文解析結果候補と上記意味解析結果候補および両者の間の対応関係を保持する解析結果保持ステップと、上記意味解析結果の候補を利用者に提示し、正しい意味解析結果を選択させるユーザインタフェースを有する意味解析結果確定ステップと、確定した意味解析結果と上記解析結果保持ステップにより保持された解析結果情報に基づき構文解析結果を確定する構文解析結果確定ステップと、確定した構文解析結果に基づき、上記第1の自然言語で記述された文を第2の自然言語で記述された文に変換する言語変換ステップと、を有することを特徴とする機械翻訳方法。
【請求項20】 構文解析の対象となる第1の自然言語で記述された文に対して構文解析処理を施し、文の係り受け関係等の構文解析結果候補を出力する構文解析ステップと、上記文に対して意味解析処理を行い、文の格構造等の意味解析結果候補を出力する意味解析ステップと、上記構文解析結果候補と上記意味解析結果候補および両者の間の対応関係を保持する解析結果保持ステップと、上記意味解析結果の候補を利用者に提示し、正しい意味解析結果を選択させるユーザインタフェースを有する意味解析結果確定ステップと、確定した意味解析結果と上記解析結果保持ステップにより保持された解析結果情報に基づき構文解析結果を確定する構文解析結果確定ステップと、確定した構文解析結果に基づき、上記第1の自然言語で記述された文を第2の自然言語で記述された文に変換する言語変換ステップと、をコンピュータに実行させるために用いられることを特徴とする機械翻訳用コンピュータプログラム。
【請求項21】 構文解析の対象となる文から生成された複数の構文解析結果候補、および上記構文解析の対象となる文から生成された複数の意味解析結果候補を記憶する手段と、上記記憶手段に記憶されている意味解析結果候補を用いて、述部の曖昧性、格構造の曖昧性、格要素の曖昧性、非格要素の修飾先の曖昧性のうち一つ以上を解消させるべく操作者に選択させることによって、意味解析結果を確定する意味解析結果確定手段と、上記意味解析結果確定手段により確定した意味解析結果に応じて、上記記憶手段に記憶されている複数の構文解析結果候補から構文解析結果を確定する構文解析結果確定手段と、を具備することを特徴とする文章解析システム。
【請求項22】 構文解析の対象となる文から生成された複数の意味解析結果候補から、述部の曖昧性、格構造の曖昧性、格要素の曖昧性、非格要素の修飾先の曖昧性のうち一つ以上を解消させるべく操作者に選択させることによって、意味解析結果を確定する意味解析結果確定ステップと、上記確定した意味解析結果に応じて、上記構文解析の対象となる文から生成された意味解析結果候補に対応する構文解析結果を確定する構文解析結果確定ステップと、を有することを特徴とする文章解析方法。
【請求項23】 構文解析の対象となる文から生成された複数の意味解析結果候補から、述部の曖昧性、格構造の曖昧性、格要素の曖昧性、非格要素の修飾先の曖昧性のうち一つ以上を解消させるべく操作者に選択させることによって、意味解析結果を確定する意味解析結果確定ステップと、上記確定した意味解析結果に応じて、上記構文解析の対象となる文から生成された意味解析結果候補に対応する構文解析結果を確定する構文解析結果確定ステップと、をコンピュータに実行させるために用いられることを特徴とする文章解析用コンピュータプログラム。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は、テキストに対して計算機による構文解析処理を施し、その結果に対してオペレータによる判断を加えて最終的な構文解析結果を決定した後、得られた構文情報をテキストにタグ形式で付与する構文情報タグ付与技術に関する。また、本発明はそのような構文情報タグ付与技術等で用いられる文章解析技術に関する。
【0002】
【従来の技術】構文解析処理は、自然言語文を受け取り、文法規則に基づいて語と語の係り受け関係を決定する処理のことを指す。構文解析結果は通常構文木と呼ばれる木構造として表現される。日本語の文「接客に当たる高校生やフリーターに言葉遣いや注文の受け方を教えるマニュアル(手引き書)が昨年夏大きく姿を変えた。」の解析結果として得られる構文木の一例を図2に示す。図2のように、木構造の各節点(ノード)には、その節点以下の部分構造を代表する名前を割り当てることが多い。例えば、図2中の「NP(Noun Phrase)」は、その名前が割り当てられている節点以下の部分構造が名詞句であることを示している。
【0003】文献「乾健太郎,白井清昭,例文を使って文の解析をしよう,情報処理,Vol.41,No.7,pp.763−768(2000)」は、構文解析の重要性に関して以下の3点を挙げている。
(1)言語理解に不可欠な部分タスクである。
(2)文と文、テキストとテキストの意味的な類似性を評価する重要な手掛かりを与える。
(3)知識獲得の道具として有用である。
【0004】(1)については、対話システム、機械翻訳、文書校正支援、文書要約等を関連するアプリケーションとして挙げることができる。これらのアプリケーションと構文解析処理の関係については、文献「長尾真,自然言語処理,岩波書店(1996)」「田中穂積,自然言語処理−基礎と応用−,電子情報通信学会(1999)」等に詳しく述べられている。
【0005】(2)は、テキスト検索、情報フィルタリング、文書クラスタリング、Question Answeringといったアプリケーションに関するものであり、文献「鳥澤健太郎,高機能な構文解析器に向けて,情報処理,Vol.40,No.4,pp.380−386(1999)」にこれらのアプリケーションに果たす構文解析処理の重要性が述べられている。
【0006】(3)は、自然言語処理に必要となる大規模な知識を電子化テキストから自動的あるいは半自動的に獲得する手法に関係するものである。「長尾真,自然言語処理,岩波書店(1996)」「田中穂積,自然言語処理−基礎と応用−,電子情報通信学会(1999)」に述べられているように、動詞の格フレームの抽出、単語の意味分類の抽出、翻訳知識の獲得、文法知識の獲得等、言語データからの知識獲得は自然言語処理技術を実用レベルに引き上げるための急務の課題であり、ここでも構文解析処理は重要な役割を担う。
【0007】このように構文解析は様々なアプリケーションの実現において重要な役割を果たす技術である。しかしながら、文献「黒橋禎男,結構やるな、KNP,情報処理,Vol.41,No.11,pp.1215−1220(2000)」にも述べられているとおり、現在の構文解析システムは、実用的なアプリケーションを実現する上で十分な解析精度を達成しているとは言い難い。
【0008】現状において、この問題を解決する唯一の方法は構文解析システムによって得られた解析結果を人手で修正することである。例えば、自然言語文に対して予め構文情報を示すタグ(アノテーション)を付与することによって機械翻訳や文章要約を極めて高い精度で実現する方式が文献「長尾確,セマンティック・トランスコーディング:Webの意味的な拡張と効率的な再利用のメカニズム,第15回AIシンポジウム予稿集,pp.7−13(2001)」で提案されている。ここでのタグはXML(eXtensible Markup Language)で表現されるものであり、GDA(Global Document Annotation)と呼ばれる記述形式を採用している。この文献の提案では、正しい構文情報のみが付与されていることが前提になっている。しかし、上述の通り現状の構文解析技術から常に正しい解析結果を得ることは不可能であるため、全ての構文情報タグを人手で付与するか、あるいは、構文解析システムから得られた解析結果を人手で正しいものに編集することによって構文情報タグを付与することになる。
【0009】
【発明が解決しようとする課題】このような構文情報タグを付与する手法によれば、前記の文献「長尾確,セマンティック・トランスコーディング:Webの意味的な拡張と効率的な再利用のメカニズム,第15回AIシンポジウム予稿集,pp.7−13(2001)」で述べられている通り、機械翻訳、文書要約、音声合成、文書集合からの知識発見等を極めて高い精度で実現できる。しかしながらこの手法には、構文情報タグを人手で付与するためのコストが大きい点が問題として残る。図3に構文情報がXMLタグとして付与されている文の例を「長尾確,セマンティック・トランスコーディング:Webの意味的な拡張と効率的な再利用のメカニズム,第15回AIシンポジウム予稿集,pp.7−13(2001)」から引用して示す。このようなタグ付けを人手で大量のテキストに対して行うことは事実上不可能である。しかしながら、このようなタグ情報は、正しい構文木が得られればそこから自動的に付与することが容易に可能である。そこで実際には、構文解析システムから最も確からしい解析結果として得られる構文木をユーザに提示し、木構造の誤っている部分をユーザが変更することが可能なユーザーインタフェースを用いることによってタグ付けを半自動化し、コストの低減を目指す手法が採用されている。このような手法を提案している文献の例として「公開特許公報 特開2001−51998 日本語文書作成装置」を挙げることができる。
【0010】しかしながら、構文木は図2に示した通り複雑な構造を持っている。節点に割り当てられた名前の意味を理解すること、および、正しい構文木であるか否かを判別することは、言語学に精通した者でなければ難しい。したがって、構文情報を示すタグを常に正しく付与する作業を行うことができる者は言語学に詳しい人材に限られてしまう。よって、構文木の提示による支援手法を用いたとしても、必要な人材を見い出しにくいため、大量のテキストにタグ付けを行うことはやはり困難であるといえる。さらに、たとえ言語学に精通した者であってもそこから誤った部分を発見し正しく修正することは容易な作業ではなく、依然として時間コストの極めて大きい作業である。
【0011】本発明はこのような点に鑑みてなされたものであり、意味解析処理による解析結果を利用することにより、言語学に精通したものでなくとも容易に構文情報タグを付与できるユーザインタフェースを持った構文情報タグ付与支援技術を提供することを目的とする。
【0012】
【課題を解決するための手段】本発明によれば上述の目的を達成するために特許請求の範囲に記載のとおりの構成を採用している。ここで、特許請求の範囲の記載内容について若干説明する。
【0013】本発明の一側面による構文情報タグ付与支援システムは、構文解析の対象となる文の集合を保持する解析対象文章保持手段と、上記解析対象文章保持手段に保持されているそれぞれの文に対して構文解析処理を施し、文の係り受け関係等の構文解析結果候補を出力する構文解析手段と、上記解析対象文章保持手段に保持されているそれぞれの文に対して意味解析処理を行い、文の格構造等の意味解析結果候補を出力する意味解析手段と、上記構文解析結果候補と上記意味解析結果候補および両者の間の対応関係を保持する解析結果保持手段と、上記意味解析結果の候補を利用者に提示し、正しい意味解析結果を選択させるユーザインタフェースを有する意味解析結果確定手段と、確定した意味解析結果と上記解析結果保持手段に保持された解析結果情報に基づき構文解析結果を確定する構文解析結果確定手段と、確定した構文解析結果に基づき、上記解析対象文章保持手段に保持されているそれぞれの文に対して構文情報を示すタグを付与するタグ付与手段とからなる構成をとる。
【0014】なお、ここでいう「タグ」は構文情報を示すために文に付加される補助情報であり、アノテーションと呼ばれることもある。このような補助情報はどのような呼び方をするにしてもここでいう「タグ」に含まれる。
【0015】前述の通り、構文解析は文中の語と語の間の係り受け関係を決定する処理のことを指す。これに対して、意味解析は文中の格情報を決定する処理を含む。日本語の場合、格情報はそのレベルに応じて以下の3種に分類できる。
(1)格助詞の種類による分類(「ガ格」「ヲ格」等)
(2)文法役割による分類(「主語」「目的語」等)
(3)意味役割による分類(「動作主格」「対象格」等)
【0016】日本語の場合、係助詞「は」や「も」の使用によって格助詞が省略されることが多い。したがって、(1)よりも(2)の情報の方がより本質的であると言える。例えば「彼が本は読む。」や「彼は本を読む。」といった文の場合、(1)のレベルにおいては「本は」や「彼は」の格情報を決定することはできないが、(2)ではそれぞれ「目的語」「主語」であると決定する。また、受動文や使役文では(2)のレベルの分類である「主語」や「目的語」は、(3)のレベルの分類である「動作主格」や「対象格」と一致しない。例えば、「彼がその本を読んだ。」の「主語」は「彼」であり、「目的語」は「その本」である。一方「その本は彼によって読まれた。」の「主語」は「その本」であり「彼」は「受動斜格」と呼ばれる文法役割である。これに対して(3)のレベルの分類では、どちらの文においても「彼」が「動作主格」であり、「その本」が「対象格」である。この例から分かるように、(2)よりも(3)の方がより本質的な分類であると言える。一般に(1)(2)の分類で得られる格情報を表層格、(3)で得られる格情報を深層格と呼び、本発明の具体的な構成においては、(2)(3)の格情報を得ることができる解析を意味解析と呼ぶことにする。本発明の具体的な構成は、(2)(3)のいずれの情報を利用しても同様の効果を得ることができる。もちろん、場合によっては(1)の情報が本発明上有用なこともある。
【0017】意味解析によって得られる主語や目的語、述語といった概念は言語学を学んでいない者にとっても常識的に理解が可能であり、意味解析結果を修正する作業は構文解析結果を修正する作業に比べて容易である。本発明によれば、意味解析結果候補をシステムの利用者に提示して修正を受けることにより誤りのない意味解析結果を取得し、得られた意味解析結果に基づいて構文解析結果を決定することによって、正しい構文情報タグを文に付与することができる構文情報タグ付与支援システムを構築することができる。これによって、言語学に詳しくない者であっても、正しい構文情報タグを従来技術と比較してより低いコストで付与することが可能となる。
【0018】本発明の上述の側面および本発明の他の側面は特許請求の範囲に記載され以下実施例を用いて詳細に説明される。
【0019】なお、本発明は装置またはシステムとして実現されるのみでなく方法の態様でも実現可能であり、また少なくともその一部をコンピュータプログラムとして実現することも可能である。
【0020】
【発明の実施の形態】まず、本発明の原理的な構成について説明する。
【0021】図1は本発明の原理的な構成を採用した構文情報タグ付与支援システムを示しており、この図において、構文情報タグ付与支援システムは、解析対象文章保持手段1、構文解析手段2、意味解析手段3、解析結果保持手段4、意味解析結果確定手段5、構文解析結果確定手段6およびタグ付与手段7を含んで構成されている。
【0022】解析対象文章保持手段1は、構文解析の対象となる文の集合を保持する。構文解析手段2は、解析対象文章保持手段1に保持されているそれぞれの文に対して構文解析処理を施し、文の係り受け関係等の構文解析結果候補を出力する。意味解析手段3は、解析対象文章保持手段1に保持されているそれぞれの文に対して意味解析処理を行い、文の格構造等の意味解析結果候補を出力する。解析結果保持手段4は、構文解析結果候補と意味解析結果候補および両者の間の対応関係を保持する。意味解析結果確定手段5は、意味解析結果の候補を利用者に提示し、利用者に正しい意味解析結果を選択させるユーザインタフェースを有する。利用者の選択により意味解析結果が確定される。構文解析結果確定手段6は、確定した意味解析結果と、解析結果保持手段4に保持された解析結果情報に基づき構文解析結果を確定する。タグ付与手段7は、確定した構文解析結果に基づき、解析対象文章保持手段1に保持されているそれぞれの文に対して構文情報を示すタグを付与する。
【0023】意味解析結果確定手段5は、例えば、後に詳細に説明する図31や図32に示すようなユーザインタフェースを利用者に提示して意味の曖昧性を解消させる。インタフェースは構文情報でなく意味情報に関するものであるので、利用者は自然にかつ簡易に扱うことができる。
【0024】なお、構文情報タグ付与システムは、パーソナルコンピュータ等のコンピュータ100に実行することが可能であり、また、タグを付与した文をタグ付文出力手段8を介して外部に出力することもできる。出力されたタグ付文は種々の記録媒体9(ハードディスク、可搬性記録ディスク等)に記録することができる。また、機械翻訳手段10を用いてタグ付文を翻訳することもできる。
【0025】つぎに、より具体的な実施例を用いて本発明をさらに説明する。
【0026】図4は、本発明の実施例の構文情報タグ付与支援システムの構成を示している。この本実施例では、上述の文法役割による分類に基づく格情報を用いる。なお、本実施例では日本語を対象として説明を行うが、構文解析処理および意味解析処理が適用可能な言語であればいかなる言語であっても同様の効果を得ることができる。また、本実施例では構文解析および意味解析として、文献「A Grammar Writer’s Cookbook,Miriam Butt,Tracy Holloway King,Maria−Engenia Nino and Frederique Segond,CSLI publications,Stanford University(1999)」に詳細な内容が記述されているLFG(Lexicxal Functional Grammar)と呼ばれる文法理論に基づいた解析を想定するが、他の文法理論を用いた構文解析および意味解析手法を用いても同様の効果が得られることは明らかである。
【0027】図4において、本実施例の構文情報タグ付与支援システムは、解析対象文章保持手段11、LFG解析手段12、解析結果保持手段13、意味解析結果確定手段16およびタグ付与手段26を含んで構成されている。
【0028】解析対象文章保持手段11は、複数の日本語文を計算機内部に保持する手段である。
【0029】LFG解析手段12は、解析対象文章保持手段11に保持されている各日本語文を対象として、LFG理論に基づいた解析を実行する手段である。LFG理論に基づいた解析では、前出の文献「A Grammar Writer’s Cookbook,Miriam Butt,Tracy Holloway King,Maria−Engenia Nino and Frederique Segond,CSLI publications,StanfordUniversity(1999)」に記述されている通り、構文解析の結果としてc−structureと呼ばれる構文木を示す木構造を、意味解析の結果として格構造を示すf−structureと呼ばれるリスト構造を、それぞれ得ることができる。また、LFG解析を実行する際には、格構造辞書保持手段25に保持されている格構造辞書を参照することが必須である。c−strucure、f−structureおよび解析手法の詳細については、同文献を参考されたい。LFG解析手段12は図1の構文解析手段2および意味解析手段3を構成する。
【0030】解析結果保持手段13はc−structure保持手段14とf−structure保持手段15から構成される。c−structure保持手段14とf−strucure保持手段15は、それぞれLFG解析手段12から得られるc−strucureとf−structureを各日本語文ごとに計算機内部に保持する手段である。一般に、自然言語文は構文的/意味的曖昧性を含んでいるため、一文から複数のc−structureおよびf−structureが解析結果候補として得られることになる。
【0031】日本語文「本を読んでいる女性は私の妹で座っている女の子が娘です。」を対象とした場合に、構文解析結果候補として得られるc−strucureを図5〜図13に示す。この場合、構文解析の結果は図5〜図13に対応する9種の曖昧性を持つことになる。また、同じ文を対象とした場合に、意味解析結果として得られるf−strucureを図14〜図22に示す。図5に示す構文解析結果に対応する意味解析結果が図14に示され、図6に示す構文解析結果に対応する意味解析結果が図15に示されている。以下、図7〜図13についても同様である。
【0032】さらに、c−strucure(木構造)中の各ノードとf−structure中の各リスト(“[“および”]”で囲まれている部分)には対応関係がある。例えば、図5中で「2992」の識別子を持ち「NP」のラベルを持つノードは、図14中で同じ「2992」の識別子を持ち「SUBJ(主語)」をリスト名として持つリストと対応関係があることを示している。なお、図16〜図22では識別子の一部を省略している。
【0033】また、c−structure保持手段14に保持されているc−strucureは、単語を最小の単位として木構造を構成し、活用する単語についてはその終止形を単位としているが、解析対象文の対応する文字列(表層文字列)を同時に保持するものとする。例えば、図5中の「読む」「座る」に対して、それぞれ「読ん」「座っ」を同時に保持する。
【0034】意味解析結果確定手段16は、述部取得手段17、格構造取得手段18、格要素取得手段19、非格要素取得手段20、述部確定手段21、格構造確定手段22、格要素確定手段23、非格要素確定手段24から構成される。
【0035】述部取得手段17は、c−structure保持手段14に保持されているc−strucureから、解析対象文の述部に対応するノードの識別子、および該ノードに対応する文字列を取得する。図5〜図13に示したc−strucureの例では、「Vverb」あるいは「Vnoun」のラベルを持つノードが述部に対応するものである。例えば、図5に示すc−structureからは、「Vverb」に対応する識別子として「5755」「1784」を、「Vnoun」に対応する識別子として「645」を取得する。また、それぞれに対応する表層文字列「読んでいる」「座っている」および「娘です」を取得する。「Vverb」は動詞を中心とする述部であることを表し、「Vnoun」は、「娘です」のように名詞に「だ」「です」等が付与された形の述部であることを表している。一般的には「Vverb」および「Vnoun」以外の述部を表すラベルとして、形容詞を中心とする述部を表す「Vadjective」と、形容動詞を中心とする述部を表す「Vadjectiveverb」がある。
【0036】格構造取得手段18は、述部取得手段17で得られた述部に対応するノード識別子を受け取り、f−structure保持手段15中の対応するf−structure中のリストを参照することによって、該述部の格構造を取得する手段である。例えば、上記の図5から得られた「5755」「1784」「645」のノード識別子に対して、図14中の「5755」「1784」「645」の識別子が付与されたリストを参照し、各述部の格構造を取得する。図23(図14と同一のf−structure)に図示した通り、「5755」の識別子を持つリストには格要素として「SUBJ」のみが存在する。同様に「1784」の識別子を持つリストには「SUBJ」のみが、「5755」の識別子を持つリストには「SUBJ」と「OBJ(目的語)」が存在する。したがって、図14に対応する意味解析結果から、「主語―娘です」「主語―座っている」「主語―目的語―読んでいる」という格構造を得ることができる。このような格構造の取得を、解析結果保持手段13に保持されている全ての解析結果に対して行う。なお、実際の格要素は、「SUBJ」「OBJ」以外に、道具格(―で)や源泉格(―から)等LFGにおいては「OBLIQUE」という文法役割で表現されるものが存在する。
【0037】格要素取得手段19は、格構造取得手段18が取得した格要素の実体(単語)をf−structure保持手段15が保持しているf−structureを参照して取得する手段である。この処理は、f−strucure中の格要素(SUBJ,OBJ等)に対応するリスト中の「PRED」に対応する単語を参照することにより実現できる。(ただし述部が関係詞節に含まれる場合は、その関係詞節の修飾先を参照する。関係詞節は、f−strucure中でリスト名が「ADJUNCT」であり、「ADJUNCT−TYPE」が「rel」であるという記述を含むリストに対応する。)例えば、図24(図14と同一のf−structure)に図示した通り、図14に対応する意味解析の結果からは、「娘です」の主語として「女の子」が、「座っている」の「主語」として「女の子」が、「読んでいる」の主語として「女性」目的語として「本」が、取得される。このような格要素の取得を、解析結果保持手段13に保持されている全ての解析結果に対して行う。
【0038】非格要素取得手段20は、f−structure保持手段15が保持しているf−structureを参照して、格要素以外の修飾句(単語)とその修飾先に対応する識別子を取得する手段である。LFGにおいて、格要素以外の修飾句は、「ADJUNCT」と呼ばれる文法役割で表現されている。ただし、関係詞節については、格要素取得手段19で既に取得しているため、それ以外の「ADJUNCT」を対象とする。図25(図14と同一のf−structure)に図示した通り、図14に対応する意味解析の結果からは、「娘です」(識別子「645」)を修飾する非格要素として「女性は」を、「座っている」(識別子「1784」)を修飾する非格要素として「妹で」を、「女の子」(識別子「54」)を修飾する非格要素として「私の」を取得する。このような非格要素の取得を、解析結果保持手段13に保持されている全ての解析結果に対して行う。
【0039】述部確定手段21は、述部取得手段17から得られる全ての述部を参照し、特定の文に対して述部が一定しない部分(述部の曖昧性)があれば、その情報を利用者に提示して曖昧性の解消を行うためのユーザインタフェースを有する手段である。例えば、図5〜図13(図14〜図22)に示す9つの解析結果をそれぞれA,B,C,D,E,F,G,H,Iと呼ぶことにすれば、述部の一覧と各述部を含む解析結果の対応関係は図26に示す通りとなる。この表から、解析結果Bのみが、「妹だ(で)」(図6中の識別子「2772」を持つノード(Vnoun)および図15中の識別子「2772」を持つリストに対応)を述部として持ち、他の解析結果では述部となっていない曖昧性が生じていることが分かる。利用者への提示に関しては、述部取得手段17で得られた述部(の終止形)と、格要素取得手段19で得られた対応する格要素(およびその修飾句)を同時に提示し、文として成立するかどうかを尋ねる形式とする。これにより、c−structureを一意に決定することができれば、そのc−strucureをタグ付与手段26に渡し、決定できなければ正しい解析結果として可能性の残るc−strucureの候補の集合を格構造確定手段22に渡す。
【0040】格構造確定手段22は、格構造取得手段18から得られる全ての述部の格構造を参照し、特定の文に対して格構造が一定しない部分(格構造の曖昧性)があれば、その情報を利用者に提示して曖昧性の解消を行うためのユーザインタフェースを有する手段である。図27に示す通り、上述の解析結果A,B,C,D,E,F,G,H,Iにおいては、一つの述部に対して複数の格構造が出現することはないため、この例に関しては格構造の曖昧性は存在しない。
【0041】格構造の曖昧性が存在する場合は、格構造の候補を利用者に提示する、あるいは、格構造辞書保持手段25を参照して各格構造に対応する述部(の中心となる単語)の意味を利用者に提示する(後述)、ことによって曖昧性の解消を行う。これにより、c−structureを一意に決定することができれば、そのc−strucureをタグ付与手段26に渡し、決定できなければ正しい解析結果として可能性の残るc−strucureの候補の集合を格要素確定手段23に渡す。
【0042】格要素確定手段23は、述部取得手段17から得られる全ての述部および格要素取得手段23から得られる全ての格要素を参照し、特定の文に対して格構造中の格要素が一定しない部分(格要素の曖昧性)があれば、その情報を利用者に提示して曖昧性の解消を行うためのユーザインタフェースを有する手段である。図28に示す通り、上述の解析結果A,B,C,D,E,F,G,H,Iには、述部「読んでいる」および「座っている」の主語にそれぞれ2種の格要素(「女性」「女の子」および「女の子」「私」)が該当し得るという曖昧性がある。
【0043】格要素の曖昧性が存在する場合、格要素の候補を利用者に提示することによって曖昧性の解消を行う。これにより、c−structureを一意に決定することができれば、そのc−strucureをタグ付与手段26に渡し、決定できなければ正しい解析結果として可能性の残るc−strucureの候補の集合を非格要素確定手段24に渡す。
【0044】非格要素確定手段24は、非格要素取得手段20から得られる全ての非格要素およびその修飾先を参照し、特定の文に対して非格要素の修飾先が一定しない部分(修飾先の曖昧性)があれば、その情報を利用者に提示して曖昧性の解消を行うためのユーザインタフェースを有する手段である。上述の解析結果A,B,C,D,E,F,G,H,Iには、図29に示す修飾先の曖昧性がある。
【0045】非格要素の修飾先に関する曖昧性が存在する場合、修飾関係の候補を利用者に提示することによって曖昧性の解消を行う。これにより、c−structureを一意に決定することが可能となり、得られたc−strucureをタグ付与手段26に渡す。
【0046】格構造辞書保持手段25は、LFG解析手段12が構文解析/意味解析を行う際に必要となる格構造の一覧を保持する手段である。すなわち、動詞、形容詞等の格構造を支配する単語の各々に対して、可能な格構造を列挙し対応する単語の意味あるいは例文を付与するものである。動詞「すく」に対応する格構造記述の一例を図59に示す。この格構造の一覧は、格構造確定手段22が格構造の曖昧性を解消するためにも用いられる。
【0047】タグ付与手段26は、述部確定手段21、格構造確定手段22、格要素確定手段23、あるいは非格要素確定手段24によって最終解析結果として確定されれたc−structureを受け取り、得られた木構造をタグの形式で解析対象文章保持手段11に保持されている文章に付与する手段である。
【0048】以下、図30のフローチャートを参照し、一つの文に対する意味解析結果確定手段16の処理の流れを説明する。
[ステップ31]:LFG解析手段12から入力文に対する解析結果としてc−structureとf−structureを受け取る。c−structureの候補が一つの場合は[ステップ39]へ進む。そうでなければ[ステップ32]へ進む。
[ステップ32]:述部の曖昧性があれば[ステップ33]へ進む。そうでなければ[ステップ34]へ進む。(全ての解析結果で述部が同じあれば[ステップ34]へ進む。そうでなければ[ステップ33]へ進む。)
[ステップ33]:利用者に述部の候補を提示し、曖昧性を解消する。c−strucureが一意に決定すれば[ステップ39]へ進む。そうでなければ[ステップ34]へ進む。
[ステップ34]:格構造の曖昧性があれば[ステップ35]へ進む。そうでなければ[ステップ36]へ進む。
[ステップ35]:利用者に格構造の候補、あるいは、格構造の候補を表す意味を提示し、曖昧性を解消する。c−strucureが一意に決定すれば[ステップ39]へ進む。そうでなければ[ステップ36]へ進む。
[ステップ36]:格要素の曖昧性があれば[ステップ38]へ進む。そうでなければ[ステップ37]へ進む。
[ステップ37]:利用者に格要素の候補を提示し、曖昧性を解消する。c−strucureが一意に決定すれば[ステップ39]へ進む。そうでなければ[ステップ38]へ進む。
[ステップ38]:利用者に非格要素の修飾先の候補を提示し、曖昧性を解消する。[ステップ39]へ進む。
[ステップ39]:決定したc−structureを取得し、対応する構文タグを入力文に付与する。
【0049】以下、「本を読んでいる女性は私の妹で座っている女の子が娘です。」を入力文とした場合の処理の流れを説明する。入力文から得られるc−structureは、前述の通り図5〜図13の9種である。また、それぞれのc−structureに対して一つずつのf−structure(図14〜図22)が得られる。一般には、一つのc−structureに対して複数のf−strucureが得られるが、図30で説明したフローチャートの処理に何ら変更を加える必要はない。
【0050】上記の9つの解析結果には、図26に示した通り、「読んでいる」「座っている」「娘です」の3つを述部とする解析結果(A,C,D,E,F,G,H,I)と、「読んでいる」「妹だ」「座っている」「娘です」の4つを述部とする解析結果(B)とが存在する。したがって、[ステップ33]において図31のようなユーザインタフェースを用いることにより、「妹だ」が述部であるか否かを利用者に確認する。この場合、「妹だ」は述部であるため「成立する。」が選択される。よって、解析結果はB(図6のc−structure)に一意に決定し、[ステップ39]によって図6に対応するタグ付けが行われる。
【0051】次に、「破産申請を申告している一昔前は満員の観光客で賑わっていたリゾート施設がここです。」を入力文とした場合の処理の流れを説明する。この文は上記の文「本を読んでいる女性は私の妹で座っている女の子が娘です。」と比べて、名詞/動詞の単語および時制を変えただけの文であり、見かけの構造は全く同じである。したがって、LFG解析手段12から、図5〜図13および図14〜図22に示したものと同じ構造を持つ9種のc−structureおよびf−structureが得られることになる。この9つの解析結果候補を上記と同様にA,B,C,D,E,F,G,H,Iと呼ぶことにする。
【0052】まず、上記の例と同様に[ステップ33]において図32のようなユーザインタフェースを用いることにより、「観光客だ(で)」が述部であるか否かを利用者に確認する。この場合、「観光客だ(で)」は述部でないため「成立しない。」が選択される。よって、解析結果はB以外の8つの候補に絞られる。
【0053】図27に示した格構造と同様、本入力文においても、格構造の曖昧性は存在しないため、[ステップ34]は実行されない。
【0054】図28に示した格要素と同様本入力文においても、図33に示すような格要素の曖昧性が存在する。すなわち、「申告している」の主語として「一昔前」および「リゾート施設」の両者が成り立ち得る。(「申告している」の目的語は常に「破産申請」であり曖昧性は生じていない。)また、「賑わっていた」の主語として「リゾート施設」および「満員」の両者が成り立ち得る。したがって、[ステップ37]において図34および図35のようなユーザインタフェースを用いることにより、格要素の曖昧性解消を行う。図34では「リゾート施設が」が選択され、図33を参照することによって、解析結果の候補は「F,G」に絞られる。さらに、図35でも「リゾート施設が」が選択され解析結果はF(図36のc−structure)に一意に決定し、[ステップ39]によって図36に対応するタグ付けが行われる。
【0055】次に、「暖房設備を持たないいつもは彼女の一人で過ごしている部屋が新居です。」を入力文とした場合の処理の流れを説明する。この文も上記の文「本を読んでいる女性は私の妹で座っている女の子が娘です。」と比べて、名詞/動詞の単語および時制を変えただけの文であり、見かけの構造は全く同じである。したがって、LFG解析手段12から、図5〜図13および図14〜図22に示したものと同じ構造を持つ9種のc−structureおよびf−structureが得られることになる。この9つの解析結果候補を上記と同様にA,B,C,D,E,F,G,H,Iと呼ぶことにする。
【0056】まず、上記の例と同様に[ステップ33]において図37のようなユーザインタフェースを用いることにより、「一人だ(で)」が述部であるか否かを利用者に確認する。この場合、「一人だ(で)」は述部でないため「成立しない。」が選択される。よって、解析結果はB以外の8つの候補に絞られる。
【0057】図27に示した格構造と同様、本入力文においても、格構造の曖昧性は存在しないため、[ステップ34]は実行されない。
【0058】図28に示した格要素と同様本入力文においても、図38に示すような格要素の曖昧性が存在する。すなわち、「持たない」の主語として「いつも」および「部屋」の両者が成り立ち得る。(「持たない」の目的語は常に「暖房設備」であり曖昧性は生じていない。)また、「過ごしている」の主語として「部屋」および「彼女」の両者が成り立ち得る。したがって、[ステップ37]において図39および図40のようなユーザインタフェースを用いることにより、格要素の曖昧性解消を行う。図39では「部屋が」が選択され、図38を参照することによって、解析結果の候補は「F,G」に絞られる。さらに、図40では「彼女が」が選択され解析結果はG(図41のc−structure)に一意に決定し、[ステップ39]によって図41に対応するタグ付けが行われる。
【0059】「彼をすいている店で待った。」を入力文とした場合の処理は以下の通りである。この場合、LFG解析手段12から図42および図43に示すc−structureが得られる。また、図42のc−structureに対応するf−structureとして図44および図45が、図43のc−strucureに対応するf−strucureとして図46が得られる。図44、図45、図46の解析結果をそれぞれA,B,Cと呼ぶことにする。この場合、全ての解析結果(A,B,C)において、述部は「すいている」と「待った」で共通しており、述部の曖昧性はない。したがって、[ステップ33]は実行されない。
【0060】該入力文に対しては、図47に示す格構造の曖昧性が存在する。すなわち、「すいている」が主語のみをとる格構造を持つ(自動詞)場合と、主語と目的語の両者をとる格構造を持つ(他動詞)の場合とがあり得る。したがって、図59を参照し、[ステップ35]において図48のようなユーザインタフェースを用いることにより、格構造の曖昧性解消を行う。図48では(自動詞の)「すいている(空いている)」が選択され、解析結果はA(図44のc−structure)に一意に決定し、[ステップ39]によって図44に対応するタグ付けが行われる。
【0061】「彼はプラモデルと自転車も買った。」を入力文とした場合の処理は以下の通りである。この場合、文中の「は」および「も」がどちらも、主語あるいは目的語を表現し得る係助詞であるため、LFG解析手段12から図49〜図52に示す4つのc−structureが得られる。また、各c−structureに対応するf−structureとして図53〜図56が得られる。それぞれの解析結果をA,B,C,Dと呼ぶことにする。この場合、全ての解析結果(A,B,C,D)において、述部は「買った」で共通しており、述部の曖昧性はない。したがって、[ステップ33]は実行されない。また、全ての解析結果で格構造は「主語―目的語―買った」で同じであり、格構造の曖昧性もない。したがって、[ステップ35]も実行されない。
【0062】該入力文に対しては、図57に示す格要素の曖昧性が存在する。したがって、[ステップ37]において図58のようなユーザインタフェースを用いることにより、格構造の曖昧性解消を行う。図58では「彼が」および「プラモデルと自転車を」が選択され、解析結果はB(図50のc−structure)に一意に決定し、[ステップ39]によって図50に対応するタグ付けが行われる。なお、図57を参照することにより「彼が」が選択された時点で、目的語は「自転車を」か「プラモデルと自転車を」のいずれかに絞り込まれることになる。
【0063】本実施例では、図30に示したように、述部の曖昧性、格構造の曖昧性、格要素の曖昧性、非格要素の曖昧性の順に優先的に曖昧性の解消を行う構成をとるものとした。これは、述部を中心とし格構造(文法役割)を重視するLFG理論の考え方に基づくものである。しかしながら、曖昧性の解消の順序は他の方法を採用しても本発明の効果は同様である。例えば、確率付きの構文解析手法を用い、構文解析結果に確率(信頼度)が付与されている場合は、信頼度の高い構文解析結果に対応する意味解析結果を優先してユーザに提示し曖昧性解消を図る方式としても構わない。
【0064】また、本実施例ではタグを直接解析対象文章に付与する構成としたが、構文情報タグを別ファイルへ格納し解析対象文章へのポインタを併記するといった構成をとる場合でも、本発明の効果が変らないのは明らかである。
【0065】本実施例で示した構文情報タグ付与支援システムは、計算機上のソフトウェアとして実現することが可能であり、また分散環境で言語処理を行うようにすることもできる。例えば、図60のようにネットワーク200上に多数のホスト300A、300B、300C、300D、300E、300Fを配置し、ワードプロセッサ(あるいは音声認識システム等)400によって作成されたテキストに対してタグ付与支援システム500によりタグを付与し、ネットワーク200を介してデータベース600に保存した後、必要に応じて機械翻訳システム700等への入力として使用する構成が考えられる。また、図61のように、タグの付与されていないテキストをデータベース600から取得した後に、機械翻訳システム700の前処理としてタグ付与支援システム500によりタグを付与することにより翻訳の精度を向上させるといった利用法も考えられる。
【0066】
【発明の効果】以上のように本発明によれば、意味解析結果候補をシステムの利用者に提示して修正を受けることにより誤りのない意味解析結果を取得し、得られた意味解析結果に基づいて構文解析結果を決定することによって、正しい構文情報タグを文に付与することができる構文情報タグ付与支援システムを提供することが可能となる。これによって、従来必要であった、図3のようなタグ付けを人手で行う、あるいは、図5等に示したような構文木を人手で編集するといった言語学を学んだ者にとっても困難な作業を行う必要がなくなり、替わって図31、図32、図34、図35、図37、図39、図40、図48、図58に示したような平易かつ直感的な作業を行うのみで同様のタグ付与を行うことができる。すなわち、言語学に詳しくない者であっても、正しい構文情報タグを従来技術と比較して極めて低いコストで付与することが可能となる。結果として、例えば「本を読んでいる女性は私の妹で座っている女の子が娘です。」に正しい構文情報タグが付与され、日英の機械翻訳結果として「The woman who is reading a book is my younger sister anda sitting girl is a daughter.」という正しい翻訳結果を得ることができる。これに対して、タグが付与されていない場合、現状の機械翻訳システムでは正しい構文解析結果が得られないため、「The girl on whom the woman who is readinga book is sitting by my younger sister is a daughter.」といった誤った翻訳結果が出力されることになる。
【出願人】 【識別番号】000005496
【氏名又は名称】富士ゼロックス株式会社
【住所又は居所】東京都港区赤坂二丁目17番22号
【出願日】 平成14年2月20日(2002.2.20)
【代理人】 【識別番号】100086531
【弁理士】
【氏名又は名称】澤田 俊夫 (外2名)
【公開番号】 特開2003−242136(P2003−242136A)
【公開日】 平成15年8月29日(2003.8.29)
【出願番号】 特願2002−43697(P2002−43697)