| 【発明の名称】 |
文書情報管理装置 |
| 【発明者】 |
【氏名】野本 昌子
【氏名】佐藤 光弘
【氏名】福重 貴雄
【氏名】野口 直彦
【氏名】鈴木 浩之
|
| 【要約】 |
【課題】文書中の文書要素に適切な分類を与え、文書要素分類を用いて文書中の主要な情報の記述箇所の特定を効率化したり、精度の高い情報の抽出や検索を行ったり、未分類の文書に対しても適切な分類を行えるようにする。
【解決手段】文書集合中における事実を表す名詞的又は動詞的な表現とそれらの分類を規定した事実表現データベース3を参照し、事実表現抽出手段13により各文書の文書要素毎に事実表現データベース3に規定された表現の出現情報を文書要素内事実表現情報6として抽出する。文書要素の出現位置に関する情報を記述した文書要素情報5と文書要素内事実表現情報6とを用いて、文書要素類似度比較手段14により各文書の文書要素間の類似度を比較し、文書要素分類決定手段15で文書要素を分類した上で、情報抽出手段16により文書要素分類及び事実表現情報を用いて精度の高い情報抽出を行う。また、同様に情報検索や文書分類を行う。 |
【特許請求の範囲】
【請求項1】 文書集合中の各文書の文書要素を検出する文書要素検出手段と、文書集合中における事実を表す名詞的又は動詞的な表現である事実表現の分類を規定した事実表現データベースと、前記事実表現データベースを参照して、前記検出された文書要素ごとに前記事実表現の出現情報を含む文書要素内事実表現情報を抽出する事実表現抽出手段と、前記検出された文書要素の出現位置に関する情報を含む文書要素情報と、前記文書要素内事実表現情報とを用いて、各文書の文書要素間の類似度を比較する文書要素類似度比較手段と、前記比較結果に基づき、文書要素を分類して、各文書要素と文書要素分類との対応を示す文書要素分類情報を得る文書要素分類決定手段と、前記文書要素分類に基づいて文書要素から情報を抽出する情報抽出手段と、を備えたことを特徴とする文書情報管理装置。 【請求項2】 前記情報抽出手段は、前記文書要素分類に基づき、特定の文書要素分類に属する文書要素から情報を抽出することを特徴とする請求項1記載の文書情報管理装置。 【請求項3】 前記情報抽出手段は、前記文書要素分類に基づき、特定の文書要素分類に属し、かつ特定の事実表現情報を持つ文書要素から情報を抽出することを特徴とする請求項1記載の文書情報管理装置。 【請求項4】 文書集合中の各文書の文書要素を検出する文書要素検出手段と、文書集合中における事実を表す名詞的又は動詞的な表現である事実表現の分類を規定した事実表現データベースと、前記事実表現データベースを参照して、前記検出された文書要素ごとに前記事実表現の出現情報を含む文書要素内事実表現情報を抽出するとともに、抽出したい情報に関して任意の文字列で与えられる利用者要求における前記事実表現の出現情報を含む利用者要求内事実表現情報を抽出する事実表現抽出手段と、前記検出された文書要素の出現位置に関する情報を含む文書要素情報と、前記文書要素内事実表現情報及び利用者要求内事実表現情報とを用いて、利用者要求と各文書要素間の類似度を比較する文書要素類似度比較手段と、前記比較結果に基づき、文書要素を分類して、各文書要素と文書要素分類との対応を示す文書要素分類情報を得る文書要素分類決定手段と、前記文書要素分類に基づいて文書要素から情報を抽出する情報抽出手段と、を備えたことを特徴とする文書情報管理装置。 【請求項5】 前記情報抽出手段は、前記文書要素分類に基づき、利用者要求との類似度の高い文書要素分類に属する文書要素から情報を抽出することを特徴とする請求項4記載の文書情報管理装置。 【請求項6】 文書集合中の各文書の文書要素を検出する文書要素検出手段と、文書集合中における事実を表す名詞的又は動詞的な表現である事実表現の分類を規定した事実表現データベースと、前記事実表現データベースを参照して、前記検出された文書要素ごとに前記事実表現の出現情報を含む文書要素内事実表現情報を抽出する事実表現抽出手段と、前記検出された文書要素の出現位置に関する情報を含む文書要素情報と、前記文書要素内事実表現情報とを用いて、各文書の文書要素間の類似度を比較する文書要素類似度比較手段と、前記比較結果に基づき、文書要素を分類して、各文書要素と文書要素分類との対応を示す文書要素分類情報を得る文書要素分類決定手段と、前記文書要素分類に基づいて文書要素から情報を検索する情報検索手段と、を備えたことを特徴とする文書情報管理装置。 【請求項7】 前記情報検索手段は、前記文書要素分類に基づき、特定の文書要素分類に属する文書要素に重みをつけて情報を検索することを特徴とする請求項6記載の文書情報管理装置。 【請求項8】 前記情報検索手段は、前記文書要素分類に基づき、特定の文書要素分類に属し、かつ特定の事実表現情報を持つ文書要素に重みをつけて情報を検索することを特徴とする請求項6記載の文書情報管理装置。 【請求項9】 文書集合中の各文書の文書要素を検出する文書要素検出手段と、文書集合中における事実を表す名詞的又は動詞的な表現である事実表現の分類を規定した事実表現データベースと、前記事実表現データベースを参照して、前記検出された文書要素ごとに前記事実表現の出現情報を含む文書要素内事実表現情報を抽出するとともに、抽出したい情報に関して任意の文字列で与えられる利用者要求における前記事実表現の出現情報を含む利用者要求内事実表現情報を抽出する事実表現抽出手段と、前記検出された文書要素の出現位置に関する情報を含む文書要素情報と、前記文書要素内事実表現情報及び利用者要求内事実表現情報とを用いて、利用者要求と各文書要素間の類似度を比較する文書要素類似度比較手段と、前記比較結果に基づき、文書要素を分類して、各文書要素と文書要素分類との対応を示す文書要素分類情報を得る文書要素分類決定手段と、前記文書要素分類に基づいて文書要素から情報を検索する情報検索手段と、を備えたことを特徴とする文書情報管理装置。 【請求項10】 前記情報検索手段は、前記文書要素分類に基づき、利用者要求との類似度の高い文書要素分類に属する文書要素に重みをつけて情報を検索することを特徴とする請求項9記載の文書情報管理装置。 【請求項11】 文書集合中の各文書の文書要素を検出する文書要素検出手段と、文書集合中における事実を表す名詞的又は動詞的な表現である事実表現の分類を規定した事実表現データベースと、前記事実表現データベースを参照して、前記検出された文書要素ごとに前記事実表現の出現情報を含む文書要素内事実表現情報を抽出する事実表現抽出手段と、前記検出された文書要素の出現位置に関する情報を含む文書要素情報と、前記文書要素内事実表現情報とを用いて、各文書の文書要素間の類似度を比較する文書要素類似度比較手段と、前記文書要素の比較結果に基づき、文書要素を分類して、各文書要素と文書要素分類との対応を示す文書要素分類情報を得る文書要素分類決定手段と、前記文書要素分類情報を用いて、文書ごとにまとめて類似度を比較する文書類似度比較手段と、前記文書の比較結果に基づき、文書を分類して文書分類情報を得る文書分類決定手段と、を備えたことを特徴とする文書情報管理装置。 【請求項12】 前記文書分類決定手段は、前記文書類似度比較手段において前記文書要素分類情報と前記文書要素情報を用いて各文書に含まれる文書要素の属する文書要素分類によって文書の類似度を比較した結果により、文書を分類することを特徴とする請求項11記載の文書情報管理装置。 【請求項13】 前記文書分類決定手段は、前記文書類似度比較手段において前記文書要素分類情報と前記文書要素情報及び文書要素内事実表現情報とを用いて各文書に含まれる文書要素の属する文書要素分類及び各文書要素の持つ事実表現情報によって文書の類似度を比較した結果により、文書を分類することを特徴とする請求項11記載の文書情報管理装置。 【請求項14】 文書集合中の各文書の文書要素を検出する文書要素検出手段と、文書集合中における事実を表す名詞的又は動詞的な表現である事実表現の分類を規定した事実表現データベースと、前記事実表現データベースを参照して、前記検出された文書要素ごとに前記事実表現の出現情報を含む文書要素内事実表現情報を抽出する事実表現抽出手段と、前記検出された文書要素の出現位置に関する情報を含む文書要素情報と、前記文書要素内事実表現情報とを用いて、各文書の文書要素間の類似度を比較する文書要素類似度比較手段と、前記文書要素の比較結果に基づき、文書要素を分類して、各文書要素と文書要素分類との対応を示す文書要素分類情報を得る文書要素分類決定手段と、前記文書要素分類情報を用いて、文書ごとにまとめて類似度を比較する文書類似度比較手段と、前記文書の比較結果に基づき、文書を分類して文書分類情報を得る文書分類決定手段と、前記文書分類に基づいて文書要素から情報を抽出する情報抽出手段と、を備えたことを特徴とする文書情報管理装置。 【請求項15】 前記情報抽出手段は、前記文書分類に基づき、特定の文書分類を持つ文書に含まれ、かつ特定の文書要素分類に属する文書要素から情報を抽出することを特徴とする請求項14記載の文書情報管理装置。 【請求項16】 前記情報抽出手段は、前記文書分類に基づき、特定の文書分類を持つ文書に含まれ、かつ特定の文書要素分類に属し、特定の事実表現情報を持つ文書要素から情報を抽出することを特徴とする請求項14記載の文書情報管理装置。 【請求項17】 文書集合中の各文書の文書要素を検出する文書要素検出手段と、文書集合中における事実を表す名詞的又は動詞的な表現である事実表現の分類を規定した事実表現データベースと、前記事実表現データベースを参照して、前記検出された文書要素ごとに前記事実表現の出現情報を含む文書要素内事実表現情報を抽出する事実表現抽出手段と、前記検出された文書要素の出現位置に関する情報を含む文書要素情報と、前記文書要素内事実表現情報とを用いて、各文書の文書要素間の類似度を比較する文書要素類似度比較手段と、前記文書要素の比較結果に基づき、文書要素を分類して、各文書要素と文書要素分類との対応を示す文書要素分類情報を得る文書要素分類決定手段と、前記文書要素分類情報を用いて、文書ごとにまとめて類似度を比較する文書類似度比較手段と、前記文書の比較結果に基づき、文書を分類して文書分類情報を得る文書分類決定手段と、前記文書分類に基づいて文書要素から情報を検索する情報検索手段と、を備えたことを特徴とする文書情報管理装置。 【請求項18】 前記情報検索手段は、前記文書分類に基づき、特定の文書分類を持つ文書に含まれ、かつ特定の文書要素分類に属する文書要素に重みをつけて情報を検索することを特徴とする請求項17記載の文書情報管理装置。 【請求項19】 前記情報検索手段は、前記文書分類に基づき、特定の文書分類を持つ文書に含まれ、かつ特定の文書要素分類に属し、特定の事実表現情報を持つ文書要素に重みをつけて情報を検索することを特徴とする請求項17記載の文書情報管理装置。
|
【発明の詳細な説明】【0001】 【発明の属する技術分野】本発明は電子化された文書中の文、段落などの文書要素を分類し、この文書要素の分類を用いて、文書情報を管理する文書情報管理装置に関する。 【0002】 【従来の技術】文書情報の検索システムにおいて、文書中の文、段落などの文書要素を複数のタイプに分類し、この分類を用いて文書中の情報を抽出又は検索する方法としては、例えば特開平8−255172号に開示されているようなものがある。これは、文中に現れる特徴的な表層文字列、あるいは形態素情報、構文情報などの言語情報と対応する文のタイプ(例:断定文)との対応をあらかじめパタン化しておき、パタンに該当する文から必要な情報を抽出するものである。 【0003】図25に従来の文書情報検索システムのブロック図を示す。原文加工部101は、接続詞辞書102及び型判定用辞書103を参照しながら、原文データを格納した原文データベース104から、例えば意見、提言等のように文章の内容を識別するための複数種類の文の型を設定し、各文の型に分類した文単位の抜粋文データを作成し、抜粋文データベース105として格納する。そして、検索部107は、原文データベース104及び単語インデックス106を参照し、利用者の検索要求に該当する文書のリストや内容を検索結果としてインタフェース部108に渡す。また、抜粋部109は、原文データベース104及び抜粋文データベース105を参照し、文書の全文の中から利用者が選択した型の文のみを抜粋して、文中の接続詞を除去してインタフェース部108に組み込まれている抜粋インタフェース108aに渡す。抜粋インタフェース108aは、検索結果として提示される個々の文書の中から、利用者の指定した文の型に対応する文のみを抜粋して表示画面上に表示する。 【0004】 【発明が解決しようとする課題】例えば断定文のように、一般的な文のタイプについては、上記のようにあらかじめパタン化しておくことは可能であるが、新聞記事から主要な事実に関する情報を抽出しようとする場合のように、文書中の主要な内容の記述箇所を特定できるような文タイプを記述しようとすると、そのパタンは複雑なものとなり、あらかじめ記述しておくことは困難になる。 【0005】例えば、新製品発売の記事から新製品の価格を表す文を抽出しようとする場合、金額を表す表現は同一記事中に複数出現することも多いため、単なる金額表現ではなく、新製品の価格を特徴づける周辺の表現も含めて、複雑なパタンを記述する必要が生じる。 【0006】本発明は、上記事情に鑑みてなされたもので、文書中の文書要素に適切な分類を与え、この文書要素分類を用いることにより、文書中の主要な情報の記述箇所の特定を効率化することができ、精度の高い情報の抽出や検索を行ったり、未分類の文書に対しても適切な分類を行うことが可能な文書情報管理装置を提供することを目的とする。 【0007】 【課題を解決するための手段】本発明は、第1に、文書集合中の各文書の文書要素を検出する文書要素検出手段と、文書集合中における事実を表す名詞的又は動詞的な表現である事実表現の分類を規定した事実表現データベースと、前記事実表現データベースを参照して、前記検出された文書要素ごとに前記事実表現の出現情報を含む文書要素内事実表現情報を抽出する事実表現抽出手段と、前記検出された文書要素の出現位置に関する情報を含む文書要素情報と、前記文書要素内事実表現情報とを用いて、各文書の文書要素間の類似度を比較する文書要素類似度比較手段と、前記比較結果に基づき、文書要素を分類して、各文書要素と文書要素分類との対応を示す文書要素分類情報を得る文書要素分類決定手段と、前記文書要素分類に基づいて文書要素から情報を抽出する情報抽出手段と、を備えたことを特徴とする。また、第2に、前記情報抽出手段は、前記文書要素分類に基づき、特定の文書要素分類に属する文書要素から情報を抽出することを特徴とする。或いは、第3に、前記情報抽出手段は、前記文書要素分類に基づき、特定の文書要素分類に属し、かつ特定の事実表現情報を持つ文書要素から情報を抽出することを特徴とする。上記構成により、文書要素を適切に分類した上で、特定の文書要素分類に属する文書要素から、必要に応じて抽出条件を調整しながら、精度の高い情報を抽出することができる、という効果が得られる。 【0008】第4に、文書集合中の各文書の文書要素を検出する文書要素検出手段と、文書集合中における事実を表す名詞的又は動詞的な表現である事実表現の分類を規定した事実表現データベースと、前記事実表現データベースを参照して、前記検出された文書要素ごとに前記事実表現の出現情報を含む文書要素内事実表現情報を抽出するとともに、抽出したい情報に関して任意の文字列で与えられる利用者要求における前記事実表現の出現情報を含む利用者要求内事実表現情報を抽出する事実表現抽出手段と、前記検出された文書要素の出現位置に関する情報を含む文書要素情報と、前記文書要素内事実表現情報及び利用者要求内事実表現情報とを用いて、利用者要求と各文書要素間の類似度を比較する文書要素類似度比較手段と、前記比較結果に基づき、文書要素を分類して、各文書要素と文書要素分類との対応を示す文書要素分類情報を得る文書要素分類決定手段と、前記文書要素分類に基づいて文書要素から情報を抽出する情報抽出手段と、を備えたことを特徴とする。また、第5に、前記情報抽出手段は、前記文書要素分類に基づき、利用者要求との類似度の高い文書要素分類に属する文書要素から情報を抽出することを特徴とする。上記構成により、文書要素を適切に分類した上で、利用者要求と類似する文書要素分類に属する文書要素から情報を抽出することで、利用者の求める情報を高精度に抽出することができる、という効果が得られる。 【0009】第6に、文書集合中の各文書の文書要素を検出する文書要素検出手段と、文書集合中における事実を表す名詞的又は動詞的な表現である事実表現の分類を規定した事実表現データベースと、前記事実表現データベースを参照して、前記検出された文書要素ごとに前記事実表現の出現情報を含む文書要素内事実表現情報を抽出する事実表現抽出手段と、前記検出された文書要素の出現位置に関する情報を含む文書要素情報と、前記文書要素内事実表現情報とを用いて、各文書の文書要素間の類似度を比較する文書要素類似度比較手段と、前記比較結果に基づき、文書要素を分類して、各文書要素と文書要素分類との対応を示す文書要素分類情報を得る文書要素分類決定手段と、前記文書要素分類に基づいて文書要素から情報を検索する情報検索手段と、を備えたことを特徴とする。また、第7に、前記情報検索手段は、前記文書要素分類に基づき、特定の文書要素分類に属する文書要素に重みをつけて情報を検索することを特徴とする。或いは、第8に、前記情報検索手段は、前記文書要素分類に基づき、特定の文書要素分類に属し、かつ特定の事実表現情報を持つ文書要素に重みをつけて情報を検索することを特徴とする。上記構成により、文書要素を適切に分類した上で、必要に応じて、検索する対象やランキングで優先する情報を調整することで、精度の高い情報を検索することができる、という効果が得られる。 【0010】第9に、文書集合中の各文書の文書要素を検出する文書要素検出手段と、文書集合中における事実を表す名詞的又は動詞的な表現である事実表現の分類を規定した事実表現データベースと、前記事実表現データベースを参照して、前記検出された文書要素ごとに前記事実表現の出現情報を含む文書要素内事実表現情報を抽出するとともに、抽出したい情報に関して任意の文字列で与えられる利用者要求における前記事実表現の出現情報を含む利用者要求内事実表現情報を抽出する事実表現抽出手段と、前記検出された文書要素の出現位置に関する情報を含む文書要素情報と、前記文書要素内事実表現情報及び利用者要求内事実表現情報とを用いて、利用者要求と各文書要素間の類似度を比較する文書要素類似度比較手段と、前記比較結果に基づき、文書要素を分類して、各文書要素と文書要素分類との対応を示す文書要素分類情報を得る文書要素分類決定手段と、前記文書要素分類に基づいて文書要素から情報を検索する情報検索手段と、を備えたことを特徴とする。また、第10に、前記情報検索手段は、前記文書要素分類に基づき、利用者要求との類似度の高い文書要素分類に属する文書要素に重みをつけて情報を検索することを特徴とする。上記構成により、文書要素を適切に分類した上で、利用者要求と類似する文書要素分類に属する文書要素に重みをつけて情報を検索することで、利用者の求める情報を高精度に検索することができる、という効果が得られる。 【0011】第11に、文書集合中の各文書の文書要素を検出する文書要素検出手段と、文書集合中における事実を表す名詞的又は動詞的な表現である事実表現の分類を規定した事実表現データベースと、前記事実表現データベースを参照して、前記検出された文書要素ごとに前記事実表現の出現情報を含む文書要素内事実表現情報を抽出する事実表現抽出手段と、前記検出された文書要素の出現位置に関する情報を含む文書要素情報と、前記文書要素内事実表現情報とを用いて、各文書の文書要素間の類似度を比較する文書要素類似度比較手段と、前記文書要素の比較結果に基づき、文書要素を分類して、各文書要素と文書要素分類との対応を示す文書要素分類情報を得る文書要素分類決定手段と、前記文書要素分類情報を用いて、文書ごとにまとめて類似度を比較する文書類似度比較手段と、前記文書の比較結果に基づき、文書を分類して文書分類情報を得る文書分類決定手段と、を備えたことを特徴とする。また、第12に、前記文書分類決定手段は、前記文書類似度比較手段において前記文書要素分類情報と前記文書要素情報を用いて各文書に含まれる文書要素の属する文書要素分類によって文書の類似度を比較した結果により、文書を分類することを特徴とする。或いは、第13に、前記文書分類決定手段は、前記文書類似度比較手段において前記文書要素分類情報と前記文書要素情報及び文書要素内事実表現情報とを用いて各文書に含まれる文書要素の属する文書要素分類及び各文書要素の持つ事実表現情報によって文書の類似度を比較した結果により、文書を分類することを特徴とする。上記構成により、必要に応じて分類の条件を調整し、適切な文書の分類を行うことができる、という効果が得られる。 【0012】第14に、文書集合中の各文書の文書要素を検出する文書要素検出手段と、文書集合中における事実を表す名詞的又は動詞的な表現である事実表現の分類を規定した事実表現データベースと、前記事実表現データベースを参照して、前記検出された文書要素ごとに前記事実表現の出現情報を含む文書要素内事実表現情報を抽出する事実表現抽出手段と、前記検出された文書要素の出現位置に関する情報を含む文書要素情報と、前記文書要素内事実表現情報とを用いて、各文書の文書要素間の類似度を比較する文書要素類似度比較手段と、前記文書要素の比較結果に基づき、文書要素を分類して、各文書要素と文書要素分類との対応を示す文書要素分類情報を得る文書要素分類決定手段と、前記文書要素分類情報を用いて、文書ごとにまとめて類似度を比較する文書類似度比較手段と、前記文書の比較結果に基づき、文書を分類して文書分類情報を得る文書分類決定手段と、前記文書分類に基づいて文書要素から情報を抽出する情報抽出手段と、を備えたことを特徴とする。また、第15に、前記情報抽出手段は、前記文書分類に基づき、特定の文書分類を持つ文書に含まれ、かつ特定の文書要素分類に属する文書要素から情報を抽出することを特徴とする。或いは、第16に、前記情報抽出手段は、前記文書分類に基づき、特定の文書分類を持つ文書に含まれ、かつ特定の文書要素分類に属し、特定の事実表現情報を持つ文書要素から情報を抽出することを特徴とする。上記構成により、文書を適切に分類した上で、特定の文書分類に属する文書に含まれ、特定の文書要素分類に属する文書要素から、要求に応じて抽出条件を調整しながら、さらに精度の高い情報を抽出することができる、という効果が得られる。 【0013】第17に、文書集合中の各文書の文書要素を検出する文書要素検出手段と、文書集合中における事実を表す名詞的又は動詞的な表現である事実表現の分類を規定した事実表現データベースと、前記事実表現データベースを参照して、前記検出された文書要素ごとに前記事実表現の出現情報を含む文書要素内事実表現情報を抽出する事実表現抽出手段と、前記検出された文書要素の出現位置に関する情報を含む文書要素情報と、前記文書要素内事実表現情報とを用いて、各文書の文書要素間の類似度を比較する文書要素類似度比較手段と、前記文書要素の比較結果に基づき、文書要素を分類して、各文書要素と文書要素分類との対応を示す文書要素分類情報を得る文書要素分類決定手段と、前記文書要素分類情報を用いて、文書ごとにまとめて類似度を比較する文書類似度比較手段と、前記文書の比較結果に基づき、文書を分類して文書分類情報を得る文書分類決定手段と、前記文書分類に基づいて文書要素から情報を検索する情報検索手段と、を備えたことを特徴とする。また、第18に、前記情報検索手段は、前記文書分類に基づき、特定の文書分類を持つ文書に含まれ、かつ特定の文書要素分類に属する文書要素に重みをつけて情報を検索することを特徴とする。或いは、第19に、前記情報検索手段は、前記文書分類に基づき、特定の文書分類を持つ文書に含まれ、かつ特定の文書要素分類に属し、特定の事実表現情報を持つ文書要素に重みをつけて情報を検索することを特徴とする。上記構成により、文書を適切に分類した上で、特定の文書分類に属する文書に含まれ、特定の文書要素分類に属する文書要素に重みをつけて、必要に応じて、検索する対象やランキングで優先する情報を調整することで、さらに精度の高い情報を検索することができる、という効果が得られる。 【0014】 【発明の実施の形態】以下、図面を参照して本発明の実施の形態を説明する。 [第1実施形態]図1〜図10を用いて本発明の第1実施形態を説明する。図1は第1実施形態に係る文書情報管理装置の構成を示すブロック図である。文書情報管理装置は、原文の文書を格納する文書データベース1、文書中に記述される事実を表す表現(例えば人物、組織名等の表現)の分類を規定した事実表現データベース3、各種文書管理情報を蓄積する情報蓄積手段9を備えている。この情報蓄積手段9には、各文書から抽出された文書要素の出現情報を表す文書要素情報5、文書要素情報5中の各文書要素毎に事実表現データベース3に規定された表現の出現情報を表す文書要素内事実表現情報6、文書要素と文書要素分類との対応を表す文書要素分類情報2がそれぞれ蓄積されるようになっている。 【0015】また、文書から文書要素を検出する文書要素検出手段12、文書要素ごとの事実表現を抽出する事実表現抽出手段13、各文書要素間の類似度を比較する文書要素類似度比較手段14、文書要素に対応する文書要素分類を決定する文書要素分類決定手段15、利用者が指定した条件を満たす情報を抽出する情報抽出手段16、利用者が指定する文字列の入力及び抽出された情報の出力や表示等を行う際の入出力を司るインタフェース手段17、利用者から指定された参照情報に基づいて情報蓄積手段9に蓄積された各情報を参照し提示する照会処理手段22を備えている。これらの手段の機能は後で詳述する。 【0016】上記のような構成の文書情報管理装置において、文書情報抽出に関する動作を以下に説明する。 【0017】文書要素検出手段12は、文書データベース1に格納された原文中の各文書から文書の一部をなす文、段落などの文書要素を検出し、各文書要素の出現情報を文書要素情報5として抽出し、情報蓄積手段9に蓄積する。ここでは、文書要素としては文を用い、文書要素情報として文書要素の文字列と識別番号、出現した文書の識別番号、文書中での位置を用いる場合を例示する。図2に文書要素の文字列と識別番号(文書要素番号)、出現した文書の識別番号(文書番号)、文書中での位置を記述した文書要素情報5の抽出例を示す。 【0018】事実表現抽出手段13は、文書中に記述される事実を表す例えば人物、組織名等の表現に対して、これらの事実表現の分類を規定した事実表現データベース3を参照し、文書要素情報5中の各文書要素毎に、前記事実表現データベース3に規定された表現の出現情報を文書要素内事実表現情報6として抽出し、情報蓄積手段9に蓄積する。図3に事実表現データベース3の内容例を示す。なお、図3の例では、事実表現データベースにおける事実表現の分類は2階層であるが、例えば、「名詞的表現」の「会社名」の下に、さらに「電気業界の会社名」という階層が設けられているなど、分類の階層はより複雑なものであってもかまわない。また、事実表現データベースに規定される表現は個々の文字列そのものである必要はなく、文字列を特定するためのパタンであってもかまわない。 【0019】また、図4に文書要素内事実表現情報6として、事実表現及び対応する事実表現分類を抽出した例を示す。なお、文書要素内事実表現情報として、さらに、事実表現の位置情報や、事実表現間の統語的・意味的関係などの言語情報を抽出してもよい。また、文書中では省略された主語や日付表現の一部などの補完や、照応表現の解消を行った上で、事実表現を抽出することが望ましい。 【0020】文書要素類似度比較手段14は、前記文書要素情報5及び文書要素内事実表現情報6を用いて、各文書要素間の類似度を計算する。類似度比較に用いる基準の例として、ここでは、文書要素情報のうちの文書要素の文書中での位置と、文書要素内事実表現情報のうちの動詞的な事実表現の分類とを用いることとする。図5に類似度比較に用いる情報の例を示す。 【0021】類似度比較の結果、文書要素内の動詞的な事実表現分類と、本文中での位置の組み合わせは、(1)動詞グループAの現れる本文第1文の文書要素文書番号1001の文書要素0001文書番号1002の文書要素0001文書番号1003の文書要素0001文書番号1006の文書要素0001(2)動詞グループAの現れる本文第2文の文書要素文書番号1003の文書要素0002(3)動詞グループBの現れる本文第1文の文書要素文書番号1001の文書要素0002(4)動詞グループCの現れる本文第1文の文書要素文書番号1004の文書要素0001文書番号1005の文書要素0001(5)動詞グループCの現れる本文第2文の文書要素文書番号1005の文書要素0002(6)いずれの動詞グループも現れない本文第2文の文書要素文書番号1002の文書要素0002文書番号1004の文書要素0002文書番号1006の文書要素0002(7)いずれの動詞グループも現れない本文第3文の文書要素文書番号1001の文書要素0003となり、全部で7パタンの文書要素があることがわかる。 【0022】次に、文書要素分類決定手段15は、文書要素に対応する文書要素分類を決定し、この文書要素と文書要素分類との対応を文書要素分類情報2として情報蓄積手段9に蓄積する。図6に上記の7パタンをそのまま文書要素分類として用いた場合の文書要素分類情報2の例を示す。 【0023】そして、情報抽出手段16は、前記文書要素分類情報2として蓄積された文書要素分類のうち、特定の分類に属する文書要素を対象に、文書要素情報5及び文書要素6を参照して情報を抽出する。ここでは一例として、図6に示す文書要素分類情報のうち、(1),(4)に属する文書要素から情報を抽出することとする。 【0024】文書要素からの情報の抽出方法はさまざまな方法が考えられるが、以下に3つの例を示す。 【0025】(I)特定の文書要素分類に属する文書要素から情報を抽出する場合ここでは、文書要素分類(1)又は(4)に属する文書要素に出現する、図5に示した文書要素内事実表現情報のうち、50%以上の文書要素に出現する事実表現分類及び該当する事実表現を抽出する場合を例示する。ここで、以下の事実表現分類が該当したとする。 ・文書要素分類(1) 名詞的表現:会社名名詞的表現:日付表現名詞的表現:製品種別名詞的表現:商品名動詞的表現:動詞グループA・文書要素分類(4) 名詞的表現:会社名名詞的表現:日付表現名詞的表現:製品種別動詞的表現:動詞グループCこの場合の情報の抽出結果は、文書要素分類(1)又は(4)に属する各文書要素に含まれる、上記の事実表現分類及び該当する事実表現となる。図7にこの場合の情報の抽出結果を示す。 【0026】(II)特定の文書要素分類に属し、特定の事実表現情報をもつ文書要素から情報を抽出する場合上記(I)の例では、特定の文書要素分類に属する文書要素から情報を抽出したが、文書要素分類だけでなく、さらに、特定の事実表現情報を持つ文書要素に限定して情報を抽出してもよい。図8に上記の文書要素分類のグループ(1)から(7)に属する文書要素を、以下のような条件で限定し、上記と同様に情報を抽出した場合の抽出結果の例を示す。 文書要素分類…グループ(1) 事実表現分類…名詞的表現:「製品種別」の事実表現「携帯電話」 【0027】(III)利用者が情報を抽出する文書要素についての条件を指定する場合上記(I),(II)の例では、情報を抽出する文書要素についての条件を、特定の文書要素分類に属する文書要素、あるいは、特定の文書要素分類に属し特定の事実表現情報を持つ文書要素としたが、この条件は利用者が指定するようにしてもよい。文書要素分類決定手段15が文書要素分類を決定し、文書要素分類情報2として情報蓄積手段9に蓄積するまでの動作は上記の説明と同様である。 【0028】次に、利用者からの参照情報の指定があれば、照会処理手段22は、情報蓄積手段9に蓄積された文書要素情報5、文書要素内事実表現情報6、文書要素分類情報2を参照し、インタフェース手段17を介して、利用者から指定された情報を提示する。利用者は、提示された情報を参照した上で、インタフェース手段17を介して情報の抽出に関する条件を指定する。これを受けて情報抽出手段16は条件を満たす情報を抽出し、抽出結果をインタフェース手段17を介して利用者に提示する。 【0029】例えば、利用者が、上記の文書要素分類のグループ(1)から(7)に属する文書要素から情報を抽出する条件として、文書要素分類…グループ(1) 事実表現分類…名詞的表現:「製品種別」の事実表現「携帯電話」 を指定した場合を例にする。図9にこの場合の情報の抽出結果の例を示す。 【0030】さらに利用者が、インタフェース手段17を介して、抽出した情報の中から提示すべき情報及び提示方法を指定した場合、情報抽出手段16は提示すべき情報をさらに限定し、インタフェース手段を介して提示する。図10に、図9の抽出結果に対して、利用者から以下のように提示すべき情報及び提示方法についての指定があった場合の提示結果を示す。 ・提示すべき情報事実表現分類:名詞的表現の「製品種別」及び該当する事実表現事実表現分類:名詞的表現の「会社名」及び該当する事実表現事実表現分類:名詞的表現の「商品名」及び該当する事実表現・提示方法事実表現分類「会社名」でまとめる【0031】なお、上記の例では、まず、利用者が「情報を抽出する文書要素についての条件」を指定し、いったん抽出結果が提示された後に、「提示すべき情報」と「提示方法」を改めて指定しているが、これらの指定は、一度に行ってもよいし、また、繰り返して行っても構わない。 【0032】以上のように、本実施形態では、事実表現データベースを参照し、文書中の事実表現やその分類の出現傾向により、文書要素を適切に分類した上で、特定の文書要素分類に属し、特定の事実表現情報を持つ文書要素から、必要に応じて抽出条件を調整しながら、精度の高い情報を抽出することができる。 【0033】[第2実施形態]図11〜図15を用いて本発明の第2実施形態を説明する。図11は第2実施形態に係る文書情報管理装置の構成を示すブロック図である。第2実施形態は、図1に示した第1実施形態の構成に加えて、情報蓄積手段9に利用者要求内事実表現情報7を蓄積するようにした例である。インタフェース手段17を介して利用者要求の文字列を入力し、事実表現抽出手段13において事実表現に関する情報を利用者要求内事実表現情報7として抽出し、情報蓄積手段9に蓄積するようになっている。その他の構成は第1実施形態と同様であり、説明を省略する。 【0034】上記のような構成の文書情報管理装置において、文書情報抽出に関する動作を以下に説明する。 【0035】文書要素検出手段12により文書から文書要素情報5を抽出し、事実表現抽出手段13により文書要素から文書要素内事実表現情報6を抽出するまでの動作は前述した第1実施形態と同様である。 【0036】ここで、利用者により、インタフェース手段17を介して抽出したい情報についての利用者要求として、「携帯電話の発売について」という文字列が入力されたとする。 【0037】事実表現抽出手段13は、同様に、事実表現データベース3を参照し、利用者要求として入力された文字列から、前記事実表現データベース3に規定された事実表現に関する出現情報を利用者要求内事実表現情報7として抽出し、情報蓄積手段9に蓄積する。図12に利用者要求内事実表現情報7として、事実表現及び対応する事実表現分類を抽出した例を示す。 【0038】文書要素類似度比較手段14は、前記文書要素情報5及び文書要素内事実表現情報6と、利用者要求内事実表現情報7を用いて、利用者要求と各文書要素間の類似度を比較する。 【0039】利用者要求と類似度の高い文書要素を判定するための基準として、ここでは、(1)利用者要求内の事実表現分類及び事実表現に対応する事実表現分類及び事実表現をもつ文書要素(2)文書中の位置が本文第1文である文書要素の2つの基準を用いることとする。図13に類似度比較に用いる情報の例を示す。なお、ここでは、事実表現の対応を判定する際には、シソーラスや類義語辞書等を用いて判定することが望ましい。 【0040】文書要素の判定の際に、利用者要求内に含まれる、・事実表現分類「名詞的表現:製品種別」の事実表現「携帯電話」 又は・事実表現分類「動詞表現:動詞グループA」の事実表現「発売」 が出現する文書要素に、本文第1文ならば5点ずつ、それ以外ならば4点ずつ加算することとすると、図13に示した各文書要素の得点は、 文書番号1001の文書要素0001の得点:5+5 = 10 文書番号1001の文書要素0002の得点:0+0 = 0 文書番号1001の文書要素0003の得点:0+0 = 0 文書番号1002の文書要素0001の得点:0+5 = 5 文書番号1002の文書要素0002の得点:0+0 = 0 文書番号1003の文書要素0001の得点:5+5 = 10 文書番号1003の文書要素0002の得点:4+4 = 8 文書番号1006の文書要素0001の得点:5+5 = 10 文書番号1006の文書要素0002の得点:4+0 = 4となる。 【0041】次に、文書要素分類決定手段15は、文書要素を分類する際、上記の各文書要素の得点を利用者要求との類似度とみなし、以下のように得点の区切りを設けて文書要素をグループ化することとする。この場合、(A)利用者要求に対応するすべての事実表現分類及び事実表現が本文第1文に現れるもの(=得点10点) 文書番号1001の文書要素0001文書番号1003の文書要素0001文書番号1006の文書要素0001(B)利用者要求に対応するすべての事実表現分類及び事実表現が本文第1文以外に現れるもの(=得点8点) 文書番号1003の文書要素0002(C)利用者要求に対応する事実表現分類及び事実表現の一部が本文第1文に現れるもの(=得点5点) 文書番号1002の文書要素0001(D)利用者要求に対応する事実表現分類及び事実表現の一部が本文第1文以外に現れるもの(=得点4点) 文書番号1006の文書要素0002(E)利用者要求に対応する事実表現分類が現れないもの(=得点0点) 文書番号1001の文書要素0002文書番号1001の文書要素0003文書番号1002の文書要素0002となる。上記の文書要素は5つのグループに分類され、各文書要素と文書要素分類の対応が文書要素分類情報2として、情報蓄積手段9に蓄積される。図14に文書要素分類情報の例を示す。 【0042】さらに、情報抽出手段16は、前記文書要素分類情報2に蓄積された文書要素分類のうち、特定の分類に属する文書要素から情報を抽出し、インタフェース手段17を介して利用者に提示する。例として、図14の文書要素分類(1)〜(4)のうち、利用者要求との類似度を表す得点のもっとも高いグループ(1)に属する文書要素から情報を抽出することとする。 【0043】抽出結果として提示する情報として、ここでは、仮に、グループ(1)に属する文書要素に出現する、図13に示した事実表現分類のうち、50%以上の文書要素に出現する分類及び該当する事実表現を抽出候補とし、以下の5つの事実表現分類が該当したとする。 名詞的表現:会社名名詞的表現:日付表現名詞的表現:製品種別名詞的表現:商品名動詞的表現:動詞グループA【0044】したがって、この場合の情報の抽出結果は、グループ(1)に属する各文書要素に含まれる、上記の5つの事実表現分類及び該当する事実表現となる。図15にこの場合の情報の抽出結果を示す。 【0045】なお、本実施形態においても、第1実施形態と同様に、参照情報や抽出する情報、結果の提示方法などについて、利用者から指定を受けたり、また、指定に応じた情報を提示するようにしてもよい。 【0046】以上のように、本実施形態では、事実表現データベースを参照し、文書中の事実表現やその分類の出現傾向により、利用者要求と文書要素分類の類似度を比較し、利用者要求と類似する文書要素分類に属する文書要素から情報を抽出することにより、利用者の求める情報を高精度に抽出することができる。 【0047】[第3実施形態]図16〜図18を用いて本発明の第3実施形態を説明する。図16は第3実施形態に係る文書情報管理装置の構成を示すブロック図である。第3実施形態は、図1に示した第1実施形態の構成における情報抽出手段16の代わりに、情報検出手段21を設けた例である。情報検索手段21は、インタフェース手段17を介して利用者からの検索条件を受けて文書要素の検索を行い、検索結果を提示するようになっている。その他の構成は第1実施形態と同様であり、説明を省略する。 【0048】上記のような構成の文書情報管理装置において、文書情報検索に関する動作を以下に説明する。 【0049】文書要素分類決定手段15により文書要素分類を決定し、文書要素分類情報2として情報蓄積手段9に蓄積するまでの動作は前述した第1実施形態と同様である。 【0050】利用者からの参照情報の指定があれば、照会処理手段22は、インタフェース手段17を介して、利用者からの参照要求に応じて情報蓄積手段9に蓄積された文書要素情報5、文書要素内事実表現情報6、文書要素分類情報2を参照し、該当する情報を利用者に提示する。 【0051】次に、情報検索手段21は、インタフェース手段17を介して、利用者から情報検索の対象についての条件とランキングの条件に関する指定を受けて検索を行い、検索結果を利用者に提示する。 【0052】例えば、利用者が、図13に示した文書の文書要素が図14のように分類されている場合に検索の条件として、・情報検索の対象:文書要素分類:(1) 事実表現分類「製品」の事実表現「携帯電話」 ・ランキングで優先する情報の条件:事実表現分類「会社」の事実表現「A社」 を指定した場合を例にする。図17にこの場合の情報の検索結果の例を示す。 【0053】さらに利用者が、インタフェース手段17を介して、検索した情報の中から提示すべき情報及び提示方法を指定した場合、情報検索手段21は提示すべき情報をさらに限定し、インタフェース手段を介して提示する。図18に、図17の検索結果に対して、利用者から以下のように提示すべき情報についての指定があった場合の提示結果を示す。 ・提示すべき情報事実表現情報「会社名」及び該当する事実表現事実表現情報「商品名」及び該当する事実表現事実表現情報「日付表現」及び該当する事実表現【0054】なお、上記の例では、まず、利用者が「情報検索の対象」と「ランキングで優先する情報の条件」を指定し、いったん検索結果が提示された後に、「提示すべき情報」を改めて指定しているが、これらの指定は、一度に行ってもよいし、また、繰り返して行っても構わない。 【0055】また、上記の例では、特定の文書要素分類に属し特定の事実表現情報を持つ文書要素に対象を限定して検索をしたが、検索対象は全文書とし、これらの情報はランキングのみに用いてもかまわない。また、ランキングで優先する情報については、情報の種類だけでなく、重みを指定して、既存のランキング方法で類似度計算を行ってもよい。 【0056】以上のように、本実施形態では、事実表現データベースを参照し、文書中の事実表現やその分類の出現傾向により、文書要素を適切に分類した上で、必要に応じて文書要素分類及び事実表現情報を用いて、検索する対象を限定したり、ランキングで優先する情報を指定したりすることで、精度の高い情報を検索することができる。 【0057】[第4実施形態]図19〜図21を用いて本発明の第4実施形態を説明する。図19は第4実施形態に係る文書情報管理装置の構成を示すブロック図である。第4実施形態は、図1に示した第1実施形態の構成における情報抽出手段16の代わりに、文書類似度比較手段18及び文書分類決定手段19を設け、さらに情報蓄積手段9に文書分類情報8を蓄積するようにした例である。文書類似度比較手段18は、文書要素情報5、文書要素内事実表現情報6、及び文書要素分類情報2に基づいて文書毎にまとめて類似度を比較する。文書分類決定手段19は、前記比較結果を受けて文書の分類を行い、文書分類情報8として情報蓄積手段9に蓄積したり、インタフェース手段17を介して出力するようになっている。その他の構成は第1実施形態と同様であり、説明を省略する。 【0058】上記のような構成の文書情報管理装置において、文書分類に関する動作を以下に説明する。 【0059】文書要素分類決定手段15により文書中の文書要素分類を決定し、文書要素分類情報2として情報蓄積手段9に蓄積するまでの動作は前述した第1実施形態と同様である。 【0060】文書類似度比較手段18は、情報蓄積手段9に蓄積された文書要素情報5、文書要素内事実表現情報6、及び文書要素分類情報2を文書毎にまとめて比較する。ここでは例えば、図5及び図6に示した事実表現情報及び文書要素分類情報を用いて、これらを文書毎にまとめ、・本文第1文の文書要素分類・事実表現分類「製品種別」の事実表現を比較する場合を例にする。図20にこの場合の類似度比較に用いる情報の例を示す。 【0061】文書分類決定手段19は、上記の比較結果を受けて文書を分類し、文書分類情報8として情報蓄積手段9に蓄積したり、インタフェース手段17を介して出力する。ここでは、上記の本文第1文の文書要素分類と、事実表現分類「製品種別」の事実表現により、文書を分類することとする。図21にこの場合の文書の分類結果の例を示す。 【0062】なお、本実施形態においても、第1〜3実施形態と同様に、参照情報や分類する条件について、利用者から指定を受けたり、また、指定に応じた情報を提示するようにしてもよい。 【0063】以上のように、本実施形態では、事実表現データベースを参照し、文書中の文書要素の属する文書要素分類及び文書要素の持つ事実表現情報を用いて文書の類似度を比較し分類を行うことにより、必要に応じて分類の条件を調整し、適切な文書の分類を行うことができる。 【0064】[第5実施形態]図22〜図24を用いて本発明の第5実施形態を説明する。図22は第5実施形態に係る文書情報管理装置の構成を示すブロック図である。第5実施形態は、前述した第1実施形態と第4実施形態を組み合わせたもので、図19の構成に加えて図1の情報抽出手段16を設けた例である。 【0065】この第5実施形態の文書情報管理装置において、文書情報抽出に関する動作を以下に説明する。 【0066】文書分類決定手段19により文書ごとの文書分類を決定し、文書分類情報8として情報蓄積手段9に蓄積するまでの動作は前述した第4実施形態と同様である。 【0067】利用者からの参照情報の指定があれば、照会処理手段22は、情報蓄積手段9に蓄積された文書要素情報5、文書要素内事実表現情報6、文書要素分類情報2、文書分類情報8を参照し、インタフェース手段17を介して、利用者から指定された情報を提示する。 【0068】そして、利用者は、提示された情報を参照した上で、インタフェース手段17を介して情報の抽出に関する条件を指定する。これを受けて、情報抽出手段16は、指定された条件を満たす情報を抽出し、抽出結果をインタフェース手段17を介して利用者に提示する。 【0069】ここで、例えば、図5及び図20に示した各文書が図21のように分類されている場合に、利用者が情報を抽出する文書要素についての条件として、・文書分類: (1) 本文第1文の文書要素分類が1(動詞グループA)で事実表現分類「製品種別」の事実表現「携帯電話」 ・事実表現分類「金額表現」又は・事実表現分類「会社名」 を指定した場合を例にする。図23にこの場合の情報の抽出結果の例を示す。 【0070】さらに利用者が、インタフェース手段17を介して、抽出した情報の中から提示すべき情報及び提示方法を指定した場合、情報抽出手段16は提示すべき情報をさらに限定し、インタフェース手段を介して提示する。図24に、図23の抽出結果に対して、利用者から以下のように提示すべき情報及び提示方法についての指定があった場合の提示結果を示す。 ・提示すべき情報事実表現分類「会社名」及び該当する事実表現事実表現分類「金額表現」及び該当する事実表現・提示方法文書毎にまとめ、さらに会社毎にまとめる【0071】なお、上記の例では、まず、利用者が「情報を抽出する文書要素についての条件」を指定し、いったん抽出結果が提示された後に、「提示すべき情報」及び「提示方法」を改めて指定しているが、これらの指定は、一度に行ってもよいし、また、繰り返して行っても構わない。 【0072】以上のように、本実施形態では、事実表現データベースを参照し、文書中の文書要素分類や事実表現情報の出現傾向により、文書を適切に分類した上で、特定の文書分類に属する文書に含まれ、かつ特定の文書要素分類に属し、特定の事実表現情報をもつ文書要素から、要求に応じて抽出条件を調整しながら、精度の高い情報を抽出することができる。 【0073】本実施形態によれば、第1に、文書集合から情報を抽出する際に、事実を表す名詞的又は動詞的な表現とそれらの分類を規定した事実表現データベースを参照し、各文書の文書要素毎に、前記事実表現データベースに規定された表現の出現情報を文書要素内事実表現情報として抽出し、文書要素の出現位置に関する情報を記述した文書要素情報と、前記文書要素内事実表現情報を用いて、各文書の文書要素間の類似度を比較し、文書要素を分類して、特定の文書要素分類に属する文書要素から情報を抽出するようにしたものである。これにより、文書要素を適切に分類した上で、特定の文書要素分類に属する文書要素から、要求に応じて抽出条件を調整しながら、精度の高い情報を抽出することができる、という効果が得られる。 【0074】また、第2に、抽出したい情報についての利用者要求が任意の文字列で与えられた場合、同様に事実表現情報を抽出し、文書要素内事実表現情報と、利用者要求内事実表現情報を用いて利用者要求と各文書要素の類似度を比較し、利用者要求と類似度の高い文書要素の属する文書要素分類を求め、前記文書要素分類に属する文書要素から情報を抽出するようにしたものである。これにより、文書要素を適切に分類した上で、利用者要求と類似する文書要素分類に属する文書要素から情報を抽出することで、利用者の求める情報を高精度に抽出することができる、という効果が得られる。 【0075】また、第3に、文書集合中の情報を検索する際に、特定の文書要素分類に属する文書要素に重みをつけて検索するようにしたものである。これにより、文書要素を適切に分類した上で、必要に応じて、検索する対象やランキングで優先する情報を調整することで、精度の高い情報を検索することができる、という効果が得られる。 【0076】また、第4に、検索したい情報についての利用者要求が任意の文字列で与えられた場合、利用者要求から事実表現情報を抽出し、同様に利用者要求と各文書要素の類似度を比較し、利用者要求と類似度の高い文書要素の属する文書要素分類を求め、前記文書要素分類に属する文書要素に重みをつけて、情報を検索するようにしたものである。これにより、文書要素を適切に分類した上で、利用者要求と類似する文書要素分類に属する文書要素に重みをつけて情報を検索することで、利用者の求める情報を高精度に検索することができる、という効果が得られる。 【0077】また、第5に、文書集合中の文書を分類する際に、各文書に含まれる文書要素の属する文書要素分類を用いて文書の類似度を比較し、文書を分類するようにしたものである。これにより、必要に応じて分類の条件を調整し、適切な文書の分類を行うことができる、という効果が得られる。 【0078】また、第6に、文書集合から情報を抽出する際に、特定の文書分類をもつ文書に含まれ、かつ、特定の文書要素分類に属する文書要素から情報を抽出するようにしたものである。これにより、文書を適切に分類した上で、特定の文書分類に属する文書に含まれ、特定の文書要素分類に属する文書要素から、要求に応じて抽出条件を調整しながら、精度の高い情報を抽出することができる、という効果が得られる。 【0079】また、第7に、文書集合中の情報を検索する際に、特定の文書分類をもつ文書に含まれ、かつ、特定の文書要素分類に属する文書要素に重みをつけて、情報を検索するようにしたものである。これにより、文書を適切に分類した上で、特定の文書分類に属する文書に含まれ、特定の文書要素分類に属する文書要素に重みをつけて、必要に応じて、検索する対象やランキングで優先する情報を調整することで、精度の高い情報を抽出することができる、という効果が得られる。 【0080】 【発明の効果】以上説明したように本発明によれば、文書中の文書要素に適切な分類を与え、この文書要素分類を用いることにより、文書中の主要な情報の記述箇所の特定を効率化することができ、精度の高い情報の抽出や検索を行ったり、未分類の文書に対しても適切な分類を行うことが可能となる効果が得られる。
|
| 【出願人】 |
【識別番号】000005821 【氏名又は名称】松下電器産業株式会社
|
| 【出願日】 |
平成12年9月28日(2000.9.28) |
| 【代理人】 |
【識別番号】100105647 【弁理士】 【氏名又は名称】小栗 昌平 (外4名)
|
| 【公開番号】 |
特開2002−108893(P2002−108893A) |
| 【公開日】 |
平成14年4月12日(2002.4.12) |
| 【出願番号】 |
特願2000−296963(P2000−296963) |
|