| 【発明の名称】 |
文書集合間分析装置、文書集合間分析方法及び文書集合間分析プログラムを記録した記録媒体 |
| 【発明者】 |
【氏名】剣持 栄治
|
| 【要約】 |
【課題】文書データコーパスの構造を把握することを支援する文書集合間分析装置を提供することを目的とする。
【解決手段】文書集合間の関係を分析する文書集合間分析装置において、複数の文書データを入力する文書入力部と、入力した各文書データから固有単語を抽出し、各固有単語の各文書データにおける出現頻度を算出する文書データ解析部と、入力した前記複数の文書データから複数の文書集合を生成する文書集合生成部と、該文書集合毎に、前記文書データと前記固有単語に関する情報を用いて文書集合固有情報を生成する文書集合固有情報生成部と、該文書集合固有情報を基に前記文書集合間の関連性を示す情報を生成する文書集合間関連情報生成部とを有する。 |
【特許請求の範囲】
【請求項1】 文書集合間の関係を分析する文書集合間分析装置であって、複数の文書データを入力する文書入力部と、入力した各文書データから固有単語を抽出し、各固有単語の各文書データにおける出現頻度を算出する文書データ解析部と、入力した前記複数の文書データから複数の文書集合を生成する文書集合生成部と、該文書集合毎に、前記文書データと前記固有単語に関する情報を用いて文書集合固有情報を生成する文書集合固有情報生成部と、該文書集合固有情報を基に前記文書集合間の関連性を示す情報を生成する文書集合間関連情報生成部とを有することを特徴とする文書集合間分析装置。 【請求項2】 前記文書集合固有情報生成部において、前記文書集合に所属する文書データを示す情報と、該文書データに所属する固有単語の情報と該固有単語の出現頻度とを基に前記文書集合固有情報を生成する請求項1に記載の文書集合間分析装置。 【請求項3】 前記文書集合固有情報は、構成文書集合情報、構成単語集合情報、構成単語出現頻度集合情報、構成単語総出現頻度集合情報のうちのいずれか1つ又は複数である請求項2に記載の文書集合間分析装置。 【請求項4】 前記文書集合間関連情報は、前記文書集合を構成する各文書データの重複度と該各文書データを構成する単語情報の重複度を用いて構成する請求項1に記載の文書集合間分析装置。 【請求項5】 前記文書データ毎の前記固有単語に関する情報から各文書データに対する文書特徴ベクトルを算出する文書特徴ベクトル生成部と、該文書特徴ベクトルにクラスタリング手法を適用して文書集合を生成する文書クラスタリング部とを更に有する請求項1に記載の文書集合間分析装置。 【請求項6】 前記文書集合に所属する文書データを示す情報と、該文書データに所属する固有単語とその出現頻度を示す情報とを用いて、前記文書集合に所属する文書データの単語情報を分析し、単語情報の条件式を生成する文書集合条件式生成部と、該条件式を用いて、文書データに対し文書検索手法を適用することで文書集合に所属する文書データを変更する文書集合変更部とを更に有する請求項1に記載の文書集合間分析装置。 【請求項7】 前記条件式を利用者が修正、又は作成する手段を有する請求項6に記載の文書集合間分析装置。 【請求項8】 文書集合間の関係を分析する文書集合間分析方法であって、複数の文書データを入力する文書入力ステップと、入力した各文書データから固有単語を抽出し、各固有単語の各文書データにおける出現頻度を算出する文書データ解析ステップと、入力した前記複数の文書データから複数の文書集合を生成する文書集合生成ステップと、該文書集合毎に、前記文書データと前記固有単語に関する情報を用いて文書集合固有情報を生成する文書集合固有情報生成ステップと、該文書集合固有情報を基に前記文書集合間の関連性を示す情報を生成する文書集合間関連情報生成ステップとを有することを特徴とする文書集合間分析方法。 【請求項9】 前記文書集合固有情報生成ステップにおいて、前記文書集合に所属する文書データを示す情報と、該文書データに所属する固有単語の情報と該固有単語の出現頻度とを基に前記文書集合固有情報を生成する請求項8に記載の文書集合間分析方法。 【請求項10】 前記文書集合固有情報は、構成文書集合情報、構成単語集合情報、構成単語出現頻度集合情報、構成単語総出現頻度集合情報のうちのいずれか1つ又は複数である請求項9に記載の文書集合間分析方法。 【請求項11】 前記文書集合間関連情報は、前記文書集合を構成する各文書データの重複度と該各文書データを構成する単語情報の重複度を用いて構成する請求項8に記載の文書集合間分析方法。 【請求項12】 前記文書データ毎の前記固有単語に関する情報から各文書データに対する文書特徴ベクトルを算出する文書特徴ベクトル生成ステップと、該文書特徴ベクトルにクラスタリング手法を適用して文書集合を生成する文書クラスタリングステップとを更に有する請求項8に記載の文書集合間分析方法。 【請求項13】 前記文書集合に所属する文書データを示す情報と、該文書データに所属する固有単語とその出現頻度を示す情報とを用いて、前記文書集合に所属する文書データの単語情報を分析し、単語情報の条件式を生成する文書集合条件式生成ステップと、該条件式を用いて、文書データに対し文書検索手法を適用することで文書集合に所属する文書データを変更する文書集合変更ステップとを更に有する請求項8に記載の文書集合間分析方法。 【請求項14】 前記条件式を利用者が修正、又は作成するステップを有する請求項13に記載の文書集合間分析方法。 【請求項15】 文書集合間の関係を分析する処理をコンピュータに実行させる文書集合間分析プログラムを記録したコンピュータ読み取り可能な記録媒体であって、複数の文書データを入力する文書入力手順と、入力した各文書データから固有単語を抽出し、各固有単語の各文書データにおける出現頻度を算出する文書データ解析手順と、入力した前記複数の文書データから複数の文書集合を生成する文書集合生成手順と、該文書集合毎に、前記文書データと前記固有単語に関する情報を用いて文書集合固有情報を生成する文書集合固有情報生成手順と、該文書集合固有情報を基に前記文書集合間の関連性を示す情報を生成する文書集合間関連情報生成手順とをコンピュータに実行させる文書集合間分析プログラムを記録した記録媒体。 【請求項16】 前記文書集合固有情報生成手順において、前記文書集合に所属する文書データを示す情報と、該文書データに所属する固有単語の情報と該固有単語の出現頻度とを基に前記文書集合固有情報を生成する請求項15に記載の文書集合間分析プログラムを記録した記録媒体。 【請求項17】 前記文書集合固有情報は、構成文書集合情報、構成単語集合情報、構成単語出現頻度集合情報、構成単語総出現頻度集合情報のうちのいずれか1つ又は複数である請求項16に記載の文書集合間分析プログラムを記録した記録媒体。 【請求項18】 前記文書集合間関連情報は、前記文書集合を構成する各文書データの重複度と該各文書データを構成する単語情報の重複度を用いて構成する請求項15に記載の文書集合間分析プログラムを記録した記録媒体。 【請求項19】 前記文書データ毎の前記固有単語に関する情報から各文書データに対する文書特徴ベクトルを算出する文書特徴ベクトル生成手順と、該文書特徴ベクトルにクラスタリング手法を適用して文書集合を生成する文書クラスタリング手順とを更に有する請求項15に記載の文書集合間分析プログラムを記録した記録媒体。 【請求項20】 前記文書集合に所属する文書データを示す情報と、該文書データに所属する固有単語とその出現頻度を示す情報とを用いて、前記文書集合に所属する文書データの単語情報を分析し、単語情報の条件式を生成する文書集合条件式生成手順と、該条件式を用いて、文書データに対し文書検索手法を適用することで文書集合に所属する文書データを変更する文書集合変更手順とを更に有する請求項15に記載の文書集合間分析プログラムを記録した記録媒体。 【請求項21】 前記条件式を利用者に修正、又は作成させる手順を有する請求項20に記載の文書集合間分析プログラムを記録した記録媒体。
|
【発明の詳細な説明】【0001】 【発明の属する技術分野】本発明は、文書集合と文書集合間の関連を分析する文書集合間分析装置、文書集合間分析方法、及びその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。 【0002】 【従来の技術】近年インターネット等の普及により大量の文書へのアクセスが可能になり、収集した大量の文書データコーパスから所望の条件を満たす文書を検索したり、それらに自動分類を適用するなどして、いくつかの文書集合を抽出し、それらの文書集合個々の特性や関連性を把握することで文書データコーパスの構造を把握するなどの知的作業が行われ始めている。 【0003】従来、膨大な文書データコーパスからの質の高い検索結果や分類結果を得るための研究や発明は広く行われており、例えば、特開平7-36897号や特開平11-296552号に開示されている。特開平7-36897号の発明は、分類対象文書集合に含まれる単語を特徴量とする文書特徴ベクトルを用い、その文書特徴ベクトルに対してクラスタリング手法を適用して分類を行うものである。特開平11-296552号の発明は、単語の多義性/同義性を考慮するために文書間の内積行列に特異値分解を適用することにより文書間の単語の共起性を基に潜在的意味空間を生成して、文書と単語を潜在的意味空間に射影し、その潜在的意味空間においてクラスタリング手法などを用いて文書分類を行うものである。 【0004】結果として生成される文書集合間の関係をどう表現するのかについての研究や発明は現状ではあまりないが、そのような目的で提案されている従来技術としては、特開平11-212978号に開示された発明がある。この発明は、生成した文書集合の個々の特徴を把握することを目的として、複数の文書集合が存在する場合、他の文書集合とは異なる文書集合特有のキーワードのパターンを抽出するものである。 【0005】 【発明が解決しようとする課題】しかしながら、前記特開平11-212978号に開示された発明は個々の文書集合の特徴把握という点では有用な手法であるが、より上位な目標である文書データコーパス全体の構造の把握という点を支援するには不十分である。 【0006】すなわち、文書データコーパス全体の構造の把握するには、文書集合の特性情報を把握するだけでは不十分であり、文書集合間の関連情報や更に文書集合を構成する文書データや文書データを構成する単語情報などのよりプリミティブな情報と文書集合との関連情報をも合わせて抽出し、文書集合と文書集合間の関連情報を前記プリミティブな情報を基に生成することが必要と考えられる。これにより、すべての情報が相互に関連を持つことができ、これらの情報を適切に表現することにより文書集合や濃密な文書データコーパスの構造把握を支援することができるものと考えられる。 【0007】本発明は上記の点に鑑みてなされたものであり、文書データコーパスから、文書データやそれらを構成する単語情報からプリミティブな情報を抽出し、そのプリミティブ情報を基に文書集合の固有情報や文書集合間関連情報を生成することで、プリミティブ情報と文書集合の固有情報と文書集合間関連情報全てにおける相互の関連情報を得ることにより文書データコーパスの構造を把握することを支援する文書集合間分析装置、文書集合間分析方法、及びその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを目的とする。 【0008】 【課題を解決するための手段】上述した課題を解決し、目的を達成するため、本発明は下記のように構成することができる。 【0009】請求項1に記載の発明は、文書集合間の関係を分析する文書集合間分析装置であって、複数の文書データを入力する文書入力部と、入力した各文書データから固有単語を抽出し、各固有単語の各文書データにおける出現頻度を算出する文書データ解析部と、入力した前記複数の文書データから複数の文書集合を生成する文書集合生成部と、該文書集合毎に、前記文書データと前記固有単語に関する情報を用いて文書集合固有情報を生成する文書集合固有情報生成部と、該文書集合固有情報を基に前記文書集合間の関連性を示す情報を生成する文書集合間関連情報生成部とを有する。 【0010】本発明によれば、文書データやそれらを構成する単語情報から固有単語情報等を抽出し、その情報を基に文書集合の固有情報や文書集合間関連情報を生成するので、単語情報等のプリミティブな情報と文書集合の固有情報と文書集合間関連情報全ての関係を把握できる。従って、文書データコーパス全体の構造の把握することが可能となる。 【0011】請求項2に記載の発明は、請求項1の記載において、前記文書集合固有情報生成部において、前記文書集合に所属する文書データを示す情報と、該文書データに所属する固有単語の情報と該固有単語の出現頻度とを基に前記文書集合固有情報を生成する。 【0012】請求項3に記載の発明は、請求項2の記載において、前記文書集合固有情報は、構成文書集合情報、構成単語集合情報、構成単語出現頻度集合情報、構成単語総出現頻度集合情報のうちのいずれか1つ又は複数であるとする。 【0013】上記のようにして文書集合固有情報を生成することにより、文書データや文書データに所属する固有単語に関する情報と関連付けられた文書集合固有情報を生成することができる。 【0014】請求項4に記載の発明は、請求項1の記載において、前記文書集合間関連情報は、前記文書集合を構成する各文書データの重複度と該各文書データを構成する単語情報の重複度を用いて構成するようにする。 【0015】本発明によれば、上記のように重複度を用いることによって、分析作業で必要とされる全ての情報を文書データと単語情報で構成することが可能となるので、分析作業をより理解しやすい形式で行える情報を提供することができる請求項5に記載の発明は、請求項1の記載において、前記文書データ毎の前記固有単語に関する情報から各文書データに対する文書特徴ベクトルを算出する文書特徴ベクトル生成部と、該文書特徴ベクトルにクラスタリング手法を適用して文書集合を生成する文書クラスタリング部とを更に有する。 【0016】本発明によれば、例えば既存のクラスタリング手法を用いることで、分析対象として品質が数学的な基準で保証された文書集合を提供することが可能となる。 【0017】請求項6に記載の発明は、請求項1の記載において、前記文書集合に所属する文書データを示す情報と、該文書データに所属する固有単語とその出現頻度を示す情報とを用いて、前記文書集合に所属する文書データの単語情報を分析し、単語情報の条件式を生成する文書集合条件式生成部と、該条件式を用いて、文書データに対し文書検索手法を適用することで文書集合に所属する文書データを変更する文書集合変更部とを更に有する。 【0018】本発明によれば、文書クラスタリング手法により生成される文書集合を基に単語情報の論理式(条件式)を生成し、その論理式を用いて文書データに対し検索手法を適用し、文書集合を再生成することにより求めることで、分析対象として単語情報レベルでの等質性の高い文書集合を提供することが可能となる。 【0019】請求項7に記載の発明は、請求項6の記載において、前記条件式を利用者が修正、又は作成する手段を有する。本発明により、分析対象としてより利用者の意図を反映した文書集合を提供することが可能となる。 【0020】請求項8〜14に記載の発明は、文書集合間分析方法であり、上記の文書集合間分析装置と同様な作用効果を奏する。また、請求項15〜21に記載の発明は、文書集合間分析プログラムを記録した記録媒体であり、上記の文書集合間分析装置と同様な作用効果を奏する。 【0021】 【発明の実施の形態】以下、添付図面を参照して、本発明の実施例を詳細に説明する。 【0022】[第1の実施例]まず、本発明の第1の実施例による文書集合間分析装置のハードウェア構成例を図1を用いて説明する。図1に示すように、本発明の第1の実施例による文書集合間分析装置は、本発明における処理を実行するプログラムを搭載したコンピュータとして構成することができる。 【0023】図1において、CPU101は装置全体を制御し、ROM102はブートプログラム等を記憶し、RAM103はCPU101のワークエリアとして使用され、HDD(ハードディスクドライブ)104はCPU101の制御に従ってHD(ハードディスク)105に対するデータのリード/ライトを制御する。HD105はHDD104の制御で書き込まれたデータを記憶し、FDD(フロッピー(登録商標)ディスクドライブ)106はCPU101の制御に従ってFD(フロッピーディスク)107に対するデータのリード/ライトを制御する。FD107はFDD106の制御で書き込まれたデータを記憶し着脱自在である。なお、FDD106に加えCD−ROMドライブを有してもよい。ディスプレイ108はドキュメント、画像、機能情報等を表示する。 【0024】また、インターフェイス(I/F)109は通信回線110を介してネットワークに接続され、そのネットワークと内部のインターフェイスを司る。キーボード111は文字、数値、各種指示等の入力のためのキーを備え、マウス112はカーソルの移動や範囲選択、あるいは表示画面に表示されたアイコンやボタンの押下やウインドウの移動やサイズの変更等を行い、スキャナ113はOCR(Optical Character Reader)機能を備え、画像を光学的に読み取り、プリンタ114は分析結果を含むデータの内容等を印刷する。バス115は上記各部を結合する。また、HD105には本発明の処理を実行するプログラム116が記憶されている。 【0025】本発明の文書集合間分析処理を実行するプログラムは、上記のコンピュータに予めインストールされていてもよいし、例えばCD−ROMやFDに格納されたプログラムをハードディスク105にロードするようにしてもよい。プログラムが起動されると、所定のプログラム部分がメモリに展開され、処理が実行される。 【0026】次に、本発明の第1の実施例による文書集合間分析装置の機能的構成について説明する。本実施例では、自然言語で記述された1つ以上の文の集まりであって、分類対象となるものを文書と言う。また、一つの文書の終端には、終端を判別可能な文書終端記号が布置されているものとする。具体的な例をあげれば、公開特許公報や特定の新聞記事も文書であるし、それらから、請求項や特定の1文を取り出したものであっても、これを文書と見なす。 【0027】図2は本発明の第1の実施例における文書集合間分析装置の構成図である。 【0028】本実施例における文書集合間分析装置は、文書入力部201、文書データ識別子付与部202、文書データ解析部203、固有単語情報識別子付与部204、文書データ−構成単語情報マップ生成部205、文書集合生成部206、文書集合識別子付与部207、文書集合−構成文書データマップ生成部208、文書集合固有情報生成部209、文書集合-固有情報マップ生成部210、文書集合間関連情報生成部211、文書集合-文書集合間関連情報マップ生成部212を有する。また、生成されたデータ等を記憶する各記憶部301〜306を有する。 【0029】次に、各部の動作について説明する。 【0030】文書入力部201は、キーボード111、OCR装置を備えたスキャナ113、ハードディスク105等の補助記憶装置、またはネットワーク経由にて文書や文書群を獲得し、文書データを入力する。 【0031】文書データ識別子付与部202では、入力された各文書データに固有な識別子を付与する。識別子は、例えば、後述するdoc1、doc2等である。文書データ識別子記憶部301は文書データと対応する識別子を適切な形式で記憶する。なお、各記憶部にデータを記憶することにより、再利用を効果的に行うことが可能となるとともに、時間の制約なしに分析作業をおこなうことが可能となる。 【0032】文書データ解析部203では、入力された文書データそれぞれに対し、自然言語解析を行い、単語表記、品詞、及び文書データ内での出現頻度などの単語情報を抽出する。更に、単語情報として、文書データ内での単語の出現順序や、文書の作成者や作成日などの文書のメタ情報なども含めることができる。 【0033】図3に、文書データ解析部203において文書から単語情報を抽出した結果の一例を示す。図3に示す例では単語情報として単語表記、単語品詞、及び文書内での出現頻度を抽出している。すなわち、文書識別子がdoc1である文書1からは単語情報1−1、単語情報1−2、単語1−3、単語1−4の4つの単語情報が抽出され、単語情報1−1は表記がA、品詞が名詞、頻度が2であることが示されている。 【0034】固有単語情報識別子付与部204は、文書データ解析部203で抽出された全単語情報から固有な単語情報(重複を除いた単語情報をいい、以下、固有単語情報という)を抽出し、それらの固有単語情報に対し固有な識別子を付与する。 【0035】図4に図3の文書データから固有単語情報を抽出した結果の一例を示す。図4に示す例では、単語表記と品詞との1つの組み合わせに対し一意な単語情報識別子を付与している。すなわち、単語表記と品詞とのうち一方が異なれば異なる識別子が付与される。従って、文書Nの単語情報N−4の表記は単語情報1−1と同一であるが品詞が異なるため異なる識別子が付与される。 【0036】固有単語情報と対応する識別子は、適切な形式で固有単語情報−識別子記憶部302に記憶される。 【0037】文書データ−構成単語情報マップ生成部205では、各文書データを構成する単語情報に対応する識別子と頻度情報とを文書データの識別子に対応づけた対応マップである文書データ−構成単語情報マップを生成する。 【0038】図5に、図3に示した文書データ及び図4に示した単語情報−識別番号対応マップの情報を基に生成した文書データ−構成単語情報マップの一例を示す。図5に示したデータ構造は一例であり、他のデータ構造であってもよい。文書データ−構成単語情報マップ記憶部303は、文書データ−構成単語情報マップ生成部205にて生成された対応マップを適切な形式で記憶する。 【0039】文書集合生成部206は、文書データから幾つかの文書集合を生成する。文書集合の生成手法については特に限定せず、文書データからなる文書集合が複数生成されればよい。生成手法の例については後述する。 【0040】文書集合識別子付与部207では、文書集合生成部206にて生成された文書集合に対し、固有な識別子を付与する。例えば、各文書集合に対してclass1、class2…等の識別子を付与する。 【0041】文書集合−構成文書データマップ生成部208は、生成された各文書集合についてそれらに所属する文書データを表す対応マップをそれぞれの識別子を用いて生成する。 【0042】図6に、N個の文書データから重複を許すK個の文書集合を生成した結果である文書集合−構成文書データマップの一例を示す。例えば、識別子がclass1の文書集合には識別子がdoc1、doc2、doc4、doc30の文書データが所属していることが示される。なお、文書集合と文書データとの関連性を示す情報を対応マップに付加してもよい。文書集合−構成文書データマップ記憶部304は、文書集合−構成文書データマップ生成部208にて生成された対応マップを適切な形式で記憶する。 【0043】文書集合固有情報生成部209は、文書集合に固有な情報を、文書識別子情報、固有単語情報、固有単語識別子情報、文書データ−構成単語情報マップ情報、文書集合−構成文書データマップ情報を基に生成する。 【0044】文書集合に固有な情報としては、例えば、ある文書集合に所属する文書データの文書識別子からなる構成文書集合情報、ある文書集合に所属する文書データを構成する単語情報の固有単語識別子からなる構成単語集合情報、固有単語識別子毎にいくつの文書データにその単語が出現したかを示す文書出現頻度も合わせて有する構成単語出現頻度集合情報、固有単語識別子毎にある文書集合でその単語が何回出現したかを示す総出現頻度も合わせて有する構成単語総出現頻度集合情報等を用いることができる。 【0045】例えば、ある文書集合の文書データ全体の固有な単語情報の識別子がword1、word2、word3、word4、word5であり、その文書集合に所属する文書データの識別子がdoc1、doc2、doc3、doc4であり、文書データの固有単語の出現頻度が図7に示す通りであるとする。図7において、例えば、word1のdoc2における出現頻度は2である。 【0046】このとき、構成文書集合情報は{doc1,doc2,doc3,doc4}、構成単語集合情報は{word1,word2,word3,word4}、構成単語出現頻度集合情報は{3,3,3,4}、構成単語総出現頻度集合情報は{7,4,7,8}となる。 【0047】また、構成単語出現頻度集合情報や構成単語総出現頻度集合情報などのように尺度化可能な情報を持つ場合には、適切なしきい値処理を行うことでそれらの部分集合を文書集合の固有情報として用いることが可能である。 【0048】文書集合−固有情報マップ生成部210では、文書集合固有情報生成部209で生成した各文書集合の種々の固有情報と文書集合識別子付与部207で付与された文書集合識別子とを対応づけた対応マップである文書集合−固有情報対応マップを生成する。 【0049】図8に文書集合−固有情報対応マップの例を示す。図8(a)に示すように、class1等の文書集合識別子毎に、構成文書集合情報、構成単語集合情報、構成単語出現頻度集合情報、構成単語総出現頻度集合情報をp1−1、p2−1、p3−1、p4−1等のように対応付ける。文書集合固有情報生成部209にて例示した文書集合の識別子がclass1とすると、p1−1、p2−1、p3−1、p4−1は図8(b)に示すようになる。ここではデータ構造は図8に示すもの以外でもよい。 【0050】文書集合−固有情報マップ記憶部305では、文書集合−固有情報マップ生成部210にて生成された対応マップを適切な形式で記憶する。 【0051】文書集合間関連情報生成部211では、文書集合−固有情報マップ生成部210で生成された対応マップを基に複数の文書集合間の関連情報を種々の文書集合固有情報を基に生成する。これにより、文書データの様々な表現レベルでの情報相互の関連がすべて把握することが可能となる。 【0052】例えば、文書集合固有情報が前記構成文書集合情報などの集合情報で与えられる場合、複数の文書集合に対応する集合情報の積をとった集合やその要素数などを文書間関連情報とすることができる。 【0053】また、この関連情報を文書データと単語情報の重複度のみで生成するようにしてもよい。例えば、文書データの重複度を、重複している文書データの識別子の集合とその要素数、単語情報の重複度を、重複している単語情報の単語表記の集合とその要素数で求めることにより文書集合間の関連が直感的に理解しやすい形式で表現可能となる。 【0054】文書集合−文書集合間関連情報マップ生成部212では、文書集合間関連情報生成部211で生成した複数の文書集合間の関連情報と対応する文書集合の識別子とを対応づけた対応マップである文書集合−文書集合間関連情報マップを生成する。ただし、ここではデータ構造は問わない。文書集合−文書集合間関連情報マップの例を図9に示す。図9に示すように、例えばclass1とclass2間の関連情報はr1−1−2のように表される。r1−1−2は、例えばclass1とclass2のそれぞれの構成文書集合情報の積の集合として表すことができる。 【0055】文書集合−文書集合間関連情報マップ記憶部306では、文書集合−文書集合間関連情報マップ生成部212にて生成された対応マップを適切な形式で記憶する。 【0056】[第2の実施例]第2の実施例では、第1の実施例で説明した文書集合生成部206において、幾つかの文書集合の生成方法としてクラスタリングの手法を用いるようにする。クラスタリング手法を用いることで所望の数の文書集合を簡便に生成することができる。 【0057】図10に、第2の実施例における文書集合間分析装置の構成として、第1の実施例と異なる部分を示す。同図に示すように、文書特徴ベクトル生成部401、文書クラスタリング部402、文書特徴ベクトル記憶部501を有する。 【0058】文書特徴ベクトル生成部401は、文書データをクラスタリング手法に適用するために文書データからベクトルデータを生成する。すなわち、文書特徴ベクトル生成部401では文書データ−構成単語情報マップ生成部205にて生成された文書データ−構成単語情報対応マップを基に文書特徴ベクトルを生成する。 【0059】ここで使用するクラスタリング手法を用いた文書分類装置については、特開平11−296552に詳細に記述されている。文書特徴ベクトルの一例として、図5に記載の文書データ−構成単語情報対応マップ情報を基に各文書の固有単語の出現頻度を要素として構成したものを図11に示す。本例では文書特徴ベクトルを固有単語の出現頻度を用いて構成しているが、特開平11−296552に記載の文書分類装置のように、出現頻度ベクトルを線形変換したものを用いてもよい。その後、文書集合生成部206における文書クラスタリング部402にて、生成された文書特徴ベクトルを基に文書データのクラスタリングを行う。ここでは、クラスタリングアルゴリズムは特に限定しない。 【0060】文書特徴ベクトル記憶部501では、文書特徴ベクトル生成部401にて生成された文書特徴ベクトルを文書データの識別子と対応づけて適切な形式で記憶する。 【0061】第2の実施例では特徴ベクトルを求めることが可能であるため、文書集合−構成文書データマップ生成部208にて、文書集合と文書データとの関連性を示す情報として、例えば、文書集合の特徴ベクトルと各文書データの特徴ベクトルから生成される類似度などを対応マップに付加することができる。だたし、ここではデータ構造は問わない。 【0062】また、ある文書集合に所属する文書データの特徴ベクトルの算術平均をその文書集合の代表ベクトルして求め、文書集合固有情報生成部209で生成する文書集合固有情報とすることもできる。更に、この文書集合の代表ベクトルと文書データの文書特徴ベクトルを基に文書集合と文書データの類似度を算出することにより、構成文書集合情報にしきい値処理を行うことができ、これによりそれらの部分集合を文書集合の固有情報として用いることも可能である。 【0063】更に、第2の実施例では、文書集合の代表ベクトルが生成可能であるため、文書集合間関連情報生成部211において、各文書集合の代表ベクトルを基に類似度等を算出することができ、この値を関連情報とすることができる。 【0064】[第3の実施例]第3の実施例では、文書集合生成部206において、文書クラスタリング部402にて生成される文書集合を基に単語情報の論理式を生成し、その論理式を用いて文書データに対し検索手法を適用し、文書集合を再生成することにより幾つかの文書集合を求める。 【0065】このため、第3の実施例では、図12に示すように、文書クラスタリング部402、文書集合条件式生成部601、文書集合変更部602、文書集合−条件式マップ生成部603、文書集合−条件式マップ記憶部701を有する。 【0066】文書集合条件式生成部601では、文書クラスタリング部402で生成された文書集合において、各文書集合に所属する文書データ情報や構成単語情報を基に文書集合を適切に表現する条件式を生成する。 【0067】ここで使用する条件式を用いた文書分類装置に関しては、特願2000−103890に詳細に記述されており、例えば、クラスタリングにより得られた文書集合(一次文書部分集合)から各単語の文書出現率を算出し、文書出現率の高い単語の和として下記のように条件式を生成することができる。 【0068】単語論理式:(word1 OR word2 OR word3) また、条件式を利用者が修正したり、作成するようにしてもよい。 【0069】特願2000−103890に開示された文書分類装置を用いることにより、文書データの重複所属が可能な文書集合を生成することができる。 【0070】文書集合変更部602では、文書集合条件生成式生成部601で生成された条件式を用いて文書データに対し検索手法を適用し、得られた検索結果に対し適切なしきい値処理などを施すことで新たな文書集合を生成する。ここでは、検索手法については限定せず、条件式が適用可能なものであればどのような手法を用いてもよい。 【0071】第3の実施例では、文書集合識別子付与部207にて文書集合に識別子を付与した後、文書集合−条件式マップ生成部603にて、生成された文書集合の条件式と文書集合の識別子との対応マップを生成することができる。 【0072】文書集合−条件式対応マップ記憶部701では、文書集合−条件式対応マップ生成部603にて生成された対応マップを適切な形式で記憶する。 【0073】更に、第3の実施例では、文書集合固有情報生成部209において、第1の実施例で説明した固有情報に加え、文書集合の条件式自体を固有情報とすることもできる。更に、文書集合間関連情報生成部211において、上記の条件式の一致度等を関連情報とすることもできる。 【0074】本発明は、上記の実施例に限定されることなく、特許請求の範囲内で種々変更・応用が可能である。 【0075】 【発明の効果】上述したように、本発明によれば、文書データやそれらを構成する単語情報から文書識別子、固有単語識別子等のプリミティブな情報を抽出し、そのプリミティブな情報を基に文書集合の固有情報や文書集合間関連情報を生成する。従って、プリミティブな情報と文書集合の固有情報と文書集合間関連情報全てにおいて相互の関連情報をもつような文書集合間分析結果を得ることが可能となり、文書データコーパス全体の構造の把握を支援することができる。 【0076】また、文書集合生成において例えば既存のクラスタリング手法を用いることで、分析対象として品質が数学的な基準で保証された文書集合を提供することが可能となる。従って、品質の高い文書集合間関連情報を得ることが可能となる。 【0077】また、文書クラスタリング手法により生成される文書集合を基に単語情報の論理式(条件式)を生成し、その論理式を用いて文書データに対し検索手法を適用し、文書集合を再生成するので、分析対象として単語情報レベルでの等質性の高い文書集合を提供することが可能となる。従って、品質の高い文書集合間関連情報を得ることが可能となる。また、生成された条件式をユーザが修正したり、新規に作成することができることで、分析対象としてよりユーザに意図を反映した文書集合を提供することが可能となる。 【0078】更に、文書集合間関連情報を、文書集合を構成する各文書データの重複度と各文書データを構成する単語情報の重複度とで構成することで、分析作業で必要とされる全ての情報を文書データと単語情報で構成することが可能となるので、分析作業をより理解しやすい形式で行える情報を提供することができる。 【0079】
|
| 【出願人】 |
【識別番号】000006747 【氏名又は名称】株式会社リコー
|
| 【出願日】 |
平成12年9月29日(2000.9.29) |
| 【代理人】 |
【識別番号】100070150 【弁理士】 【氏名又は名称】伊東 忠彦
|
| 【公開番号】 |
特開2002−108900(P2002−108900A) |
| 【公開日】 |
平成14年4月12日(2002.4.12) |
| 【出願番号】 |
特願2000−301280(P2000−301280) |
|