トップ :: G 物理学 :: G06 計算;計数




【発明の名称】 文書検索における検索知識作成方法および文書検索における検索知識作成装置
【発明者】 【氏名】長石 道博

【要約】 【課題】ある分野の文書を検索する上で最適な検索知識を特別な技術や知識を必要としないで作成可能とする。

【解決手段】被験者によって主観評価されたある分野における個々のサンプル文書について、そのサンプル文書に出現する単語を抽出する(ステップs1)。そして、個々のサンプル文書に対する被験者の与えた評価値と単語の出現回数とからそれぞれの単語に対して、その単語の重要度を表すスコアを計算する(ステップss2)。続いて、スコアの高い単語をリストアップし(ステップs3)、そのリストをもとに、幾つかの単語の組み合わせによるキーワード候補群を複数組設定する(ステップs4)。これらのキーワード候補群を1つずつ用いてサンプル文書群に対して実際に検索を試みる(ステップs5)。すべてのキーワード候補群を用いての検索処理に対する検索結果から最適と思われるキーワード候補群を選び、それを検索知識として決定する(ステップs7)。
【特許請求の範囲】
【請求項1】 ある分野に属する多数の文書の中から必要な文書を検索するための検索知識を決定する文書検索における検索知識作成方法であって、前記ある分野に属する複数のサンプル文書を順次表示し、それを被験者が見て、そのサンプル文書が当該分野にどの程度適応しているかを主観評価し、その主観評価した結果から前記検索知識を決定するようにしたことを特徴とする文書検索における検索知識作成方法。
【請求項2】 前記主観評価の対象となるサンプル文書は、複数の被験者がネットワーク経由で取得可能とし、それを取得したそれぞれの被験者が当該サンプル文書に対して主観評価を行うことを可能としたことを特徴とする請求項1記載の文書検索における検索知識作成方法。
【請求項3】 前記主観評価した結果から前記検索知識を決定する処理は、前記主観評価したそれぞれのサンプル文書に出現する単語や熟語などの語句を検索知識候補として個々のサンプル文書ごとに複数個抽出し、前記個々のサンプル文書ごとにおける前記複数個の検索知識候補の出現頻度と当該サンプル文書に対する主観評価結果に基づいて、それぞれの検索知識候補の重要性を示す値を求め、求められたそれぞれの検索知識候補の重要性を示す値に基づいて幾つかの検索知識候補を組み合わせてなる検索知識候補群を複数組生成し、その複数組の検索知識候補群を1組ずつ順次用いて前記複数のサンプル文書に対する検索を試みて、その検索結果から、前記主観評価結果の上位の文書をより多く検索することができる検索知識候補群はどれかを判定し、その判定結果から前記検索知識を決定する、ことを特徴とする請求項1または2記載の文書検索における検索知識作成方法。
【請求項4】 前記抽出された複数の検索知識候補同志に類似語や同義語が存在する場合は、必要に応じて1つの検索知識候補としてまとめることを特徴とする請求項3記載の文書検索における検索知識作成方法。
【請求項5】 前記主観評価結果の上位の文書をより多く検索することができる検索知識候補群はどれかの判定は、その検索知識候補群を与えて検索を試みたときの複数のサンプル文書がどのような順位で検索されたかを示す検索順位に関する情報と前記主観評価値とから得られる値と、その検索知識候補群を与えて検索を試みたときの前記複数のサンプル文書に対する検索が終了するに必要な検索時間とを用いることを特徴とする請求項3または4に記載の文書検索における検索知識作成方法。
【請求項6】 前記判定を行う際、その途中経過を表示し、その結果を見た被験者が個々の検索知識候補群の内容設定などを修正可能とすることを特徴とする請求項3から5のいずれかに記載の文書検索における検索知識作成方法。
【請求項7】 前記複数組の検索知識候補群を用いて前記サンプル文書の検索を試みる際に検索対象として用いられる文書は、前記検索知識候補を作成したサンプル文書以外の前記サンプル文書でも可能とすることを特徴とする請求項3から6のいずれかに記載の文書検索における検索知識作成方法。
【請求項8】 ある分野に属する多数の文書の中から必要な文書を検索するための検索知識を決定する文書検索における検索知識作成装置であって、前記ある分野に属する複数のサンプル文書を順次表示させる表示手段と、そのサンプル文書を被験者が見て、そのサンプル文書が当該分野にどの程度適応しているかの主観評価入力を可能とする主観評価入力手段と、被験者による主観評価入力に基づいて個々のサンプル文書に対する評価結果を対応付けて出力する評価結果生成手段と、この評価結果生成手段からの情報に基づいて前記検索知識を決定する検索知識決定手段と、を有したことを特徴とする文書検索における検索知識作成装置。
【請求項9】 前記主観評価の対象となるサンプル文書は、複数の被験者がネットワーク経由で取得可能とし、それを取得したそれぞれの被験者が当該サンプル文書に対して主観評価を行うことを可能としたことを特徴とする請求項8記載の文書検索における検索知識作成装置。
【請求項10】 前記検索知識決定手段は、前記主観評価したそれぞれのサンプル文書に出現する単語や熟語などの語句を検索知識候補として個々のサンプル文書ごとに複数個抽出し、前記個々のサンプル文書ごとにおける前記複数個の検索知識候補の出現頻度と当該サンプル文書に対する主観評価結果に基づいて、それぞれの検索知識候補の重要性を示す値を求め、求められたそれぞれの検索知識候補の重要性を示す値に基づいて幾つかの検索知識候補を組み合わせてなる検索知識候補群を複数組生成し、その複数組の検索知識候補群を1組ずつ順次用いて前記複数のサンプル文書に対する検索を試みて、その検索結果から、前記主観評価結果の上位の文書をより多く検索することができる検索知識候補群はどれかを判定し、その判定結果から前記検索知識を決定する処理を行うことを特徴とする請求項8または9記載の文書検索における検索知識作成装置。
【請求項11】 前記抽出された複数の検索知識候補同志に類似語や同義語が存在する場合は、必要に応じて1つの検索知識候補としてまとめることを特徴とする請求項10に記載の文書検索における検索知識作成装置。
【請求項12】 前記主観評価結果の上位の文書をより多く検索することができる検索知識候補群はどれかの判定は、その検索知識候補群を与えて検索を試みたときの複数のサンプル文書がどのような順位で検索されたかを示す検索順位に関する情報と前記主観評価値とから得られる値と、その検索知識候補群を与えて検索を試みたときの前記複数のサンプル文書に対する検索が終了するに必要な検索時間とを用いることを特徴とする請求項10または11記載の文書検索における検索知識作成装置。
【請求項13】 前記判定を行う際、その途中経過を表示し、その結果を見た被験者が個々の検索知識候補群の内容設定などを修正可能とすることを特徴とする請求項10から12のいずれかに記載の文書検索における検索知識作成装置。
【請求項14】 前記複数組の検索知識候補群を用いて前記サンプル文書の検索を試みる際に検索対象として用いられる文書は、前記検索知識候補を作成したサンプル文書以外の前記サンプル文書でも可能とすることを特徴とする請求項10から13のいずれかに記載の文書検索における検索知識作成装置。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は、ある分野に属する多数の文書の中から必要な文書を検索するための検索知識を決定する文書検索における検索知識作成方法および文書検索における検索知識作成装置に関する。
【0002】
【従来の技術】最近は収集した大量の文書を意味のあるカテゴリーに分類したり文書内容の理解などの知的作業が行われることが増えてきた。このような作業を手動で行うのは非常に多くの時間とコストがかかる上、分類が操作者の知識に依存するため、分類基準を一定にすることが難しい。
【0003】これまで文書検索をする際の検索キーワードは、該当文書に存在する単語の意味的な特徴、出現頻度、単語間の共起確率などの統計的な情報から決められることが多い(wwwにおける情報検索技術の動向、電子情報通信学会誌vol.82,No.12,PP.1237-1242 (1999.12))。
【0004】しかし、この方法は新聞記事のような内容の揃った文書に対しては威力を発揮するが、webに存在する情報のように種類が雑多で内容が多様な文書を精度よく分類することは難しい。
【0005】そこで、これら統計情報を文書の特徴ベクトルなどの多次元空間で表現し、検索システムを構築する操作者がベクトルの修正、変更を容易にすることで操作者の意図が反映しやすくする方法も提案されている(特開平11−296552 「文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体」)。
【0006】
【発明が解決しようとする課題】しかしながら、この方法は意図が反映できるのはシステム構築者だけであり、しかも特徴ベクトルという非常に抽象的なパラメーターを操作するため、特徴ベクトルなどに関する高度な知識が必要であり、一般的な人の意図を反映させるのは容易ではない。
【0007】また、webのページ内のリンク頻度が高いものは文書の重要性が高いと考えて、検索結果をランク付けする方法(例えば,http://www.google.com/intl/ja/)が検討されている。しかしながら、この方法による検索は基本的に検索キーワードなので、文書検索自体の問題は解決しない。そして、リンクはインターネットで使われるHTMLなどのハイパーテキストの情報なので、一般の文書には応用できない。
【0008】また、連想構造を用いた情報整理システム(情報処理学会論文 38 (3) pp.616-625, 1997奈良先端大学:前田晴美、 糀谷和人、 西田豊明)には、緩い情報構造(連想知識)で検索する方法が記述されている。この構造があれば知的な情報を検索、整理することができる。しかし、この構造は人間がもっている知識であり、一般化すること(機械的に自動で作成するなど)は難しくシステム化は容易ではない。
【0009】そこで本発明は、多数のサンプル文書がある分野にどの程度適応しているかを主観評価し、その主観評価した結果から検索知識を決定するようすることで、ユーザの意図を的確に反映した検索知識を得ることができるようにし、これによって、ユーザの欲する情報を効率よく高精度に検索可能とする文書検索における検索知識作成方法および文書検索における検索知識作成装置を提供することを目的としている。
【0010】
【課題を解決するための手段】上述の目的を達成するために本発明の文書検索における検索知識作成方法は、ある分野に属する多数の文書の中から必要な文書を検索するための検索知識を決定する文書検索における検索知識作成方法であって、前記ある分野に属する複数のサンプル文書を順次表示し、それを被験者が見て、そのサンプル文書が当該分野にどの程度適応しているかを主観評価し、その主観評価した結果から前記検索知識を決定するようにしている。
【0011】この文書検索における検索知識作成方法において、前記主観評価の対象となるサンプル文書は、複数の被験者がネットワーク経由で取得可能とし、それを取得したそれぞれの被験者が当該サンプル文書に対して主観評価を行うことを可能としている。
【0012】また、この文書検索における検索知識作成方法において、前記主観評価した結果から前記検索知識を決定する処理は、前記主観評価したそれぞれのサンプル文書に出現する単語や熟語などの語句を検索知識候補として個々のサンプル文書ごとに複数個抽出し、前記個々のサンプル文書ごとにおける前記複数個の検索知識候補の出現頻度と当該サンプル文書に対する主観評価結果に基づいて、それぞれの検索知識候補の重要性を示す値を求め、求められたそれぞれの検索知識候補の重要性を示す値に基づいて幾つかの検索知識候補を組み合わせてなる検索知識候補群を複数組生成し、その複数組の検索知識候補群を1組ずつ順次用いて前記複数のサンプル文書に対する検索を試みて、その検索結果から、前記主観評価結果の上位の文書をより多く検索することができる検索知識候補群はどれかを判定し、その判定結果から前記検索知識を決定するようにしている。
【0013】そして、この文書検索における検索知識作成方法において、前記抽出された複数の検索知識候補同志に類似語や同義語が存在する場合は、必要に応じて1つの検索知識候補としてまとめることもできる。
【0014】また、この文書検索における検索知識作成方法において、前記主観評価結果の上位の文書をより多く検索することができる検索知識候補群はどれかの判定は、その検索知識候補群を与えて検索を試みたときの複数のサンプル文書がどのような順位で検索されたかを示す検索順位に関する情報と前記主観評価値とから得られる値と、その検索知識候補群を与えて検索を試みたときの前記複数のサンプル文書に対する検索が終了するに必要な検索時間とを用いるようにしている。
【0015】また、この文書検索における検索知識作成方法において、前記判定を行う際、その途中経過を表示し、その結果を見た被験者が個々の検索知識候補群の内容設定などを修正可能としている。
【0016】また、この文書検索における検索知識作成方法において、前記複数組の検索知識候補群を用いて前記サンプル文書の検索を試みる際に検索対象として用いられる文書は、前記検索知識候補を作成したサンプル文書以外の前記サンプル文書でも可能としている。
【0017】また、本発明の文書検索における検索知識作成装置は、ある分野に属する多数の文書の中から必要な文書を検索するための検索知識を決定する文書検索における検索知識作成装置であって、前記ある分野に属する複数のサンプル文書を順次表示させる表示手段と、そのサンプル文書を被験者が見て、そのサンプル文書が当該分野にどの程度適応しているかの主観評価入力を可能とする主観評価入力手段と、被験者による主観評価入力に基づいて個々のサンプル文書に対する評価結果を対応付けて出力する評価結果生成手段と、この評価結果生成手段からの情報に基づいて前記検索知識を決定する検索知識決定手段とを有している。
【0018】この文書検索における検索知識作成装置において、前記主観評価の対象となるサンプル文書は、複数の被験者がネットワーク経由で取得可能とし、それを取得したそれぞれの被験者が当該サンプル文書に対して主観評価を行うことを可能としている。
【0019】また、この文書検索における検索知識作成装置において、前記検索知識決定手段は、前記主観評価したそれぞれのサンプル文書に出現する単語や熟語などの語句を検索知識候補として個々のサンプル文書ごとに複数個抽出し、前記個々のサンプル文書ごとにおける前記複数個の検索知識候補の出現頻度と当該サンプル文書に対する主観評価結果に基づいて、それぞれの検索知識候補の重要性を示す値を求め、求められたそれぞれの検索知識候補の重要性を示す値に基づいて幾つかの検索知識候補を組み合わせてなる検索知識候補群を複数組生成し、その複数組の検索知識候補群を1組ずつ順次用いて前記複数のサンプル文書に対する検索を試みて、その検索結果から、前記主観評価結果の上位の文書をより多く検索することができる検索知識候補群はどれかを判定し、その判定結果から前記検索知識を決定する処理を行うようにしている。
【0020】そして、この文書検索における検索知識作成装置において、前記抽出された複数の検索知識候補同志に類似語や同義語が存在する場合は、必要に応じて1つの検索知識候補としてまとめることもできる。
【0021】また、この文書検索における検索知識作成装置において、前記主観評価結果の上位の文書をより多く検索することができる検索知識候補群はどれかの判定は、その検索知識候補群を与えて検索を試みたときの複数のサンプル文書がどのような順位で検索されたかを示す検索順位に関する情報と前記主観評価値とから得られる値と、その検索知識候補群を与えて検索を試みたときの前記複数のサンプル文書に対する検索が終了するに必要な検索時間とを用いるようにしている。
【0022】また、この文書検索における検索知識決定装置において、前記判定を行う際、その途中経過を表示し、その結果を見た被験者が個々の検索知識候補群の内容設定などを修正可能としている。
【0023】また、この文書検索における検索知識作成装置において、前記複数組の検索知識候補群を用いて前記サンプル文書の検索を試みる際に検索対象として用いられる文書は、前記検索知識候補を作成したサンプル文書以外の前記サンプル文書でも可能としている。
【0024】このように本発明は、ある分野に属する複数のサンプル文書を被験者が実際に見て、そのサンプル文書が当該分野にどの程度適応しているかを主観評価し、その主観評価した結果から前記検索知識を決定するようにしているので、ユーザの意図を的確に反映した検索知識を得ることができ、これによって、ユーザの欲する情報を効率よく高精度な検索が可能となる。なお、本発明でいう「検索知識」というのは、キーワードによるブーリアン検索を例に取れば、キーワード群を指している。
【0025】また、主観評価の対象となるサンプル文書は、複数の被験者がネットワーク経由で取得可能としているので、より多くの人の意図を反映させることができる。
【0026】また、個々のサンプル文書ごとにおける前記検索知識候補の出現頻度と当該サンプル文書に対する主観評価結果とに基づいて、それぞれの検索知識候補の重要度を求め、求められたそれぞれの検索知識候補の重要度に基づいて幾つかの検索知識候補を組み合わせてなる検索知識候補群を複数組生成するようにしているので、当該分野における主観評価の高い文書により多く出現する意味のある語句や単語で構成された検索知識候補群を得ることができる。
【0027】このとき、抽出された複数の検索知識候補同志に類似語や同義語が存在する場合は、必要に応じて1つの検索知識候補としてまとめるようにすることで、不要な語句や単語数を減らすことができ、検索知識候補群の生成などの処理を効率よく行うことができる。
【0028】そして、前記複数組の検索知識候補群を1組ずつ順次用いて前記複数のサンプル文書に対して実際に検索を試みて、その検索結果から、適切な検索知識候補群はどれかを判定し、その判定結果から検索知識を決定するようにしているので、それによって決定された検索知識は、ある分野の文書を検索する上で最適なものとすることができる。
【0029】また、その検索知識候補群はどれかの判定は、その検索知識候補群を与えて検索を試みたときの複数のサンプル文書がどのような順位で検索されたかを示す検索順位に関する情報と前記主観評価値とから得られる値と、その検索知識候補群を与えて検索を試みたときの前記複数のサンプル文書に対する検索が終了するに必要な検索時間とを用いるようにしているので、検索の速さも考慮された検索知識を決めることができる。
【0030】また、判定を行う際、その途中経過を表示し、その結果を見た被験者が個々の検索知識候補群の内容設定などを修正可能としているので、より適正な結果が得られるように検索知識候補の組み合わせなどを変えることができる。
【0031】また、前記複数組の検索知識候補群を用いて前記サンプル文書の検索を試みる際に検索対象として用いられる文書は、前記検索知識候補を作成したサンプル文書以外の前記サンプル文書でも可能とすることにより、より適切な検索知識候補群を決めることができる。
【0032】
【発明の実施の形態】以下、本発明の実施の形態について説明する。
【0033】本発明は、ある分野に属する複数のサンプル文書を被験者が実際に見て、そのサンプル文書が当該分野にどの程度適応しているかを主観評価し、その主観評価した結果から検索知識を決定することを特徴としており、次に示す代表的な2つの検索方法への適用を想定している。その2つの検索方法としては、単純なキーワードによるブーリアン検索とベクトル検索である。なお、本発明でいう検索知識というのは、キーワード検索の場合はキーワード群を指し、ベクトル検索の場合は典型的な文書群を指している。
【0034】単純なキーワードによるブーリアン検索は、一般的な全文検索であり、通常検索エンジンでいうキーワード検索はこの方法である。
【0035】一方、ベクトル検索は、比較する文書をベクトル化して、同じくベクトル化した例示文書との類似度度から計算する。この方法はたとえば、前述した特開平11-045257「web文書の検索支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体」に記載されている。
【0036】本発明はこれらキーワード検索とベクトル検索の両方に適用できるが、この実施の形態では、キーワード検索の場合について説明する。
【0037】まず、基本的な検索知識(キーワード群)を決定する方法について概略的に説明する。
(1)ある分野について主観評価対象となる多数のサンプル文書を準備する。
(2)そのサンプル文書を順次(出来ればランダム)に表示して被験者にその分野の文書として適当かどうか主観評価してもらう。
(3)サンプル文書と主観評価結果の値の対応関係を記録する。
(4)主観評価されたサンプル文書から有効な検索知識(キーワード群)を抽出する。
【0038】なお、ここでいうある分野とは、たとえば、「新製品」、「環境問題」といった情報項目である。そして、主観評価する場合、被験者にはその分野が何であってどういう情報が該当するかについての基本方針や見本などが準備・教示されるとする。主観評価対象となるサンプル文書はたとえば次のように集める。
【0039】一番単純なのは、システムが持っている文書すべてをサンプル文書とする方法であるが、これに限らず、対象分野ごとにサンプル文書を用意するのも1つの方法である。これは、システムがもっている文書データから適当に選んでくる(たとえば、ある製品についての文書であれば機種名などでキーワード検索する)。なお、主観評価対象となるサンプル文書がシステムに蓄積されているデータでなく、インターネット(web)など広範囲に存在する場合は、検索エンジンなどで適当に検索して見つかった文書でもよい。
【0040】以上のように、サンプル文書はどのように収集してもよいが、できれば文書量はあまり多すぎず(多いと被験者の評価作業が大変である)、該当しない文書が非常に多いとか少ないとかの偏りも小さい方がよい。
【0041】ここで、評価の仕方を簡単に述べる。まず、前述のように、被験者にはその分野が何であってどういう情報が該当するかについての基本方針や見本などが準備・教示されている。また、主観評価を行う上での評価尺度は予め決められている。
【0042】この評価尺度は5段階評価や3段階評価が好ましく、5段階評価とした場合は、たとえば、その分野にサンプル文書がよく一致しているは「5」、ある程度一致しているは「4」、どちらでもないは「3」、あまり一致していないは「2」、全く一致していないは「1」というような5段階のランクをユーザに付けてもらう。
【0043】なお、このような段階評価を行うとき、評価尺度の表し方は、上述した5段階評価を例に取れば、「3」を中心として、「5」と「1」の評価、「4」と「2」の評価は、それぞれ相反するような表現が好ましい。たとえば、「5」が「よく一致している」であれば、「1」は「全く一致していない」といった表現であり、「4」が「ある程度一致している」であれば、「2」は「あまり一致していない」といった表現とするのが、中間値から見てプラス方向の評価とマイナス方向の評価の大きさに偏りが生じにくくする上で好ましい。
【0044】以上のような評価尺度を設定し、その評価尺度に従って評価を行う。すなわち、分野別にサンプル文書が順次表示され、それに対し被験者がランク(評価値という)を付与していく。具体的には、被験者の操作するパーソナルコンピュータ(PCという)の表示画面上に開かれているwebブラウザなどにサンプル文書が表示され、別フレームに評価値を入力する部分が表示される。被験者は表示されたサンプル文書を見て評価値を次々と入力してゆく。入力された評価値とサンプル文書の対応はPCで自動的に記録される。これは、webならばCGIなどの仕組みで実現できる。
【0045】このような主観評価を複数の被験者に行ってもらうことが望ましい。一般に被験者が多く、評価するサンプル文書が多くなるほど検索精度は向上する。
【0046】図1は以上説明した主観評価を行うための手順を図示したもので、多数のサンプル文書が蓄積された文書データ記憶部1から、ある分野におけるサンプル文書を順次取り出して、1つ1つのサンプル文書ごとに表示部2に表示させる。そして、被験者は表示されるサンプル文書の内容を読んで、前述したような評価(5段階評価)を行う。そして、評価結果生成部3が被験者の入力した評価値を取得し、それぞれのサンプル文書対応に評価値を付した評価結果データ4を作成し、それを対応するサンプル文書に記録しておく。
【0047】図2は表示部2に表示される画面構成例を示すもので、あるサンプル文書が表示画面21上に表示されるとともに、その表示画面21の一部を使って被験者入力用画面21aが表示される。この被験者入力用画面21aには、サンプル文書選択部22、評価値入力部23、評価値確定入力部24などが表示される。
【0048】被験者はサンプル文書選択部22によってサンプル文書をスクロールして表示画面21上に表示させ、画面上に表示されたサンプル文書を見て、その文書がある分野における文書としてどの程度の妥当性を有するかを主観評価する。この主観評価は、評価値入力部23によって行うが、その評価の仕方は、前述したような5段階評価である場合、評価値入力部23からたとえば「3」といった評価値を入力し、最後にそれを確定するための評価値確定入力部24を操作する。
【0049】このようにして、幾つものサンプル文書に対し、被験者が主観評価を行うことで、それぞれのサンプル文書に対する評価結果データが得られる。図3はその一例を示すもので、ここでは、主観評価対象となるサンプル文書を文書番号No.1,No.2,No.3,・・・で表せば、これらそれぞれのサンプル文書No.1,No.2,No.3,・・・に対して、たとえば、図3のように、サンプル文書No.1に対しても「5」、サンプル文書No.2に対しては「3」、サンプル文書No.3に対しては「3」、サンプル文書No.4に対しては「4」というように、それぞれのサンプル文書に対する評価値が評価結果データとして得られる。
【0050】なお、このような主観評価を行う際、主観評価の仕方は、PC単独で何人もの被験者によって主観評価してもらってもよいし、1つのサーバにデータを入れておいて、webなどを通じてネットワーク経由で何人もの被験者によって評価してもらってもよく、その形態は問わない。
【0051】上述のように、それぞれのサンプル文書に対する評価値が得られると、次に、その結果に基づいて、検索に有効な知識を抽出する。
【0052】まず、キーワードのランキング付けを行うために、各サンプル文書に出現するキーワードを抽出する。その手順は、(1)各サンプル文書をテキストに変換する(webなどの場合はタグやイメージを除く)。
(2)形態素解析などで単語や熟語などの語句(以下では単語として説明する)に切り出す。
(3)どの単語がどのサンプル文書に何回出現したかを数える。
(4)単語ごとに出現したサンプル文書と出現回数(出現頻度)からスコアを計算する。
(5)スコアの高い単語を求める。
である。
【0053】まず、1つのサンプル文書で単語の出現回数を集計する。あるサンプル文書において単語の出現頻度を表す出現回数を求めたとき、たとえば、「愛用者」という単語の出現回数が「13」、「圧縮」という単語の出現回数が「8」であったとする。このように、どのような単語が何回出現したかを調べる。これを主観評価した全てのサンプル文書について行う。
【0054】図4は各単語ごとにその単語がどのサンプル文書に何回出現したかを調べた結果を示すものである。この図4では、「愛用者」という単語について示されており、この「愛用者」は文書番号No.1のサンプル文書においては出現回数「6」、文書番号No.2のサンプル文書においては出現回数「2」、文書番号No.3のサンプル文書においては出現回数「0」、文書番号No.4のサンプル文書においては出現回数「3」という結果である。
【0055】このような結果に各サンプル文書ごとにすでに得られている主観評価による評価値(図3参照)を掛け算してスコアを求める。図5はその一例を示すもので、文書番号No.1のサンプル文書の評価値は図3より「5」であるので、出現回数「6」に5を掛け算してスコア「30」を得る。また、文書番号No.2のサンプル文書の評価値は図3より「3」であるので、出現回数「2」に3を掛け算してスコア「6」を得る。同様にして、文書番号No.3のサンプル文書はその評価値「3」に出現回数「0」を掛け算してスコア0を得て、文書番号No.4のサンプル文書はその評価値「4」に出現回数「3」を掛け算してスコア12を得る。
【0056】このような計算を行うと、主観評価の高い文書(その分野の関連性が高い文書)に頻繁に出現する単語のスコアが高くなる。逆に主観評価の低い文書(その分野の関連性が低い文書)に出現する単語のスコアが低くなる。
【0057】これを全ての単語について行う。ここで、高いスコアが得られた単語というのは、主観評価の高い(その分野の関連性が高い)と評価された文書に数多く出現する意味のある単語と言え、いわば、このスコアは単語の重要度を示すものでもあり、スコアが高いほどその単語の重要度は高いと言える。
【0058】なお、図5ではスコアを出現頻度と主観評価値の単純な積で求めたが、実際にはこれ以外の計算によってスコアを求めるようにしてもよい。たとえば、出現回数は文書に一回でれば一回とするとか、積に補正値をかける(1,2,3,・・・と線形ではなく、評価値が高くなるとスコアの重みをあげるなど)ようにしてもよい。要は主観評価で判断された関連性の高い文書に数多く含まれる単語に高いスコアが出るようにして、意味のある単語が適切に抽出されればよい。
【0059】また、得られた単語は文書から得られたそのままである。たとえば、あるサンプル文書の中に、「パーソナルコンピュータ」と「パソコン」という同じ意味の単語が頻繁に出てきたとしても、それは、「パーソナルコンピュータ」、「パソコン」としてそのまま取り出される。
【0060】このように、「パーソナルコンピュータ」、「パソコン」というような同じ意味の単語が取り出された場合、この「パーソナルコンピュータ」と「パソコン」の数を比べて、仮に、「パーソナルコンピュータ」の方が「パソコン」に比べて大幅に出現回数が少なければ、類義語辞書(シソーラス)を用いて、両者を「パソコン」に統合することができる。こうすれば、不要な単語候補が減り、計算量を削減できる。ただし、類義語であって両者の出現頻度がともに高い場合は、それぞれ別の意味や敢えて使い分けを行っていると考えられるため統合は行わないなどの措置も講ずる。
【0061】以上のような処理によって重要であると思われる単語(キーワード)がどれかということがわかってくるが、その中からさらに絞り込みを行う。その絞り込みの方法の手順としては、(1)スコアの高い順に上位から所定数の単語(キーワード)を選ぶ。
(2)選ばれた所定数のキーワードに対してスコアの上位を優先に、単独、複数のキーワードの組み合わせでなるキーワード候補群を検索知識候補群として作成し、それを用いて実際に主観評価した多数のサンプル文書に対して実際に検索してみる。
(3)その検索結果とサンプル文書(主観評価によるランク付け)と比較して、どのキーワードの組み合わせ(キーワード候補群)がよいかランク付けする(ランクの高い文書がたくさん検索されるキーワード候補群を選ぶ)。
(4)キーワード候補群の上位から人間が選ぶ。
(5)このとき、検索時間も計測して、その検索時間を考慮して最適なキーワード候補群を検索知識として決定する。以下、具体的に説明する。
【0062】たとえば、検索知識候補群としてのキーワード候補群を作成する。ここでは、スコア順に上位から50個のキーワードをキーワード候補群として選び、それをK(50)で表す。たとえば、K(50) =〔愛用者,圧縮,転送,・・・〕というようなスコア順上位50個のキーワードでなるキーワード候補群を作成する。
【0063】そして、このキーワード候補群を用いてサンプル文書(たとえばキーワード候補群の作成に用いられたサンプル文書)を検索してみて、その検索結果を得る。図6は検索対象となるサンプル文書の数を100個とし、上述のK(50) =〔愛用者,圧縮,転送,・・・〕を用いて、その100個のサンプル文書を検索した検索結果の一例を示すもので、検索順位(1位〜100位)、検索されたサンプル文書の文書番号(文書番号No.1〜No.100)、それぞれのサンプル文書に対する5段階の評価値(5〜1)、求められたスコアが示されている。
【0064】なお、スコアは検索順位が高く主観評価が高いほど大きな値となるようにしてある。すなわち、この場合、主観評価値(5〜1)に(文書数−検索順位)を掛け算するようにしている。たとえば、検索順位が第1位は文書番号No.23のサンプル文書で、その主観評価値は「5」であるので、スコアは(100−1)×5=495を得ている。同様に、検索順位が第2位は文書番号No.3のサンプル文書で、その主観評価値は「4」であるので、スコアは(100−2)×4=392を得ている。このようにして、100位までのそれぞれのサンプル文書に対してスコアを計算する。
【0065】このように、あるキーワード候補群(上述の例ではK(50) =〔愛用者,圧縮,転送,・・・〕) で検索して、その検索結果を得て、主観評価値(5〜1)に(文書数−検索順位)を掛け算することで、それぞれのサンプル文書に対するスコアが求められる。このとき、検索順位が高く主観評価の高いサンプル文書に対してはスコアが高くなる。
【0066】したがって、あるキーワード候補群(ここではK(50))を用いて100個のサンプル文書に対し検索を試みたとき、主観評価の高い妥当なサンプル文書が多く検索されれば、そのキーワード候補群はその分野の文書を検索する上で適切なキーワード群(検索知識)と言うことができる。
【0067】そこで、色々なキーワード候補群を作成し、それぞれのキーワード候補群を用いて100個のサンプル文書に対し検索を試みて、スコアの合計(総スコアという)を比較してみる。この総スコアというのは、図6において、100個のサンプル文書に対するスコアを足し算して得られるもので、図6の例では、総スコアは「2356」であるとする。これを色々なキーワード候補群について求める。
【0068】この色々なキーワード候補群というのは、キーワードの組み合わせを色々に設定することで生成される。たとえば、上位30位までをキーワード候補群としたり、上位20位あるいは上位10位までをキーワード候補群としたり、さらには、上位何十位までの中から幾つかを選んでキーワード候補群を構成するなど多様に生成することができる。
【0069】このようにして、色々なキーワード候補群を生成し、それらのキーワード候補群を使って実際に検索を試みたところ、その結果が図7のようだったとする。この図7において、K(50)、 K(30) 、 K(20)、 K(10)というのは、上述したように、たとえば、上位から順に所定数のキーワード(括弧内に数値はキーワード数を表している)を取り出してキーワード候補群を構成したものであってもよく、上位の中から所定数を選んでキーワード候補群を構成したものであってもよいが、ここでは、スコアの上位から順に必要な数(括弧内の数値)のキーワードによって構成されたものとする。なお、 K(50)については図6で説明したものをそのまま用いている。また、図6では説明しなかったが、ここでは検索時間(この場合、文書数が100個であるので、100個の文書を検索するのに要した時間)も計測され、K(50)の場合の検索時間は8.7秒であった。
【0070】同様にして、K(30)、 K(20)、 K(10)などについても、図6で説明したと同様に、検索されたそれぞれのサンプル文書に対するスコアを求め、その合計値(総スコア)を求めるとともに、検索するのに要した検索時間を計測すると、 K(30)の場合は、総スコアは「2200」、検索時間は4.2秒であり、 K(20)の場合は、総スコアは「1890」、検索時間は3.8秒であり、 K(10)の場合は、総スコアは「1745」、検索時間は3.6秒であった。
【0071】この図7からもわかるように、キーワード数が多ければより精度の高い検索が可能となり総スコアの値も高くなるが、それだけ多くの検索時間も必要となってくる。この図7において、総スコアが最も高いのはK(50)であるが、検索時間が8.7秒と最も多い。また、検索時間が最も低いのはK(10)であるが、総スコアが「1745」と最も低い値である。したがって、これら総スコアと検索時間の両方に優れているものを選ぶと、この場合、K(30)がスコアも高くその割に検索時間も少ないので、この場合、K(30)が最も適切であると判定する。
【0072】このように、主観評価結果に基づいて得られたキーワード候補群を用いて、検索対象のサンプル文書に対し、実際に検索を試みることで、総スコアと検索時間の2つのパラメータを得て、これら2つのパラメータからどれが適切なキーワード群であるかがわかり、それを検索知識とすることができる。
【0073】なお、上述の判定手順、スコアの計算などは全て自動化できるので、主観評価結果データさえ集めれば判断は簡単である。また、図7のような内容を判断の途中経過として表示画面上に表示させれば、どのキーワード候補群が適切に働いているかなどを人間が判断することができる。そして、状況に応じて、個々のキーワード候補群の内容設定(キーワードの組み合わせなど)を修正可能とすれば、より適正な結果が得られるように、キーワード候補群の内容(キーワードの組み合わせなど)を変えることができる。
【0074】ところで、検索対象となるサンプル文書は、検索知識の候補をつくったサンプル文書でもよいし、主観評価したが検索知識作成に用いていないものでもよい。このように、検索知識作成に用いていないサンプル文書に対しても検索対象とすることで、より一層、適切なキーワード候補群を選ぶことができる。
【0075】図8は上述したキーワード候補群を生成し、生成されたキーワード候補群を用いて実際に検索を試みることによって最適なキーワード群を検索知識として得る処理を実現するための構成図であり、多数のサンプル文書群が蓄積された文書データ記憶部1、検索知識候補群生成部11、シソーラス12、検索部13、検索知識決定部14、評価結果データ4などからなる。なお、評価結果データ4は、文書データ記憶部1に記憶されている主観評価済みの文書に評価結果(評価値)が付加されている場合には、それを用いてもよい。
【0076】検索知識候補群生成部11は、それぞれのサンプル文書に対する評価結果データ4(図3に示すような結果)を用いて、図5で説明したように、個々の単語(キーワード)について、各サンプル文書における出現回数によって各サンプル文書ごとのスコアを求め、求められた個々の単語ごとのスコアに基づいて、前述したように、K(50)、K(30)、K(20)、 K(10)というようなキーワード候補群を選ぶ。なお、このとき、必要に応じて、それぞれの単語同志で意味の同じまたは類似しているものはシソーラス12を用いて1つにまとめるなどの処理を行う。
【0077】このようにして、キーワード候補群が選ばれると、それを用いて検索部13によって文書データ記憶部1に記憶されているサンプル文書に対して実際に検索を試みる。その検索結果を用いて、検索知識決定部14が図6や図7で説明したように、それぞれのキーワード候補群に対する総スコアと検索時間を得て、それによって最適なキーワード候補群を検索知識としてを決定する。なお、このとき、検索対象となるサンプル文書は、前述したように、検索知識の候補をつくったサンプルでもよいし、主観評価したが検索知識作成に用いていないものであってもよい。
【0078】図9はこれまで説明した最適なキーワード候補群を検索知識として決定するための全体的な処理手順を示すフローチャートである。処理内容の詳細についてはすでに説明したので、ここでは、大まかな処理手順について簡単に説明する。
【0079】まず、ある分野における1つ1つのサンプル文書(被験者によって主観評価された文書)について、形態素解析を行うことでそのサンプル文書に出現する単語を切り出す(ステップs1)。そして、それぞれのサンプル文書に対する被験者の与えた評価値と単語の出現回数とからそれぞれの単語に対して、図5で説明したようにスコアを計算する(ステップs2)。続いて、スコアの高い単語(キーワード)をリストアップし(ステップs3)、そのリストをもとに、前述したように、K(50)、K(30)、K(20)、 K(10)というようなキーワード候補群を作成する(ステップs4)。
【0080】そして、この、キーワード候補群の1つを用いてサンプル文書群に対して実際に検索を試みる(ステップs5)。これを全てのキーワード群について行い、設定されたすべてのキーワード候補群を用いて検索処理が終了したか否かを判断し(ステップs6)、すべてのキーワード候補群を用いての検索処理が終了し、たとえば、図7に示すような結果が得られれば、その中から最適と思われるキーワード候補群を選び、それを検索知識として決定する(ステップs7)。
【0081】以上説明したようにこの実施の形態では、ある分野における幾つかのサンプル文書を被験者が見て、内容の適正さを主観評価し、その評価値とそれぞれのサンプル文書に出現する単語の出現回数とからそれぞれの単語(キーワード)に対してスコアを計算し、スコアの高い単語をリストアップし、そのリストをもとに、前述したように、K(50)、K(30)、K(20)、 K(10)というようなキーワード候補群を設定している。そして、この、キーワード候補群をそれぞれ用いてサンプル文書群に対して実際に検索を試み、その検索結果から最適と思われるキーワード候補群を選び、それを検索知識として決定するようにしている。
【0082】このように、実際にサンプル文書を見て人間が評価を行うので、人間が見て納得できる評価を与えることができ、しかも、ユーザの行う主な操作としては、画面上に表示された文書内容を見て評価値を入力するだけであるので、特別な技術や知識が無くても簡単に評価を行うことができる。そして、このような評価結果が得られれば、あとは、所定のアルゴリズムに従って、設定された幾つかのキーワード候補群に対し、総スコアと検索時間を求めることができるので、 迅速にしかも人間が実際に評価した結果が反映された適切なキーワード群を検索知識として決定することができる。
【0083】なお、本発明は以上説明した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲で種々変形実施可能となるものである。たとえば、以上の実施の形態では、単純なキーワードによるブーリアン検索について述べたが、ベクトル検索にも適用できる。このベクトル検索の場合はおおよそ次のようにする。まず、キーワードの場合と同じようにサンプル文書を主観評価でランク付けしておく。続いて、単語のベクトルを求め、各ベクトルの大きさをサンプル文書の主観評価で重み付けする。それにより、重要なベクトルがどれであるか候補を挙げることができる。あとはキーワードの場合と同じように、実際に試して適切なベクトルを絞り込む。このように、キーワード群がベクトルに置き換わっただけで基本的には前述の実施の形態で説明したキーワードによるブーリアン検索と同様に実施できる。
【0084】また、本発明は、以上説明した本発明を実現するための処理手順が記述された処理プログラムを作成し、その処理プログラムをフロッピィディスク、光ディスク、ハードディスクなどの記録媒体に記録させておくことができ、本発明はその処理プログラムが記録された記録媒体をも含むものである。また、ネットワークから当該処理プログラムを得るようにしてもよい。
【0085】
【発明の効果】以上説明したように本発明によれば、ある分野に属する複数のサンプル文書を被験者が実際に見て、そのサンプル文書が当該分野にどの程度適応しているかを主観評価し、その主観評価した結果から前記検索知識を決定するようにしているので、ユーザの意図を的確に反映した検索知識を得ることができ、これによって、ユーザの欲する情報を効率よく高精度な検索が可能となる。また、この検索知識を得るに際して、ユーザが行う操作としては、サンプル文書を評価するだけでよいので、特別な技術や知識を必要としないので、誰でも簡単に検索知識の作成を行うことができる。
【0086】また、個々のサンプル文書ごとにおける前記検索知識候補の出現頻度と当該サンプル文書に対する主観評価結果とに基づいて、それぞれの検索知識候補の重要度を求め、求められたそれぞれの検索知識候補の重要度に基づいて幾つかの検索知識候補を組み合わせてなる検索知識候補群を複数組生成し、その複数組の検索知識候補群を1組ずつ順次用い、前記複数のサンプル文書に対して実際に検索を試みて、その検索結果から、適切な検索知識候補群はどれかを判定し、その判定結果から検索知識を決定するようにしているので、それによって決定された検索知識は、その分野の文書を検索する上で最適な検索知識とすることができる。
【0087】そして、上述の適切な検索知識候補群はどれかの判定は、その検索知識候補群を与えて検索を試みたときの複数のサンプル文書がどのような順位で検索されたかを示す検索順位に関する情報と前記主観評価値とから得られる値と、その検索知識候補群を与えて検索を試みたときの前記複数のサンプル文書に対する検索が終了するに必要な検索時間とを用いるようにしているので、検索の速さも考慮された検索知識を決めることができる。
【出願人】 【識別番号】000002369
【氏名又は名称】セイコーエプソン株式会社
【出願日】 平成12年10月26日(2000.10.26)
【代理人】 【識別番号】100095728
【弁理士】
【氏名又は名称】上柳 雅誉 (外1名)
【公開番号】 特開2002−132790(P2002−132790A)
【公開日】 平成14年5月10日(2002.5.10)
【出願番号】 特願2000−327779(P2000−327779)