トップ :: G 物理学 :: G06 計算;計数




【発明の名称】 情報検索方法、情報検索装置及び記録媒体
【発明者】 【氏名】池田 和世
【住所又は居所】東京都大田区下丸子3丁目30番2号キヤノン株式会社内

【要約】 【課題】

【解決手段】
【特許請求の範囲】
【請求項1】 見出し語に対して見出し語を自然な言葉で説明する説明文を対応させて格納した情報記憶部と、検索条件を入力する検索条件入力工程と、前記情報記憶部を検索し、前記検索条件入力工程において入力された検索条件を満たす見出し語を求める情報検索方法において、前記検索条件入力工程においては、自然な言葉で表現される検索条件を入力し、前記検索条件入力工程によって入力された検索条件を解析し、検索条件を構成する単語と各単語間の関係を求める検索条件解析工程と、前記情報記憶部に格納されている説明文を解析し、説明文を構成する単語と各単語間の関係を求める説明文解析工程と、該検索条件解析工程によって得られた単語及び単語間の関係と、前記説明文解析工程によって得られた単語及び単語間の関係を比較し、検索条件の単語を含み、各単語間の関係も全て一致する説明文又は検索条件の単語の一部を含み、各単語間の関係も一致する説明文に対応した前記情報記憶部の見出し語を検索結果として出力する説明文検索工程を有することを特徴とする情報検索方法。
【請求項2】 前記情報記憶部には、見出し語に対して、見出し語と関係がある画像や映像等のマルチメディア情報を対応させて格納し、前記説明文検索工程は、検索結果どして前記情報記憶部の見出し語とマルチメディア情報を対応させて出力することを特徴とする請求項1記載の情報検索方法。
【請求項3】 見出し語に対して見出し語を自然な言葉で説明する説明文を対応させて格納した情報記憶部と、検索条件を入力する検索条件入力工程と、前記情報記憶部を検索し、前記検索条件入力工程において入力された検索条件を満たす見出し語を求める情報検索方法において、前記情報記憶部には、見出し語と対応させて、予め説明文を解析して求めた説明文を構成する単語と各単語間の関係を説明文解析結果として格納しておき、前記検索条件入力工程においては、自然な言葉で表現される検索条件を入力し、前記検索条件入力工程によって入力された検索条件を解析し、検索条件を構成する単語と各単語間の関係を求める検索条件解析工程と、該検索条件解析工程によって得られた単語及び単語間の関係と、前記情報記憶部の説明文解析結果として格納されている単語及び単語間の関係を比較し、検索条件の単語を含み、各単語間の関係も全て一致する説明文解析結果又は検索条件の単語の一部を含み、各単語間の関係も一致する説明文解析結果に対応した前記情報記憶部の見出し語を検索結果として出力する説明文検索工程を有することを特徴とする情報検索方法。
【請求項4】 前記情報記憶部には、見出し語に対して、見出し語と関係がある画像や映像等のマルチメディア情報を対応させて格納し、前記説明文検索工程は、検索結果として前記情報記憶部の見出し語とマルチメディア情報を対応させて出力することを特徴とする請求項3記載の情報検索方法。
【請求項5】 見出し語に対して見出し語を自然な言葉で説明する説明文を対応させて格納した情報記憶部と、検索条件を入力する検索条件入力手段と、前記情報記憶部を検索し、前記検索条件入力手段において入力された検索条件を満たす見出し語を求める情報検索装置において、前記検索条件入力手段においては、自然な言葉で表現される検索条件を入力し、前記検索条件入力手段によって入力された検索条件を解析し、検索条件を構成する単語と各単語間の関係を求める検索条件解析手段と、前記情報記憶部に格納されている説明文を解析し、説明文を構成する単語と各単語間の関係を求める説明文解析手段と、該検索条件解析手段によって得られた単語及び単語間の関係と、前記説明文解析手段によって得られた単語及び単語間の関係を比較し、検索条件の単語を含み、各単語間の関係も全て一致する説明文又は検索条件の単語の一部を含み、各単語間の関係も一致する説明文に対応した前記情報記憶部の見出し語を検索結果として出力する説明文検索手段を有することを特徴とする情報検索装置。
【請求項6】 前記情報記憶部には、見出し語に対して、見出し語と関係がある画像や映像等のマルチメディア情報を対応させて格納し、前記説明文検索手段は、検索結果として前記情報記憶部の見出し語とマルチメディア情報を対応させて出力することを特徴とする請求項5記載の情報検索装置。
【請求項7】 見出し語に対して見出し語を自然な言葉で説明する説明文を対応させて格納した情報記憶部と、検索条件を入力する検索条件入力手段と、前記情報記憶部を検索し、前記検索条件入力手段において入力された検索条件を満たす見出し語を求める情報検索装置において、前記情報記憶部には、見出し語と対応させて、予め説明文を解析して求めた説明文を構成する単語と各単語間の関係を説明文解析結果として格納しておき、前記検索条件入力手段においては、自然な言葉で表現される検索条件を入力し、前記検索条件入力手段によって入力された検索条件を解析し、検索条件を構成する単語と各単語間の関係を求める検索条件解析手段と、該検索条件解析手段によって得られた単語及び単語間の関係と、前記情報記憶部の説明文解析結果として格納されている単語及び単語間の関係を比較し、検索条件の単語を含み、各単語間の関係も全て一致する説明文解析結果又は検索条件の単語の一部を含み、各単語間の関係も一致する説明文解析結果に対応した前記情報記憶部の見出し語を検索結果として出力する説明文検索手段を有することを特徴とする情報検索装置。
【請求項8】 前記情報記憶部には、見出し語に対して、見出し語と関係がある画像や映像等のマルチメディア情報を対応させて格納し、前記説明文検索手段は、検索結果として前記情報記憶部の見出し語とマルチメディア情報を対応させて出力することを特徴とする請求項7記載の情報検索装置。
【請求項9】 見出し語に対して見出し語を自然な言葉で説明する説明文を対応させて格納した情報記憶部と、検索条件を入力する検索条件入力工程と、前記情報記憶部を検索し、前記検索条件入力工程において入力された検索条件を満たす見出し語を求める情報検索プログラムを記録した記憶媒体において、前記検索条件入力工程においては、自然な言葉で表現される検索条件を入力し、前記検索条件入力工程によって入力された検索条件を解析し、検索条件を構成する単語と各単語間の関係を求める検索条件解析工程と、前記情報記憶部に格納されている説明文を解析し、説明文を構成する単語と各単語間の関係を求める説明文解析工程と、該検索条件解析工程によって得られた単語及び単語間の関係と、前記説明文解析工程によって得られた単語及び単語間の関係を比較し、検索条件の単語を含み、各単語間の関係も全て一致する説明文又は検索条件の単語の一部を含み、各単語間の関係も一致する説明文に対応した前記情報記憶部の見出し語を検索結果として出力する説明文検索工程を有する情報検索方法をコンピュータに実行させるプログラムを記録して成ることを特徴とするコンピュータ読み取り可能な記憶媒体。
【請求項10】 前記情報記憶部には、見出し語に対して、見出し語と関係がある画像や映像等のマルチメディア情報を対応させて格納し、前記説明文検索工程は、検索結果として前記情報記憶部の見出し語とマルチメディア情報を対応させて出力することを特徴とする情報検索方法をコンピュータに実行させるプログラムを記録したことを特徴とする請求項9記載の記憶媒体。
【請求項11】 見出し語に対して見出し語を自然な言葉で説明する説明文を対応させて格納した情報記憶部と、検索条件を入力する検索条件入力工程と、前記情報記憶部を検索し、前記検索条件入力工程において入力された検索条件を満たす見出し語を求める情報検索プログラムを記録した記憶媒体において、前記情報記憶部には、見出し語と対応させて、予め説明文を解析して求めた説明文を構成する単語と各単語間の関係を説明文解析結果として格納しておき、前記検索条件入力工程においては、自然な言葉で表現される検索条件を入力し、前記検索条件入力工程によって入力された検索条件を解析し、検索条件を構成する単語と各単語間の関係を求める検索条件解析工程と、前記検索条件解析工程によって得られた単語及び単語間の関係と、前記情報記憶部の説明文解析結果として格納されている単語及び単語間の関係を比較し、検索条件の単語を含み、各単語間の関係も全て一致する説明文解析結果又は検索条件の単語の一部を含み、各単語間の関係も一致する説明文解析結果に対応した前記情報記憶部の見出し語を検索結果として出力する説明文検索工程を有する情報検索方法をコンピュータに実行させるプログラムを記録して成ることを特徴とするコンピュータ読み取り可能な記憶媒体。
【請求項12】 前記情報記憶部には、見出し語に対して、見出し語と関係がある画像や映像等のマルチメディア情報を対応させて格納し、前記説明文検索工程は、検索結果として前記情報記憶部の見出し語とマルチメディア情報を対応させて出力することを特徴とする情報検索方法をコンピュータに実行させるプログラムを記録したことを特徴とする請求項11記載の記憶媒体。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は、コンピュータ等における情報検索方法、情報検索装置及び情報検索を実行させるための制御プログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
【0002】
【従来の技術】従来、電子化された国語辞典や百科事典のような電子辞書を検索する手法として、検索条件として電子辞書の見出し語を指定し、指定された検索条件と一致する見出し語に対応した説明文を出力する方法が行われている。
【0003】しかしながら、検索者が見出し語を知っている場合は上記方法により目的を達成できるが、検索者が見出し語を知らない場合は、このような検索手法は余り役に立たない。
【0004】検索者が見出し語を知らない場合で、電子辞書を検索したい場合として、見出し語に対応した概念から見出し語を検索する場合が考えられる。例えば、「おくびょうで気が弱いこと」を一言で表す単語を知りたい場合が考えられる。又、別の例として、目の前にいる「足が短くて毛が長い犬」の種類を知りたい場合が考えられる。
【0005】このような目的に対応するために、従来は、全文検索の手法を用いて検索条件を単語の論理式で表し、電子辞書の説明文と比較する方法が用いられてきた。例えば、前者の例では、検索条件を『「おくびょう」∧「気」∧「弱い」』として表現し、「おくびょう」と「気」と「弱い」を含む説明文を持つ見出し語を検索結果として出力することにより目的を達成することができる。
【0006】
【発明が解決しようとする課題】しかしながら、上記従来例では、単に説明文に単語が存在するかどうかによって、検索条件と説明文の一致判定を行っているため、検索結果が正確でないという欠点があった。例えば、後者の例では、検索条件を『「足」∧「短い」∧「毛」∧「長い」∧「犬」』として表現するため、「足が長くて毛が短い大」のような説明文を持つ見出し語も検索結果として出力されることになる。
【0007】又、前記従来例では、検索条件を論理式で示さなけれぱならないため、検索者が検索条件を表現するのが難しいという欠点もあった。
【0008】本発明は上記問題に鑑みてなされたもので、その目的とする処は、検索条件の作成を容易に行うことができるとともに、検索精度を飛躍的に高めることができる情報検索方法、情報検索装置及び記録媒体を提供することにある。
【0009】
【課題を解決するための手段】上記目的を達成するため、本発明に係情報検索方法、情報検索装置及び記録媒体は、見出し語に対して見出し語を自然な言葉で説明する説明文を対応させて格納した情報記憶部と、検索条件を入力する検索条件入力工程と、前記情報記憶部を検索し、前記検索条件入力工程において入力された検索条件を満たす見出し語を求める情報検索方法において、前記検索条件入力工程においては、自然な言葉で表現される検索条件を入力し、前記検索条件入力工程によって入力された検索条件を解析し、検索条件を構成する単語と各単語間の関係を求める検索条件解析工程と、前記情報記憶部に格納されている説明文を解析し、説明文を構成する単語と各単語間の関係を求める説明文解析工程と、該検索条件解析工程によって得られた単語及び単語間の関係と、前記説明文解析工程によって得られた単語及び単語間の関係を比較し、検索条件の単語を含み、各単語間の関係も全て一致する説明文又は検索条件の単語の一部を含み、各単語間の関係も一致する説明文に対応した前記情報記憶部の見出し語を検索結果として出力する説明文検索工程を有することを特徴とする。
【0010】又、本発明は、見出し語に対して見出し語を自然な言葉で説明する説明文を対応させて格納した情報記憶部と、検索条件を入力する検索条件入力手段と、前記情報記憶部を検索し、前記検索条件入力手段において入力された検索条件を満たす見出し語を求める情報検索装置において、前記検索条件入力手段においては、自然な言葉で表現される検索条件を入力し、前記検索条件入力手段によって入力された検索条件を解析し、検索条件を構成する単語と各単語間の関係を求める検索条件解析手段と、前記情報記憶部に格納されている説明文を解析し、説明文を構成する単語と各単語間の関係を求める説明文解析手段と、該検索条件解析手段によって得られた単語及び単語間の関係と、前記説明文解析手段によって得られた単語及び単語間の関係を比較し、検索条件の単語を含み、各単語間の関係も全て一致する説明文又は検索条件の単語の一部を含み、各単語間の関係も一致する説明文に対応した前記情報記憶部の見出し語を検索結果として出力する説明文検索手段を有することを特徴とする。
【0011】更に、本発明は、見出し語に対して見出し語を自然な言葉で説明する説明文を対応させて格納した情報記憶部と、検索条件を入力する検索条件入力工程と、前記情報記憶部を検索し、前記検索条件入力工程において入力された検索条件を満たす見出し語を求める情報検索プログラムを記録した記憶媒体において、前記検索条件入力工程においては、自然な言葉で表現される検索条件を入力し、前記検索条件入力工程によって入力された検索条件を解析し、検索条件を構成する単語と各単語間の関係を求める検索条件解析工程と、前記情報記憶部に格納されている説明文を解析し、説明文を構成する単語と各単語間の関係を求める説明文解析工程と、該検索条件解析工程によって得られた単語及び単語間の関係と、前記説明文解析工程によって得られた単語及び単語間の関係を比較し、検索条件の単語を含み、各単語間の関係も全て一致する説明文又は検索条件の単語の一部を含み、各単語間の関係も一致する説明文に対応した前記情報記憶部の見出し語を検索結果として出力する説明文検索工程を有する情報検索方法をコンピュータに実行させるプログラムを記録して成ることを特徴とする。
【0012】
【発明の実施の形態】以下に本発明の実施の形態を添付図面に基づいて説明する。
【0013】図1は本発明に係る情報検索方法及び情報検索装置の実施例を示す概念図、図2は本発明に係る情報検索方法及び情報検索装置の実施の形態を示すシステム構成図、図14は本発明に係る情報検索方法のデータ処理のフローチャートである。
【0014】図1において、文字キー、ファンクションキー等を備えたキーボード等の入力部101から自然な言葉で表現された検索条件であるクエリを制御部102へ入力する。制御部102はマイクロプロセッサから成り、検索条件解析部103においてクエリを解析し、クエリを構成する単語と各単語間の関係を求める。更に、情報記憶部107に格納された検索対象の説明文を取り出し、説明文解析部104において、説明文を構成する単語と各単語間の関係を求める。そして、説明文検索部105において、クエリを構成する単語と各単語間の関係と、説明文を構成する単語と各単語間の関係を比較し、説明文を構成する単語と各単語間の関係がクエリを構成する単語と各単語間の関係の全て又は一部を含む場合は、説明文に対応した見出し語を表示部108へ出力する。
【0015】図2におけるROM202には、図4に示すように、制御手順プログラム401が格納されている。図2におけるRAM203には、図6に示すように、情報検索プログラム603、電子図鑑604、単語辞書605、文法辞書606、形態素リスト607、ロールリスト608、検索結果リスト609等が格納されている。
【0016】図3はプログラム等が媒体であるCD−ROM205からコンピュータシステムに供給されることを示す。図5は記録媒体CD−ROM205中の情報検索プログラム501、並びに関連データである電子図鑑502、単語辞書503、文法辞書504の構成を示す。
【0017】図6はCD−ROM205に格納されている情報検索プログラム50及び関連データである電子図鑑502、単語辞書503、文法辞書504等がRAM203にロードされて実行可能となった状態のメモリマップを示す。実行可能となった状態では、情報検索プログラム603、電子図鑑604、単語辞書605、文法辞書606以外に、情報検索プログラムが使用するメモリとして、形態素リスト607、ロールリスト608及び検索結果リスト609の領域が確保され、初期化される。
【0018】図7はRAM203に読み込まれた電子図鑑604の構成を示した図である。電子図鑑604には、見出し語とその見出し語に対する説明文とその見出し語を表す画像ファイルの名称をそれぞれ1つずつ対応させたものを1つの項目とし、複数の項目が格納されている。例えば、図中では、1つの項目として、見出し語「dachsfund」と、説明文「dog with short legs…」と、画像ファイル「00001002.jpg」が対応されて格納されている。各項目は、見出し語によって昇順にソートされている。
【0019】図8はRAM203に読み込まれた単語辞書605の構成を示した図である。単語辞書605には、見出し語とカテゴリをそれぞれ1つずつ対応させたものを1つの単語の情報とし、複数の単語の情報が格納されている。例えば、単語辞書605には、1つの単語の情報として、見出し語「dog」とカテゴリ「Noun」を対応させて格納されている。各単語の情報は、見出し語によって昇順にソートされている。
【0020】図9はRAM203に読み込まれた文法辞書606の構成を示した図である。文法辞書606には、左カテゴリと右カテゴリとロールとをそれぞれ1つずつ対応させたものを1つの文法ルールとし、複数の文法ルールが格納されている。各文法ルールにおいて、左カテゴリと右カテゴリは、単語辞書605に格納されているカテゴリに対応する。各文法ルールの意味は、文中において、左の単語のカテゴリと右の単語のカテゴリがそれぞれ文法辞書606の1つの文法ルールの左カテゴリと右カテゴリに一致した場合、その2つ単語の間の関係として、左カテゴリと右カテゴリに対応したロールの関係にある可能性があることを意味している。例えば、文中において、左の単語のカテゴリがAdverbで、右の単語のカテゴリがAdjectiveであれば、その2つの単語の間の関係はModifierの可能性があることが図示されている。
【0021】図10はRAM203に確保された形態素リスト607の構成を示した図である。形態素リスト607には、キーボード207から入力されたクエリ及び電子図鑑604中の説明文を形態素解析した結果、各単語の情報がそれぞれ1つの項目として格納される。各項目には、IDと単語とカテゴリと順位と重みがそれぞれ1つずつ対応づけられて格納される。IDには、文の先頭の番号を1とした、文の先頭からの単語の番号が格納される。単語には、各単語の語幹が格納される。カテゴリには、各単語のカテゴリが格納される。順位には、文の中心となる単語の順位を1とし、各単語の重要度に応じて順位を定めた結果が格納される。重みには、各単語の重要度に応じた重みが格納される。文中の全ての単語に対応した重みの和をとると必ず1になる。例えば、表T101には文「dog withvery short leg」に対して、形態素解析等を行った結果を格納した形態素リストが示されている。
【0022】表T101において、「with」に対応した順位の値が「−1」になっているが、これは、順位を付与する対象外の単語であることを意味している。他の例として、表T104には、文「dog short leg」に対して、形態素解析等を行った結果を格納した形態素リストが示されている。表T104において、順位が「1」の単語として「dog」と「short」の2つが存在するが、このように1つの文中で、順位として同じ値が出現することがある。
【0023】形態素リスト607には、クエリに対して形態素解析等を行った結果を格納する領域と、説明文に対して形態素解析等を行った結果を格納する領域との2つの領域が区別されて存在する。
【0024】図11はRAM203に確保されたロールリスト608の構成を示した図である。
【0025】ロールリスト608には、キーボード207から入力されたクエリ及び電子図鑑604中の説明文に対して構文解析を行った結果、2つの単語間の各関係がそれぞれ1つの項目として格納される。各項目には、左単語IDとロールと右単語IDがそれぞれ1つずつ対応づけられて格納される。左単語IDと右単語IDには、文中の2つの単語のそれぞれ左側の単語と右側の単語が対応し、形態素リスト607のIDの値が使用される。ロールには、2つの単語の間の関係の種類、即ち、一方の単語が果たす他方の単語へのロール(役割)が格納される。
【0026】ロールの種類は、文法辞書606のロールの種類と同じである。例えば、表T201には、文「dog with very short leg」に対して、構文解析を行った結果を格納したロールリストが示してある。この文に対する形態素リストを表T101に示してあるため、左単語ID「1」に相当する単語「dog」は、右単語ID「2」に相当する単語「with」に対して、ロールとして「PSubject」、即ち、「Preposition Subject」の関係にあることが示されている。ロールリスト608には、クエリに対して構文解析等を行った結果を格納する領域と、説明文に対して構文解析等を行った結果を格納する領域との2つの領域が区別されて存在する。
【0027】図12はRAM203に確保された検索結果リスト609の構成を示した図である。
【0028】検索結果リスト609には、キーボード207から入力されたクエリに従って電子図鑑604を検索した結果、クエリの条件を満たす各項目が格納される。検索結果リスト609には、1つの項目として、電子図鑑604の見出し語と、検索の結果得られるスコアとがそれぞれ1つずつ対応されて格納され、複数の項目が格納される。
【0029】図13はキーボード207よりクエリを入力し、検索を指示した後、電子図鑑604を検索した結果がディスプレイ208に表示された画面の例を示した図である。図中において、1301はクエリを入力するためのテキストボックスである。本テキストボックス1301内にキーボード207からクエリを入力し、OKボタン1302をマウス209でクリックすると、1303に、クエリの条件を満たす電子図鑑604中の見出し語と、検索の際得られたスコアが表示される。
【0030】更に、1304には、電子図鑑604中の見出し語に対応した画像ファイルから得られる画像が表示され、1305には、見出し語に対応した説明文が表示される。検索結果は、スコアの大きい順に画面左より右に向かって表示され、1画面中に収まらないときは、1306の次画面ボタン語をマウス209でクリックすることにより、他の検索結果も画面に表示することができる。本図にはクエリとして「dog with short leg」を指定した場合の検索後の画面が表示されており、「dachsfund」がスコア「1.00」で、「skye terrier」がスコア「1.00」で、「shih tzu」がスコア「1.00」でそれぞれ、検索された場合が示されている。
【0031】次に、図14により本情報検索プログラムの動作を説明する。
【0032】先ず、CD−ROM205に格納された情報検索プログラム501及びその関連データの電子図鑑502、単語辞書503、文法辞書504をCD−ROMドライブ204からRAM203にロードし、更にRAM203に形態素リスト607、ロールリスト608、検索結果リスト609の領域を確保し、その他必要な初期化を行う(ステップS101)。
【0033】次に、オペレータがテキストボックス1301にキーボード207を用いてクエリを入力し、マウス209を用いてOKボタン1302をクリックする(ステップS102)。
【0034】次に、ステップS102で入力されたクエリと一致する見出し語を電子図鑑604の中から検索し、見つかった見出し語を検索結果リスト609の先頭から詰めて格納する。その際、スコアの値は1.00としておく(ステップS103)。電子図鑑604中の各項目は、見出し語によって昇順にソートされているため、本処理は同種の電子図鑑や電子辞書において一般に行われている処理である。
【0035】次に、ステップS102で入力されたクエリの解析を行い、形態素リスト607及びロールリスト608のクエリ用の領域に解析結果を格納する(ステップS104)。本処理は、図15において後述する。
【0036】次に、電子図鑑604の先頭から、順次、説明文を1つずつ取り出し(ステップS105)、取り出すことができればステップS107へ、全ての説明文を取り出し終えていればステップS109へ分岐する(ステップS106)。
【0037】ステップS107では、ステップS105で取り出した説明文の解析を行い、形態素リスト607及びロールリスト608の説明文用の領域に解析結果を格納する。本処理は、図15において後述する。処理を終えれば、ステップS108へ進む。
【0038】ステップS108では、ステップS104で得られたクエリの解析結果と、ステップS107で得られた説明文の解析結果を比較し、クエリの条件を含む説明文に対する見出し語を、条件を含む度合いに応じて算出したスコアとともに、検索結果リスト609に詰めて格納する。本処理は、図16において後述する。処理を終えれば、ステップS105へ進む。
【0039】ステップS109では、検索結果リスト609に格納された見出し語とその見出し語に対応した情報を電子図鑑604から求め、ディスプレイ208に表示する。表示する前に、検索結果リスト609に格納されている各項目をスコアの値によって降順にソートした後、検索結果リストの先頭から、即ち、スコアの値が大きいものから順番に図13において説明したように表示する。ソートする際、スコアの値が同じ場合は、リストの先頭に出現する項目が先頭側になるように配置する。これによって、ステップS103で検索された項目、即ち、クエリと一致する見出し語を持つ項目が一番最初に表示されることが保証される。
【0040】図15はステップS104のクエリ解析及びステップS107の説明文解析の処理を説明するフローチャートである。
【0041】本処理は、形態素リスト607及びロールリスト608に解析結果を出力するが、ステップS104の場合は、クエリ用の形態素リストとロールリストに解析結果が出力され、ステップS107の場合は、説明文用の形態素リストとロールリストに解析結果が出力される。以降の説明においては、これらの区別を明示的には説明していないが、実際には区別されている。
【0042】図15のフローチャートにおいて、先ず、単語辞書605等を用いて、クエリ又は説明文の形態素解析を行い、解析結果を形態素リスト607に格納する(ステップS201)。本処理によって、形態素リスト607には、図10に示されるような情報が格納される。但し、この段階では、形態素リスト607の中で、ID、単語、カテゴリのフイールドのみに値が格納され、順位と重みには値は格納されていない。本処理は、一般に行われている処理であり、特に詳細な説明は行わない。
【0043】次に、形態素リスト607、文法辞書606等を用いて、クエリ又は説明文の構文解析を行い、解析結果をロールリスト608に格納する(ステップ202)。本処理によって、ロールリスト608には、図11に示されるような情報が格納される。本処理は、依存文法を用いた構文解析であり、日本語の係り受け解析等で一般に行われているため、特に詳細な説明は行わない。
【0044】次に、形態素リスト607及びロールリスト608を用いて、形態素リスト607に格納されている単語のうち、中心となる単語、即ち、中心語を決定する(ステップS203)。例えば、「Noun」が一番強く、次に「verb」、「Adjective」といったように、中心語としてのカテゴリの優先順位を付けて中心語の候補を絞り込む。更に、形態素リスト607中に、複数の中心語の候補が存在すれば、ロールリスト608を用いて、その候補と他の単語との関係によって、中心語を決定する。例えば、形態素リスト607中に「Noun」が2つ以上存在する場合、他の単語と「PObject」の関係にある候補は、中心語の候補から外す等して中心語の候補を絞り込んでいく。
【0045】中心語の候補を絞り込んでいき、最終的に複数の中心語の候補が存在する場合は、全ての候補を中心語とする。中心語として認められた単語に対しては、形態素リストの順位のフィールドに「1」を格納する。
【0046】次に、形態素リスト607中の中心語以外の単語に対して、順位の値を格納する(ステップS204)。ロールリスト608を利用して、中心語と関係がある単語に対して順位の値として「2」を格納し、更に、順位「2」の単語と関係がある単語の順位の値を「3」とするようにして、中心語からの関係を次々とたぐっていくことによって、順位を付与していく。但し、カテゴリが、「Preposition」等、特定のカテゴリを持つ単語は順位の付与対象外となり、順位の値として、「−1」が格納される。
【0047】中心語からの関係を辿って順位を付与する場合に、付与対象外の単語が出現した場合は、その単語をスキップして順位の値が連続するようにする。中心語から関係する単語を辿っていく場合、1つの単語が複数の単語と関係する場合があるため、このような場合は、その単語に関係する単語は同じ順位の値が付与されることになる。この処理によって、形態素リスト607中の全ての単語に対する順位に対して値が付与されることになる。このようにして付与された順位は、中心語をルートとするツリー構造を構成することになる。このツリー構造を順位ツリーと呼ぶことにする。
【0048】次に、形態素リスト607中の全ての単語に重みを付与する(ステップS205)。重みは、中心語に一番大きい値が付与され、順位が大きくなるに従って値が小さくなるように付与する。但し、全ての重みの値の和が必ず「1.0」になるようにする。又、順位付与対象外の単語に対しては、重みの値として「0」を格納する。例えば、形態素リスト607中の中心語の個数を求める。その際、順位付与対象外の単語に対しては、重みの値として「0」を格納しておく。
【0049】次に、「1.0」を中心語の個数で割り、その値を各中心語から連なる順位ツリーの値とする。そして、各順位ツリーにおいて、順位ツリーの値に「0.7」を掛けた値をルートの単語(即ち、中心語)の重みの値として格納する。但し、順位ツリーが中心語のみから構成される場合は、順位ツリーの値を中心語の重みとして格納する。又、ルートの下の枝の個数によって、順位ツリーの値からルートに付与した値を引いた値を割った値を各枝(即ち、サブ順位ツリー)の順位ツリーの値とする。そして、同様にして、各サブ順位ツリーにおいて、順位ツリーの値に「0.7」を掛けた値をルートの単語の重みの値として格納する。但し、順位ツリーがルートの単語のみから構成される場合は、順位ツリーの値をルートの単語の重みとして格納する。
【0050】更に、ルートの下の枝の個数によって、順位ツリーの値からルートに付与した値を引いた値を割った値を各枝(即ち、サブ順位ツリー)の順位ツリーの値とする。この処理を繰り返すことによって、全ての単語に、前述の条件を満たす重みを付与することができる。
【0051】図16はステップS108の処理を説明するフローチャートである。
【0052】先ず、フローチャートには記載されていないが、スコアの値に初期値の「0」を格納する等、必要な初期化処理を行う。
【0053】その後、クエリ用の形態素リスト607中の中心語を順次1つずつ取り出し(ステップS301)、取り出すことができればステップS303に分岐し、全ての中心語を取り出し終えた場合は、ステップS313へ分岐する(ステップS302。
【0054】ステップS303では、説明文用の形態素リスト607の中に、ステップS301で取り出した単語(中心語)と同じ単語が存在するかどうかによって分岐する。存在する場合はステップS304へ分岐し、存在しない場合はステップS307へ分岐する。
【0055】ステップS304では、ステップS301で取り出した単語(中心語)と同じ単語が、説明文用の形態素リスト607中でも、中心語であるかどうかによって分岐する。中心語である場合はステップS305へ進み、中心語でない場合はステップS306へ進む。
【0056】ステップS305では、ステップS301で取り出した単語(中心語)に対応した重みをクエリ用の形態素リスト607から取り出し、スコアに加える処理である。処理を終えるとステップS307へ進む。
【0057】ステップS306では、ステップS301で取り出した単語(中心語)に対応した重みをクエリ用の形態素リスト607から取り出し、その値を2分の1にした値をスコアに加える処理である。処理を終えるとステップS307へ進む。
【0058】ステップS307は、クエリ用のロールリスト608を利用し、ステップS301で取り出した単語(中心語)を順次辿って中心語から連なっている単語を1つずつ取り出す処理である(ステップS307)。取り出すことができればステップS309へ分岐し、中心語から連なる単語を全て取り出し終えると、ステップS301へ分岐する(ステップS308)。
【0059】ステップS309では、ステップS307で取り出した単語と同じ単語が説明文用の形態素リスト607に存在するかどうかによって分岐する処理である。存在すればステップS310へ進み、存在しなければステップS307へ進む。
【0060】ステップS310では、ステップS307で取り出した単語と中心語側への単語との関係が説明文でも一致しているかどうかによって分岐する処理である。先ず、ステップS307で取り出した単語(以降、後単語と呼ぶ)と、それより順位の値が1だけ小さい単語(以降、前単語と呼ぶ)との間のロールをクエリ用のロールリストから求める。説明文用の形態素リスト中に、前単語と同じ単語が存在し、且つ、説明文用のロールリスト中に前単語と同じ単語と後単語と同じ単語に対応したロールが先程求めたクエリのロールと一致する場合にのみ、単語の関係が説明文でも一致していると見なす。一致している場合はステップS311へ進み、一致していない場合はステップS312へ進む。
【0061】ステップS311は、ステップS307で取り出した単語に対応した重みをクエリ用の形態素リスト607から取り出し、スコアに加える処理である。処理を終えるとステップS307へ進む。
【0062】ステップS312では、ステップS307で取り出した単語に対応した重みを、クエリ用の形態素リスト607から取り出し、その値を2分の1にした値をスコアに加える処理である。処理を終えるとステップS307へ進む。
【0063】ステップS313は、スコアの値によって分岐する処理である。スコアの値が0であれば本処理を終了し、スコアの値が0より大きければステップS314へ分岐する。
【0064】ステップS314は、検索された結果を検索結果リスト609へ格納する処理である。対象となっている説明文に対応した見出し語とスコアの値を対応させて検索結果リスト609へ詰めて格納する。処理を終えると、本処理を終了する。
【0065】以上説明した動作を実際の情報検索の例についてより詳しく説明する。
【0066】クエリとして、「dachshund」が指定された場合(ステップS102)、図7に示すように、電子図鑑604に見出し語として「dachshund」が格納されているため、検索結果リスト609の先頭に、見出し語「dachshund」とスコア「1.0」を対応させた項目が格納される(ステップS103)。スコアの最大値は「1.0」であり、ステップS109では、スコアの値が大きいものから順番に表示し、スコアの値が同じ場合はリストの先頭に出現する項目が最初に表示されるため、ステップS103で検索された「dachshund」が検索結果として一番最初にディスプレイ208に表示される(ステップS109)。
【0067】次に、クエリとして、「dog with short legs」が指定された場合の例について説明する。
【0068】ステップS201においてクエリに対する形態素解析が行われると、図8に示されるように、各単語のカテゴリが対応づけられているため、クエリ用の形態素リスト607には図10の表T102に示されるような情報が格納される。但し、この時点では、順位と重みには値は格納されていない。
【0069】続いて、ステップS202においてクエリに対する構文解析が行われると、図9に示すように、各カテゴリ間の関係が記載されているため、クエリ用のロールリスト608には図11の表T202に示されるような情報が格納される。
【0070】続いて、ステップS203において中心語が決定される。表T102から分かるように、カテゴリ「Noun」の単語として「dog」と「leg」が存在するため、この2つの単語に中心語が絞り込まれる。更に、表T202から分かるように、「leg」は、ロール「PObject」を持つため、中心語の対象から外され、最終的に「dog」がクエリの中心語であると決定され、表T102に示すように、クエリ用の形態素リストの「dog」に対応した順位として「1」が格納される。
【0071】続いて、ステップS204において、クエリ用のロールリストである表T202を利用してクエリ用の形態素リストの「dog」以外の単語に対して順位の値が格納される。表T202によると、「dog」に対応した左単語ID「1」に対して右単語ID「2」が対応している。
【0072】しかし、単語ID「2」の単語「with」は、表T102によれば、カテゴリが「Preposition」であるため、順位付与対象外の単語となり、順位には「−1」が格納される。
【0073】更に、「with」に対応した左単語ID「2」に対して、右単語ID「4」が対応している。単語ID「4」の単語「1eg」は、順位付与対象外の単語でなく、中心語の「dog」から辿って最初の順位付与の対象となる単語であるため、順位として「2」が格納される。又、「leg」に対応した右単語ID「4」に対して、左単語ID「3」が対応している。単語ID「3」の単語「short」は、順位付与対象外の単語でなく、中心語の「dog」から辿って「dog」を含めて3番目の順位付与の対象となる単語であるため、順位として「3」が格納される。以上によって、クエリ用の形態素リストに表T102に示されるように順位が格納される。
【0074】続いて、ステップS205において、クエリ用の形態素リストの各単語に対して重みの値が格納される。先ず、順位付与対象外の単語に対して重みの値として「0」を格納しながら、中心語の個数を求める。表T102によれば、順位の値として「1」を持つのは「dog」の1個だけであることが分かる。又、順位の値として「−1」を持つ「with」に対する重みの値として「0」が格納される。中心語の個数が1個であるため、順位ツリーの値は「1.0」を「1」で割った「1.0」になる。次に、中心語の「dog」を取り出し、順位ツリーの値「1.0」に「0.7」を掛けた値「0.7」を「dog」に対応する重みに格納する。そして、中心語「dog」に続く順位の「2」を持つ単語は「leg」のみであるため、「1.0」から「0.7」を引いた値「0.3」を「1」で割った値「0.3」が「1eg」をルートとするサブ順位ツリーの値となる。そして、順位ツリーの値「0.3」に「0.7」を掛けた値「0.21」が、サブ順位ツリーのルートである「leg」に対応した重みとして格納される。そして、「leg」続く順位の「3」を持つ単語は「short」のみであるため、「0.3」から「0.21」を引いて「1」で割った値「0.09」が「short」をルートとするサブ順位ツリーの値となる。「short」をルートとするサブ順位ツリーには、「short」しか残っていないため、順位ツリーの値「0.09」がそのまま「short」に対応した重みとして格納される。このようにして、表T102に示すように、クエリ用の形態素リストの重みに値が格納される。
【0075】続いて、ステップS105において、説明文「dog with veryshort legs」が取り出された場合について説明する。
【0076】ステップS107において、説明文用の形態素リスト607とロールリスト608に解析結果が格納される。解析は、前述のクエリの解析と同様にして行われ、形態素リストは表T101に、ロールリストは表T201にそれぞれ示される状態になる。
【0077】続いて、ステップS301において、クエリの中心語「dog」が取り出される。説明文の形態素リストである表T101に「dog」が中心語とし格納されているため、ステップS305において、スコアの初期値「0」にクエリの「dog」に対応した重みの値が加算され、スコアの値は「0.7」になる。
【0078】続いて、ステップS307において、クエリの中心語「dog」に関係のある単語を取り出す。表T202によれば、「dog」と関係する単語は「with」だけであるため、「with」を取り出す。説明文の形態素リストには「with」が存在し、クエリと説明文の両方において「dog」と「with」の間の関係であるロールの値が「PSubject」であるため、関係も一致したことになり、ステップS311において、スコアの値「0.7」にクエリの「with」に対応した重みの値「0」が加算され、スコアの値は「0.7」になる。
【0079】続いて、ステップS307において、クエリの「with」に関係のある単語を取り出す。表T202によれば、既に取り出された単語以外で「with」と関係する単語は「leg」だけであるため、「leg」を取り出す。説明文の形態素リストには「short」が存在し、クエリと説明文の両方において、「with」と「leg」の間の関係であるロールの値が「PObject」であるため、関係も一致したことになり、ステップ311において、スコアの値「0.7」にクエリの「leg」に対応した重みの値「0.21」が加算され、スコアの値は「0.91」になる。
【0080】続いて、ステップ307において、クエリの「leg」に関係のある単語を取り出す。表T202によれば、既に取り出された単語以外で「leg」と関係する単語は「short」だけであるため、「short」を取り出す。説明文の両方において、「leg」と「short」の間の関係であるロールの値が「Modifier」であるため、関係も一致したことになり、ステップ311において、スコアの値「0.91」にクエリの「short」に対応した重みの値「0.09」が加算され、スコアの値は、「1.00」になる。
【0081】続いて、中心語も含めてクエリの全ての単語を取り出し終え、スコアの値も「0」よりも大きいため、検索結果リスト609に、説明文「dog withvery short legs」に対応した見出し語がスコアの値「1.00」と共に格納される。スコアの値が「1.0」であるということは、クエリの条件を完全に満たしていることを意味している。
【0082】続いて、ステップS105において、説明文「short dog withlong legs」が取り出された場合について説明する。
【0083】ステップS107において、説明文用の形態素リスト607とロールリスト608に解析結果が格納される。解析は、前述のクエリの解析と同様にして行われ、形態素リストは表T105に、ロールリストは表T205にそれぞれ示される状態になる。
【0084】続いて、ステップS301において、クエリの中心語「dog」が取り出される。説明文の形態素リストである表T105に「dog」が中心語として格納されているため、ステップS305において、スコアの初期値「0」にクエリの「dog」に対応した重みの値が加算され、スコアの値は「0.7」になる。
【0085】続いて、ステップS307において、クエリの中心語「dog」に関係のある単語を取り出す。表T202によれば、「dog」と関係する単語は、「with」だけであるため、「with」を取り出す。説明文の形態素リストには「with」が存在し、クエリと説明文の両方において、「dog」と「with」の間の関係であるロールの値が「PSubject」であるため、関係も一致したことになり、ステップS311において、スコアの値「0.7」にクエリの「with」に対応した重みの値「0」が加算され、スコアの値は、「0.7」になる。
【0086】続いて、ステップS307において、クエリの「with」に関係のある単語を取り出す。表T202によれば、既に取り出された単語以外で「with」と関係する単語は「leg」だけであるため、「leg」を取り出す。説明文の形態素リストには「leg」が存在し、クエリと説明文の両方において、「with」と「leg」の間の関係であるロールの値が「PObject」であるため、関係も一致したことになり、ステップS311において、スコアの値「0.7」にクエリの「1値「0.21」が加算され、スコアの値は「0.91」になる。
【0087】続いて、ステップS307において、クエリの「leg」に関係のある単語を取り出す。表T202によれば、既に取り出された単語以外で「1eg」と関係する単語は「short」だけであるため、「short」を取り出す。説明文の形態素リストには「short」が存在するが、表T205によれば、説明文では「leg」と「short」の間に関係が存在しないため、ステップS312において、スコアの値「0.91」にクエリの「short」に対応した重みの値「0.09」を2分の1した値「0.045」が加算され、スコアの値は、「0.955」になる。続いて、中心語も含めて、クエリの全ての単語を取り出し終え、スコアの値も「0」よりも大きいため、検索結果リスト609に説明文「short dogwith long legs」に対応した見出し語がスコアの値「0.955」と共に格納される。
【0088】続いて、同様に様々な説明文に対して検索を行った後、ステップS109において、検索結果がディスプレイに表示されることになるが、その中には説明文「dog with very short leggs」に対応した電子図鑑604の項目がスコアの値「1.00」として表示され、それ以降に、説明文「short dog with long legs」に対応した電子図鑑604の項目がスコアの値「0.955」と共に表示される。
【0089】「dog with short legs」というクエリに対して、「dog with very short legs」という説明文のスコアは「1.0」になり、「dog with long legs」という説明文のスコアは「0.955」になるため、前者の説明文の方がクエリとの一致度が高いことが分かる。
【0090】次に、クエリとして「dog with thick legs」が指定された場合の例について説明する。
【0091】ステップS104においてクエリに対する解析が行われ、クエリ用の形態素リストの状態は、表T103に示される状態になり、クエリ用のロールリストの状態は表T203に示される状態になる。
【0092】続いて、ステツプ105において、説明文「dog with very short legs」が取り出された場合について説明する。
【0093】ステップ107において、説明文の形態素リスト607とロールリスト608に解析結果が格納される。解析は、前述のクエリの解析と同様にして行われ、形態素リストは表T101に、ロールリストは表T201にそれぞれ示される状態になる。
【0094】続いて、ステップS301において、クエリの中心語「dog」が取り出される。説明文の形態素リストである表T101に「dog」が中心語として格納されているため、ステップS305において、スコアの初期値「0」にクエリの「dog」に対応した重みの値が加算され、スコアの値は「0.7」になる。
【0095】続いて、ステップS307において、クエリの中心語「dog」に関係のある単語を取り出す。表T203によれば、「dog」と関係する単語は「with」だけであるため、「with」を取り出す。説明文の形態素リストには「with」が存在し、クエリと説明文の両方において、「dog」と「with」の間の関係であるロールの値が「PSubject」であるため、関係も一致したことになり、ステップ311において、スコアの値「0.7」にクエリの「with」に対応した重みの値「0」が加算され、スコアの値は、「0.7」になる。
【0096】続いて、ステップS307において、クエリの「with」に関係のある単語を取り出す。表T203によれば、既に取り出された単語以外で「with」と関係する単語は「leg」だけであるため、「leg」を取り出す。説明文の形態素リストには「leg」が存在し、クエリと説明文の両方において、「with」と「leg」の間の関係であるロールの値が「PObject」であるため、関係も一致したことになり、ステップS311において、スコアの値「0.7」にクエリの「leg」に対応した重みの値「0.21」が加算され、スコアの値は「0.91」になる。
【0097】続いて、ステップS307において、クエリの「leg」に関係のある単語を取り出す。表T203によれば、既に取り出された単語以外で「1eg」と関係する単語は、「thick」だけであるため、「thick」を取り出す。説明文の形態素リストには「thick」は存在しないため、ステップS312において、スコアの値「0.91」にクエリの「thick」に対応した重みの値「0.09」を2分の1した値「0.045」が加算され、スコアの値は、「0.955」になる。
【0098】続いて、中心語も含めて、クエリの全ての単語を取り出し終え、スコアの値も「0」よりも大きいため、検索結果リスト609に説明文「dog withvery short legs」に対応した見出し語がスコアの値「0.955」と共に格納される。
【0099】続いて、同様に様々な説明文に対して検索を行った後、ステップS109において検索結果がデイスプレイに表示されることになるが、その中には、説明文「dog with very short legs」に対応した電子図鑑604の項目がスコアの値「0.955」として表示されるこのように、クエリの条件と部分一致する説明文において、重要度の低い条件のみが一致していない場合は、一致度が高いことが分かる。
【0100】次に、クエリとして「dog short legs」が指定された場合の例について説明する。
【0101】この例は、文法的に正しくないクエリが入力された場合、或は文法的に正しいクエリが入力されても、構文解析で使用する文法ルールに不備があり、正しく解析できない場合を説明するための例である。
【0102】ステップS201においてクエリに対する形態素解析が行われると、クエリ用の形態素リスト607には図10の表T104に示されるような情報が格納される。但し、この時点では、順位と重みには、値は格納されていない。
【0103】続いて、ステップS202においてクエリに対する構文解析が行われる。
【0104】ここで、文法辞書606に左カテゴリNounと右カテゴリAdjectiveに対する文法ルールが記述されておらず、又、左カテゴリNounと右カテゴリNounに対する文法ルールが記述されていないものとする。すると、クエリ用のロールリスト608には図11の表T204に示されるような情報が格納される。表T204に示されるように、文法的に正しくないクエリを解析した場合、或は文法的に正しいクエリが入力されても、構文解析で使用する文法ルールに不備があり、正しく解析できない場合、構文解析の結果として、1文中の単語と単語の間の関係の連鎖が途切れることになる。例えば、表204によれば、「dog」は、クエリ中の他の単語との関係がなく、連鎖が途切れている。
【0105】続いて、ステップS203において、中心語が決定される。表T104から分かるように、カテゴリ「Noun」の単語として「dog」と「leg」が存在するため、この2つの単語に中心語が絞り込まれる。
【0106】しかし、「dog」はロールを持たないし、「leg」はロールとして「Modifier」を持つだけであるため、これ以上の中心語の絞り込みはできず、最終的に「dog」と「leg」がクエリの中心語であると決定され、表T104に示すように、クエリ用の形態素リストの「dog」と「leg」に対応した順位として「1」が格納される。
【0107】絞いて、ステップS204において、クエリ用のロールリストである表T204を利用してクエリ用の形態素リストの「dog」と「leg」以外の単語に対して順位の値が格納される。表T204によると、「leg」に対応した右単語ID「3」に対して左単語ID「2」が対応している。単語ID「2」の単語「short」は、順位付与対象外の単語でなく、中心語の「leg」から辿って「leg」を含めて2番目の順位付与の対象となる単語であるため、順位として「2」が格納される。以上によって、クエリ用の形態素リストに表T104に示されるように、順位が格納される。
【0108】続いて、ステップS205において、クエリ用の形態素リストの各単語に対して重みの値が格納される。先ず、順位付与対象外の単語に対して重みの値として「0」を格納しながら、中心語の個数を求める。表T104によれば、順位の値として「1」を持つのは、「dog」と「leg」の2個であることが分かる。中心語の個数が2個であるため、各順位ツリーの値は「1.0」を「2」で割った「0.5」になる。次に最初の中心語の「dog」を取り出す。中心語「dog」の順位ツリーには「dog」しか存在しないため、順位ツリーの値「0.5」がそのまま「dog」に対応した重みとして格納される。
【0109】続いて、次の中心語の「leg」を取り出し、順位ツリーの値「0.5」に「0.7」を掛けた値「0.35」を「leg」に対応する重みに格納する。そして、中心語「leg」続く順位の「2」を持つ単語は「short」のみであるため、「0.5」から「0.35」を引いて「1」で割った値「0.15」が「short」をルートとするサブ順位ツリーの値となる。「short」をルートとするサブ順位ツリーには「short」しか残っていないため、順位ツリーの値「0.15」がそのまま「short」に対応した重みとして格納される。このようにして、表T104に示されるように、クエリ用の形態素リストの重みに値が格納される。
【0110】以上示したように、文法的に正しくないクエリを解析した場合、或は文法的に正しいクエリが入力されても、構文解析で使用する文法ルールに不備があり、正しく解析できない場合に、単語間の関係が一繋がりの連鎖にならなくなっても、即ち、関係木が1つの木として構成できず、複数の関係木に分かれたとしても、各関係木に対して中心語を決定し、各単語の順位と重みを付与することができる。又、説明文に対しても、同様に、文法的に正しくない場合や文法ルールに不備場ある場合でも、各単語の順位と重みを付与することができる。
【0111】続いて、ステップS105において説明文「dog with very short legs」が取り出された場合について説明する。
【0112】ステップS107において、説明文用の形態素リスト607とロールリスト608に、解析結果が格納される。解析は、前述のクエリの解析と同様にして行われ、形態素リストは表T101に、ロールリストは表T201にそれぞれ示される状態になる。
【0113】続いて、ステップS301において、クエリの最初の中心語「dog」が取り出される。説明文の形態素リストである表T101に「dog」が中心語として格納されているため、ステップS305において、スコアの初期値「0」にクエリの「dog」に対応した重みの値が加算され、スコアの値は「0.5」になる。
【0114】続いて、ステップS307において、クエリの中心語「dog」に関係のある単語を取り出す。表T204によれば、「dog」と関係する単語は存在しないため、ステップS308において分岐し、ステップS301へ進む。
【0115】続いて、ステップS301において、クエリの次の中心語「leg」が取り出される。説明文の形態素リストである表T101には「leg」は中心語としては格納されていないため、ステップS306において、スコアの初期値「0」にクエリの「leg」に対応した重みを2分の1した値「0.175」が加算され、スコアの値は「0.675」になる。
【0116】続いて、ステップS307において、クエリの「leg」に関係のある単語を取り出す。表T204によれば、既に取り出された単語以外で「leg」と関係する単語は「short」だけであるため、「short」を取り出す。説明文の形態素リスト表T101には「short」は存在し、説明文のロールリスト表201に「short」のロールとして「Modifier」とあり、クエリの「short」のロールと一致するため、ステップS311において、スコアの値「0.675」にクエリの「short」に対応した重みの値「0.15」が加算され、スコアの値は、「0.825」になる。
【0117】続いて、中心語も含めて、クエリの全ての単語を取り出し終え、スコアの値も「0」よりも大きいため、検索結果リスト609に、説明文「dog withvery short legs」に対応した見出し語がスコアの値「0.825」と共に格納される。
【0118】続いて、同様に様々な説明文に対して検索を行った後、ステップS109において、検索結果がデイスプレイに表示されることになるが、その中には、説明文「dog with very short legs」に対応した電子図鑑604の項目がスコアの値「0.825」として表示される。
【0119】このように文法的に正しくないクエリを解析した場合、或は文法的に正しいクエリが入力されても、構文解析で使用する文法ルールに不備があり、正しく解析できない場合に単語間の関係が一繋がりの連鎖にならなくなっても、即ち、関係木が1つの木として構成できず、複数の関係木に分かれたとしても、クエリの関係木の条件を各関係木の論理積と見なして比較するため、説明文との一致度を求めることができることが分かる。又、説明文に対しても、同様に、文法的に正しくない場合や文法ルールに不備場ある場合でも、クエリとの一致度を求めることができる。
【0120】ところで、本実施の形態では、外部記憶装置としてCD−ROMから情報検索プログラム及び関連データを直接RAM203にロードして実行させる例を示したが、この他に、CD−ROMから情報検索プログラム及び関連データを一旦HD206に格納(インストール)しておき、本情報検索プログラムを動作させる時点でHD206からRAM203にロードするようにしても良い。又、本情報検索プログラムを記録する媒体は、CD−ROM以外にFD(フロッピー(登録商標)ディスク)、ICメモリカード等であっても良い。
【0121】更に、本情報検索プログラムをROMに記録しておき、これをメモリマップの一部となるように構成し、直接CPUで実行することも可能である。
【0122】又、以上の説明において、クエリ及び説明文として使用する言語として英語を使用した例を示したが、本発明は英語のみに適用可能ではなく、日本語を含めたあらゆる言語に適用可能である。
【0123】又、以上の実施の形態では、電子図鑑を例に示したが、本発明は電子図鑑だけでなく、国語辞書、英和辞書、和英辞書、百科事典等、見出し語に対して説明文が付与されているデータを電子化して格納したものであるならば、何にでも適用可能である。
【0124】又、前記実施の形態では、電子図鑑のマルチメデイア情報として画像が格納されている例を示したが、画像以外にも映像や音声等を格納しておき、メデイアに応じて必要な出力装置を使用して出力するようにしても良い。
【0125】又、前記実施の形態では、検索結果として出力する電子図鑑の項目としてスコアの値が0よりも大きい説明文に対する項目を出力していたが、この閾値をオペレータが自由に設定できるようにし、オペレータが設定した閾値よりも大きいスコアの値を持つ説明文に対応した見出し語のみを検索結果リストに出力するようにしても良い。
【0126】更に、前記実施の形態では、電子図鑑には説明文のみが格納された例を示したが、説明文を予め構文解析した結果を説明文と対応させて格納しておき、ステップS107で説明文の解析を行う代わりに、電子図鑑に格納されている説明文の構文解析結果を取り出すようにしても良い。
【0127】又、前記実施の形態では、ステップS303において、説明文に中心語が含まれない場合、ステップS307へ進んで中心語以外の単語に対してもマッチングを行っていたが、この場合にステップS307へ進む代わりに、ステップS301へ進んで、その中心語をルートとする順位ツリーに存在する単語のマッチングは行わないようにしても良い。そして、この場合、ステップS307へ進む代わりに、ステップS313へ進むようにしても良い。前者の場合は、クエリの中心語が1つでも説明文に存在すれば、スコアの値は0より大きくなり、検索結果リストに出力されるが、後者の場合は、クエリの中心語が説明文中に1つでも存在しなければ、検索結果リストに出力されない。
【0128】その他、前記実施の形態では、ステップS103において、電子図鑑の見出し語を検索対象とし、検索条件と見出し語が完全に一致する場合のみ、スコアの値を1.0として検索結果リストに出力していたが、その代わりに、ステップS104〜ステップS108までに示される説明文とクエリとのマッチングのように、クエリと見出し語の両方の解析を行った後、ステップS108で行うマッチングと同様のマッチングを行った結果を検索結果リストに出力しても良い。
【0129】
【発明の効果】以上の説明で明らかなように、本発明に係る情報検索方法、情報検索装置及び記録媒体によれば、自然な言葉によって検索条件を表現できるため、検索条件の作成を容易に行うことができるという効果が得られる。
【0130】又、検索条件の単語を含み、各単語間の関係も全て一致する説明文又は検索条件の単語の一部を含み、各単語間の関係も一致する説明文に対応した情報記憶部の見出し語を検索結果として出力するため、検索の精度を飛躍的に向上させることができるという効果が得られる。
【出願人】 【識別番号】000001007
【氏名又は名称】キヤノン株式会社
【住所又は居所】東京都大田区下丸子3丁目30番2号
【出願日】 平成13年12月27日(2001.12.27)
【代理人】 【識別番号】100092853
【弁理士】
【氏名又は名称】山下 亮一
【公開番号】 特開2003−196308(P2003−196308A)
【公開日】 平成15年7月11日(2003.7.11)
【出願番号】 特願2001−395807(P2001−395807)