| 【発明の名称】 |
情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体 |
| 【発明者】 |
【氏名】小林 雄二
|
| 【要約】 |
【課題】操作者に指定された検索要求に従って、適切な概念類似情報検索を行う。
【解決手段】所望の文書を検索するために入力され得る検索語あるいは検索文と関連性のある語を検索時の展開語として、その検索語あるいは検索文と対応づけされた状態の検索語展開辞書を予め用意する。検索対象となる複数の文書から、その文書を構成する語と語との関連性の度合を算出した結果に基づいて、関連語を抽出し、抽出された関連語が当該検索語展開辞書に登録されていないときには、その関連語を、検索語展開辞書の新たな展開語として登録する。検索に際しては、操作者によって入力された検索語あるいは検索文に対応する展開語を、当該検索語展開辞書から取得し、その取得した検索展開語に基づいて、複数の文書を検索する。 |
【特許請求の範囲】
【請求項1】 データベースに予め格納された複数のマルチメディア情報の中から所望のマルチメディア情報を検索する情報検索装置であって、前記データベースの中から所望のマルチメディア情報を検索するための検索語あるいは検索文を入力可能な入力手段と、前記入力手段によって入力され得る検索語あるいは検索文と関連性のある語を展開語として、その検索語あるいは検索文と対応づけされた状態で予め記憶されている検索語展開辞書と、前記複数のマルチメディア情報に付帯する言語表現された文字情報から、その文字情報を構成する語と語との関連性の度合を算出した結果に基づいて、関連語を抽出する関連語抽出手段と、前記関連語抽出手段によって抽出された関連語が前記検索語展開辞書に登録されていないときに、その関連語を、前記検索語展開辞書の新たな展開語として登録する登録手段と、前記入力手段によって入力された検索語あるいは検索文に対応する展開語を最新の前記検索語展開辞書から取得し、その取得した展開語に基づいて、前記データベースの中から所望のマルチメディア情報を検索する検索手段と、を備えることを特徴とする情報検索装置。 【請求項2】 前記検索語展開辞書に記憶すべく、予め記憶された展開語は、前記検索語から連想派生可能な連想語であることを特徴とする請求項1記載の情報検索装置。 【請求項3】 前記登録手段は、前記関連語抽出手段によって抽出された関連語と、前記検索語展開辞書に記憶すべく予め記憶された展開語とを識別する情報を付与して、前記検索語展開辞書に登録することを特徴とする請求項1記載の情報検索装置。 【請求項4】 前記登録手段は、前記関連語抽出手段によって抽出された関連語を、前記関連語抽出手段によって算出された関連性の度合と対応づけて前記検索語展開辞書に登録することを特徴とする請求項1記載の情報検索装置。 【請求項5】 前記登録手段は、前記検索語展開辞書に記憶すべく予め記憶された展開語と、前記関連語抽出手段によって抽出された関連語とが一致する場合に、前記関連語抽出手段によって抽出された関連語を前記検索語展開辞書に登録することを抑制することを特徴とする請求項1記載の情報検索装置。 【請求項6】 前記登録手段は、前記検索語展開辞書に記憶すべく予め記憶された展開語と、前記関連語抽出手段によって抽出された関連語とが一致する場合に、該展開語を、該関連語に置換して前記検索語展開辞書に登録することを特徴とする請求項1記載の情報検索装置。 【請求項7】 前記入力手段は、前記検索手段による検索結果を表示する表示画面において、その検索結果の中から何れかの文書の表示行がユーザによって選択され、選択された表示行がドラッグ&ドロップによる操作によって所定の表示領域にコピーされたときには、その表示領域にコピーされた文書を、新たな検索語あるいは検索文として設定するマンマシンインタフェースを含むことを特徴とする請求項1記載の情報検索装置。 【請求項8】 データベースに予め格納された複数のマルチメディア情報の中から所望のマルチメディア情報を検索する情報検索方法であって、前記データベースの中から所望のマルチメディア情報を検索するために入力され得る検索語あるいは検索文と関連性のある語を展開語として、その検索語あるいは検索文と対応づけされた状態の検索語展開辞書を予め用意する辞書作成工程と、前記複数のマルチメディア情報に付帯する言語表現された文字情報から、その文字情報を構成する語と語との関連性の度合を算出した結果に基づいて、関連語を抽出する関連語抽出工程と、前記関連語抽出工程にて抽出された関連語が前記検索語展開辞書に登録されていないときに、その関連語を、前記検索語展開辞書の新たな展開語として登録する登録工程と、入力された検索語あるいは検索文に対応する展開語を最新の前記検索語展開辞書から取得し、その取得した展開語に基づいて、前記データベースの中から所望のマルチメディア情報を検索する検索工程と、を有することを特徴とする情報検索方法。 【請求項9】 前記検索語展開辞書に記憶すべく、予め用意された展開語は、前記検索語から連想派生可能な連想語であることを特徴とする請求項8記載の情報検索方法。 【請求項10】 前記登録工程では、前記関連語抽出工程にて抽出された関連語と、前記検索語展開辞書に記憶すべく予め用意された展開語とを識別する情報を付与して、前記検索語展開辞書に登録することを特徴とする請求項8記載の情報検索方法。 【請求項11】 前記登録工程では、前記関連語抽出工程にて抽出された関連語を、前記関連語抽出工程にて算出された関連性の度合と対応づけて前記検索語展開辞書に登録することを特徴とする請求項8記載の情報検索方法。 【請求項12】 前記登録工程では、前記検索語展開辞書に記憶すべく予め用意された展開語と、前記関連語抽出工程にて抽出された関連語とが一致する場合に、前記関連語抽出工程にて抽出された関連語を前記検索語展開辞書に登録することを抑制することを特徴とする請求項8記載の情報検索方法。 【請求項13】 前記登録工程では、前記検索語展開辞書に記憶すべく予め用意された展開語と、前記関連語抽出工程にて抽出された関連語とが一致する場合に、該展開語を、該関連語に置換して前記検索語展開辞書に登録することを特徴とする請求項8記載の情報検索方法。 【請求項14】 前記検索工程では、検索結果をユーザに対して表示すると共に、その検索結果の中から何れかの文書の表示行がユーザによって選択され、選択された表示行がドラッグ&ドロップによる操作によって所定の表示領域にコピーされたときに、その表示領域にコピーされた文書を、新たな検索語あるいは検索文として設定可能なマンマシンインタフェースを含む表示画面を表示することを特徴とする請求項8記載の情報検索方法。 【請求項15】 請求項1乃至請求項7の何れかに記載の情報検索装置としてコンピュータを動作させるプログラムコードが格納されていることを特徴とするコンピュータ読み取り可能な記憶媒体。 【請求項16】 請求項8乃至請求項14記載の情報検索方法をコンピュータによって実現可能なプログラムコードが格納されていることを特徴とするコンピュータ読み取り可能な記憶媒体。
|
【発明の詳細な説明】【0001】 【発明の属する技術分野】本発明は、複数のマルチメディア情報を管理し、その管理されているマルチメディア情報から所望のマルチメディア情報を検索する情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体に関する。 【0002】 【従来の技術】従来より、情報検索の分野においては、例えば、画像等の情報に、その情報のコンテンツを記述する文書或いは文字が付帯された所謂マルチメディア情報を検索する情報検索装置が提案されており、このような装置として、例えば、所望の情報を表す語或いは文を操作者が入力するのに応じて、入力された語或いは文と一致する語或いは文を、予めデータベースとして蓄積されている多数のマルチメディア情報の中から検索(取得)する、所謂、全文検索と呼ばれる手法を適用した情報検索装置が知られている。 【0003】また、近年においては、操作者によって入力された語或いは文と一致する語或いは文を単に検索するのみならず、入力された語或いは文と類似する概念と判断される語或いは文を保持するマルチメディア情報を検索する、所謂、類似概念検索と呼ばれる手法を適用した情報検索装置も提案されている。 【0004】 【発明が解決しようとする課題】しかしながら、上記従来の情報検索装置においては、検索対象として既に蓄積されている文書(蓄積文書)に出現する語群の中から、操作者によって入力された語あるいは文に関連する関連語を抽出するので、予め用意した蓄積文書が少ない場合には、十分な量の関連語を得ることができず、検索要求を満足する適切な検索結果を得ることができないという問題点がある。 【0005】更に、蓄積文書に出現しない関連語には展開することはできないため、検索要求に相応する適切な関連語を得ることができないという問題点がある。この場合、検索要求の概念を補完すべく、検索要求に対応づけられた関連語を予め備えておくことで、蓄積文書の多寡に関わらず、関連語による検索要求の補完を行うことができる。しかしながら、すべての検索要求に対して関連語を予め用意することは非現実的であり、また、情報検索装置内に予め用意した関連語が、日々生まれている新しい語、新しい概念に追従できないという問題点がある。 【0006】そこで本発明は、操作者に指定された検索要求に従って、適切な概念類似情報検索を行う情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体の提供を目的とする。 【0007】 【課題を解決するための手段】上記の目的を達成するため、本発明に係る情報検索装置は、以下の構成を特徴とする。 【0008】即ち、データベースに予め格納された複数のマルチメディア情報の中から所望のマルチメディア情報を検索する情報検索装置であって、前記データベースの中から所望のマルチメディア情報を検索するための検索語あるいは検索文を入力可能な入力手段と、前記入力手段によって入力され得る検索語あるいは検索文と関連性のある語を展開語として、その検索語あるいは検索文と対応づけされた状態で予め記憶されている検索語展開辞書と、前記複数のマルチメディア情報に付帯する言語表現された文字情報から、その文字情報を構成する語と語との関連性の度合を算出した結果に基づいて、関連語を抽出する関連語抽出手段と、前記関連語抽出手段によって抽出された関連語が前記検索語展開辞書に登録されていないときに、その関連語を、前記検索語展開辞書の新たな展開語として登録する登録手段と、前記入力手段によって入力された検索語あるいは検索文に対応する展開語を最新の前記検索語展開辞書から取得し、その取得した展開語に基づいて、前記データベースの中から所望のマルチメディア情報を検索する検索手段とを備えることを特徴とする。 【0009】好適な実施形態において、前記検索語展開辞書に記憶すべく、予め記憶された展開語は、例えば、前記検索語から連想派生可能な連想語である。 【0010】また、例えば前記登録手段は、前記関連語抽出手段によって抽出された関連語と、前記検索語展開辞書に記憶すべく予め記憶された展開語とを識別する情報を付与して、前記検索語展開辞書に登録すると良い。 【0011】また、例えば前記登録手段は、前記関連語抽出手段によって抽出された関連語を、前記関連語抽出手段によって算出された関連性の度合と対応づけて前記検索語展開辞書に登録すると良い。 【0012】また、例えば前記登録手段は、前記検索語展開辞書に記憶すべく予め記憶された展開語と、前記関連語抽出手段によって抽出された関連語とが一致する場合に、前記関連語抽出手段によって抽出された関連語を前記検索語展開辞書に登録することを抑制すると良い。 【0013】また、例えば前記登録手段は、前記検索語展開辞書に記憶すべく予め記憶された展開語と、前記関連語抽出手段によって抽出された関連語とが一致する場合に、該展開語を、該関連語に置換して前記検索語展開辞書に登録すると良い。 【0014】また、例えば前記入力手段は、前記検索手段による検索結果を表示する表示画面において、その検索結果の中から何れかの文書の表示行がユーザによって選択され、選択された表示行がドラッグ&ドロップによる操作によって所定の表示領域にコピーされたときには、その表示領域にコピーされた文書を、新たな検索語あるいは検索文として設定するマンマシンインタフェースを含むと良い。 【0015】また、上記の同目的を達成するため、本発明に係る情報検索方法は、以下の構成を特徴とする。 【0016】即ち、データベースに予め格納された複数のマルチメディア情報の中から所望のマルチメディア情報を検索する情報検索方法であって、前記データベースの中から所望のマルチメディア情報を検索するために入力され得る検索語あるいは検索文と関連性のある語を展開語として、その検索語あるいは検索文と対応づけされた状態の検索語展開辞書を予め用意する辞書作成工程と、前記複数のマルチメディア情報に付帯する言語表現された文字情報から、その文字情報を構成する語と語との関連性の度合を算出した結果に基づいて、関連語を抽出する関連語抽出工程と、前記関連語抽出工程にて抽出された関連語が前記検索語展開辞書に登録されていないときに、その関連語を、前記検索語展開辞書の新たな展開語として登録する登録工程と、入力された検索語あるいは検索文に対応する展開語を最新の前記検索語展開辞書から取得し、その取得した展開語に基づいて、前記データベースの中から所望のマルチメディア情報を検索する検索工程とを有することを特徴とする。 【0017】更に、上記の情報検索装置及び情報検索方法を、コンピュータによって実現するプログラムコードが格納されている、コンピュータ読み取り可能な記憶媒体を特徴とする。 【0018】 【発明の実施の形態】以下、本発明を、文書情報を検索する情報検索装置に適用した実施形態として、図面を参照して詳細に説明する。 【0019】<装置構成>図1は、本実施形態における情報検索装置の装置構成を示すブロック図である。 【0020】図1において、11はマイクロプロセッサ(CPU)であり、情報検索のための演算や論理判断等を行ない、アドレスバスAB,コントロールバスCB,データバスDBを介して、それらのバスに接続された各構成要素を制御する。 【0021】アドレスバスABは、CPU11が制御の対象とする構成要素を指示するアドレス信号を転送する。コントロールバスCBは、CPU11が制御の対象とする各構成要素のコントロール信号を転送する。そして、データバスDBは、各構成機器相互間のデータ転送を行なう。 【0022】12は、読出し専用の固定メモリ(ROM)であり、本実施形態で実行される処理プログラム等の制御プログラムコードを記憶する。 【0023】13は、1ワード16ビットで構成される書き込み可能なランダムアクセスメモリ(RAM)であり、各構成要素に転送すべき各種データ及び受信した各種データの一時記憶に用いられる。また、RAM13は、図2を参照して後述する検索語保持部202、検索観点保持部203、展開語保持部207、検索概念特徴1保持部210、検索概念特徴2保持部225、検索結果保持部213を記憶する。 【0024】14は、大容量記憶装置としての外部メモリ(DISK)であり、図2を参照して後述する検索語展開辞書206、概念辞書208、蓄積文書概念特徴1保持部209、蓄積文書概念特徴2保持部218、蓄積文書フォーム保持部219、蓄積文書属性保持部220、蓄積文書217、単語インデックス226が格納される。 【0025】ここで、本実施形態において、蓄積文書217は、後述する文書検索処理(図9)における検索対象としての複数の文書(文書データファイル)が格納されたデータベースである。また、登録文書224は、当該文書検索処理に必要な各種情報を用意すべく、後述する文書登録処理(図12)にて処理の対象とする文書(文書データファイル)であり、操作者が、当該文書登録処理の実行に際して、蓄積文書217の中から任意に選択した文書である。 【0026】更に、外部メモリ14には、図2を参照して後述する検索要求入力処理部201、類似検索処理判定部204、検索語展開処理部205、概念特徴1抽出処理部209、関連語抽出処理部211、類似概念特徴検索処理部214、類似フォーム検索処理部215、類似属性検索処理部216、概念特徴2抽出処理部221、文書フォーム判定処理部222、文書属性抽出処理部223の各処理部を実行するプログラムコードが格納される。 【0027】尚、外部メモリ14に記憶されるデータ及びプログラムを格納する記憶媒体としては、ROM,フロッピー(登録商標)ディスク,CD−ROM,DVD−ROM,メモリカード,光磁気ディスクなどを用いることができる。 【0028】15は、キーボード(KB)であり、アルファベットキー,ひらがなキー,カタカナキー,句点等の文字記号入力キー,検索を指示する検索キー及びカーソル移動を指示するカーソル移動キー等のような各種の機能キーを備えている。 【0029】16は、表示用ビデオメモリ(VRAM)であり、表示すべきデータのパターンを一時的に蓄える。 【0030】17は、CRTコントローラ(CRTC)であり、表示用ビデオメモリVRAM16に蓄えられた描画内容を、表示装置18に表示する役割を担う。 【0031】18は、陰極線管、液晶パネル等の表示装置(CRT)であり、その表示装置CRTにおけるドット構成の表示パターンおよびカーソルの表示をCRTコントローラ17で制御する。 【0032】19は、ネットワークコントローラ(NIC)であり、本実施形態における情報検索装置を、Ethernetなどのネットワークに接続する役割を担う。 【0033】上述した構成を備える情報検索装置は、キーボードKB15を介した操作者による各種入力、並びにネットワークコントローラ19から供給されるネットワーク経由の各種入力に応じて作動する。即ち、キーボードKB15からの入力及び/またはネットワークコントローラ19からの入力が当該情報検索装置(図1)に供給されると、まず、インタラプト信号がマイクロプロセッサCPU11に送られ、そのマイクロプロセッサCPU11が外部メモリDISK14内に記憶してある各種の制御信号を読み出し、それらの制御信号に従って、各種の制御が行なわれる。 【0034】また、本実施形態において説明する検索動作に係わるプログラムを予め格納した記憶媒体を、図1に示す装置(システム)に供給し、その装置のコンピュータが、記憶媒体に格納されたプログラムコードを読み出し実行することによっても本実施形態における検索動作は達成される。 【0035】<機能構成>次に、本実施形態に係る情報検索装置の機能構成について、図2を参照して説明する。 【0036】図2は、本実施形態における情報検索装置の機能構成を示すブロック図である。 【0037】図2において、201は、例えば操作者によってキーボード15を介して入力された所望の検索対象に関する要求事項(検索文或いは検索語,類似検索観点等)が設定される検索要求入力処理部である。202は、検索要求入力処理部201に入力された検索語を記憶する検索語保持部である。203は、検索要求入力処理部201に入力された類似検索観点を記憶する検索観点保持部である。 【0038】204は、検索観点保持部203に記憶された類似検索観点に従って、実行すべき類似検索処理の種類を決定する類似検索処理判定部である。 【0039】206は、見出しとなる単語と、その単語について展開されるべき関連語とが対応する状態で、両者の関連度と共に格納された検索語展開辞書である。205は、検索語保持部202に記憶された検索語或いは検索文に対して、検索語展開辞書206を参照することにより、展開可能な関連語に展開する検索語展開処理部である。207は、検索対象としている検索語について検索語展開処理部205で展開された関連語を記憶する展開語保持部である。 【0040】208は、見出しとなる単語の意味特徴が記述された概念が格納された概念辞書である。209は、展開語保持部207、概念辞書208、及び登録文書224を参照して、検索要求文或いは登録文書の概念特徴を概念特徴1として抽出する概念特徴1抽出処理部である。 【0041】210は、概念特徴1抽出処理部209によって抽出されたところの、検索語202に対する概念特徴1を保持する検索概念特徴1保持部である。225は、概念特徴2抽出処理部221によって抽出されたところの、検索語202に対する概念特徴2を保持する検索概念特徴2保持部である。 【0042】211は、蓄積文書217に蓄積された各文書から、関連度の高い単語の組を抽出し、抽出した単語の組みを、検索語展開辞書206に格納する関連語抽出処理部である。 【0043】221は、登録文書224に対して概念特徴2を抽出する概念特徴2抽出処理部である。218は、概念特徴2抽出処理部221で抽出された概念特徴2を、登録文書224と対応付けて記憶する蓄積文書概念特徴2保持部である。212は、概念特徴1抽出処理部209で抽出された登録文書224に対応する概念特徴1を保持する蓄積文書概念特徴1保持部である。 【0044】214は、蓄積文書概念特徴1保持部212、検索概念特徴1保持部210、及び蓄積文書概念特徴2保持部218を参照して、類似概念検索処理を実行する類似概念特徴検索処理部である。 【0045】222は、登録文書224の文書フォームを判定する文書フォーム判定処理部である。219は、文書フォーム判定処理部222で判定された文書フォームを登録文書224に対応付けて記憶する蓄積文書フォーム保持部である。215は、蓄積文書フォーム保持部219を参照して、類似フォーム文書を検索する類似フォーム検索処理部である。 【0046】223は、登録文書224の文書属性を抽出する文書属性抽出処理部である。220は、文書属性抽出処理部223で抽出された文書属性を、登録文書224に対応付けて記憶する蓄積文書属性保持部である。216は、蓄積文書属性保持部220を参照して、類似属性文書を検索する類似属性検索処理部である。 【0047】そして213は、類似概念特徴検索処理部214、類似フォーム検索処理部215、及び類似属性検索処理部216の各検索処理部の処理結果を保持する検索結果保持部である。 【0048】次に、検索要求入力処理部201において、類似検索の検索要求文或いは検索要求語と、どの観点で類似検索を実行するかを操作者が指示する場合の操作パネルの表示例について、図3を用いて説明する。 【0049】図3は、本実施形態における検索要求文或いは検索要求語と、類似検索観点とを指示する場合の操作パネルの表示例を示す図である。 【0050】図3において、301は、検索要求をすべく入力操作を行う表示ウィンドウである。302は、検索要求の対象となる文或いは語を入力する検索文入力領域である。303は、操作者による入力中の検索要求文を例示しており、図示においては「モバイル機器の市場動向」と入力されている。304は、検索文入力領域における入力位置を示す入力カーソルである。 【0051】305,306,307は、類似文書検索における類似性の判別観点を操作者が指定可能なラジオボタンであり、具体的には、文書内容類似305は、それぞれ文書の意味内容の観点で類似している文書の検索を指示する場合に指定する。文書フォーム類似306は、文書の体裁,書式が類似している文書の検索を指示する場合に指定する。文書属性類似307は、タイトル,作成者,作成日時,管理者,分類,キーワードなどの文書の書誌的属性情報が類似している文書の検索を指示する場合に指定する。また、本実施形態において、これらのラジオボタンによる操作者による明示的な指示がなされない場合には、暗黙的に文書内容類似305が選択される。 【0052】308は、検索処理の実行を指定する検索実行ボタンであり、検索実行ボタン308を押下することで、指定した検索処理が実行される。309は、検索処理の終了或いは中止を指定するキャンセルボタンであり、キャンセルボタン309を押下すると、ただちに検索処理を終了し、表示ウィンドウ301を閉じて終了する。 【0053】310は、検索ボタン308の押下によって検索処理を行った結果を表示する検索結果表示領域であり、図示においては検索処理がなされていない状態であるので、何も表示されていない。 【0054】次に、検索要求入力処理部201の処理により、上述した図3の画面において類似検索の検索要求文或いは検索要求語と、どの観点で類似検索を実行すべきかが操作者により指示され、それらの指示項目に従って検索処理が実行された場合について、図4を参照して説明する。 【0055】図4は、本実施形態における検索結果の表示例、及び引き続き類似検索を実行する場合の検索要求文或いは検索要求語或いは類似要求文書指定と、類似検索観点の入力を示す図である。 【0056】図4において、401は、図3の310に相当する検索結果の表示領域である。402は、検索結果の順位を示すランク表示領域である。本実施形態において、検索結果は、検索要求に類似している順にランク付けされ、ランク順に表示される。図4の表示例では、ランク25位から30位までの検索結果が表示されている。 【0057】403には、検索された文書の表題が表示され、404には、検索された文書のファイル名が表示される。405には、検索された文書の大意が掴める程度の内容が表示される。即ち、文書内容表示405には、予め文書の書誌的属性として与えられた要約文或いは、文書から自動的に要約した要約文、或いは文書の一部を大意として抽出した大意文などが表示される。 【0058】406は、検索結果表示領域401に表示しきれない場合に、表示領域401内において検索結果を部分表示しながら、表示されていない他の部分を表示するために、表示位置を指定するために同種のウィンドウ表示装置において用いられているエレベータバーである。 【0059】図4に例示されている表示状態は、検索文303に示された「モバイル機器の市場動向」に対して、文書内容類似ラジオボタン305で指示された文書内容類似検索を行った検索結果を表示している。このとき、操作者が引き続いて類似検索を行う場合には、検索要求文入力領域302に上述した如く検索文を入力するか、或いは検索結果表示領域401から、類似検索を所望する文書の表示行を選択すると共に、選択した表示行を検索要求文入力領域302にドラッグ&ドロップすることで、選択された文書の文書内容が検索要求文入力領域302にコピー(不図示)すればよい。 【0060】<検索語展開辞書203>次に、検索語展開辞書203の構成について、図5を用いて説明する。 【0061】図5は、本実施形態における検索語展開辞書の構成を例示する図である。 【0062】検索語展開辞書203は、図5に示すように、展開情報の識別情報を示すID501と、展開見出し語502、展開見出し語502と関連する展開語503、展開見出し語502と展開語503との関連度504、展開語の種別を示すFLG505の各項目が対応付けられた状態で予め格納されている。 【0063】即ち、ID501は、検索展開辞書203に格納された各レコードに対して一意に付与された識別番号である。展開見出し語502は、展開見出し語となるべき単語が格納される。展開語503は、展開見出し語502と関連する連想語、関連語などの展開可能な単語である。関連度504は、展開見出し語502に対応する展開語503の関連性の度合(関連度)を、0から9の数値で表わしており、格納されている数値が高いほど関連性が高いことを示す。FLG505は、展開語種別(即ち、展開見出し語502に対応する展開語503が、標準的に予め用意された初期登録語であるのか、或いは、蓄積文書から抽出された関連語であるのかの種別)を示す識別情報であり、「S」は初期登録されている標準展開語,「A」は蓄積文書から抽出された関連語を示す。 【0064】<概念辞書208>次に、概念辞書208の構成について、図6を用いて説明する。 【0065】図6は、本実施形態における概念辞書の構成を示す図である。 【0066】概念辞書208は、単語の概念を、普遍的な意味素の重みを要素とする多次元ベクトルで表したものであり、図6に示すように、概念辞書の見出しとなる単語601と、256次元で表される意味素ベクトルの各要素を表す添え字602とに対応した状態で、意味素ベクトルの各要素の重み(重み付け値)603が格納されている。この意味素ベクトルの重み603は、0から1の間の実数をとり、意味素ベクトルの大きさが1となるよう正規化して格納する。 【0067】ここで、概念辞書208を構成する多次元ベクトルの要素となる普遍的な意味素とは、ひとつのまとまった意味概念を表すラベルであり、例えば、「これ、それ、あれ、どっち」などの語が内包している「指示の概念」、「クラス、グレード、級、ランク、順位、劣等、優劣、優等」などの語が内包している「等級の概念」、「変化、変身、革新、勃興」などの語が内包している「変化の概念」、「協力、挨拶、団結、握手、友好、国交、交友」などの語が内包している「交わりの概念」、「動物、哺乳類、ペンギン、犬、人間、金魚」などの語が内包している「生物の概念」等のように、特定の語に依存しない各々独立した普遍的な意味素を用いる。本実施形態では、図6に例示するように256種の意味素を用い、256次元の概念表現ベクトルを構成する。 【0068】<単語インデックス226>次に、単語インデックス226の構成について、図7及び図8を用いて説明する。 【0069】図7は、本実施形態における単語インデックスの構成を示す図である。 【0070】単語インデックス226は、登録文書224中に出現する全ての単語について、文書中の出現頻度を格納するテーブルである。図7において、テーブルの第1列情報である701は、登録文書を一意に同定する文書IDである。テーブルの第2列情報から第n列情報702は、図8において示される各々の単語を表す添え字である。テーブルの末尾行703は、各々の単語の出現数の総和を格納する。図7において、文書IDが00146である文書は、添え字1256の示す単語「市場」が12回文書中に出現していることを示している。 【0071】次に、単語インデックス226において、単語と、単語インデックステーブルの添え字の対応を格納した対応テーブルの構成について、図8を用いて説明する。 【0072】図8は、本実施形態における単語インデックスと単語との対応テーブルの構成を示す図であり、当該対応テーブルには、単語801と対応付けられた一意の単語インデックス802とが対応付けられた状態で格納されており、例えば、単語「市場」の単語インデックスは、1256である。 【0073】<文書類似検索処理>次に、本実施形態で実行される文書類似検索処理について、図9を用いて説明する。 【0074】図9は、本実施形態において情報検索装置(図2)が実行する文書類似検索処理を示すフローチャートである。 【0075】同図において、ステップS1001では、図2における検索要求入力処理部201の動作を行う処理モジュールによって、検索要求入力処理を行う。尚、この検索要求入力処理の詳細については後述する。 【0076】ステップS1002では、ステップS1001の処理で図2における検索観点保持部203に記憶された類似検索観点に従って、類似検索処理種別を判定する。即ち、文書概念類似検索処理(ステップS1003)、文書フォーム類似検索処理(ステップS1004)、文書属性類似検索処理(ステップS1005)のいずれかの処理に分岐する。 【0077】ステップS1003では、検索要求入力処理(ステップS1001)で入力された検索要求に従って、文書内容の表す概念が類似する文書を検索する文書概念類似検索処理を行う。尚、この文書概念類似検索処理の詳細については後述する。 【0078】ステップS1004では、検索要求入力処理(ステップS1001)で入力された文書IDと文書体裁が類似する文書を検索する文書フォーム類似検索処理を行う。この文書フォーム類似検索処理には、現在では一般的な類似検索手法を採用するものとして、本実施形態における説明は省略する。 【0079】ステップS1005では、検索要求入力処理(ステップS1001)で入力された文書IDと文書の書誌的属性情報が類似している文書を検索する文書属性類似検索処理を行う。この文書属性類似検索処理には、文書のメタデータを検索する現在では一般的な類似検索手法を採用するものとして、本実施形態における説明は省略する。 【0080】ステップS1006では、ステップS1003,ステップS1004,ステップS1005のいずれかのステップにおいて検索された検索結果を、図2における検索結果保持部213より取り出して表示する。尚、検索結果を表示する処理には、現在では一般的な手法を採用するものとして、本実施形態における説明は省略する。 【0081】(検索要求入力処理)次に、ステップS1001の検索要求入力処理の詳細について、図10を用いて説明する。 【0082】図10は、本発明の実施形態における検索要求入力処理の詳細を示すフローチャートである。 【0083】同図において、ステップS2001では、操作者の指示操作により、検索要求の対象となる検索文が、図3を参照して上述した如く、検索文入力領域302内の入力カーソル304の示す位置に入力される。ここで、検索文は、単一の語であってもよいし、複数の語からなる文であってもよい。検索文の入力は、KB15から入力された文字コードをRAM13上の検索語保持部202に格納することにより行われる。 【0084】次にステップS2002では、検索文入力領域302への入力があったかどうか判定し、検索文入力領域302への検索文入力がなく、検索結果表示領域401に表示された検索結果文書のいずれかが検索文入力領域302へドラッグされたことを検知したならば、ステップS2003へ処理を分岐し、検索文入力を検知したならば、ステップS2006の処理へ分岐する。 【0085】ステップS2003では、検索文入力領域302へドラッグされた文書の文書ファイル名を、ファイル名404(図4参照)に表示される情報より取得し、そのファイル名に対応する文書を、読み出しのためにオープンする。 【0086】次にステップS2004では、ステップS2003にてオープンした文書の内容を読み込み、ステップS2005において、読み込んだ文書内容を、新たな検索要求文として、検索語保持部202に格納すると共に、検索要求文入力領域302にその内容を表示する。 【0087】ステップS2006では、類似文書検索をどの観点で行うかを、文書内容類似ボタン305、文書フォーム類似ボタン306、文書属性類似ボタン307のいずれがチェックされたかによって判別し、選択された類似検索観点を検索観点保持部203へ格納し、処理を終了する。 【0088】(文書概念類似検索処理)次に、ステップS1003の文書概念類似検索処理の詳細について図11を用いて説明する。 【0089】図11は、本実施形態における文書概念類似検索処理の詳細を示すフローチャートである。 【0090】ステップS3001では、上述した検索要求入力処理(図10)にて検索語保持部202に格納されている検索文(操作者が所望の文書を検索するために入力した文、または再検索のために選択された文)を取り出し、取り出した検索文を構成する文字列を、単語(検索語)に分割する。検索文の単語(検索語)への分割は、形態素解析処理として公知の手法を適用する。 【0091】次にステップS3002では、ステップS3001で得られた全ての検索語について、検索展開辞書206の展開見出し語502と一致する展開語データを検索する。そして、検索語に一致する見出し語が存在する場合には、その展開語503を、対応する関連度504及び検索語と共に、全て展開語保持部207に格納する。 【0092】ステップS3003では、ステップS3002にて展開語保持部207に格納されている展開語を取り出し、概念辞書208の見出し語601(図6)と一致するものがあるか検索する。そして、展開語に一致する概念辞書見出し語601が存在する場合には、対応する概念ベクトルデータを、概念辞書208より取り出す。 【0093】次にS3004では、取得した概念ベクトルデータの構成要素の成分値と、展開語保持部207に展開語と対応して格納されている関連度504の値とを乗じて、得られた積を検索要求概念特徴1に加算することにより、類似性を評価する第1の類似性評価尺度情報として、検索要求概念特徴1データを構築する。尚、検索要求概念特徴1は、予めベクトルの全ての次元要素を0に初期化しておく。 【0094】ステップS3005では、展開語保持部207に格納された全ての展開語を処理したかどうか判定し、全ての展開語の処理を終えたならば、検索要求概念特徴1ベクトルデータを、各要素の2乗和が1になるよう正規化を行った後、検索概念特徴1保持部210に格納し、ステップS3006へ分岐する。未処理の展開語があればステップS3003の処理へループする。 【0095】次にステップS3006では、検索要求概念特徴1ベクトルデータが構築できたかどうかを、検索要求概念特徴1ベクトルデータがゼロベクトルであるかどうかによって判定し、この判定の結果、ゼロベクトルであった場合は、ステップS3010の処理へ分岐し、一方、検索要求概念特徴1ベクトルデータが構築できた場合は、ステップS3007へ分岐する。 【0096】ステップS3007では、ステップS3006の判断において検索要求概念特徴1ベクトルデータがゼロではなく、検索要求概念特徴1ベクトルデータが構築できたと判定されたので、後述する文書登録処理(図13)のステップS5007において予め格納したところの、対応する蓄積文書概念特徴1ベクトルデータを、蓄積文書概念特徴1保持部212より取得する。 【0097】ステップS3008では、取得した蓄積文書概念特徴1ベクトルデータと、検索要求概念特徴1保持部210に格納された検索要求概念特徴1ベクトルデータとの概念類似度を算出する。本ステップにおいて、概念類似度の算出は、当該両ベクトルデータの余弦測度によって求めることができる。算出した概念類似度は、蓄積文書の文書IDと対応付けて不図示のバッファメモリに一時記憶する。 【0098】ステップS3009では、全ての蓄積文書についてステップS3008の処理を終えたかどうかを判定し、未処理の蓄積文書があれば、ステップS3007へループし、全ての蓄積文書に対して処理を終えていればステップS3016へ分岐する。 【0099】一方、ステップS3006の判断において検索要求概念特徴1ベクトルデータがゼロのままであり、検索要求概念特徴1ベクトルデータが構築できなかったと判定された場合には、以下に説明するステップS3010乃至ステップS3015の各ステップの処理により、検索要求概念特徴2ベクトルデータを構築し、蓄積文書の概念特徴2ベクトルデータとの概念類似度を算出することにより、文書内容の類似概念検索を行う。 【0100】即ち、ステップS3010において、展開語保持部207より展開語を取り出す。 【0101】次に、ステップS3011では、単語インデックス226を参照して、単語インデックスを次元要素とするベクトルデータを、検索要求概念特徴2データとして構築する。この検索要求概念特徴2データは、上述した検索要求概念特徴1とは異なる評価尺度であるところの、類似性を評価する第2の類似性評価尺度情報である。即ち、単語インデックステーブルから単語ID802がインデックスとして取得できる単語については、そのインデックスを添え字とする要素値として、該単語の出現頻度を与え、出現しなかった単語のインデックスを添え字とする要素値として0を与える。 【0102】ステップS3012では、展開語保持部207に格納された全ての展開語を処理し終えたかどうか判定し、未処理の展開語があればステップS3010へループし、全ての展開語の処理を終えれば、検索要求概念特徴2ベクトルデータの各要素値の2乗和が1となるように正規化して、検索要求ステップS3013へ分岐する。 【0103】ステップS3013では、後述する文書登録処理(図13)のステップS5007において予め格納したところの、蓄積文書概念特徴2ベクトルデータを、蓄積文書概念特徴2保持部218より取り出し、もし、ステップS3011で構築した検索要求概念特徴2ベクトルデータの次元要素のうち、蓄積文書概念特徴2ベクトルデータの次元要素にないものがあれば、その単語インデックスに相当する成分要素値を0とし、蓄積文書概念特徴2ベクトルデータの要素として追加する。 【0104】ステップS3014では、ステップS3013で取得した蓄積文書概念特徴2ベクトルデータと、ステップS3011で算出した検索要求概念特徴2ベクトルデータとの概念類似度を算出する。本ステップにおける概念類似度の算出は、当該両ベクトルデータの余弦測度によって求めることができる。算出した概念類似度は、蓄積文書の文書IDと対応付けて不図示のバッファメモリに一時記憶する。 【0105】そしてステップS3016では、ステップS3008或いはステップS3014において算出され、且つ不図示のバッファメモリに格納された類似概念の全ての検索結果を、概念類似度の降順にソートし、そのソートした結果を検索結果保持部213に格納して、終了する。 【0106】<文書登録処理>次に、文書登録処理について図12を参照して説明する。本実施形態において、文書登録処理は、当該情報検索装置による効率的な情報検索を担保すべく、上述した文書検索処理による文書の検索とは別個に、メンテナンスの位置付けで定期または不定期に実行される。 【0107】図12は、本実施形態で実行される文書登録処理を示すフローチャートである。 【0108】同図において、ステップS4001では、登録文書の内容から概念特徴を抽出して登録する文書内容概念登録処理を行う。尚、この文書内容概念登録処理の詳細については後述する。 【0109】次にステップS4002では、登録文書を含めた蓄積文書217から検索関連語を抽出して検索語展開辞書に登録する処理を行う。尚、この検索関連語抽出処理の詳細については後述する。 【0110】次にステップS4003では、概念辞書208(図6)に見出し単語601として登録されていない検索語について概念特徴1を推定し、追加登録を行う検索語概念抽出処理を行う。尚、この検索語概念抽出処理の詳細については後述する。 【0111】次にステップS4004では、登録文書のスタイル,体裁,フォーマットなどの文書フォーマット情報に基づいて、文書フォーム情報を登録する文書フォーム登録処理を行う。この処理は同種の情報検索装置において公知の処理を行うものである。 【0112】次にステップS4005では、登録文書のタイトル,作者,管理者,作成日時,作成部門,作成目的,その他の文書に附帯するメタデータを文書属性として登録する文書属性登録処理を行う。この処理は同種の情報検索装置において公知の処理を行うものである。 【0113】そして、ステップS4006では、対象としている登録文書に、ステップS4001乃至ステップS4005の各ステップにて取得した各種データを対応付けした状態で、登録文書224に登録する。 【0114】(文書内容概念登録処理)次に、ステップS4001の文書内容概念登録処理の詳細について図13を用いて説明する。 【0115】図13は、本実施形態における文書概念登録処理の詳細を示すフローチャートである。 【0116】同図において、ステップS5001では、登録対象とする登録文書224(対象登録文書)の文字列を構成する単語を抽出する。単語の抽出は、形態素解析処理として一般に用いられる手法を適用する。 【0117】次にステップS5002では、ステップS5001にて抽出した各単語について、単語インデックス226への登録を行う。即ち、単語インデックステーブル内の単語801に一致する単語であれば、該当する単語IDを取得し、取得した単語IDをインデックスとする当該テーブルの列情報に、対象登録文書における出現頻度を格納する。一方、単語インデックステーブルの単語801と一致しない単語については、その単語を単語インデックステーブルに追加すべく、当該単語に対して新規に一意な単語IDを割り振り、割り振られた単語IDを当該テーブルの列情報の欄に加え、登録済みの蓄積文書に対しては頻度として0を格納し、対象登録文書に対しては出現頻度を格納する。 【0118】次にステップS5003では、単語インデックス226を参照して、文書概念特徴2ベクトルデータを構築する。即ち、単語インデックス226の対象登録文書の行データを取り出し、各単語インデックスに対する成分要素として、出現頻度を与える。 【0119】ステップS5004では、ステップS5001にて抽出した単語と一致する見出し語601があるか否かを概念辞書208にて検索し、その検索の結果、一致する見出し語が存在すれば、対応する概念特徴1ベクトルデータを取り出す。 【0120】ステップS5005では、ステップS5004にて取り出した概念特徴1ベクトルデータに頻度に応じた重みを乗じて、算出した積を、ステップS5003にて構築した蓄積文書概念特徴2ベクトルデータに加算する。ここで頻度に乗じた重みとは、文書内単語頻度(TF値)と逆文書頻度(IDF)の積に応じて与えるものとする。 【0121】ステップS5006では、登録文書の全ての単語について処理を終えたかどうか判定し、未処理の単語があればステップS5001へループし、全ての単語について処理を終えていればステップS5007へ分岐する。 【0122】そして、ステップS5007では、文書概念特徴1ベクトルデータをベクトル要素の2乗和が1となるように正規化し、その正規化したデータを、図11のステップS3008にて使用する蓄積文書概念特徴1ベクトルデータとして、蓄積文書概念特徴1保持部212に登録する。また、文書概念特徴2ベクトルデータも、同様に要素の2乗和が1となるように正規化して長さをそろえて、その正規化したデータを、図11のステップS3014にて使用する蓄積文書概念特徴2ベクトルデータとして、蓄積文書概念特徴2保持部218に登録して終了する。 【0123】(検索関連語抽出処理)次に、ステップS4002の検索関連語抽出処理の詳細について図14を用いて説明する。 【0124】図14は、本実施形態における検索関連語抽出処理の詳細を示すフローチャートである。 【0125】同図において、ステップS6001では、登録文書224(対象登録文書)の文字列を構成する単語を抽出する。単語の抽出は、形態素解析処理として一般に用いられる手法を適用する。 【0126】ステップS6002では、抽出された各々の単語について、登録文書224に出現する他の単語との相関度を求めて、関連性の高い共起語を取得する。相関度の求め方としては、単語インデックステーブル226を参照して、他の文書への出現頻度は低いが、当該対象登録文書において、注目する単語と特異的に共起して出現する単語を、単語頻度(TF値)と逆文書頻度(IDF値)との積が最大になるものからランク付けして決定する。 【0127】ステップS6003では、ステップS6002で求めた共起語が検索語展開辞書206に展開語503として既に登録済みであるかどうか検索し、その検索の結果、登録済みであればステップS6002へループして次の共起語を取得し、未登録の展開語であれば、ステップS6004の処理へ分岐する。 【0128】ステップS6004では、ステップS6003にて検索語展開辞書206に未登録と判定された共起語を、該単語に対応する展開語として検索語展開辞書206に追加登録する。その際、ステップS6002にて求めた共起相関度を按分して関連度504の値とし、FLG505として追加展開語であることを示すフラグ情報「A」と対応付けて登録する。 【0129】ステップS6005では、全ての共起語を処理したか判定し、未処理の共起語があればステップS6002へループする。 【0130】そしてステップS6006では、登録文書224の全ての単語を処理したか判定し、未処理の単語があればステップS6001へループし、全ての単語の処理を終えれば終了する。 【0131】(検索語概念抽出処理)次に、ステップS4003の検索語概念抽出処理の詳細について図15を用いて説明する。 【0132】図15は、本発明実施形態の検索語概念抽出処理の詳細を示すフローチャートである。 【0133】ステップS7001では、概念辞書208の見出し語601に登録されていない未知概念語を取得する。ここで、未知概念語であるか否かの判定は、単語インデックス226の単語801に存在して、且つ概念辞書208の見出し語601に存在しない単語を、未知概念語であると判定する。 【0134】ステップS7002では、取り出した未知概念語の関連語を、検索語展開辞書206を検索することによって取得し、取得した関連語、その関連語を展開見出し語502として持つ展開語、並びに両者の関連度504を、展開語保持部207に格納する。 【0135】ステップS7003では、展開語保持部207に格納された関連語を取得し、取得した関連語に従って概念辞書208を検索することにより、当該関連語に対応する概念特徴1ベクトルデータを取得する。このとき、当該関連語が概念辞書208に見出し語として登録されていない場合には、概念特徴1ベクトルデータとして要素全てが0であるゼロベクトルとする。 【0136】ステップS7004では、ステップS7003で得られた関連語の概念特徴1ベクトルデータに、展開語保持部207に格納された関連度を乗じたものを未知概念語の概念特徴1ベクトルデータに加算する。尚、未知概念語の概念特徴1ベクトルデータは、予め各要素値が全て0のゼロベクトルに初期化しておく。 【0137】ステップS7006では、展開語保持部207に格納された全ての関連語を処理し終えたかどうか判定し、未処理の関連語があればステップS7003へループし、全ての関連語について処理し終えればステップS7007へ分岐する。 【0138】ステップS7007では、未知語概念特徴1ベクトルを各要素値の2乗和が1となるように正規化した後、概念辞書208に登録する。 【0139】ステップS7008では、全ての未知概念語を処理し終えたかどうか判定し、未処理の未知概念語があればステップS7001へループし、全ての未知概念語について処理を終えたならば終了する。 【0140】上述した本実施形態によれば、類似情報検索の操作指示を、図3(図4)に例示するような1つの操作画面にまとめつつ、且つ、何れの類似情報検索を行うかを、操作者が類似性の観点によって明示的に且つ容易に指定可能に構成することによって、適切な概念類似検索を行うことができ、利便性も向上する。 【0141】 【他の実施形態】上述した実施形態では、検索対象として文書情報を用いて説明したが、文書情報以外の内容記述メタデータが付随した画像情報,動画情報,番組内容記述情報などのマルチメディア情報についても、内容記述された文章情報に対して、情報特徴量抽出を行い、情報特徴量の類似測度を求めることによって、本発明を適用することができる。 【0142】また、上述した実施形態において、検索対象となる蓄積文書217、蓄積文書概念特徴1保持部212、蓄積文書概念特徴2保持部218、蓄積文書フォーム保持部219、蓄積文書属性保持部220、単語インデックス226、概念辞書208、検索語展開辞書206は、単一の装置を構成するDISK14に配置するものとして説明したが、これらの構成要件を異なる装置に分散配置し、NIC19を介してネットワーク上で処理を行うようにすることも可能である。 【0143】尚、本発明は複数の機器(例えばホストコンピュータ,インタフェース機器,リーダー,プリンタなど)から構成されるシステムに適用しても、ひとつの機器からなる装置(例えば、複写機,ファクシミリ装置など)に適用してもよい。 【0144】また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても達成される。 【0145】この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。 【0146】プログラムコードを供給するための記憶媒体としては、例えば、フロッピーディスク,ハードディスク,光磁気ディスク,CD−ROM,CD−R,CD−RW,DVD−ROM,DVD−RAM,DVD−RW,DVD+RW,磁気テープ,不揮発性のメモリカード,ROMなどを用いることができる。 【0147】また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。 【0148】更に、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。 【0149】 【発明の効果】以上説明したように、本発明によれば、操作者に指定された検索要求に従って、適切な概念類似情報検索を行う情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体の提供が実現する。
|
| 【出願人】 |
【識別番号】000001007 【氏名又は名称】キヤノン株式会社
|
| 【出願日】 |
平成12年10月3日(2000.10.3) |
| 【代理人】 |
【識別番号】100076428 【弁理士】 【氏名又は名称】大塚 康徳 (外2名)
|
| 【公開番号】 |
特開2002−108914(P2002−108914A) |
| 【公開日】 |
平成14年4月12日(2002.4.12) |
| 【出願番号】 |
特願2000−304026(P2000−304026) |
|