| 【発明の名称】 |
非テキスト入力に基づく概念検索装置、非テキスト入力に基づく概念検索方法、記録媒体およびプログラム |
| 【発明者】 |
【氏名】高野 誠司
【氏名】市川 伸治
【氏名】廣本 英久
|
| 【要約】 |
【課題】
【解決手段】 |
【特許請求の範囲】
【請求項1】辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、前記ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段とクライアントが非テキスト入力した検索用文章をテキスト文章へ変換する文字変換手段と、そのテキスト文章と前記ステムベクトルとから検索用文章ベクトルを作成する検索用文章ベクトル作成手段と、前記検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手段と、演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントの出力手段へソート結果を出力するソート手段とを備えた概念検索装置。 【請求項2】辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、文字データからなる検索対象文書群を入力してテキスト文書群へ変換する文字変換手段と、前記ステムベクトルおよびテキスト文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段と、クライアントが入力した検索用文章と前記ステムベクトルとから検索用文章ベクトルを作成する検索用文章ベクトル作成手段と、前記検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手段と、演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントの出力手段へソート結果を出力するソート手段とを備えた概念検索装置。 【請求項3】文字変換手段にて変換したテキスト文章をクライアントへ送信するテキスト文章送信手段と、送信したテキスト文章を修正した修正テキスト文章をクライアントから受信する修正テキスト文章受信手段とを備え、検索用文章ベクトル作成手段は、受信した修正テキスト文章を用いて検索用文章ベクトルを作成することとした請求項1記載の概念検索装置。 【請求項4】文字変換手段にて変換したテキスト文書群を修正して修正テキスト文書群とする修正入力手段を備え、検索対象文書ベクトル作成手段は、修正テキスト文書群を用いて検索対象文書ベクトル群を作成することとした請求項2記載の概念検索装置。 【請求項5】文字変換手段にて変換したテキスト文章をステムベクトル作成手段に用いる言語へ翻訳する翻訳手段を備え、検索用文書ベクトル作成手段は、その翻訳手段によって翻訳された翻訳文章を用いて検索用文書ベクトルを作成することとした請求項1記載の概念検索装置。 【請求項6】修正テキスト文章受信手段にて受信した修正テキスト文章を、ステムベクトル作成手段に用いる言語へ翻訳する翻訳手段を備え、検索用文書ベクトル作成手段は、その翻訳手段によって翻訳された翻訳文章を用いて検索用文書ベクトルを作成することとした請求項3記載の概念検索装置。 【請求項7】検索対象文書群において文字変換手段が変換すべき文字データの変換範囲を指定するための変換範囲指定手段と、その変換範囲指定手段にて指定した変換範囲を検出する変換範囲検出手段とを備え、文字変換手段は、前記範囲検出手段が検出した変換範囲をテキストデータへ変換することとした請求項2または請求項4記載の概念検索装置。 【請求項8】辞書作成用文書群および検索対象文書群の少なくとも一方は、特許情報文献群とした請求項1から請求項7のいずれかに記載の概念検索装置。 【請求項9】辞書作成用文書群は、辞書作成用文書群がなす群の中の一部分とした請求項1から請求項8のいずれかに記載の概念検索装置。 【請求項10】辞書作成用文書群は、辞書作成用文書群における各々の辞書作成用文書の所定部分とした請求項1から請求項9のいずれかに記載の概念検索装置。 【請求項11】ソート手段は、所定スコアとして予め入力されたスコアデータを上回る検索対象文書群をクライアントへ出力させることとした請求項1から請求項10のいずれかに記載の概念検索装置。 【請求項12】ソート手段は、所定出力数として予め入力されたデータ件数の検索対象文書群をクライアントへ出力させることとした請求項1から請求項10のいずれかに記載の概念検索装置。 【請求項13】ソート手段は、出力される検索対象文書群のうち、最高スコアおよび最低スコアをクライアントへ出力させることとした請求項12記載の概念検索装置。 【請求項14】ソート手段による出力に基づいて作成した新たな検索用文章を再入力するための再入力手段をクライアントへ提供し、検索用文章ベクトル作成手段は、再入力された検索用文章を用いて新たな検索用文章ベクトルを作成し、ベクトル演算手段は、その新たな検索用文章ベクトルを用いて新たなベクトル演算値を演算し、ソート手段は、その新たなベクトル演算値に基づいてソートすることとした請求項1から請求項13のいずれかに記載の概念検索装置。 【請求項15】ソート手段は、ソート結果の書誌的事項を一覧表示させる一覧表示機能を備え、再入力手段は、前記一覧表示の中から検索対象文書の一部または全部を、検索用文章として選択可能とすることで入力を代行するリンク機能を備えた請求項14記載の概念検索装置。 【請求項16】辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、前記ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、クライアントが非テキスト入力した検索用文章をテキスト文章へ変換する文字変換手順と、その文字変換手順によって変換されたテキスト文章と前記ステムベクトルとから検索用文章ベクトルを作成する検索用文章ベクトル作成手順と、前記検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手順と、演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手順とを備えた概念検索方法。 【請求項17】辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、文字データからなる検索対象文書群を入力してテキスト文書群へ変換する文字変換手順と、前記ステムベクトルおよびテキスト文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、クライアントが入力した検索用文章と前記ステムベクトルとから検索用文章ベクトルを作成する検索用文章ベクトル作成手順と、前記検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手順と、演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手順とを備えた概念検索方法。 【請求項18】文字変換方法にて変換したテキスト文章をクライアントへ送信するテキスト文章送信手順と、送信したテキスト文章を修正した修正テキスト文章をクライアントから受信する修正テキスト文章受信手順とを備え、検索用文章ベクトル作成手順は、受信した修正テキスト文章を用いて検索用文章ベクトルを作成することとした請求項16記載の概念検索方法。 【請求項19】文字変換手段が変換したテキスト文書群を修正して修正テキスト文書群とする修正入力手順を備え、検索対象文書ベクトル作成手順は、修正テキスト文書群を用いて検索対象文書ベクトル群を作成することとした請求項17記載の概念検索方法。 【請求項20】検索対象文書群において文字変換手順にて変換すべき文字データの変換範囲を指定するための変換範囲指定手順と、その変換範囲指定手順にて指定した変換範囲を検出する変換範囲検出手順とを備え、文字変換手順においては、前記範囲検出手順にて検出した変換範囲をテキストデータへ変換することとした請求項17または請求項19記載の概念検索方法。 【請求項21】ソート手段による出力に基づいて作成した新たな検索用文章を再入力するための再入力手段をクライアントへ提供する再入力手段提供手順と、再入力された検索用文章を用いて新たな検索用文章ベクトルを作成する検索用文章ベクトル再作成手順と、その新たな検索用文章ベクトルを用いて新たなベクトル演算値を演算するベクトル再演算手順と、その新たなベクトル演算値に基づいてソートする再ソート手順とを備えた請求項16から請求項20のいずれかに記載の概念検索方法。 【請求項22】プログラムを記録したコンピュータ読みとり可能な記録媒体であって、そのプログラムは、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、前記ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順とクライアントが非テキスト入力した検索用文章をテキスト文章へ変換する文字変換手順と、その文字変換手順によって変換されたテキスト文章と前記ステムベクトルとから検索用文章ベクトルを作成する検索用文章ベクトル作成手順と、前記検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手順と、演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手順とを実行させるプログラムとした記録媒体。 【請求項23】プログラムを記録したコンピュータ読みとり可能な記録媒体であって、そのプログラムは、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、文字データからなる検索対象文書群を入力してテキスト文書群へ変換する文字変換手順と、前記ステムベクトルおよびテキスト文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、クライアントが入力した検索用文章と前記ステムベクトルとから検索用文章ベクトルを作成する検索用文章ベクトル作成手順と、前記検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手順と、演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手順とを実行させるプログラムとした記録媒体。 【請求項24】辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、文字データからなる検索対象文書群を入力してテキスト文書群へ変換する文字変換手順と、前記ステムベクトルおよびテキスト文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、クライアントが入力した検索用文章と前記ステムベクトルとから検索用文章ベクトルを作成する検索用文章ベクトル作成手順と、前記検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手順と、演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手順とをコンピュータに実行させるためのプログラム。
|
【発明の詳細な説明】【0001】 【発明が属する技術分野】この発明は、文献データについての検索システムに対して、非テキスト入力によって検索用のデータ入力をしたり、検索対象を非テキスト入力しても利用することができる概念検索の技術に関する。 【0002】 【先行技術】(従来の文書検索技術)予め検索対象文書からキーワードを切り出し、インデックスファイルを作成する。そしてそのインデックスファイルと、検索のために入力されたキーワードとのマッチングによってヒットした文書をピックアップする方法が一般に用いられている。 【0003】この技術では、該当するキーワードが存在する文書がヒットするため、検索が終了するまではヒット件数を把握できない。そのため、期待していたヒット件数よりも少ないヒット数しか得られない場合には、検索キーワードの再検討が必要となる。一方、期待していたヒット件数よりも多いヒット数を得てしまった場合にも、いわゆる絞り込みと呼ばれる検索キーワードの再検討が必要となる。 【0004】(概念検索技術)近年、ベクトル演算を用いた検索技術(概念検索技術)が誕生した。この技術は、予め辞書作成用の文種から形態素解析などによって単語を切り出し、各単語に基本となるベクトルを付与して、辞書機能をなすベクトル群(ステムベクトル)を生成する。そのステムベクトルをもとにして、検索対象文書全体のベクトルを決定し、検索対象文書群から検索対象文書ベクトル群を生成する。その結果、検索対象文書は、各々一文書あたり一つのベクトルを持つこととなる。検索を実行する際には、検索のために入力した文章(検索用文章)と、前記ステムベクトルに基づいて検索用文章ベクトルを生成し、その検索用文章ベクトルと前記検索対象文書ベクトル群との内積を演算し、内積値の高い検索対象文書から所定件数を出力させる。 【0005】この技術によれば、検索対象文書群から関連度の高い文書より順に所定件数を必ず出力させることが可能となり、キーワード検索による欠点を克服できる。 (検索用の入力に関する問題)検索結果を欲する者と検索オペレータとが一致していない場合、検索のために入力するデータは、検索結果を欲する者から検索オペレータへまず、検索したい内容が伝達される。ところが、この伝達において、検索したい内容が完全にテキストデータとなっている場合ばかりではない。検索の目的、検索に当たっての予備情報などが、口頭、電話、議事録などのアナログ情報として伝達されることは少なくない。 【0006】(検索対象文書に関する問題)近年では、検索の対象となる文書群は、予め電子データ、特に文章部分はテキストデータとして提供されることが多い。しかし、検索の対象を過去に遡りたい場合には、検索対象の文章が紙媒体や、いわゆるイメージデータで保存されていることが多い。紙媒体の資料は、イメージデータとして電子化し、更に文字認識および変換を行うことによってテキストデータへ変換するという作業が必要となる。例えば、特許および実用新案登録出願においては、平成5年以後にCD−ROM公報にて出願公開されたものは、文書部分をテキストデータとして扱うことができるが、それ以前に発行された公報は、文字変換をしなければ、検索対象とすることができない。 【0007】(先行技術の調査結果)ところで、本出願人は、特許出願、実用新案登録出願を調査し、関連技術として次の技術を抽出した。その関連技術たる特開2000−20520号は、「言語解析認識処理の方法等」に関するものである。そしてその技術は、操作者が自由に入力した自然語、入力文に対して柔軟に適応する機能を備えて作動することを特徴とする。そのほか、特願平9−219299号、特願平11−4523号などを抽出した。 【0008】 【発明が解決しようとする課題】さて、入力したアナログ情報を変換するソフトウエアは日進月歩しているが、ソフトウエアが翻訳した文章は、未だに完全ではない。たとえOCR等のソフトウエアが更に進歩しても、文字認識率が100%のソフトウエア完成は困難であるし、音声認識ソフト、手書き文字変換ソフトにおいても同様である。 【0009】一方、前述した概念検索の技術は、検索用文章や、検索対象文書群が少々曖昧であっても、その曖昧な文章との関連度の高い文書から順に所定件数を出力させることが可能である。本発明が解決すべき課題は、文字変換技術と概念検索とを組み合わせることによって文字変換技術の不完全さを概念検索にて補い、調査対象となる文献データや、検索対象文書群がアナログ情報で作成されていても、そのまま概念検索が行え、文字変換技術が完璧でなくても結果的に関連度の高い文献を抽出できる技術を提供することにある。 【0010】(目的)ここで、請求項1から請求項15記載の発明の目的は、文字変換技術と概念検索とを組み合わせることによって文字変換技術の不完全さを概念検索にて補い、そのまま概念検索が行える概念検索装置を提供することである。また、請求項16から請求項21記載の発明の目的は、文字変換技術と概念検索とを組み合わせることによって文字変換技術の不完全さを概念検索にて補い、そのまま概念検索が行える概念検索方法を提供することである。 【0011】また、請求項22から請求項24記載の発明の目的は、文字変換技術と概念検索とを組み合わせることによって文字変換技術の不完全さを概念検索にて補い、そのまま概念検索が行える概念検索プログラムを提供することである。 【0012】 【課題を解決するための手段】本発明は、上記した目的を達成するためのものである。 (請求項1)請求項1記載の発明は、クライアント・サーバシステムにおけるサーバに備えられる装置であって、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、 前記ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段と クライアントが非テキスト入力した検索用文章をテキスト文章へ変換する文字変換手段と、 そのテキスト文章と前記ステムベクトルとから検索用文章ベクトルを作成する検索用文章ベクトル作成手段と、 前記検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手段と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントの出力手段へソート結果を出力するソート手段に係る。 【0013】(用語説明)「クライアント・サーバシステム」は、LAN(ローカル・エリア・ネットワーク)で接続されたもののほか、イントラネット上のクライアント・サーバシステム、クライアントがサーバ運営者と契約してインターネットなどのネットワークにて接続された場合を含む。 【0014】「ベクトル」とは、多次元のベクトルをいい、数次元から数百次元である。あまり少ないと精度が下がり、あまり多いと演算負担が大きいので、精度および演算負担に鑑みて、次元数を決定する。後述する実施形態では「280次元」とした。「ベクトル演算値」とは、代表的には、検索対象文書ベクトルと検索用文章ベクトルとの内積値をいうが、各種の係数を掛けたり、外積としたりする他の計算手法を採用する場合もある。 【0015】「非テキスト入力」とは、スキャナで処理されたイメージデータ、手書き入力に基づく文字データ、声による音声データ、顔や手の動きに基づく手話データなど、テキストデータ以外の入力をいう。「文字変換手段」とは、スキャナで処理されたイメージデータの中から文字を認識してテキストデータへ変換する、いわゆるOCR(Optical Character Reader)技術における文字認識技術、音声を言語として認識してテキストデータへ変換するいわゆる音声認識技術、手書き文字を認識してテキストデータへ変換するいわゆる文字認識技術、顔や手の動きによる手話を判別してテキストデータへ変換する手話認識変換技術などの技術を実現する手段である。 【0016】(作用)まず、ステムベクトル作成手段が辞書作成用文書群から辞書機能をなすステムベクトルを作成し、検索対象文書ベクトル作成手段が前記ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する。一方、文字変換手段は、クライアントが入力した非テキストの検索用文章を検索用文書ベクトル作成手段に用いるテキスト文章へ変換する。 【0017】検索用文書ベクトル作成手段は、そのテキスト文章と前記ステムベクトルとから検索用文章ベクトルを作成する。そして、ベクトル演算手段がその検索用文書ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算する。そして、ソート手段が演算されたベクトル演算値の昇順あるいは降順に検索対象文書群を並べたソート結果をクライアントの出力手段へ出力する。 【0018】ここにおいて、検索用文章が非テキスト入力であっても、文字変換手段がテキストデータへ変換可能であれば、文章として少々曖昧なテキストデータであっても、そのまま検索に用いることができる。 (請求項2)請求項2記載の発明は、 辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、 文字データからなる検索対象文書群を入力してテキスト文書群へ変換する文字変換手段と、 前記ステムベクトルおよびテキスト文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段と、 クライアントが入力した検索用文章と前記ステムベクトルとから検索用文章ベクトルを作成する検索用文章ベクトル作成手段と、 前記検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手段と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントの出力手段へソート結果を出力するソート手段とを備えた概念検索装置に係る。 【0019】(用語説明)「文字データ」とは、スキャナで処理された文章のイメージデータである。 (作用)まず、ステムベクトル作成手段が、辞書作成用文書群から辞書機能をなすステムベクトルを作成する。一方、文字変換手段が、文字データからなる検索対象文書群をテキスト文書群へ変換する。そして、検索対象文書ベクトル作成手段が、前記ステムベクトルおよびテキスト文書群から検索対象文書ベクトル群を作成する。ここにおいて、検索対象文書ベクトル作成手段が直接使用できない文字データ入力であるにもかかわらず、文字変換手段がテキスト文書群への変換を行うので、文字データから変換したテキストデータからなる文章が少々曖昧な文章であっても、そのテキストデータによって検索対象文書ベクトル群を作成することができる。 【0020】さて、クライアントからは、検索したい検索用文章が入力される。ここで、検索用文章ベクトル作成手段が、クライアントから入力された検索用文章と前記ステムベクトルとから検索用文書ベクトルを作成する。すると、ベクトル演算手段が、前記検索用文書ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算する。そして、ソート手段が演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントの出力手段へソート結果を出力する。 【0021】(請求項3)請求項3記載の発明は、請求項1記載の概念検索装置を限定したものであり、文字変換手段にて変換したテキスト文章をクライアントへ送信するテキスト文章送信手段と、 送信したテキスト文章を修正した修正テキスト文章をクライアントから受信する修正テキスト文章受信手段とを備え、 検索用文章ベクトル作成手段は、受信した修正テキスト文章を用いて検索用文章ベクトルを作成することとした概念検索装置に係る。 【0022】(作用)文字変換手段によって変換したテキスト文章を、テキスト文章送信手段がクライアントへ送信する。テキスト文章を受信したクライアントにおいて、文字変換手段による誤変換などを修正して修正テキスト文章とし、その修正テキスト文章を返信する。 【0023】返信によって送信された修正テキスト文章を、修正テキスト文章受信手段が受信する。そして、検索用文章ベクトル作成手段が、受信した修正テキスト文章を用いて検索用文章ベクトルを作成する。ここにおいて、文字変換手段によって変換したテキスト文章を修正して、より正確にすることができる。しかし、修正テキスト文章が文章として少々曖昧なテキストデータであっても、そのまま検索に用いることができるので、クライアントに対して厳密な修正は要求されない。 【0024】(請求項4)請求項4記載の発明は、請求項2記載の概念検索装置を限定したものであり、文字変換手段にて変換したテキスト文書群を修正して修正テキスト文書群とする修正入力手段を備え、 検索対象文書ベクトル作成手段は、修正テキスト文書群を用いて検索対象文書ベクトル群を作成することとした概念検索装置に係る。 【0025】(作用)文字変換手段によって変換したテキスト文書群は、修正入力手段が修正して修正テキスト文書群とする。そして、検索対象文書ベクトル作成手段が、修正された修正テキスト文書群を用いて検索対象文書ベクトルを作成する。ここにおいて、文字変換手段によって変換したテキスト文章群を修正して、より正確にすることができる。しかし、修正テキスト文章群が文章として少々曖昧なテキストデータによる文章群であっても、そのまま検索に用いることができるので、テキスト文書群に対する厳密な修正は要求されない。 【0026】(請求項5)請求項5記載の発明は、請求項1記載の概念検索装置を限定したものであり、文字変換手段にて変換したテキスト文章をステムベクトル作成手段に用いる言語へ翻訳する翻訳手段を備え、 検索用文書ベクトル作成手段は、その翻訳手段によって翻訳された翻訳文章を用いて検索用文書ベクトルを作成することとした概念検索装置に係る。 【0027】(作用)翻訳手段は、クライアントが入力し、文字変換手段によって変換したテキスト文章が検索用文書ベクトル作成手段に用いる言語と異なる場合に、当該言語を検索用文書ベクトル作成手段に用いる言語へ翻訳する。検索用文書ベクトル作成手段は、その翻訳文章と前記ステムベクトルとから検索用文書ベクトルを作成し、ベクトル演算手段がその検索用文書ベクトルと前記文書ベクトル群とのベクトル演算値を演算する。そして、ソート手段が演算されたベクトル演算値の昇順あるいは降順に検索対象文書群を並べたソート結果をクライアントの出力手段へ出力する。 【0028】ここにおいて、検索用文章が他言語であっても、翻訳手段が翻訳可能な文章であれば、文字変換および翻訳が完全でなくても、そのまま検索に用いることができる。 (請求項6)請求項6記載の発明は、請求項3記載の概念検索装置を限定したものであり、修正テキスト文章受信手段にて受信した修正テキスト文章を、ステムベクトル作成手段に用いる言語へ翻訳する翻訳手段を備え、 検索用文書ベクトル作成手段は、その翻訳手段によって翻訳された翻訳文章を用いて検索用文書ベクトルを作成することとした概念検索装置に係る。 【0029】(作用)クライアントから送信される修正テキスト文章を、修正テキスト文章受信手段が受信する。そして、翻訳手段がステムベクトル作成手段に用いる言語の翻訳文章へ翻訳する。検索用文書ベクトル作成手段は、その翻訳文章と前記ステムベクトルとから検索用文書ベクトルを作成し、ベクトル演算手段がその検索用文書ベクトルと前記文書ベクトル群とのベクトル演算値を演算する。そして、ソート手段が演算されたベクトル演算値の昇順あるいは降順に検索対象文書群を並べたソート結果をクライアントの出力手段へ出力する。 【0030】ここにおいて、検索用文章が他言語であっても、翻訳手段が翻訳可能な文章であれば、修正テキスト文章についてのテキスト文章およびそれに基づく翻訳が完全でなくても、そのまま検索に用いることができる。 (請求項7)請求項7記載の発明は、請求項2または請求項4記載の概念検索装置を限定したものであり、検索対象文書群において文字変換手段が変換すべき文字データの変換範囲を指定するための変換範囲指定手段と、 その変換範囲指定手段にて指定した変換範囲を検出する変換範囲検出手段とを備え、 文字変換手段は、前記範囲検出手段が検出した変換範囲をテキストデータへ変換することとした概念検索装置に係る。 【0031】(用語説明)「変換範囲」についての指定方法は、例えばあるキーワードを含むページ、[](隅付きカッコ)にて囲まれたタイトルに対応する文書部分、フロントページなどに用意されている抄録部分、といった指定による。(作用)変換範囲指定手段によって、検索対象文書群において文字変換手段が変換すべき文字データの変換範囲を指定する。その変換範囲指定手段が指定した変換範囲は、変換範囲検出手段が検出する。そして、その範囲検出手段が検出した変換範囲を、文字変換手段がテキストデータへ変換する。この場合、指定した変換範囲に対して、関連度の高い検索が行えるとともに、検索対象文書群の全てを変換する場合と比べて、処理時間を短縮することができる。 【0032】(請求項8)請求項8記載の発明は、請求項1から請求項7のいずれかに記載の概念検索装置を限定したものであり、辞書作成用文書群および検索対象文書群の少なくとも一方は、特許情報文献群とした概念検索装置に係る。 【0033】(用語説明)「特許情報文献」とは、特許出願された公開公報、特許された特許公報、以前の特許法の下で出願公告された公告公報、実用新案登録出願に係る文献、特許出願を審査するために用いられる公開技報、技術論文などをいう。 (作用)辞書作成用文書群および検索対象文書群の少なくとも一方は、特許情報文献群としているので、特許文献検索に適している。また、更新または追加が頻繁に行われる動的な検索対象文書群であって、且つ一文書当たりの単語数が多い検索対象文書に対し、概念検索を達成できる。更に、辞書作成用文書群について検索対象文書群とは異なる種類の文献とすると、質の異なった概念検索が行える。 【0034】(請求項9)請求項9記載の発明は、請求項1から請求項8のいずれかに記載の概念検索装置を限定したものであり、辞書作成用文書群は、辞書作成用文書群がなす群の中の一部分とした概念検索装置に係る。 【0035】(用語説明)「辞書作成用文書群がなす群の中の一部分」とは、ある数の辞書作成用文書群の中から選ばれた数の辞書作成用文書群の意である。例えば、隔年毎に区切られた10年分の文書群の中において、例えば直近5年分の文書群である。(作用)辞書作成用文書群を、辞書作成用文書群がなす群の中の一部分としているので、ステムベクトルの作成が短時間で行える。 【0036】(請求項10)請求項10記載の発明は、請求項1から請求項9のいずれかに記載の概念検索装置を限定したものであり、辞書作成用文書群は、辞書作成用文書群における各々の辞書作成用文書の所定部分とした概念検索装置に係る。 【0037】(用語説明)「辞書作成用文書群における各々の辞書作成用文書の所定部分」とは、例えば、辞書作成用文書群が技術論文である場合に技術論文におけるサマリー、辞書作成用文書群が特許出願書類である場合における特許請求の範囲、要約書、請求項1、発明の詳細な説明、など、あるいはそれらの組み合わせである。 【0038】(作用)辞書作成用文書群を、辞書作成用文書群における各々の辞書作成用文書の所定部分としているので、ステムベクトルの作成が短時間で行える。 (請求項11)請求項11記載の発明は、請求項1から請求項10のいずれかに記載の概念検索装置を限定したものであり、ソート手段は、所定スコアとして予め入力されたスコアデータを上回る検索対象文書群をクライアントへ出力させることとした概念検索装置に係る。 【0039】(用語説明)「所定スコア」とは、クライアントの操作者が入力したり、サーバがクライアントへ選択してもらうような入力手段を提供したりして予め決定することをいう。ベクトル演算値が内積値である場合には、完全一致スコアが1.00であるので、それよりも低い値を入力することとなる。なお、ソート手段による出力後に再入力することができるようにしてもよい。 【0040】(作用)概念検索には、検索対象文書群に全てスコアを付けるので「ヒット件数」という考え方が存在しないが、所定スコアを入力してあれば、そのスコアデータを上回る検索対象文書群をクライアントへ出力することができる。所定スコアとして例えば「0.6」を予め入力しておくと、0.6を上回る検索対象文書群が高スコア順にソートされて出力されることとなる。 【0041】(請求項12)請求項12記載の発明は、請求項1から請求項10のいずれかに記載の概念検索装置を限定したものであり、ソート手段は、所定出力数として予め入力されたデータ件数の検索対象文書群をクライアントへ出力させることとした概念検索装置に係る。 【0042】(用語説明)「所定出力数」とは、クライアントの操作者が入力したり、サーバがクライアントへ選択してもらうような入力手段を提供したりして予め決定することをいう。なお、ソート手段による出力後に再入力することができるようにしてもよい。また、請求項5にいう「所定スコア」と組み合わせ、例えば、「50件までで且つ所定スコア=0.7以上」というように決定することができるようにしてもよい。 【0043】(作用)概念検索には、「ヒット件数」という考え方が存在しないが、所定出力数を入力してあれば、その数の検索対象文書群をクライアントへ出力することができる。 (請求項13)請求項13記載の発明は、請求項12記載の概念検索装置を限定したものであり、ソート手段は、出力される検索対象文書群のうち、最高スコアおよび最低スコアをクライアントへ出力させることとした概念検索装置に係る。 【0044】(作用)最高スコアおよび最低スコアがクライアントへ出力されるので、概念検索の検証、検索用文章についての再検討などが行える。 (請求項14)請求項14記載の発明は、請求項1から請求項13のいずれかに記載の概念検索装置を限定したものであり、ソート手段による出力に基づいて作成した新たな検索用文章を再入力するための再入力手段をクライアントへ提供し、 検索用文章ベクトル作成手段は、再入力された検索用文章を用いて新たな検索用文章ベクトルを作成し、 ベクトル演算手段は、その新たな検索用文章ベクトルを用いて新たなベクトル演算値を演算し、 ソート手段は、その新たなベクトル演算値に基づいてソートすることとした概念検索装置に係る。 【0045】(作用)サーバは、ソート手段による出力後、そのソート出力に基づいて作成した新たな検索用文章を再入力するための再入力手段をクライアントへ提供し、クライアントユーザは、新たな検索用文章を入力する。その新たな検索用文章によって新たな検索用文章ベクトルを作成し、ベクトル演算手段は、新たなベクトル演算値を演算し、ソート手段が新たなベクトル演算値に基づくソートを行う。 【0046】(請求項15)請求項15記載の発明は、請求項14記載の概念検索装置を限定したものであり、ソート手段は、ソート結果の書誌的事項を一覧表示させる一覧表示機能を備え、 再入力手段は、前記一覧表示の中から検索対象文書の一部または全部を、検索用文章として選択可能とすることで入力を代行するリンク機能を備えた概念検索装置に係る。 【0047】(作用)ソート結果は、ソート手段の一覧表示機能によって書誌的事項が一覧表示される。その中から検索対象文書の一部または全部をクライアントが選択すると、リンク機能が選択された検索対象文書の一部または全部を検索用文章として採択し、ベクトル演算手段によってベクトル演算値を演算する。ここにおいて、クライアントユーザは、検索用文章を入力する手間が要らないというメリットがある。 【0048】(請求項16)請求項16記載の発明は、 辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、 前記ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、 クライアントが非テキスト入力した検索用文章をテキスト文章へ変換する文字変換手順と、 その文字変換手順によって変換されたテキスト文章と前記ステムベクトルとから検索用文章ベクトルを作成する検索用文章ベクトル作成手順と、 前記検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手順と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手順とを備えた概念検索方法に係る。 【0049】(請求項17)請求項17記載の発明は、 辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、 文字データからなる検索対象文書群を入力してテキスト文書群へ変換する文字変換手順と、 前記ステムベクトルおよびテキスト文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、 クライアントが入力した検索用文章と前記ステムベクトルとから検索用文章ベクトルを作成する検索用文章ベクトル作成手順と、 前記検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手順と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手順とを備えた概念検索方法に係る。 【0050】(請求項18)請求項18記載の発明は、請求項16記載の概念検索方法を限定したものであり、文字変換方法にて変換したテキスト文章をクライアントへ送信するテキスト文章送信手順と、 送信したテキスト文章を修正した修正テキスト文章をクライアントから受信する修正テキスト文章受信手順とを備え、 検索用文章ベクトル作成手順は、受信した修正テキスト文章を用いて検索用文章ベクトルを作成することとした概念検索方法に係る。 【0051】(請求項19)請求項19記載の発明は、請求項17記載の概念検索方法を限定したものであり、文字変換手段が変換したテキスト文書群を修正して修正テキスト文書群とする修正入力手順を備え、 検索対象文書ベクトル作成手順は、修正テキスト文書群を用いて検索対象文書ベクトル群を作成することとした概念検索方法に係る。 【0052】(請求項20)請求項20記載の発明は、請求項17または請求項19記載の概念検索方法を限定したものであり、検索対象文書群において文字変換手順にて変換すべき文字データの変換範囲を指定するための変換範囲指定手順と、 その変換範囲指定手順にて指定した変換範囲を検出する変換範囲検出手順とを備え、 文字変換手順においては、前記範囲検出手順にて検出した変換範囲をテキストデータへ変換することとした概念検索方法に係る。 【0053】(請求項21)請求項21記載の発明は、請求項16から請求項20のいずれかに記載の概念検索方法を限定したものであり、ソート手段による出力に基づいて作成した新たな検索用文章を再入力するための再入力手段をクライアントへ提供する再入力手段提供手順と、 再入力された検索用文章を用いて新たな検索用文章ベクトルを作成する検索用文章ベクトル再作成手順と、 その新たな検索用文章ベクトルを用いて新たなベクトル演算値を演算するベクトル再演算手順と、 その新たなベクトル演算値に基づいてソートする再ソート手順とを備えた概念検索方法に係る。 【0054】(請求項22)請求項22記載の発明は、プログラムを記録したコンピュータ読みとり可能な記録媒体に係る。そのプログラムは、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、 前記ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、 クライアントが非テキスト入力した検索用文章をテキスト文章へ変換する文字変換手順と、 その文字変換手順によって変換されたテキスト文章と前記ステムベクトルとから検索用文章ベクトルを作成する検索用文章ベクトル作成手順と、 前記検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手順と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手順とを実行させるプログラムとする。 【0055】ここで、「記録媒体」とは、それ自身では空間を占有し得ないプログラムを担持することができる媒体であり、例えば、フロッピー(登録商標)ディスク、ハードディスク、CD−ROM、MO(光磁気ディスク)、DVD−ROM、PDなどである。 (請求項23)請求項23記載の発明もまた、プログラムを記録したコンピュータ読みとり可能な記録媒体に係る。そのプログラムは、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、 文字データからなる検索対象文書群を入力してテキスト文書群へ変換する文字変換手順と、 前記ステムベクトルおよびテキスト文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、 クライアントが入力した検索用文章と前記ステムベクトルとから検索用文章ベクトルを作成する検索用文章ベクトル作成手順と、前記検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手順と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手順とを実行させるプログラムとする。 【0056】(請求項24)請求項24記載の発明は、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、 文字データからなる検索対象文書群を入力してテキスト文書群へ変換する文字変換手順と、 前記ステムベクトルおよびテキスト文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、 クライアントが入力した検索用文章と前記ステムベクトルとから検索用文章ベクトルを作成する検索用文章ベクトル作成手順と、 前記検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手順と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手順とをコンピュータに実行させるためのプログラムに係る。 【0057】 【発明の実施の形態】以下、本発明を実施の形態及び図面に基づいて、更に詳しく説明する。ここで使用する図面は、図1乃至図15である。図1から図6は、第一の実施形態、第二の実施形態、第三の実施形態、第四の実施形態、第五の実施形態および第六の実施形態を示す概念図である。図7は、変換範囲を指定する場合の一例を示す概念図である。図8は、アナログ情報の処理手順を示す概念図である。図9は、第七の実施形態を示す概念図であり、図10は、第八の実施形態を示す概念図であり、図11は、第七の実施形態における一作用を示す概念図である。図12から図15は、概念検索を行うための検索用文章の入力画面として、サーバからクライアントへ提供される画面出力の一部を示す図である。 【0058】(図1)図1は、本発明の第一の実施形態を示す概念図であり、クライアント・サーバシステムにおけるサーバに備えられる装置である。クライアントユーザは、サーバを運営する事業主体との契約に基づいて、会員IDおよびパスワードの提供を受け、インターネットにて接続して、サーバが提供するサービスを利用する。 【0059】サーバには、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、前記ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段とクライアントが非テキスト入力した検索用文章を前記ステムベクトル作成手段に用いるテキスト文章データへ変換する文字変換手段と、その文字変換手段によって変換された検索用文章と前記ステムベクトルとから検索用文書ベクトルを作成する検索用文書ベクトル作成手段と、前記検索用文書ベクトルと前記文書ベクトル群とのベクトル演算値を演算するベクトル演算手段と、演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントの出力手段へソート結果を出力するソート手段とを備えている。 【0060】辞書作成用文書群および検索対象文書群とも、特許情報文献群としている。ここにいう「特許情報文献」とは、特許出願された公開公報、特許された特許公報、以前の特許法の下で出願公告された公告公報、実用新案登録出願に係る文献、特許出願を審査するために用いられる公開技報、技術論文などを含んでいる。「ベクトル」としては、精度と演算負担とを考慮して「280次元」とした。また、ベクトル演算としては、「内積」を演算することとした。 【0061】クライアントに備えられる検索用文章入力手段からは、非テキスト入力が可能である。その非テキスト入力によって検索用文章を入力する。サーバの「文字変換手段」は、その非テキスト入力による検索用文章をテキストデータによる文章データへ変換することができる手段である。非テキスト入力についての種類およびその処理手順については、図8に示している。 【0062】クライアントユーザは、サーバと契約し、インターネットにて接続可能なクライアントである。クライアントユーザは、サーバから別途付与されたIDとパスワードとを用いてサーバが提供する上記概念検索システムへアクセスする。 (第一の実施形態の作用)まず、ステムベクトル作成手段が辞書作成用文書群から辞書機能をなすステムベクトルを作成し、検索対象文書ベクトル作成手段が前記ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する。 【0063】一方、クライアントが検索用文章入力手段を用いて検索用文章を入力する。この検索用文章は、非テキスト入力である。この非テキスト入力された検索用文章は、文字変換手段によって、テキスト文章となる。テキスト文章はクライアントへは出力されないが、完全に正確ではないとしても、文字変換手段がテキスト文章へ変換することができる。 【0064】続いて、検索用文章ベクトル作成手段が、変換されたテキスト文章と前記ステムベクトルとから検索用文章ベクトルを作成する。そして、ベクトル演算手段がその検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算する。また、所定ベクトル演算値の設定手段にて設定した設定値をサーバへ送る。そして、ソート手段が演算されたベクトル演算値の順に、設定値の数だけ検索対象文書群を並べたソート結果をクライアントへ出力する。 【0065】辞書作成用文書群および検索対象文書群は、特許情報文献群としているので、特許文献検索に適している。また、更新または追加が頻繁に行われる動的な検索対象文書群であって、且つ一文書当たりの単語数が多い検索対象文書たる特許情報文献に対し、概念検索を達成できる。 (第一の実施形態のバリエーション)第一のバリエーションとして、辞書作成用文書群を、辞書作成用文書群がなす群の中の一部分とすることができる。すなわち、辞書を作成するための文書群が数年分の特許公報とする場合、例えば1年分の特許公報に限ることとする。この場合、辞書作成用文書群を、辞書作成用文書群がなす群の中の一部分としているので、ステムベクトルの作成が短時間で行える。また、年々変化する技術の傾向に合致した概念検索を行えることが期待できる。 【0066】第二のバリエーションとして、辞書作成用文書群を、辞書作成用文書群における各々の辞書作成用文書の所定部分とすることができる。すなわち、辞書を作成するための文書群が数年分の特許公報とする場合、その特許公報における要約書の部分のみ、または特許請求の範囲のみ、あるいはそれらの組合せを辞書作成用文書群とするのである。このようにすれば、ステムベクトルの作成が短時間で行える。 【0067】第三のバリエーションとして、検索対象文書群は、特許情報文献群における各々の特許出願文献の所定部分とすることができる。すなわち、数年分の特許公報が存在する場合、検索対象文書群を、例えば、特許請求の範囲、要約書、あるいはそれらの組み合わせとするのである。その場合、検索対象文書ベクトルの作成、ベクトル演算値の演算などが短時間で行える。 【0068】(図2)図2に示す第二の実施形態の特徴は、サーバにおいて検索対象文書ベクトル作成手段が検索対象文書ベクトル群を作成するための検索対象文書群として、文字データからなる特許情報を用いている点である。すなわち、文字データからなる特許情報を、文字変換手段にてテキスト文書群へ変換し、そのテキスト文書群を用いて検索対象文書ベクトル作成手段が検索対象文書ベクトル群を作成するのである。 【0069】なお、検索対象文書群において、予めテキストデータとなっている文書と、文字データからなる文書とが混在していてもよい。具体的には、平成5年以後に出願公開された特許情報はテキストデータとなっているが、それ以前に出願公開された特許情報はイメージデータとして取り込み、それらを混在させた状態で検索対象文書群とし、検索対象文書ベクトル群を作成している。 【0070】(第二の実施形態の作用)まず、ステムベクトル作成手段が、辞書作成用文書群から辞書機能をなすステムベクトルを作成する。一方、文字変換手段が、文字データである検索対象文書群をテキスト文書群へ変換する。そして、検索対象文書ベクトル作成手段が、前記ステムベクトルおよびテキスト文書群から検索対象文書ベクトル群を作成する。ここにおいて、検索対象文書ベクトル作成手段が直接使用できない文字データ入力であるにもかかわらず、文字変換手段がテキスト文書群への変換を行うので、文字データから変換したテキストデータからなる文章が少々曖昧な文章であっても、そのテキストデータによって検索対象文書ベクトル群を作成することができる。 【0071】さて、クライアントからは、検索したい検索用文章が入力される。ここで、検索用文書ベクトル作成手段が、クライアントから入力された検索用文章と前記ステムベクトルとから検索用文書ベクトルを作成する。すると、ベクトル演算手段が、前記検索用文書ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算する。そして、ソート手段が演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントの出力手段へソート結果を出力する。 【0072】(図3)図3に示す第三の実施形態は、図1に示した第一の実施形態と異なり、文字変換手段が変換したテキスト文章を、一旦クライアントへ出力し、クライアントに備えられた修正入力手段によって修正テキスト文章としてもらってから検索用文章ベクトルを作成することが特徴である。 【0073】また、ソート手段によってクライアントの出力手段へ出力されるベクトル演算値の範囲を予め設定する「設定ベクトル演算値」を記憶する設定値記憶手段を備えている。例えば、設定ベクトル演算値の「上位100」が選択された状態となっている場合には、ベクトル演算値のスコアが高い順に100件を一覧表示させるという指示となる。そのほか、スコアを設定しておき、その設定スコア以上の件数を表示させることもできる。 【0074】(第三の実施形態の作用)文字変換手段が変換したテキスト文章を、テキスト文章送信手段がクライアントへ送信する。テキスト文章を受信したクライアントにおいて、文字変換手段による誤変換などを修正して修正テキスト文章とし、その修正テキスト文章を返信する。 【0075】返信によって送信された修正テキスト文章を、修正テキスト文章受信手段が受信する。そして、検索用文章ベクトル作成手段が、受信した修正テキスト文章を用いて検索用文章ベクトルを作成する。ここにおいて、文字変換手段によって変換したテキスト文章を修正して、より正確にすることができる。しかし、修正テキスト文章が文章として少々曖昧なテキストデータであっても、そのまま検索に用いることができるので、クライアントに対して厳密な修正は要求されない。 【0076】続いて、ベクトル演算手段がその検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算する。また、所定ベクトル演算値の設定手段にて設定した設定値をサーバへ送る。そして、ソート手段が演算されたベクトル演算値の順に、設定値の数だけ検索対象文書群を並べたソート結果をクライアントへ出力する。 【0077】(図4)図4に示す第四の実施形態は、サーバでは、文字変換手段が変換したテキスト文書群を修正して修正テキスト文書群とする修正入力手段を備え、検索対象文書ベクトル作成手段は、修正テキスト文書群を用いて検索対象文書ベクトル群を作成することとしている。 【0078】(第四の実施形態の作用)文字変換手段が変換したテキスト文書群は、修正入力手段が修正して修正テキスト文書群とする。そして、検索対象文書ベクトル作成手段が、修正された修正テキスト文書群を用いて検索対象文書ベクトルを作成する。ここにおいて、文字変換手段によって変換したテキスト文章群を修正して、より正確にすることができる。しかし、修正テキスト文章群が文章として少々曖昧なテキストデータによる文章群であっても、そのまま検索に用いることができるので、テキスト文書群に対する厳密な修正は要求されない。 【0079】(図5)図5に示す第五の実施形態におけるサーバには、クライアントの検索用文章入力手段から入力された検索用文章が、ステムベクトル作成手段に用いる言語と異なる場合に、ステムベクトル作成手段に用いる言語へ翻訳する翻訳手段を備えている。 【0080】(第五の実施形態の作用)翻訳手段は、クライアントが入力し、文字変換手段が変換したテキスト文章が検索用文書ベクトル作成手段に用いる言語と異なる場合に、当該言語を検索用文書ベクトル作成手段に用いる言語へ翻訳する。検索用文書ベクトル作成手段は、その翻訳文章と前記ステムベクトルとから検索用文書ベクトルを作成し、ベクトル演算手段がその検索用文書ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算する。そして、ソート手段が演算されたベクトル演算値の昇順あるいは降順に検索対象文書群を並べたソート結果をクライアントの出力手段へ出力する。 【0081】ここにおいて、検索用文章が他言語であっても、翻訳手段が翻訳可能な文章であれば、文字変換および翻訳が完全でなくても、そのまま検索に用いることができる。 (図6)図6に示す第六の実施形態は、図5に示した実施形態に加え、文字変換手段が変換したテキスト文章を、一旦クライアントへ出力し、クライアントに備えられた修正入力手段によって修正テキスト文章としてもらってから検索用文章ベクトルを作成することが特徴である。 【0082】(図7)図7は、図2または図4に示した実施形態において、「文字データからなる特許情報」において文字変換手段が変換すべき文字データの変換範囲を指定するための変換範囲指定手段と、その変換範囲指定手段が指定した変換範囲を検出する変換範囲検出手段とを備えたものである。前記の文字変換手段は、前記範囲検出手段が検出した変換範囲をテキストデータへ変換することとしている。 【0083】例えば、変換範囲として「特許請求の範囲」を指定する。すると、文字データからなる特許情報において、[]およびその[]に囲まれた「特許請求の範囲」の文字を、変換範囲検出手段が検出し、その領域のみを文字変換手段によってテキストデータへ変換するのである。検索対象文書群の全てを変換する場合と比べて、指定した変換範囲に対して、関連度の高い検索が行えるとともに、処理時間を短縮することができる。 【0084】(図8)図8は、アナログ情報の処理手順を示す。アナログ情報が紙媒体の文字データであれば、スキャナなどのデータ入力手段を介してイメージデータに変換し、それをOCRソフトなどをインストールしたコンピュータにて処理し、テキストデータとする。 【0085】アナログ情報が音声データであれば、その音声データをマイクなどのデータ入力手段にて取り込み、取り込んだアナログデータたる音声データをAD変換手段にてデジタル化し、更にそのデジタルデータを文字変換手段によってテキストデータとするのである。 (図9)続いて、図9に基づいて、第七の実施形態について説明する。前述してきた実施形態との相違点は、検索の結果を用いて、更に概念検索を連続して行う点である。なお、概念検索を連続して行う場合、二度目以後の概念検索は、「類似検索」と定義する。 【0086】検索対象文書群の一部には、イメージデータからなる特許情報(例えば、平成4年に出願公開されたもの)が含まれており、そのイメージデータからなる特許情報は、文字変換手段によってテキスト文書群へ変換され、検索対象文書ベクトル群が作成される。検索用文章による概念検索の結果は、図11に示すように、クライアントに対して一覧表示として出力される(ソート結果1)。そして、その一覧表示の書誌的事項から、クライアントが類似検索のための検索用文書における要約書または特許請求の範囲について、類似検索ボタンが用意されている。その類似検索ボタンをクリックすれば、サーバのリンク機能が検索用文章の入力を代行する。特定された検索用文書を用いて検索用文章ベクトル作成手段は、検索用文章ベクトルを作成する。ここで、特定された検索用文書とは、予め文字変換手段によって文字変換されたテキスト文書群の中の一つである。そして、検索対象文書ベクトル群とのベクトル演算を行い、ソート結果をクライアントへ出力させる(ソート結果2)。 【0087】(図10)図10に基づいて、第八の実施形態について説明する。図9に示した実施形態との相違点は、検索用文章を非テキスト入力している点、ソート結果1に基づく出力文章をコピーアンドペーストして再入力手段へ入力し、検索用文章2としている点である。 【0088】(図11)図11は、図9に示す実施形態におけるクライアントユーザの操作の一部を示したものである。まず、ソート結果として一覧表示出力がなされたとする。ここでは、特許情報文献の書誌的事項が一覧表示されている。この中で、「D欄」に、「要約 請求」とあるのは、それぞれが当該特許情報文献における要約書、特許請求の範囲を表しており、ポインタによって「請求」をクリックする。 【0089】すると、リンク機能によって、当該特許文献情報情報における特許請求の範囲が、サーバ上において、検索用文章を代行入力したとして処理される。このことにより、クライアントユーザの操作が省力化される。なお、図11の下半分には、類似検索を行うためにポインタにて特定された検索用文書の「特許請求の範囲」を示している。スキャナによって読み込まれたイメージデータをテキスト変換したままの検索用文章であり、「人」と変換すべきところを「入」、「センサ」と変換すべきところを「せンサ」、「回線」と変換すべきところを「目線」、といった不正確な変換がそのまま残っている。しかし、概念検索は、そういった曖昧さが残っていても、概ね正確な検索結果を出力することができる。 【0090】(図12)図12は、概念検索を行うための検索用文章を非テキストし、それを修正入力手段にて修正した後の入力画面として、サーバからクライアントへ提供される画面出力を示している。「検索項目」の右側には、プルダウン選択メニューとして、検索対象文書群の選択ボタン(10)を用意している。この検索項目とは、検索対象文書群たる特許情報書類のうちの一部分を表している。画面には、「要約」が選択された状態となっているが、特許請求の範囲、請求項1、発明の詳細な説明、あるいはそれらの組合せなどが選択できるようになっている。 【0091】「一覧表示数」の右側には、プルダウン選択メニューとして、ソート出力数の選択ボタン(11)を用意している。この一覧表示数とは、概念検索には「ヒット数」という考え方がなく、ベクトル演算値として全ての検索対象文書群がスコア化されるので、出力表示させる数を制限するために設けたものである。図12の画面には、「100」が選択された状態となっているが、これは、ベクトル演算値のスコアが高い順に100件を一覧表示させるという指示となる。 【0092】図12の中央には、文章を入力するボックスが用意されている。これは、検索用文章の入力欄(12)である。キーワードや分類、論理式などの入力と異なり、文章を入力する。ここでは、ある特許出願の要約の一部を非テキスト入力し、文字変換手段がテキスト文章へ変換し、そのテキスト文章を修正入力手段にて修正した後の入力例を示している。 【0093】検索用文章の修正入力を終えたら、図12の中央下部付近にある検索開始ボタン(13)をクリックして、概念検索を開始する。 (図13)図13は、図12において検索開始ボタン(13)をクリックした結果、サーバが機械翻訳および概念検索を終え、クライアントへその結果を出力した状態である。図中の左上には、ソート出力数の表示欄(20)があり、図12でのソート出力数の選択ボタン(11)に対応した件数たる「上位100件」を表示している。またその右隣には、当該100件のうちの最高スコアと最低スコアとを表示するスコア範囲表示欄(21)が出力される。ベクトル演算としては、内積を計算するのであるから、最高点は1.000であるが、点数を見やすくするために、100倍して表示することとしている。 【0094】このスコア範囲表示欄(21)を見て、希望する結果が得られなかったと判断する場合には、図13の下側に用意されている検索対象文書群の選択ボタン(10)、ソート出力数の選択ボタン(11)、検索用文章の入力欄(12)などに対して、再入力をして、検索開始ボタン(13)を再クリックする。一方、スコア範囲表示欄(21)を見て、希望する結果をおおむね得られたと判断した場合には、スコア範囲表示欄(21)の右隣にある一覧表示ボタン(22)をクリックする。すると、図14のような画面出力が提供される。 【0095】(図14)図14の上半分には、検索用文章が再現され、どのような検索結果なのかを表示している。一方、下半分には、日本語の検索対象文書の中からピックアップされた表示件数100件のうちの一部が一覧表示(30)として出力されている。一覧表示(30)は、一行欄にて、1件の出願公開書類における書誌的事項を示している。一覧表示(30)における左から2番目の欄は、スコア表示欄(31)となっている。このスコア表示欄(31)の最上に表示されるスコアは、図13におけるスコア範囲表示欄(21)のスコアと一致している。 【0096】さて、欄の最右欄は、書誌的事項にて特定される出願公開書類における「要約」または「特許請求の範囲」に記載された文章を、そのまま概念検索のための検索用文章として採用する「類似検索」をさせるためのリンクボタン(33)である。このリンクボタン(33)をクリックすると、サーバのリンク機能によって図12に示すような出力画面が提供される。すなわち、図4に示した「コピーアンドペースト」の作業をクライアントにて行わずに済むよう、サーバが提供しているのである。 【0097】なお、文献番号の欄にもリンクボタン(32)を備えており、そのリンクボタン(32)をクリックすると、当該文献の全文を出力させることができる。 (図15)図15は、特許の出願公開書類における要約によって類似検索を行わせた結果の出力画面の一部を示しており、その上半分には、検索用文章として採用された文章の出所が再現されて表示している。一方、下半分には、再び表示件数100件のうちの一部が一覧表示(30)として出力されている。 【0098】この場合、一覧表示(30)における最上行の左から2番目の欄は、最高スコア表示(34)として100.0が出力される。これは、図14の出力画面にて選択した類似検索において、完全一致する特許出願を選択してくるのであるから、満点となって当然である。なお、図15に示した欄の最右欄は、図14と同じリンクボタン(32,33)が用意されており、サーバのリンク機能によって更なる「類似検索」が行えるようになっている。 【0099】(翻訳手段)第五、第六の実施形態などで採用した翻訳手段について、英和翻訳機能または和英翻訳機能を備えているとして説明してきたが、本願発明にいう「翻訳手段、翻訳手順」は、あらゆる翻訳機能を含む趣旨である。 【0100】 【発明の効果】請求項1から請求項15記載の発明によれば、文字変換技術と概念検索とを組み合わせることによって文字変換技術の不完全さを概念検索にて補い、そのまま概念検索が行える概念検索装置を提供することができた。また、請求項16から請求項21記載の発明によれば、文字変換技術と概念検索とを組み合わせることによって文字変換技術の不完全さを概念検索にて補い、そのまま概念検索が行える概念検索方法を提供することができた。 【0101】また、請求項22から請求項24記載の発明によれば、文字変換技術と概念検索とを組み合わせることによって文字変換技術の不完全さを概念検索にて補い、そのまま概念検索が行える概念検索プログラムを提供することができた。
|
| 【出願人】 |
【識別番号】000155469 【氏名又は名称】株式会社野村総合研究所
|
| 【出願日】 |
平成12年9月29日(2000.9.29) |
| 【代理人】 |
【識別番号】100083769 【弁理士】 【氏名又は名称】北村 仁 (外1名)
|
| 【公開番号】 |
特開2002−108935(P2002−108935A) |
| 【公開日】 |
平成14年4月12日(2002.4.12) |
| 【出願番号】 |
特願2000−298184(P2000−298184) |
|