トップ :: G 物理学 :: G06 計算;計数




【発明の名称】 情報収集方法及び装置並びに情報収集プログラムを記録した記録媒体
【発明者】 【氏名】横路 誠司

【氏名】三浦 信幸

【氏名】高橋 克己

【氏名】島 健一

【氏名】鷲坂 光一

【要約】 【課題】本発明の課題は、WWWページの内容を解析し、収集が必要なリソースを予測及び学習することにより、内容予測型リソース収集を行うことにある。

【解決手段】本発明は、ネットワーク上に分散しているリソースを内容毎に分類し、必要なリソースのみを、選択的かつ自動的に収集する情報収集において、既に収集したリソースの集合を既収集群とし、未収集の集合を未収集群としたときに、既収集群の内容を形態素解析することにより、未収集群の内容を予測し必要なリソースのみを自動的に収集することを特徴とする。
【特許請求の範囲】
【請求項1】 ネットワーク上に分散しているリソースを内容毎に分類し、必要なリソースのみを、選択的かつ自動的に収集することを特徴とする情報収集方法。
【請求項2】 請求項1記載の情報収集方法において、既に収集したリソースの集合を既収集群とし、未収集の集合を未収集群としたときに、既収集群の内容を形態素解析することにより、未収集群の内容を予測し必要なリソースのみを自動的に収集することを特徴とする情報収集方法。
【請求項3】 請求項2記載の情報収集方法において、既収集群の内容からパターンマッチによる情報抽出を行うことで、未収集群の内容を予測し必要なリソースのみを自動的に収集することを特徴とする情報収集方法。
【請求項4】 既に収集したWWWページ中に含まれるアンカーラベルの位置情報を抽出し、WWWのリソースを選択的に収集することを特徴とする情報収集方法。
【請求項5】 ネットワーク上に分散しているリソースを内容毎に分類する分類手段と、この分類手段による分類から必要なリソースのみを、選択的かつ自動的に収集する収集手段とを具備することを特徴とする情報収集装置。
【請求項6】 請求項1記載の情報収集装置において、既に収集したリソースの集合である既収集群の内容を形態素解析する解析手段と、この解析手段の解析から未収集の集合である未収集群の内容を予測し必要なリソースのみを自動的に収集する収集手段とを具備することを特徴とする情報収集装置。
【請求項7】 請求項2記載の情報収集装置において、既収集群の内容からパターンマッチによる情報抽出を行う抽出手段と、この抽出手段で抽出した情報から未収集群の内容を予測し必要なリソースのみを自動的に収集する収集手段とを具備することを特徴とする情報収集装置。
【請求項8】 既に収集したWWWページ中に含まれるアンカーラベルの位置情報を抽出する抽出手段と、この抽出手段で抽出した位置情報からWWWのリソースを選択的に収集する収集手段とを具備することを特徴とする情報収集装置。
【請求項9】 ネットワーク上に分散しているリソースを内容毎に分類する分類手順、この分類手順による分類から必要なリソースのみを、選択的かつ自動的に収集する収集手順を実行させるための情報収集プログラムを記録した記録媒体。
【請求項10】 請求項1記載の情報収集プログラムを記録した記録媒体において、既に収集したリソースの集合である既収集群の内容を形態素解析する解析手順、この解析手順の解析から未収集の集合である未収集群の内容を予測し必要なリソースのみを自動的に収集する収集手順を実行させるための情報収集プログラムを記録した記録媒体。
【請求項11】 請求項2記載の情報収集プログラムを記録した記録媒体において、既収集群の内容からパターンマッチによる情報抽出を行う抽出手順、この抽出手順で抽出した情報から未収集群の内容を予測し必要なリソースのみを自動的に収集する収集手順を実行させるための情報収集プログラムを記録した記録媒体。
【請求項12】 既に収集したWWWページ中に含まれるアンカーラベルの位置情報を抽出する抽出手順、この抽出手順で抽出した位置情報からWWWのリソースを選択的に収集する収集手順を実行させるための情報収集プログラムを記録した記録媒体。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は、通信においてデータを選択的かつ自動的に収集する内容予測型情報収集方法及び装置並びに情報収集プログラムを記録した記録媒体に関する。
【0002】
【従来の技術】インターネット上に膨大にあるリソースの発見および自動収集を行う技術として、WWW(World Wide Web)ロボット技術が有効に働く。WWWロボット技術は主として、情報検索システムのリソース収集において使用され、既に実用化され、その有用性が認められている。また、WWWロボットの評価ポイントは、収集の速度、リソースを提供するサーバに対する負荷の低さ、収集のマナー(リソース提供者が収集を希望するもののみを収集する。)である。収集速度が速く、情報提供サーバに対する負荷が低く、マナーの良いWWWロボットが良いWWWロボットである。
【0003】上記にも示したように、WWWロボットは主に情報検索システムで使用される。現在、動作している情報検索システムの多くが、検索対象として、インターネット上に提供される全ての分野のリソースを用いている。
【0004】図4は従来のWWWロボットを示す構成説明図である。すなわち、インターネット1と通信を行うネットワーク通信部2に収集候補選択部3からリソース収集要求があると、前記ネットワーク通信部2からデータ保存部4にデータが供給されデータの保存が行われる。前記データ保存部4からハイパーリンク抽出部5にデータが供給されハイパーリンクの抽出が行われる。このハイパーリンク抽出部5で抽出されたハイパーリンクはハイパーリンク評価部6に供給されハイパーリンクの評価が行われ、前記ハイパーリンク評価部6からのハイパーリンクの評価データは収集候補選択部3に供給される。前記ネットワーク通信部2からハイパーリンクDB(Database)管理部7に変更要求がなされ、前記ハイパーリンク抽出部5からハイパーリンクDB管理部7に追加要求がなされ、前記収集候補選択部3からハイパーリンクDB管理部7に変更要求がなされる。
【0005】しかし従来のロボットは、図4に示すように、ハイパーリンクについては評価を行い必要なリソースとそうでないものの取捨選択を行うが、内容については評価を行っていない。
【0006】従って、検索対象を限定した情報検索システムのリソース収集に、従来のロボットを使用すると、不要なリソースも収集してしまうという欠点がある。更に、不要なリソースの収集は、収集速度の低下を招くだけではなく、ネットワーク、リソースを提供する計算機及び収集を行う計算機の負荷を助長する。
【0007】
【発明が解決しようとする課題】従来のWWWロボットには上記のような欠点があった。本発明では、上記の欠点を解決するために、以下の3点を解決する。
1.従来のWWWロボットに加え、WWWページの内容の解析を行い、実際の収集を行うこと無く、収集が必要と思われるリソースの予測が可能となる情報収集方法及び装置並びに情報収集プログラムを記録した記録媒体を与えること。
【0008】2.従来のWWWロボットと比較して、必要なリソースを学習し、再収集の際には優先的に必要なリソースを収集することが可能な情報収集方法及び装置並びに情報収集プログラムを記録した記録媒体を与えること。
【0009】3.従来のWWWロボットと比較して、必要なリソースの収集に要する時間が短い情報収集方法及び装置並びに情報収集プログラムを記録した記録媒体を与えること。
【0010】
【課題を解決するための手段】上記課題を達成するために本発明の情報収集は、ネットワーク上に分散しているリソースを内容毎に分類し、必要なリソースのみを、選択的かつ自動的に収集することを特徴とする。
【0011】また本発明は、上記情報収集において、既に収集したリソースの集合を既収集群とし、未収集の集合を未収集群としたときに、既収集群の内容を形態素解析することにより、未収集群の内容を予測し必要なリソースのみを自動的に収集することを特徴とする。
【0012】また本発明は、上記情報収集において、既収集群の内容からパターンマッチによる情報抽出を行うことで、未収集群の内容を予測し必要なリソースのみを自動的に収集することを特徴とする。
【0013】また本発明は、既に収集したWWWページ中に含まれるアンカーラベルの位置情報を抽出し、WWWのリソースを選択的に収集することを特徴とする。本発明では、WWWページの内容を解析し、収集が必要なリソースを予測および学習することにより、内容予測型リソース収集を行うことが出来る。その結果、特定の分野に関するWWWリソースのみを収集することが出来る。また、必要なリソース収集速度は従来のWWWロボットと比較して高速にすることが出来る。
【0014】
【発明の実施の形態】以下図面を参照して本発明の実施の形態例を詳細に説明する。図1は本発明の一実施形態例を示す構成説明図、図2は図1の内容解析部の一例を示す構成説明図、図3は図1の内容予測および学習部の一例を示す構成説明図である。図において、図4と同一部分は同一符号を付してその説明を省略する。
【0015】すなわち、図1に示すように、データ保存部4に保存されたデータのWWW文書はハイパーリンク抽出部5およびハイパーリンク評価部6を介して内容解析部11に供給される。
【0016】前記内容解析部11は図2に示すように、WWW文書21が形態素解析処理部22、パターンマッチ情報抽出処理部23およびHTML(Hyper Text Markup Language)解析処理部24にそれぞれ供給される。内容解析部11の各処理部の機能の概要は以下の通りである。
【0017】段階1[形態素解析処理部22]
WWW文書21を形態素解析し、名詞、固有名詞および未定義語を抽出し、文書毎にこれらの単語のリストを生成して内容予測および学習部12に供給する。
【0018】段階2[パターンマッチ情報抽出処理部23]
WWW文書21から特定の分野に特徴的なパターン(例:電話番号なら0x−xxxx−xxxx等)を抽出し、文書毎に一覧を生成して内容予測および学習部12に供給する。
【0019】段階3[HTML解析処理部(HTMLパーサ)24]
WWW文書21から、HTMLタグを抽出し(アンカーの抽出)、ハイパーリンクを示すもののみの一覧を生成して内容予測および学習部12に供給する。
【0020】図3に示すように、前記内容予測および学習部12の各処理部の機能の概要は以下の通りである。
段階1[抽出単語重み付け処理部31]
内容解析部11の形態素解析処理部22により抽出された単語と特定分野辞書35を比較することにより、単語に特定分野への関連の度合(重み)を与える。それらの重みを総合して、重みによる優先順位再計算部34へ出力する。
【0021】段階2[ハイパーリンク重み付け処理部32]
HTML解析処理部(HTMLパーサ)24より抽出されたハイパーリンク(アンカー)中の文字列と特定分野辞書35を比較することにより、ハイパーリンク中のURL(Uniform Resource Locator)に対する重み付けを行う。この未収集のWWW文書に対する重み(予測用重み)を重みによる優先順位再計算部34へ出力する。
【0022】段階3[パターン評価および重み付け処理部33]
パターンマッチ情報抽出処理部23より抽出されたパターンをその種類毎に評価し、パターンに応じた重みをWWW文書に与える。この収集されたWWW文書に対する重み(学習用重み)は、重みによる優先順位再計算部34へ出力される。
【0023】段階4[重みによる優先順位再計算部34]
各重み付け処理部31、32、33から出力された重みをもとに、収集済および未収集のWWWページに対して、収集の優先順位を計算する。優先順位は収集が行われるたびに動的に変更され、その結果は収集優先順位DB36へ追加、変更されて保存される。WWWロボットはこの優先順位が大きいものを早く収集する。
【0024】前記内容予測および学習部12からハイパーリンクDB管理部7に変更要求がなされる。本発明には次のような発明が含まれる。
【0025】1、ネットワーク上に分散しているリソースを内容毎に分類し、必要なリソースのみを、選択的かつ自動的に収集することを特徴とする情報収集方法。
2、上記1の情報収集方法において、既に収集したリソースの集合を既収集群とし、未収集の集合を未収集群としたときに、既収集群の内容を形態素解析することにより、未収集群の内容を予測し必要なリソースのみを自動的に収集することを特徴とする情報収集方法。
【0026】3、上記2の情報収集方法において、既収集群の内容からパターンマッチによる情報抽出を行うことで、未収集群の内容を予測し必要なリソースのみを自動的に収集することを特徴とする情報収集方法。
【0027】4、既に収集したWWWページ中に含まれるアンカーラベルの位置情報を抽出し、WWWのリソースを選択的に収集することを特徴とする情報収集方法。
5、ネットワーク上に分散しているリソースを内容毎に分類する分類手段と、この分類手段による分類から必要なリソースのみを、選択的かつ自動的に収集する収集手段とを具備することを特徴とする情報収集装置。
【0028】6、上記1の情報収集装置において、既に収集したリソースの集合である既収集群の内容を形態素解析する解析手段と、この解析手段の解析から未収集の集合である未収集群の内容を予測し必要なリソースのみを自動的に収集する収集手段とを具備することを特徴とする情報収集装置。
【0029】7、上記2の情報収集装置において、既収集群の内容からパターンマッチによる情報抽出を行う抽出手段と、この抽出手段で抽出した情報から未収集群の内容を予測し必要なリソースのみを自動的に収集する収集手段とを具備することを特徴とする情報収集装置。
【0030】8、既に収集したWWWページ中に含まれるアンカーラベルの位置情報を抽出する抽出手段と、この抽出手段で抽出した位置情報からWWWのリソースを選択的に収集する収集手段とを具備することを特徴とする情報収集装置。
【0031】9、ネットワーク上に分散しているリソースを内容毎に分類する分類手順、この分類手順による分類から必要なリソースのみを、選択的かつ自動的に収集する収集手順を実行させるための情報収集プログラムを記録した記録媒体。
【0032】10、上記1の情報収集プログラムを記録した記録媒体において、既に収集したリソースの集合である既収集群の内容を形態素解析する解析手順、この解析手順の解析から未収集の集合である未収集群の内容を予測し必要なリソースのみを自動的に収集する収集手順を実行させるための情報収集プログラムを記録した記録媒体。
【0033】11、上記2の情報収集プログラムを記録した記録媒体において、既収集群の内容からパターンマッチによる情報抽出を行う抽出手順、この抽出手順で抽出した情報から未収集群の内容を予測し必要なリソースのみを自動的に収集する収集手順を実行させるための情報収集プログラムを記録した記録媒体。
【0034】12、既に収集したWWWページ中に含まれるアンカーラベルの位置情報を抽出する抽出手順、この抽出手順で抽出した位置情報からWWWのリソースを選択的に収集する収集手順を実行させるための情報収集プログラムを記録した記録媒体。
【0035】
【発明の効果】以上述べたように本発明によれば次のような効果がある。
1.本発明のWWWロボットは、特殊な場合として従来のWWWロボットを包含する。すなわち、内容解析部および内容予測、学習部の機能に無効とすると、従来のWWWロボットになる。
【0036】2.本発明のWWWロボットは、従来のWWWロボットと比較してネットワークおよびWWWロボットを動作させる計算機への負荷は同等である。その根拠は、ネットワークおよび情報提供サーバに対する負荷分散には従来のWWWロボットのものを使用するからであり、また、内容解析および内容予測、学習は、WWWロボットの情報提供サーバとの通信待ち時間に行われるために、WWWロボットの動作への影響は少ないからである。
【0037】3.本発明のWWWロボットは、従来のWWWロボットと比較して、特定分野に属するリソースの収集速度が高速である。その根拠は、従来のWWWロボットが内容を考慮せずにリソース収集を行うのに対し、本発明のWWWロボットは、収集前にリソースの内容を予測および学習し、有用なものを優先的に収集するためである。
【出願人】 【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
【出願日】 平成10年(1998)5月18日
【代理人】 【弁理士】
【氏名又は名称】鈴江 武彦 (外2名)
【公開番号】 特開平11−327995
【公開日】 平成11年(1999)11月30日
【出願番号】 特願平10−135195