トップ :: G 物理学 :: G06 計算;計数




【発明の名称】 地名情報抽出装置、その抽出方法及び抽出プログラムを記録した記録媒体、地図情報検索装置
【発明者】 【氏名】福島 俊一

【氏名】喜田 弘司

【氏名】石黒 義英

【要約】 【課題】テキスト中から地名表記を検出するだけでなく、検出した地名表記の種別も判定できる地名情報抽出装置、地名情報抽出方法、および、地名情報抽出プログラムを記録した記録媒体を提供する。

【解決手段】地名表記検出手段3は、入力されたテキスト中の地名表記を検出する。地名種別判定手段5は、地名表記の種別を判定する。
【特許請求の範囲】
【請求項1】 テキスト中に出現する地名表記の、該テキスト中での意味的な役割を表す地名種別を、該テキストを参照して判定する地名種別判定手段を有することを特徴とする地名情報抽出装置。
【請求項2】 テキスト中に出現する地名表記と、該地名表記の該テキスト中での出現位置を検出する地名表記検出手段と、前記テキストの前記出現位置の前後を解析し、前記地名表記の該テキスト中での意味的な役割を表す地名種別を判定する地名種別判定手段と、を有することを特徴とする地名情報抽出装置。
【請求項3】 テキスト中に出現する地名表記が、該テキスト中で果たす意味的な役割を表す地名種別を判定可能な手がかり表記を前記テキスト中から検出し、前記地名種別の判定を行う地名種別判定手段と、前記手がかり表記の前後のテキストを解析して、前記テキスト中から地名表記を検出する地名表記検出手段と、を有することを特徴とする地名情報抽出装置。
【請求項4】 ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別の判定を、該ノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方から前記地名種別を判定可能な手がかり表記を検出して行う地名種別判定手段を有することを特徴とする地名情報抽出装置。
【請求項5】 ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を、該ノードページ中のテキストのテキストタイプを基に判定する地名種別判定手段を有することを特徴とする地名情報抽出装置。
【請求項6】 ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を、該ノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方から前記地名種別を判定可能な手がかり表記を検出して判定する第1の地名種別判定手段と、前記地名種別を、前記地名表記の出現するノードページのテキストのテキストタイプを基にして判定する第2の地名種別判定手段と、前記第1の地名種別判定手段と前記第2の地名種別判定手段の判定結果を基に最終的な地名種別を判定する最終種別判定手段と、を有することを特徴とする地名情報抽出装置。
【請求項7】 ハイパーテキストを構成するノードページに出現する地名表記と、該地名表記の該ノードページ上での出現位置を検出する地名表記検出手段と、前記地名表記の出現したノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方を参照して、前記地名表記のノードページ中での意味的な役割を表す地名種別を判定可能な手がかり表記を検出し、該手がかり表記から前記地名表記の種別を判定する地名種別判定手段と、を有することを特徴とする地名情報抽出装置。
【請求項8】 ハイパーテキストを構成するノードページに出現する地名表記と、該地名表記の該ノードページ上での出現位置を検出する地名表記検出手段と、前記地名表記の出現したノードページのテキストのテキストタイプを判定して、前記地名表記の前記ノードページ中での意味的な役割を表す地名種別を判定する地名種別判定手段と、を有することを特徴とする地名情報抽出装置。
【請求項9】 ハイパーテキストを構成するノードページに出現する地名表記と、該地名表記の該ノードページ上での出現位置を検出する地名表記検出手段と、前記地名表記の前記ノードページ中での意味的な役割を表す地名種別を、前記ノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方から前記地名種別を判定可能な手がかり表記を検出して判定する第1の地名種別判定手段と、前記地名種別を、前記地名表記の出現するノードページのテキストのテキストタイプを基にして判定する第2の地名種別判定手段と、前記第1の地名種別判定手段と前記第2の地名種別判定手段の判定結果を基に最終的な地名種別を判定する最終種別判定手段と、を有することを特徴とする地名情報抽出装置。
【請求項10】 ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を判定可能な手がかり表記を検出し、地名種別を判定する地名種別判定手段と、前記手がかり表記が出現したノードページのリンク先若しくはリンク元から、地名表記を検出する地名表記検出手段と、を有することを特徴とする地名情報抽出装置。
【請求項11】 ハイパーテキストを構成するノードページのテキストタイプを判定し、地名表記のノードページ中での意味的な役割を表す地名種別を判定する地名種別判定手段と、前記ノードページ中から地名表記を検出する地名表記検出手段と、を有することを特徴とする地名情報抽出装置。
【請求項12】 ハイパーテキストを構成するノードページのテキスト中から地名表記を検出する地名表記検出手段と、前記地名表記の検出されたノードページを含む近傍ノードページ群が特定のハイパーテキスト構造に該当するかを調べるサイト構造解析手段と、前記特定ハイパーテキスト構造に該当したノードページ群に含まれる前記地名表記について、地名表記のノードページ中での意味的な役割を表す地名種別を決定する地名種別判定手段と、を有することを特徴とする地名情報抽出装置。
【請求項13】 テキスト中に出現する地名表記の、該テキスト中での意味的な役割を表す地名種別を、該テキストを参照して判定する地名種別判定工程を有することを特徴とする地名情報抽出方法。
【請求項14】 テキスト中に出現する地名表記と、該地名表記の該テキスト中での出現位置を検出する地名表記検出工程と、前記テキストの前記出現位置の前後を解析し、前記地名表記の該テキスト中での意味的な役割を表す地名種別を判定する地名種別判定工程と、を有することを特徴とする地名情報抽出方法。
【請求項15】 テキスト中に出現する地名表記が、該テキスト中で果たす意味的な役割を表す地名種別を判定可能な手がかり表記を前記テキスト中から検出し、前記地名種別の判定を行う地名種別判定工程と、前記手がかり表記の前後を解析して、前記テキスト中から地名表記を検出する地名表記検出工程と、を有することを特徴とする地名情報抽出方法。
【請求項16】 ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別の判定を、該ノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方から前記地名種別を判定可能な手がかり表記を検出して行う地名種別判定工程を有することを特徴とする地名情報抽出方法。
【請求項17】 ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を、該ノードページ中のテキストのテキストタイプを基に判定する地名種別判定工程を有することを特徴とする地名情報抽出方法。
【請求項18】 ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を、該ノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方から前記地名種別を判定可能な手がかり表記を検出して判定する第1の地名種別判定工程と、前記地名種別を、前記地名表記の出現するノードページのテキストのテキストタイプを基にして判定する第2の地名種別判定工程と、前記第1の地名種別判定工程と前記第2の地名種別判定工程の判定結果を基に最終的な地名種別を判定する最終種別判定工程と、を有することを特徴とする地名情報抽出方法。
【請求項19】 ハイパーテキストを構成するノードページに出現する地名表記と、該地名表記の該ノードページ上での出現位置を検出する地名表記検出工程と、前記地名表記の出現したノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方を参照して、前記地名表記のノードページ中での意味的な役割を表す地名種別を判定可能な手がかり表記を検出し、該手がかり表記から前記地名表記の種別を判定する地名種別判定工程と、を有することを特徴とする地名情報抽出方法。
【請求項20】 ハイパーテキストを構成するノードページに出現する地名表記と、該地名表記の該ノードページ上での出現位置を検出する地名表記検出工程と、前記地名表記の出現したノードページのテキストのテキストタイプを判定して、前記地名表記の前記ノードページ中での意味的な役割を表す地名種別を判定する地名種別判定工程と、を有することを特徴とする地名情報抽出方法。
【請求項21】 ハイパーテキストを構成するノードページに出現する地名表記と、該地名表記の該ノードページ上での出現位置を検出する地名表記検出工程と、前記地名表記の前記ノードページ中での意味的な役割を表す地名種別を、前記ノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方から前記地名種別を判定可能な手がかり表記を検出して判定する第1の地名種別判定工程と、前記地名種別を、前記地名表記の出現するノードページのテキストのテキストタイプを基にして判定する第2の地名種別判定工程と、前記第1の地名種別判定工程と前記第2の地名種別判定工程の判定結果を基に最終的な地名種別を判定する最終種別判定工程と、を有することを特徴とする地名情報抽出方法。
【請求項22】 ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を判定可能な手がかり表記を検出し、地名種別を判定する地名種別判定工程と、前記手がかり表記が出現したノードページのリンク先若しくはリンク元から、地名表記を検出する地名表記検出工程と、を有することを特徴とする地名情報抽出方法。
【請求項23】 ハイパーテキストを構成するノードページのテキストタイプを判定し、地名表記のノードページ中での意味的な役割を表す地名種別を判定する地名種別判定工程と、前記ノードページ中から地名表記を検出する地名表記検出工程と、を有することを特徴とする地名情報抽出方法。
【請求項24】 ハイパーテキストを構成するノードページのテキスト中から地名表記を検出する地名表記検出工程と、前記地名表記の検出されたノードページを含む近傍ノードページ群が特定のハイパーテキスト構造に該当するかを調べるサイト構造解析工程と、前記特定ハイパーテキスト構造に該当したノードページ群に含まれる前記地名表記について、該地名表記のノードページ中での意味的な役割を表す地名種別を決定する地名種別判定工程と、を有することを特徴とする地名情報抽出方法。
【請求項25】 テキスト中に出現する地名表記の、該テキスト中での意味的な役割を表す地名種別を、該テキストを参照して判定する地名種別判定処理を実行するためのプログラムを記録したことを特徴とする地名情報抽出プログラムを記録した記録媒体。
【請求項26】 テキスト中に出現する地名表記と、該地名表記の該テキスト中での出現位置を検出する地名表記検出処理と、前記テキストの前記出現位置の前後を解析し、前記地名表記の該テキスト中での意味的な役割を表す地名種別を判定する地名種別判定処理と、を実行するためのプログラムを記録したことを特徴とする地名情報抽出プログラムを記録した記録媒体。
【請求項27】 テキスト中に出現する地名表記が、該テキスト中で果たす意味的な役割を表す地名種別を判定可能な手がかり表記を前記テキスト中から検出し、前記地名種別の判定を行う地名種別判定処理と、前記手がかり表記の前後を解析して、前記テキスト中から地名表記を検出する地名表記検出処理と、を実行するためのプログラムを記録したことを特徴とする地名情報抽出プログラムを記録した記録媒体。
【請求項28】 ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別の判定を、該ノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方から前記地名種別を判定可能な手がかり表記を検出して行う地名種別判定処理を実行するためのプログラムを記録したことを特徴とする地名情報抽出プログラムを記録した記録媒体。
【請求項29】 ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を、該ノードページ中のテキストのテキストタイプを基に判定する地名種別判定処理を実行するためのプログラムを記録したことを特徴とする地名情報抽出プログラムを記録した記録媒体。
【請求項30】 ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を、該ノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方から前記地名種別を判定可能な手がかり表記を検出して判定する第1の地名種別判定処理と、前記地名種別を、前記地名表記の出現するノードページのテキストのテキストタイプを基にして判定する第2の地名種別判定処理と、前記第1の地名種別判定処理と前記第2の地名種別判定処理の判定結果を基に最終的な地名種別を判定する最終種別判定処理と、を実行するためのプログラムを記録したことを特徴とする地名情報抽出プログラムを記録した記録媒体。
【請求項31】 ハイパーテキストを構成するノードページに出現する地名表記と、該地名表記の該ノードページ上での出現位置を検出する地名表記検出処理と、前記地名表記の出現したノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方を参照して、前記地名表記のノードページ中での意味的な役割を表す地名種別を判定可能な手がかり表記を検出し、該手がかり表記から前記地名表記の種別を判定する地名種別判定処理と、を実行するためのプログラムを記録したことを特徴とする地名情報抽出プログラムを記録した記録媒体。
【請求項32】 ハイパーテキストを構成するノードページに出現する地名表記と、該地名表記の該ノードページ上での出現位置を検出する地名表記検出処理と、前記地名表記の出現したノードページのテキストのテキストタイプを判定して、前記地名表記の前記ノードページ中での意味的な役割を表す地名種別を判定する地名種別判定処理と、を実行するためのプログラムを記録したことを特徴とする地名情報抽出プログラムを記録した記録媒体。
【請求項33】 ハイパーテキストを構成するノードページに出現する地名表記と、該地名表記の該ノードページ上での出現位置を検出する地名表記検出処理と、前記地名表記の前記ノードページ中での意味的な役割を表す地名種別を、前記ノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方から前記地名種別を判定可能な手がかり表記を検出して判定する第1の地名種別判定処理と、前記地名種別を、前記地名表記の出現するノードページのテキストのテキストタイプを基にして判定する第2の地名種別判定処理と、前記第1の地名種別判定処理と前記第2の地名種別判定処理の判定結果を基に最終的な地名種別を判定する最終種別判定処理と、を実行するためのプログラムを記録したことを特徴とする地名情報抽出プログラムを記録した記録媒体。
【請求項34】 ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を判定可能な手がかり表記を検出し、地名種別を判定する地名種別判定処理と、前記手がかり表記が出現したノードページのリンク先若しくはリンク元から、地名表記を検出する地名表記検出処理と、を実行するためのプログラムを記録したことを特徴とする地名情報抽出プログラムを記録した記録媒体。
【請求項35】 ハイパーテキストを構成するノードページのテキストタイプを判定し、地名表記のノードページ中での意味的な役割を表す地名種別を判定する地名種別判定処理と、前記ノードページ中から地名表記を検出する地名表記検出処理と、を実行するためのプログラムを記録したことを特徴とする地名情報抽出プログラムを記録した記録媒体。
【請求項36】 ハイパーテキストを構成するノードページのテキスト中から地名表記を検出する地名表記検出処理と、前記地名表記の検出されたノードページを含む近傍ノードページ群が特定のハイパーテキスト構造に該当するかを調べるサイト構造解析処理と、前記特定ハイパーテキスト構造に該当したノードページ群に含まれる前記地名表記について、地名表記のノードページ中での意味的な役割を表す地名種別を決定する地名種別判定処理と、を実行するためのプログラムを記録したことを特徴とする地名情報抽出プログラムを記録した記録媒体。
【請求項37】 請求項4から12の何れか一項に記載の地名情報抽出装置と、前記地名情報抽出装置によってハイパーテキストデータベースから検出された地名表記とその種別に関する情報を記録する記憶手段と、操作者の所望とする地名表記、及びその種別情報を入力する操作入力手段と、地図情報を表示する表示手段と、前記操作入力手段により入力された地名表記をキーとして、地図データベースを検索し、該地名表記の周辺地図データを読み出し、前記操作入力手段により入力された地名表記とその種別情報とをキーとして、前記記憶手段を検索し、前記表示手段に、2つの検索結果を重ね合わせた表示を表示させる検索手段と、を有することを特徴とする地図情報検索装置。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は、テキスト中に出現する地名情報を抽出する地名情報抽出装置、地名情報抽出方法、地名情報抽出プログラムを記録した記録媒体、地図情報抽出装置に関する。
【0002】
【従来の技術】従来の地名情報抽出システムでは、テキスト中に出現する地名表記を検出することが目標であった。そのための最も基本的な方式は、地名表記を格納した辞書を用意し、テキストと辞書とを照合することで、テキスト中に出現した地名表記を検出するものである。例えば、辞書のなかに「横浜市」「千葉県」などの地名表記を登録しておき、テキスト中に「横浜市」や「千葉県」が出現すれば、それを地名として検出する。
【0003】しかし、単純に辞書と照合するだけでは、地名を判別できないことがある。例えば、テキスト中に「横浜」という表記が出現した場合、これは地名かもしれないが、組織名(「横浜ベイスターズ」というプロ野球チーム)であるかもしれない。また、「千葉」という表記が出現した場合も同様に、地名かもしれないし、人名かもしれない。
【0004】このような地名表記の検出における曖昧性を解消するための手法として、従来、以下のような2通りの方法が考えられている。
【0005】第一の手法は、地名の可能性を有する表記の前後あるいは同一テキスト内に出現する共起語を参照して、曖昧性を解消する方法である。例えば、「千葉」という地名候補表記の直後に「選手」という共起語が出現すれば、この「千葉」は人名(地名ではない)と判定できる。逆に、「千葉」の直後に「県」があれば地名である。共起語の情報は、地名表記の辞書に記述しておけばよい。図2は、共起語の情報を付与した地名表記辞書の例である。図2の地名表記辞書には、単語表記25、その品詞分類26、品詞分類に曖昧性をもつものについては共起語リスト27が格納されている。
【0006】第二の手法は、地名候補表記を包含するような表記が、同一テキスト内に出現しているかを調べて、その曖昧性を解消する方法である。例えば、「横浜」という表記には地名と組織名の曖昧性があるが、同一テキスト内に「横浜ベイスターズ」という表記が出現しているならば、「横浜」は「横浜ベイスターズ」の省略表記、すなわち、組織名である可能性が高いと判断できる。
【0007】これらの手法は、「固有表現抽出システムの開発とIREX−NEにおける評価」(竹元義美・福島俊一・山田洋志・奥村明俊・池田崇博、IREXワークショップ予稿集、1999年9月)、あるいは、特開平06−052221号公報「固有名詞の自動抽出方式」、特開平05−181900号公報「固有名詞処理装置」などに記載されている。
【0008】
【発明が解決しようとする課題】以上で述べたように、従来の地名情報抽出システムでは、テキスト中に出現する地名表記を高精度に検出することを目標としてきた。しかし、検出・抽出した地名情報をより有効に活用するためには、単に地名表記を検出するだけでなく、地名表記の種別も判定できることが望まれる。ここでは、地名表記のテキスト中での意味的な役割を地名種別と呼ぶものとする。地名表記の種別としては、例えば、所在地(会社や個人宅の場所)、開催地(イベントや事件の場所)、経過地(移動の起点・終点・経由点)、話題地(ガイドや解説・感想などの対象となっている場所)などが考えられる。必要であれば、所在地をさらに会社所在地・学校所在地などのように細分化することも考えられる。
【0009】また、今日、インターネット上のWWW(World Wide Web)には、膨大な量の情報が発信されている。したがって、WWWのようなハイパーテキストデータベースを対象として、地名表記とその種別に関する情報を高精度に抽出できれば、インターネットを地名情報の有効な情報源として活用できる。
【0010】本発明は、テキスト中から地名表記を検出するだけでなく、検出した地名表記の種別も判定できる地名情報抽出装置、地名情報抽出方法、および、地名情報抽出プログラムを記録した記録媒体を提供することを目的とする。さらに、WWWのようなハイパーテキストデータベースから高精度に地名表記とその種別を抽出可能な地名情報抽出装置、地名情報抽出方法、および、地名情報抽出プログラムを記録した記録媒体を提供することを目的とする。
【0011】
【課題を解決するための手段】係る目的を達成するために、請求項1記載の発明は、テキスト中に出現する地名表記の、該テキスト中での意味的な役割を表す地名種別を、該テキストを参照して判定する地名種別判定手段を有することを特徴とする。
【0012】請求項2記載の発明は、テキスト中に出現する地名表記と、該地名表記の該テキスト中での出現位置を検出する地名表記検出手段と、テキストの出現位置の前後を解析し、地名表記の該テキスト中での意味的な役割を表す地名種別を判定する地名種別判定手段と、を有することを特徴とする。
【0013】請求項3記載の発明は、テキスト中に出現する地名表記が、該テキスト中で果たす意味的な役割を表す地名種別を判定可能な手がかり表記をテキスト中から検出し、地名種別の判定を行う地名種別判定手段と、手がかり表記の前後のテキストを解析して、テキスト中から地名表記を検出する地名表記検出手段と、を有することを特徴とする。
【0014】請求項4記載の発明は、ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別の判定を、該ノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方から地名種別を判定可能な手がかり表記を検出して行う地名種別判定手段を有することを特徴とする。
【0015】請求項5記載の発明は、ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を、該ノードページ中のテキストのテキストタイプを基に判定する地名種別判定手段を有することを特徴とする。
【0016】請求項6記載の発明は、ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を、該ノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方から地名種別を判定可能な手がかり表記を検出して判定する第1の地名種別判定手段と、地名種別を、地名表記の出現するノードページのテキストのテキストタイプを基にして判定する第2の地名種別判定手段と、第1の地名種別判定手段と第2の地名種別判定手段の判定結果を基に最終的な地名種別を判定する最終種別判定手段と、を有することを特徴とする。
【0017】請求項7記載の発明は、ハイパーテキストを構成するノードページに出現する地名表記と、該地名表記の該ノードページ上での出現位置を検出する地名表記検出手段と、地名表記の出現したノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方を参照して、地名表記のノードページ中での意味的な役割を表す地名種別を判定可能な手がかり表記を検出し、該手がかり表記から地名表記の種別を判定する地名種別判定手段と、を有することを特徴とする。
【0018】請求項8記載の発明は、ハイパーテキストを構成するノードページに出現する地名表記と、該地名表記の該ノードページ上での出現位置を検出する地名表記検出手段と、地名表記の出現したノードページのテキストのテキストタイプを判定して、地名表記のノードページ中での意味的な役割を表す地名種別を判定する地名種別判定手段と、を有することを特徴とする。
【0019】請求項9記載の発明は、ハイパーテキストを構成するノードページに出現する地名表記と、該地名表記の該ノードページ上での出現位置を検出する地名表記検出手段と、地名表記のノードページ中での意味的な役割を表す地名種別を、ノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方から地名種別を判定可能な手がかり表記を検出して判定する第1の地名種別判定手段と、地名種別を、地名表記の出現するノードページのテキストのテキストタイプを基にして判定する第2の地名種別判定手段と、第1の地名種別判定手段と第2の地名種別判定手段の判定結果を基に最終的な地名種別を判定する最終種別判定手段と、を有することを特徴とする。
【0020】請求項10記載の発明は、ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を判定可能な手がかり表記を検出し、地名種別を判定する地名種別判定手段と、手がかり表記が出現したノードページのリンク先若しくはリンク元から、地名表記を検出する地名表記検出手段と、を有することを特徴とする。
【0021】請求項11記載の発明は、ハイパーテキストを構成するノードページのテキストタイプを判定し、地名表記のノードページ中での意味的な役割を表す地名種別を判定する地名種別判定手段と、ノードページ中から地名表記を検出する地名表記検出手段と、を有することを特徴とする。
【0022】請求項12記載の発明は、ハイパーテキストを構成するノードページのテキスト中から地名表記を検出する地名表記検出手段と、地名表記の検出されたノードページを含む近傍ノードページ群が特定のハイパーテキスト構造に該当するかを調べるサイト構造解析手段と、特定ハイパーテキスト構造に該当したノードページ群に含まれる地名表記について、地名表記のノードページ中での意味的な役割を表す地名種別を決定する地名種別判定手段と、を有することを特徴とする。
【0023】請求項13記載の発明は、テキスト中に出現する地名表記の、該テキスト中での意味的な役割を表す地名種別を、該テキストを参照して判定する地名種別判定工程を有することを特徴とする。
【0024】請求項14記載の発明は、テキスト中に出現する地名表記と、該地名表記の該テキスト中での出現位置を検出する地名表記検出工程と、テキストの出現位置の前後を解析し、地名表記の該テキスト中での意味的な役割を表す地名種別を判定する地名種別判定工程と、を有することを特徴とする。
【0025】請求項15記載の発明は、テキスト中に出現する地名表記が、該テキスト中で果たす意味的な役割を表す地名種別を判定可能な手がかり表記をテキスト中から検出し、地名種別の判定を行う地名種別判定工程と、手がかり表記の前後を解析して、テキスト中から地名表記を検出する地名表記検出工程と、を有することを特徴とする。
【0026】請求項16記載の発明は、ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別の判定を、該ノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方から地名種別を判定可能な手がかり表記を検出して行う地名種別判定工程を有することを特徴とする。
【0027】請求項17記載の発明は、ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を、該ノードページ中のテキストのテキストタイプを基に判定する地名種別判定工程を有することを特徴とする。
【0028】請求項18記載の発明は、ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を、該ノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方から地名種別を判定可能な手がかり表記を検出して判定する第1の地名種別判定工程と、地名種別を、地名表記の出現するノードページのテキストのテキストタイプを基にして判定する第2の地名種別判定工程と、第1の地名種別判定工程と第2の地名種別判定工程の判定結果を基に最終的な地名種別を判定する最終種別判定工程と、を有することを特徴とする。
【0029】請求項19記載の発明は、ハイパーテキストを構成するノードページに出現する地名表記と、該地名表記の該ノードページ上での出現位置を検出する地名表記検出工程と、地名表記の出現したノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方を参照して、地名表記のノードページ中での意味的な役割を表す地名種別を判定可能な手がかり表記を検出し、該手がかり表記から地名表記の種別を判定する地名種別判定工程と、を有することを特徴とする。
【0030】請求項20記載の発明は、ハイパーテキストを構成するノードページに出現する地名表記と、該地名表記の該ノードページ上での出現位置を検出する地名表記検出工程と、地名表記の出現したノードページのテキストのテキストタイプを判定して、地名表記のノードページ中での意味的な役割を表す地名種別を判定する地名種別判定工程と、を有することを特徴とする。
【0031】請求項21記載の発明は、ハイパーテキストを構成するノードページに出現する地名表記と、該地名表記の該ノードページ上での出現位置を検出する地名表記検出工程と、地名表記のノードページ中での意味的な役割を表す地名種別を、ノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方から地名種別を判定可能な手がかり表記を検出して判定する第1の地名種別判定工程と、地名種別を、地名表記の出現するノードページのテキストのテキストタイプを基にして判定する第2の地名種別判定工程と、第1の地名種別判定工程と第2の地名種別判定工程の判定結果を基に最終的な地名種別を判定する最終種別判定工程と、を有することを特徴とする。
【0032】請求項22記載の発明は、ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を判定可能な手がかり表記を検出し、地名種別を判定する地名種別判定工程と、手がかり表記が出現したノードページのリンク先若しくはリンク元から、地名表記を検出する地名表記検出工程と、を有することを特徴とする。
【0033】請求項23記載の発明は、ハイパーテキストを構成するノードページのテキストタイプを判定し、地名表記のノードページ中での意味的な役割を表す地名種別を判定する地名種別判定工程と、ノードページ中から地名表記を検出する地名表記検出工程と、を有することを特徴とする。
【0034】請求項24記載の発明は、ハイパーテキストを構成するノードページのテキスト中から地名表記を検出する地名表記検出工程と、地名表記の検出されたノードページを含む近傍ノードページ群が特定のハイパーテキスト構造に該当するかを調べるサイト構造解析工程と、特定ハイパーテキスト構造に該当したノードページ群に含まれる地名表記について、該地名表記のノードページ中での意味的な役割を表す地名種別を決定する地名種別判定工程と、を有することを特徴とする。
【0035】請求項25記載の発明は、テキスト中に出現する地名表記の、該テキスト中での意味的な役割を表す地名種別を、該テキストを参照して判定する地名種別判定処理を実行するためのプログラムを記録したことを特徴とする。
【0036】請求項26記載の発明は、テキスト中に出現する地名表記と、該地名表記の該テキスト中での出現位置を検出する地名表記検出処理と、テキストの出現位置の前後を解析し、地名表記の該テキスト中での意味的な役割を表す地名種別を判定する地名種別判定処理と、を実行するためのプログラムを記録したことを特徴とする。
【0037】請求項27記載の発明は、テキスト中に出現する地名表記が、該テキスト中で果たす意味的な役割を表す地名種別を判定可能な手がかり表記をテキスト中から検出し、地名種別の判定を行う地名種別判定処理と、手がかり表記の前後を解析して、テキスト中から地名表記を検出する地名表記検出処理と、を実行するためのプログラムを記録したことを特徴とする。
【0038】請求項28記載の発明は、ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別の判定を、該ノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方から地名種別を判定可能な手がかり表記を検出して行う地名種別判定処理を実行するためのプログラムを記録したことを特徴とする。
【0039】請求項29記載の発明は、ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を、該ノードページ中のテキストのテキストタイプを基に判定する地名種別判定処理を実行するためのプログラムを記録したことを特徴とする。
【0040】請求項30記載の発明は、ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を、該ノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方から地名種別を判定可能な手がかり表記を検出して判定する第1の地名種別判定処理と、地名種別を、地名表記の出現するノードページのテキストのテキストタイプを基にして判定する第2の地名種別判定処理と、第1の地名種別判定処理と第2の地名種別判定処理の判定結果を基に最終的な地名種別を判定する最終種別判定処理と、を実行するためのプログラムを記録したことを特徴とする。
【0041】請求項31記載の発明は、ハイパーテキストを構成するノードページに出現する地名表記と、該地名表記の該ノードページ上での出現位置を検出する地名表記検出処理と、地名表記の出現したノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方を参照して、地名表記のノードページ中での意味的な役割を表す地名種別を判定可能な手がかり表記を検出し、該手がかり表記から地名表記の種別を判定する地名種別判定処理と、を実行するためのプログラムを記録したことを特徴とする。
【0042】請求項32記載の発明は、ハイパーテキストを構成するノードページに出現する地名表記と、該地名表記の該ノードページ上での出現位置を検出する地名表記検出処理と、地名表記の出現したノードページのテキストのテキストタイプを判定して、地名表記のノードページ中での意味的な役割を表す地名種別を判定する地名種別判定処理と、を実行するためのプログラムを記録したことを特徴とする。
【0043】請求項33記載の発明は、ハイパーテキストを構成するノードページに出現する地名表記と、該地名表記の該ノードページ上での出現位置を検出する地名表記検出処理と、地名表記のノードページ中での意味的な役割を表す地名種別を、ノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方から地名種別を判定可能な手がかり表記を検出して判定する第1の地名種別判定処理と、地名種別を、地名表記の出現するノードページのテキストのテキストタイプを基にして判定する第2の地名種別判定処理と、第1の地名種別判定処理と第2の地名種別判定処理の判定結果を基に最終的な地名種別を判定する最終種別判定処理と、を実行するためのプログラムを記録したことを特徴とする。
【0044】請求項34記載の発明は、ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を判定可能な手がかり表記を検出し、地名種別を判定する地名種別判定処理と、手がかり表記が出現したノードページのリンク先若しくはリンク元から、地名表記を検出する地名表記検出処理と、を実行するためのプログラムを記録したことを特徴とする。
【0045】請求項35記載の発明は、ハイパーテキストを構成するノードページのテキストタイプを判定し、地名表記のノードページ中での意味的な役割を表す地名種別を判定する地名種別判定処理と、ノードページ中から地名表記を検出する地名表記検出処理と、を実行するためのプログラムを記録したことを特徴とする。
【0046】請求項36記載の発明は、ハイパーテキストを構成するノードページのテキスト中から地名表記を検出する地名表記検出処理と、地名表記の検出されたノードページを含む近傍ノードページ群が特定のハイパーテキスト構造に該当するかを調べるサイト構造解析処理と、特定ハイパーテキスト構造に該当したノードページ群に含まれる地名表記について、地名表記のノードページ中での意味的な役割を表す地名種別を決定する地名種別判定処理と、を実行するためのプログラムを記録したことを特徴とする。
【0047】請求項37記載の発明は、請求項4から12の何れか一項に記載の地名情報抽出装置と、地名情報抽出装置によってハイパーテキストデータベースから検出された地名表記とその種別に関する情報を記録する記憶手段と、操作者の所望とする地名表記、及びその種別情報を入力する操作入力手段と、地図情報を表示する表示手段と、操作入力手段により入力された地名表記をキーとして、地図データベースを検索し、該地名表記の周辺地図データを読み出し、操作入力手段により入力された地名表記とその種別情報とをキーとして、記憶手段を検索し、表示手段に、2つの検索結果を重ね合わせた表示を表示させる検索手段と、を有することを特徴とする。
【0048】
【発明の実施の形態】次に添付図面を参照しながら本発明に係る実施の形態を詳細に説明する。
【0049】まず、本発明の第1の実施形態について、図1のブロック図を参照して詳細に説明する。
【0050】図1に示された第1の実施形態の地名情報抽出装置は、テキスト入力手段1、入力メモリ2、地名表記検出手段3、ワークメモリ4、地名種別判定手段5、結果出力手段6、制御手段8を備える。これらの各構成要素は、以下のように動作する。
【0051】テキスト入力手段1は、テキストを入力メモリ2に読み込む。入力メモリ2は、テキスト入力手段1が読み込んだテキストを格納する。
【0052】地名表記検出手段3は、入力メモリ2に格納されたテキスト中から地名表記を検出して、検出した地名表記とその出現位置の情報をワークメモリ4に書き込む。地名表記検出手段3は、図2に示すような地名表記辞書を具備し、テキスト中に出現する地名表記候補を検出すると同時に、それが確かに地名を表すものであるか否かを判断する。すなわち、テキスト中の地名表記候補の前後、あるいは、同一テキスト内に出現する共起語をこの地名表記辞書を参照して検出し、地名表記候補の曖昧性を解消する。例えば、「千葉」という地名表記候補の直後に「選手」という共起語が出現すれば、この「千葉」は人名であると解釈することができ、「県」や「市」といった共起語が出現していれば、地名であると解釈することができる。
【0053】地名種別判定手段5は、入力メモリ2に格納されたテキストを参照しながら地名表記の種別を判定し、判定結果をワークメモリ4に書き込む。
【0054】ワークメモリ4は、地名表記検出手段3によって検出された地名表記とその出現位置の情報、および、地名種別判定手段5によって判定された地名表記の種別に関する情報などを格納する。
【0055】結果出力手段6は、ワークメモリ4の内容を読み出す。制御手段8は、これらの構成要素の一連の動作を制御する。
【0056】これら各手段は、プログラム制御によって動作するコンピュータを用いて実現することができる。入力メモリ2やワークメモリ4は、コンピュータの主記憶部を用いてもよいが、磁気ディスク装置や光磁気ディスク装置などの外部記憶装置を用いてもよい。
【0057】地名表記検出手段3は、従来の地名情報抽出装置に相当し、本明細書の従来技術の項で述べたような公知の技術によって実現できる。本実施形態は、地名種別判定手段5を有する点が、従来の地名情報抽出装置と異なる。
【0058】次に、図3を参照しながら地名種別判定手段5の詳細な構成について説明する。
【0059】図3に示されるように地名種別判定手段5は、ワークメモリI/O部9、読み込み位置決定部10、入力メモリ読み込み部11、テキストバッファ12、手がかり表記辞書記憶部13、手がかり表記検索部14、検索結果バッファ15、種別判定部16を有して構成される。
【0060】ワークメモリI/O部9は、ワークメモリ4から地名表記とその出現位置の情報を読み込み、読み込み位置決定部10に転送する。また、ワークメモリI/O部9は、種別判定部16により出力される地名表記の種別の判定結果をワークメモリ4に書き込む。
【0061】読み込み位置決定部10は、ワークメモリI/O部9により読み込まれた地名表記とその出現位置の情報から、入力メモリ2に記録されたテキストの読み込む範囲を決定する。
【0062】入力メモリ読み込み部11は、読み込み位置決定部10により指定された範囲のテキストを入力メモリ2から読み込み、テキストバッファ12に転送する。
【0063】テキストバッファ12は、入力メモリ読み込み部11により読み込まれたテキストを一時的に蓄積すると共に、蓄積したテキストを手がかり表記検索部14に転送する。
【0064】手がかり表記辞書記憶部13には、地名表記の種別を判定する際の手がかりとなる手がかり表記を登録した辞書(以下、手がかり表記辞書と呼ぶ)が記憶されている。この手がかり表記辞書の一例を図4に示す。手がかり表記辞書には、地名種別20と、その地名種別の判断材料となる手がかり表記とが対応づけられている。手がかり表記21の欄に含まれる表記をテキスト中から見つけることで、その手がかり表記21に対応する地名種別20を知ることができる。
【0065】手がかり表記検索部14は、テキストバッファ12からテキストを読み込むと共に、手がかり表記辞書記憶部13から図4に示された手がかり表記辞書を読み込み、テキスト中に出現する地名表記の種別を判定するための手がかりとなる手がかり表記を検索する。そして、手がかり表記辞書を参照して検出した手がかり表記から地名種別を判定し、判定結果を検出結果バッファ15に書き込む。
【0066】種別判定部16は、検索結果バッファ15に書き込まれた地名種別が一種類であった場合には、その地名種別をそのままワークメモリI/O部9を介してワークメモリ4に書き込む。また、手がかり表記検索部14により複数個の手がかり表記が検索され、複数個の地名種別が検索結果バッファ15に書き込まれた場合には、種別判定部16は、地名表記に対する地名種別の最終判定を行う。その最終判定方法として、地名表記に最も近い位置にある手がかり表記の地名種別に決定する方法、検索された手がかり表記から最も多く判定された地名種別を最終的な地名種別とする方法、複数の地名種別の可能性がある場合には、判定できずといった結果を出力する方法などが挙げられる。
【0067】次に、図5及び図6に示されたフローチャートを参照しながら、上記構成からなる実施形態による一連の処理動作を説明する。なお、図5は、本実施形態の全体処理の流れを示すフローチャートの一例であり、図6は、図5のステップS103の詳細、すなわち、地名種別判定手段5の実現方法の一例を示したフローチャートである。
【0068】まず、図5を参照しながら、全体の動作を説明する。ステップS101で、テキスト入力手段1により入力メモリ2にテキストを読み込む。次にステップS102で、地名表記検出手段3により、テキスト中から地名表記の出現位置を検出し、検出結果をワークメモリ4に保存する。ステップS103では、地名種別判定手段5により、地名表記の出現位置の前後のテキストを解析することで、地名表記の種別を判定し、判定結果をワークメモリ4に書き込む。ステップS104では、結果出力手段6により、ワークメモリ4から地名表記とその種別を出力する。
【0069】次に、図6に示されたフローチャートを参照しながら、地名種別判定手段5の一連の処理動作について説明する。まず、ステップS111で、ワークメモリ4から地名表記22とその出現位置23の情報を得る。詳細には、ワークメモリI/O部9がワークメモリ4から地名表記22とその出現位置情報23とを読み出し、読み込み位置決定部10に転送する。
【0070】次に、ステップS112で、入力メモリ2から地名表記の出現位置の前後のテキストを得る。詳細には、読み込み位置決定部10が、地名表記の出現位置情報23に基づき、読み込む対象となる地名表記の出現位置の前後のテキストの範囲を決定し、入力メモリ読み込み部11に指示する。例えば、地名表記の出現位置の前後10文字ずつを取り込むようなものであってもよいし、地名表記が含まれる文、文節、段落などを取り込むようなものであってもよい。入力メモリ読み込み部11は、この範囲指定に基づいて入力メモリ2からテキストの指定された範囲を読み込み、テキストバッファ12に書き込む。
【0071】ステップS113では、地名表記の出現位置の前後のテキストと、手がかり表記辞書記憶部13から参照した手がかり表記辞書とを照合する。より詳細には、手がかり表記検索部14が、テキストバッファ12から読み込んだテキスト中に、手がかり表記辞書記憶部13から読み込んだ手がかり表記辞書に登録された手がかり表記を検索する。そして、検索した手がかり表記から地名表記の種別を判定する。判定結果は、検索結果バッファ15に書き込む。
【0072】ステップS114では、ワークメモリ4に地名種別24の情報を書き込む。より詳細には、種別判定部16が、最終的な地名表記の種別を判定し、判定結果をワークメモリI/O部9を介してワークメモリ4に書き込む。種別判定部16は、検索結果バッファ15から読み出した地名種別が一種類であった場合には、その地名種別をそのままワークメモリI/O部9を介してワークメモリ4に書き込む。また、手がかり表記検索部14により複数個の手がかり表記が検索され、複数個の地名種別が検索結果バッファ15に書き込まれた場合には、種別判定部16は、検索結果バッファ15に書き込まれた地名種別から最終的な地名表記の種別を判定し判定結果をワークメモリI/O部9を介してワークメモリ4に書き込む。判定方法として、地名表記に最も近い位置にある手がかり表記の地名種別に決定する方法、検索された手がかり表記から最も多く判定された地名種別を最終的な地名種別とする方法、複数の地名種別の可能性がある場合には、判定できずといった結果を出力する方法などが挙げられる。なお、ステップS113の段階で、手がかり表記辞書との照合に失敗した場合は、ステップS114では、判定失敗という結果が、ワークメモリ4に書き込まれることになる。
【0073】ここで、具体例を挙げて上記動作をより詳細に説明する。一例として、図7に示された「20世紀最後のオリンピックは、2000年9月15日から10月1日までの17日間、シドニーで開催される。」というテキストが入力メモリ2に格納されたものとする。
【0074】地名表記検出手段3が、入力メモリ2からテキストを読み込み、テキスト中に出現する地名表記を検出することで、上述したテキストの例では、図8に示されるように、地名表記22として「シドニー」、その地名表記の出現位置23として「41文字目〜44文字目」という情報がワークメモリ4に書き込まれる。
【0075】次に、地名種別検出手段5が、対象テキストの所定の範囲を検索し、地名表記の手がかりとなる手がかり表記を検索して、検索結果から地名表記の種別を判定する。上述した例では、地名表記「シドニー」と、その出現位置「41文字目〜44文字目」がまずワークメモリI/O部9により読み込み位置決定部10に取り込まれ、読み込み位置決定部10の指示に基づき、「シドニー」の前後のテキストとして「1日までの17日間、シドニーで開催される。」が入力メモリ読み込み部11によりテキストバッファ12に書き込まれる(ここでは、地名表記の前後10文字ずつを取り込む形で例を示したが、文字数は任意の値であってもよいし、文字数ではなく文、文節、段落などの単位で取り込むようにしてもよい)。次に、取り込まれたテキスト中に、手がかり表記辞書記憶部13の手がかり表記辞書に登録された手がかり表記が出現していないかを手がかり表記検索部14が検索する。この例では、「開催」という手がかり表記が見つかる。手がかり表記検索部14は、この「開催」という手がかり表記から地名表記の種別として「開催地」を選択し、選択結果を検索結果バッファ15に書き込む。種別判定部16は、ワークメモリI/O部9を介してワークメモリ4に、地名表記の種別を書き込む。その結果、ワークメモリ4には、図9に示されるように地名表記22「シドニー」、出現位置23「41文字目〜44文字目」、地名種別「開催地」という情報が書き込まれる。
【0076】なお、上述した第1の実施形態の変形例として、入力メモリ2のテキスト中から、地名表記の種別の手がかりとなる表記をまず検出し、地名表記検出手段3により、手がかりとなる表記の出現位置の前後のテキストから地名表記を検出するものであってもよい。
【0077】このような処理手順であっても地名表記と、その地名表記のテキスト上での種別とを高精度に検出することができる。
【0078】なお、この変形例は、図1に示された第1の実施形態と同一の構成で実現することができる。また、地名種別判定手段5の構成についても図3と同一であるが、この変形例では、地名表記がまだ検出されていない段階で動作することとなるので、読み込み位置決定部10は、地名表記の位置情報に基づいて読み込み位置を決定するのではなく、単に対象テキストを読み込むことになる。
【0079】図10に示されたフローチャートを参照しながら、この変形実施例による動作例を説明する。まず、ステップS121で、入力メモリ2にテキストを読み込む。次にステップS122で、地名種別判定手段5により、入力メモリ2のテキスト中から、地名表記の種別の手がかりとなる手がかり表記を検出する。ステップS123では、地名表記検出手段3により、手がかりとなる表記の出現位置の前後のテキストから地名表記を検出する。ステップS124では、結果出力手段6により、ワークメモリ4から地名表記とその種別を出力する。
【0080】図5のフローチャートでは、地名表記検出手段3によって地名表記を見つけてから、地名種別判定手段5によって手がかり表記を見つけて、地名表記の種別を判定していた。これに対して、図10のフローチャートでは、先に地名種別判定手段5によって手がかり表記を見つけ、その後で、地名表記検出手段3によって地名表記を見つける。したがって、前述の例文「20世紀最後のオリンピックは、2000年9月15日から10月1日までの17日間、シドニーで開催される。」を対象とした場合、図10のフローチャートの手順によれば、ステップS122において、「開催」が手がかり表記として検出され、ステップS123において、「開催」の前後のテキストから「シドニー」という地名表記が検出されることになる。
【0081】次に添付図面を参照しながら本発明に係る第2の実施形態について説明する。
【0082】上述した第1の実施形態では、地名情報抽出装置の処理対象として、個々に独立したテキスト、いわゆるプレインテキストを扱った。以下に述べる第2の実施形態では、プレインテキストではなく、ハイパーテキストを処理の対象とする。
【0083】第2の実施形態の動作を説明する前に、処理対象とするハイパーテキストについて簡単に説明しておく。図11及び12はハイパーテキストの一例である。
【0084】ハイパーテキストは、ノードページをテキストの1単位として、それらの間にリンクが設けられた形式をしている。図11における30と31は各々、ハイパーテキストを構成する1ノードページであり、それらの間をつなぐ矢印33はリンクを表している。リンク33に着目するならば、ページ30はリンク元ページ、ページ31はリンク先ページとなる。このようなハイパーテキストは、独自のデータ構造をもつものもあるが、最近はSGML(StandardGeneralized MarkupLanguage ) 、HTML(Hyper Text Markup Language)、XML(ExtensibleMarkup Language ) などのマークアップ言語による記述が普及している。特にインターネット上にはWWWと呼ばれる大規模ハイパーテキストが存在し、そのなかではHTMLによる記述がスタンダードになっている。図12は、図11のノードページ30をHTMLで記述した一例である。図12において、<>で囲まれた部分はマークアップタグであり、HTMLではAタグで囲まれた文字列がリンク元キー文字列を表す。すなわち、図11と図12における文字列「9月のイベント」は、リンク元キー文字列である。さらに、AタグのなかでHREFの直後に書かれたHTMLテキスト名が、そのリンク先のノードページを意味する。すなわち、ページ30のリンク元キー文字列「9月のイベント」から「Event09」という名前のHTMLテキスト(ノードページ31がこれに相当する)へジャンプできることを意味している。なお、ここではHTMLで記述されたハイパーテキストを例にあげて説明したが、本発明では、対象とするハイパーテキストの記述形式をHTMLに限定するものではない。SGMLやXMLで記述されたものでもよいし、独自のデータ構造を用いたハイパーテキストであってもかまわない。
【0085】次に、第2の実施形態の構成について説明する。本実施形態の構成は、図1に示された第1の実施形態と同一である。ただし、処理対象がプレインテキストからハイパーテキストに変わるため、テキスト入力手段1と地名種別判定手段5に関して、ハイパーテキストに固有の処理が付け加わる。一方、地名表記検出手段3は、入力メモリ2に読み込まれたハイパーテキストのノードページを、プレインテキストと同じようにみなして処理するため、第1の実施形態の場合と同じでよい。
【0086】テキスト入力手段1に関しては、入力対象がプレインテキストからハイパーテキストに変わることで、ハイパーテキストのリンクをたどって、次に読み込むノードページのテキストを決定する機能が付け足される必要が生じる。すなわち、既に入力メモリ2に読み込まれているノードページがあるとき、次に読み込むノードページとして、入力メモリ2中のノードページのリンク元ページあるいはリンク先ページをたどることになる。このようなリンクを順にたどりながら、次に読み込むノードページ(テキスト)を決定する機能は、従来、Netscape NavigatorやMicrosoft Internet Explorer など広く普及したWWWブラウザ、あるいは、オートパイロットやWWWロボットと呼ばれるWWWページの自動収集ツールなどで実用化されている。
【0087】次に、地名種別判定手段5に関しては、ハイパーテキストおよびHTMLのようなマークアップテキストに特有の構造を利用した、地名種別の判定方法が考えられる。すなわち、読み込んだハイパーテキストのテキストタイプを基にして地名表記の種別を判定する方法と、対象テキストのリンク元ページやリンク先ページの内容を手がかりとして地名表記の種別を判定する方法である。
【0088】ここで、図13を参照しながら本実施形態の地名種別判定手段5の詳細な構成について説明する。図13に示されるように地名種別判定手段5は、ワークメモリI/O部50、読み込み位置決定部51、入力メモリ読み込み部52、第1テキストバッファ53、第2テキストバッファ54、手がかり表記辞書記憶部55、手がかり表記検索部56、第1検索結果バッファ57、テキストタイプ判定部58、テキストタイプ−地名種別対応テーブル記憶部59、対応テーブル検索部60、第2検索結果バッファ61、最終判定部62を有して構成される。
【0089】ワークメモリI/O部50は、ワークメモリ4から地名表記とその出現位置の情報を読み込み、読み込み位置決定部51に転送する。また、ワークメモリI/O部50は、最終判定部62により出力される地名表記の種別の判定結果をワークメモリ4に書き込む。
【0090】読み込み位置決定部51は、ワークメモリI/O部50により読み込まれた地名表記とその出現位置の情報から、入力メモリ2に蓄積されたノードページの読み込み範囲を決定する。なお、本実施形態では、第1テキストバッファ53に読み込むノードページと、第2テキストバッファ54に読み込むノードページとが異なる場合もある。
【0091】入力メモリ読み込み部52は、読み込み位置決定部51により指定されたノードページを入力メモリ2から読み込み、指定されたテキストバッファ(第1テキストバッファ53、第2テキストバッファ54)に転送する。
【0092】第1テキストバッファ53は、入力メモリ読み込み部52により読み込まれたノードページを一時的に蓄積すると共に、蓄積したノードページを手がかり表記検索部56に転送する。
【0093】第2テキストバッファ54は、入力メモリ読み込み部52により読み込まれたノードページを一時的に蓄積すると共に、蓄積したノードページをテキストタイプ判定部58に転送する。
【0094】手がかり表記辞書記憶部55には、第1の実施形態と同様に、地名表記の種別を判定する際の手がかりとなる手がかり表記を登録した辞書(手がかり表記辞書)が記憶されている。
【0095】手がかり表記検索部56は、第1テキストバッファ53からノードページを読み込むと共に、手がかり表記辞書記憶部55から手がかり表記辞書を読み込み、ノードページ中に出現する手がかり表記を検索する。そして、検索した手がかり表記に対応する地名種別を手がかり表記辞書を参照して判定し、判定結果を第1検索結果バッファ57に書き込む。
【0096】テキストタイプ判定部58は、第2テキストバッファ54からノードページを読み込み、そのテキストを解析してテキストタイプを判定する。テキストタイプの判定方法は、特開2000−029902号公報「構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体」に記載されている公知の技術によって実現できる。この公知の技術によれば、HTMLなどのマークアップテキストに関して、タグ情報、URL文字列、キーワードなどの特徴に着目して、そのテキストタイプ(例えば、企業ホームページ、イベント情報ページ、製品カタログページなど)を自動判定することが可能である。
【0097】テキストタイプ−地名種別対応テーブル記憶部59には、図14に示されたテーブル(以下、テキストタイプ−地名種別対応テーブルという)が記録されている。例えば、テキストタイプが企業ホームページであると判定されたテキスト中に出現した地名表記の種別は「所在地」、イベント情報ページであると判定されたテキスト中に出現した地名表記の種別は「開催地」といった具合である。
【0098】対応テーブル検索部60は、テキストタイプ判定部58により判定されたテキストタイプに対応する地名種別をテキストタイプ−地名種別対応テーブルから検出する。検出した地名種別は、地名種別候補として、第2検索結果バッファ61に登録する。
【0099】最終判定部62は、第1検索結果バッファ57に書き込まれた手がかり表記を判断材料とした地名種別候補と、第2検索結果バッファ61に書き込まれたテキストタイプを判断材料とした地名種別候補とを基に、最終的な地名表記の種別を判定する。
【0100】なお、ここでは、手がかり表記検索部56による手がかり表記の検索は、リンク元ページのテキスト全体から行っているが、リンク元ページからリンク元キー文字列を抽出して、この中から手がかり表記を検出するものであってもよいし、リンク元キー文字列の前後一定範囲のテキストから抽出するものであってもよいし、地名表記の出現したノードページのリンク元ページ、リンク先ページの両方を対象として、手がかり表記を検索するものであってもよい。
【0101】次に、図15〜17に示されたフローチャートを参照して、ハイパーテキストを処理対象とした本実施形態の一連の動作を説明する。なお、図15は、本実施形態の全体の動作を表すフローチャートであり、図16は、図15に示されたステップS133の詳細な処理動作を示すフローチャートであり、図17は、図15に示されたステップS135の詳細な処理動作を示すフローチャートである。
【0102】まず、図15に示されたフローチャートを参照しながら本実施形態の全体の動作を説明する。ステップS131で、テキスト入力手段1により、ハイパーテキストを構成するノードページを入力メモリ2に読み込む。次にステップS132では、地名表記検出手段3により、入力メモリ2のノードページ中から地名表記の出現位置を検出する。ステップS133では、地名種別判定手段5により、入力メモリ2中のノードページのテキストのテキストタイプを手がかりとして、地名表記の種別を判定する。ステップS134では、入力メモリ2中のノードページに対するリンク元ページを、入力メモリ2に読み込む(この時、リンク元ページが複数あれば、それら複数ページを読み込む)。ステップS135では、地名種別判定手段5により、入力メモリ2に読み込んだリンク元ページのテキスト内容を手がかりとして、地名表記の種別を判定する。ステップS136では、ステップS133にて検出した地名表記の種別、及びステップS135にて検出した地名表記の種別とを考慮して最終的な地名表記の種別を判定する。
【0103】次に、図16に示されたフローチャートを参照しながら、上述したステップS133の詳細、すなわち、地名種別判定手段5の実現方法の一例を説明する。まず、ステップS141で、入力メモリ2内のノードページのテキストを解析して、そのテキストタイプを判定する。テキストタイプ判定部58が第2テキストバッファ54からノードページを読み込み、このノードページのテキストのテキストタイプを判定する。テキストタイプの判定方法としては、HTMLなどのマークアップテキストに関して、タグ情報、URL文字列、キーワードなどの特徴に着目して、そのテキストタイプ(例えば、企業ホームページ、イベント情報ページ、製品カタログページなど)を判定する方法が挙げられる。
【0104】次にステップS142で、判定結果のテキストタイプに対応する地名種別を決定する。より詳細には、対応テーブル検索部60がテキストタイプ−地名種別対応テーブルから、テキストタイプ判定部58により判定されたテキストタイプに対応する地名種別を検索する。図14に示されたテキストタイプ−地名種別対応テーブルによれば、テキストタイプが「イベント情報ページ」と判定されたテキストに出現した地名表記の種別は「開催地」であると判定できる。
【0105】ステップS143では、地名種別判定手段5の第2検索結果バッファ61に、テキストタイプ−地名種別対応テーブルから検索した地名種別を地名種別候補として書き込む。
【0106】なお、ステップS141の段階でテキストタイプを判定できなかった場合や、ステップS142の段階でテキストタイプに対応する地名種別が存在しなかった場合は、ステップS143では判定失敗という結果が第2検索結果バッファ61に書き込まれる。
【0107】次に、図17に示されたフローチャートを参照しながら、図15のステップS135の詳細、すなわち、地名種別判定手段5の実現方法の一例を示したフローを説明する。まず、ステップS151で、入力メモリ2から地名表記の出現したノードページのリンク元ページを読み込む。より詳細には、読み込み位置決定部51が、ワークメモリ4から読み込んだ地名表記の出現位置情報に基づき、その地名表記の出現するノードページのリンク元ページを指定し、入力メモリ読み込み部52が、この指定されたリンク元ページを入力メモリ2から読み込み、第1テキストバッファ53に書き込む。
【0108】次に、ステップS152で、リンク元キー文字列と手がかり表記辞書とを照合する。より詳細には、手がかり表記検索部56が、第1テキストバッファ53からリンク元ページを読み込むと共に、手がかり表記辞書記憶部55から手がかり表記辞書を読み込み、読み込んだリンク元ページのリンク元キー文字列から手がかり表記辞書に登録された手がかり表記を検索する。そして、検索した手がかり表記から手がかり表記辞書を参照して地名表記の種別を判定する。なお、リンク元キー文字列を抽出するには、タグ情報に着目すればよい。HTMLテキストであれば、Aタグで囲まれた文字列がリンク元キー文字列である。また、ここでは、リンク元ページからリンク元キー文字列を抽出することにしているが、リンク元ページ全体を扱うことにしてもよいし、リンク元キー文字列の前後一定範囲のテキストを抽出するようにしてもよい。
【0109】ステップS153では、手がかり表記検索部56が、第1検索結果バッファ57に、判定した種別を地名種別候補として書き込む。
【0110】なお、ステップS151の段階でリンク元ページが読み込めなかった場合や、ステップS152の段階で手がかり表記を見つけることができなかった場合は、ステップS153では、判定失敗という結果が書き込まれる。
【0111】ここで、図11に示された具体例を用いて図15に示された動作手順を詳細に説明する。ステップS131では、ノードページ31が、入力メモリ2に読み込まれる。ステップS132では、地名表記として「東京都港区N社ビル」(ノードページ31の23文字目〜31文字目)が検出される。図18に示されるように地名表記22「東京都港区N社ビル」、その出現位置23「ノードページ31、23文字目〜31文字目」という情報が、地名表記検出手段3によってワークメモリ4に書き込まれる。
【0112】ステップS133では、ノードページ31のテキストタイプが判定される。テキストタイプ判定部58が第2テキストバッファ54からノードページを読み込み、このノードページのテキストタイプを判定する。そして、判定結果のテキストタイプに対応する地名種別を決定する。対応テーブル検索部60が、テキストタイプ−地名種別対応テーブルから、テキストタイプ判定部58により判定されたテキストタイプに対応する地名種別を検索する。検索された地名種別は、地名種別候補として第2検索結果バッファ61に書き込まれる。図11に示されたノードページのテキストタイプが「イベント情報ページ」と判定された場合、図14の対応テーブルにより地名種別は「開催地」だと判定される。判定結果は、第2検索結果バッファ61に記録される。
【0113】ステップS134では、ノードページ31のリンク元ページ30が、入力メモリ2に読み込まれる。
【0114】次にステップS135では、ノードページ30のリンク元キー文字列「9月のイベント」を手がかりとして、地名表記の種別を判定する。手がかり表記検索部56が第1テキストバッファに書き込まれたリンク元ページからリンク元キー文字列「9月のイベント」を検出し、この「9月のイベント」と手がかり表記辞書とを照合する。その結果、「イベント」という手がかり表記が検出され、これに対応する地名種別は「開催地」だと判定される。判定結果は、第1結果バッファ57に地名種別候補として書き込まれる。
【0115】ステップS136では、対応テーブル検索部60により検索された「開催地」と、手がかり表記検索部56により検索された「開催地」とが一致しているので、最終判定部62が最終的に「開催地」を最終判定結果とする。その結果、最後のステップS137で、図19に示されるように、地名表記22「東京都港区N社ビル」、出現位置23「ノードページ31、23文字目〜31文字目」、地名種別24「開催地」という情報がワークメモリ4に書き込まれる。
【0116】なお、上述した実施形態では、ノードページ中に出現する手がかり表記を検出することによる地名表記の種別の判定と、テキストタイプを判定することによる地名表記の種別の判定とを同時に行い、これらの判定結果を基に、地名表記の種別を決定していた。この他に、テキストタイプを判定することによる地名種別の判定をまず行って、テキストタイプの判定に失敗した場合に、テキスト中に出現する手がかり表記を検出して、地名表記の種別を判定するものであってもよい。また、テキストタイプを判定することによる地名種別の判定、及び手がかり表記を検出することによる地名種別の判定のどちらか一方だけを行って、地名表記の種別を判定するものであってもよい。例えば、テキストタイプを地名種別判定の手がかりとする方法だけを用いるのならば、図13の構成に関して、第1テキストバッファ53、手がかり表記辞書記憶部55、手がかり表記検索部56、第1検索結果バッファ57は不要となる。逆に、手がかり表記を地名種別判定の手がかりとする方法だけを用いる方法とするならば、第2テキストバッファ54、テキストタイプ判定部58、テキストタイプ−地名種別対応テーブル記憶部59、対応テーブル検索部60、第2検索結果バッファ61、は不要となる。また、フローチャートに関しても、図15の手順の他に、ステップS133をステップS135の後になるように入れ替えたものや、ステップS133とステップS134〜ステップS135の一方を削ったものや、ステップS133で成功したらステップS134〜ステップS135をスキップするものなどのバリエーションが考えられる。
【0117】また、上述した第1の実施形態においては、地名表記を検出してから地名種別を判定する処理手順(図5のフローチャート)と、地名種別の手がかりを得てから地名表記を検出する処理手順(図10のフローチャート)という2通りが考えられた。ここで述べた第2の実施形態においても同様に、2通りの処理手順が考えられる。上述した図15のフローチャートは、地名表記を検出してから地名種別を判定する処理手順である。次に、もう一方の、地名種別の手がかりを得てから地名表記を検出する処理手順として、図20のフローチャートに示されるものと、図21のフローチャートに示すものとを説明する。
【0118】図20のフローチャートでは、まず、ステップS161にて、ハイパーテキストを構成するノードページを、入力メモリ2から読み込む。次に、ステップS162にて地名種別判定手段5により、入力メモリ2中のノードページから、地名表記の種別の手がかりとなる表記を検出する。ステップS163では、入力メモリ2内のノードページに対するリンク先ページを、入力メモリ2に読み込む。このとき、リンク先ページが複数ある場合には、地名種別の手がかり表記をリンク元キー文字列に含むものを選択する(地名種別の手がかり表記をリンク元キー文字列に含むものがなければ、手がかり表記がリンク元キー文字列の最も近くにあるものを選択する)。ステップS164では、地名表記検出手段3により、入力メモリ2中のリンク先ページから、地名表記を検出する。ステップS165では、ワークメモリ4に地名表記とその種別の情報を書き込む。なお、ノードページに手がかり表記が複数存在し、それらの手がかり表記がリンク元キー文字列に設定されている場合、それらの手がかり表記のリンク先すべてを参照して地名表記を検出する。
【0119】図11の例を用いて図20のフローチャートに示した動作を説明すると、次のようになる。まず、ステップS161で図11のノードページ30が読み込まれ、ステップS162で「イベント」が手がかり表記として検出される。「イベント」は複数あるが、そのうちの最初の「9月のイベント」について、ステップS163では、リンク先ページ31が読み込まれる。ステップS164では、ノードページ31から「東京都港区N社ビル」が地名表記として検出される。ステップS165では、地名表記「東京都港区N社ビル」、出現位置「ノードページ31、23文字目〜31文字目」、地名種別「開催地」という情報がワークメモリ4に書き込まれる。なお、図11に示されたノードページ31には「9月のイベント」、「10月のイベント」、「11月のイベント」と複数の手がかり表記が存在する。図11には、このうち「9月のイベント」のリンク先として、ノードページ31だけが記載されているが、「10月のイベント」、「11月のイベント」についてもリンクが張られている場合には、リンク先を参照して地名表記を検出するものであるとよい。
【0120】一方、図21のフローチャートでは、まず、ステップS166にて、ハイパーテキストを構成するノードページを、入力メモリ2に読み込む。次に、ステップS167で、地名種別判定手段5により、入力メモリ2内のノードページのテキストが地名表記の種別の手がかりとなるテキストタイプであるかを判定する。もし、地名種別の手がかりとなるテキストタイプであるならば、ステップS168にて、地名表記検出手段3により、そのノードページ中から地名表記を検出する。最後にステップS169でワークメモリ4に地名表記とその種別の情報とを書き込む。
【0121】図11の例を用いて図21のフローチャートに示した動作を説明すると、次のようになる。まず、ステップS166で、図11のノードページ31が読み込まれる。ステップS167で、ノードページ31のテキストタイプが「イベント情報ページ」であると判定される。その結果、図14の対応テーブルにより地名種別は「開催地」だと判定される。ステップS168では、ノードページ31から地名表記として「東京都港区N社ビル」が検出される。最後に、ステップS169で、地名表記22「東京都港区N社ビル」、出現位置23「ノードページ31、23文字目〜31文字目」、地名種別24「開催地」という情報がワークメモリに書き込まれる。
【0122】次に添付図面を参照しながら本発明に係る第3の実施形態について説明する。
【0123】本発明に係る第3の実施形態は、図22に示されるように、テキスト入力手段1、入力メモリ2、地名表記検出手段3、ワークメモリ4、地名種別判定手段5、結果出力手段6、サイト構造解析手段7、制御手段8を備える。これらの各構成要素は、以下のように動作する。
【0124】テキスト入力手段1は、ハイパーテキストを構成するノードページのテキストを入力メモリ2に読み込む。
【0125】入力メモリ2は、テキスト入力手段1が読み込んだテキストを格納する。
【0126】地名表記検出手段3は、入力メモリ2に格納されたテキスト中から地名表記を検出して、検出した地名表記とその出現位置の情報をワークメモリ4に書き込む。
【0127】サイト構造解析手段7は、入力メモリ2とワークメモリ4を参照しながら、地名表記の検出されたノードページを含む近傍ノードページ群が特定のハイパーテキスト構造に該当するかを調べ、その結果をワークメモリ4に書き込む。
【0128】地名種別判定手段5は、入力メモリ2とワークメモリ4を参照しながら、特定ハイパーテキスト構造に該当したノードページ群に含まれる地名表記の種別を決定し、その結果をワークメモリ4に書き込む。
【0129】ワークメモリ4は、地名表記検出手段3によって検出された地名表記とその出現位置の情報、サイト構造解析手段7による解析結果、および、地名種別判定手段5によって判定された地名表記の種別に関する情報などを格納する。結果出力手段6は、ワークメモリ6の内容を読み出す。
【0130】制御手段8は、これらの構成要素の一連の動作を制御する。
【0131】これらの各手段は、プログラム制御によって動作するコンピュータを用いて実現できる。入力メモリ2やワークメモリ4は、コンピュータの主記憶部を用いてもよいが、磁気ディスク装置や光磁気ディスク装置などの外部記憶装置を用いてもよい。地名表記検出手段3は、従来の地名情報抽出装置に相当し、本明細書の従来技術の項で述べたような公知の技術によって実現できる。本実施形態は、地名種別判定手段5とサイト構造解析手段7を有する点が、従来の地名情報抽出装置と異なる。
【0132】次に、サイト構造解析手段7の詳細な構成について図23を参照しながら説明する。図23に示されるようにサイト構造解析手段7は、ワークメモリI/O部71、地名出現位置情報バッファ72、特定ハイパーテキスト構造記述辞書記憶部73、マッチングルール適用部74、入力メモリ読み込み部75、テキストバッファ76、判定結果バッファ77を有して構成される。
【0133】ワークメモリI/O部71は、地名表記検出手段3により検出され、ワークメモリ4に記録された地名表記、及びその出現位置の情報を読み出し、地名出現位置情報バッファ72に転送する。
【0134】地名出現位置情報バッファ72には、ワークメモリI/O部71により読み出された地名表記、及びその出現位置の情報とが書き込まれる。
【0135】特定ハイパーテキスト構造記述辞書記憶部73には、図24に示された、特定ハイパーテキスト構造に該当するハイパーテキスト構造であるか否かを検出するためのマッチングルール35と、そのマッチングルールに該当する特定ハイパーテキスト構造のテキスト中に出現する地名表記の種別を決定するための地名種別決定ルール36とが、ルール番号34に対応付けられて記録されている。
【0136】マッチングルール適用部74は、特定ハイパーテキスト構造記述辞書記憶部73からマッチングルール35を一つずつ取り出し、このマッチングルールを適用するために必要となるノードページ群を、地名出現位置情報バッファ72からの地名表記の出現位置を基にして算出し、算出したノードページ群の参照範囲の指定を入力メモリ読み込み部75に指示する。また、この指示に従い、入力メモリ読み込み部75により読み込まれ、テキストバッファ76に蓄積されたノードページ群を参照して、特定ハイパーテキスト構造記述辞書記憶部73から読み出したマッチングルール35に該当するノードページ群であるか否かを検出する。マッチングルール適用部74によるマッチングルールの適用結果は、判定結果バッファ77に記録され、全てのマッチングルールの適用が終了すると、記録した判定結果をワークメモリI/O部71を介してワークメモリ4に記録する。即ち、サイト構造解析手段7による解析によりワークメモリ4には、どのノードページ群がどの特定ハイパーテキスト構造を満たしたかといった情報(ノードページ群は、ノードページの識別番号のリストで示され、特定ハイパーテキスト構造も図24の辞書に対応するルール番号で示される)が書き込まれる。
【0137】次に、地名種別判定手段5の詳細な構成について図25を参照しながら説明する。図25に示されるように本実施形態の地名種別判定手段5は、ワークメモリI/O部81、サイト構造解析結果バッファ82、特定ハイパーテキスト構造記述辞書記憶部73、地名種別決定ルールマッチング部83、入力メモリ読み込み部85、テキストバッファ86、判定結果バッファ87を有して構成される。
【0138】ワークメモリI/O部81は、サイト構造解析手段7による解析結果をワークメモリ4から取り出し、サイト構造解析結果バッファ82に記録する。
【0139】特定ハイパーテキスト構造記述辞書記憶部73には、上述したように特定ハイパーテキスト構造に該当するハイパーテキスト構造であるか否かを検出するためのマッチングルール35と、そのマッチングルールに該当する特定ハイパーテキスト構造のテキスト中に出現する地名表記の種別を決定するための地名種別決定ルール36とが、ルール番号34に対応付けられて記録されている。
【0140】地名種別決定ルールマッチング部83は、まず、サイト構造解析結果バッファ82に記録された、処理対象のノードページ群が該当するマッチングルールの番号を参照し、特定ハイパーテキスト構造記述辞書記憶部73にその番号に対応付けて登録された地名種別決定ルールを適用するために必要となる該ノードページ群を指定する情報を入力メモリ読み込み部84に転送する。次に、この指定により入力メモリ読み込み部84により入力メモリ2から読み込まれ、テキストバッファに記録されたノードページ群に前記地名種別決定ルールを適用して、地名表記の種別を判定する。判定結果は判定結果バッファ86に記録される。サイト構造解析手段7により対象ノードページ群に適用可能と判断された全てのマッチングルールに対応する地名種別決定ルールの適用が終了すると、判定結果をワークメモリI/O部81を介してワークメモリ4に書き込む。即ち、地名種別判定手段5によってワークメモリ4には、地名表記の出現箇所に対応させて、地名種別が書き込まれる。
【0141】上記構成からなる本実施形態は、ハイパーテキスト構造が有する特有の構造に着目し、処理対象ノードページが、予め定めた特定の構造に該当するノードページ群に含まれるノードページであった場合には、このノードページに出現する地名表記の種別を、予め定めた特定のルールで判定することにより、地名表記の種別をより高精度に判定することを目的としている。
【0142】この特定の構造に該当するノードページ群であるか否かを判定するためのマッチングルール35と、このマッチングルール35に該当したノードページ群に出現する地名表記の種別を判定するための地名種別決定ルール36としては、図24に示されるものが挙げられる。サイト構造解析手段7、及び地名種別判定手段5の特定ハイパーテキスト構造記述辞書記憶部73には、この図24に示されたマッチングルール35と、地名種別決定ルール36とがルール番号に対応付けられて記録されている。
【0143】ここで、図24に示されたマッチングルール35に該当するハイパーテキスト構造での地名種別決定方法を具体例を挙げて説明する。図26は図24におけるルール番号1の特定ハイパーテキスト構造に該当し、図27は図24におけるルール番号2の特定ハイパーテキスト構造に該当する。
【0144】図26のハイパーテキスト構造が図24の第1のマッチングルールに該当することを説明する。第1のマッチングルールの第1条件は、図26のノードページ37がX、ノードページ38がY、ノードページ39がZという対応関係になる。マッチングルールの第2条件は、図26におけるノードページ38内のリンク元キー文字列41における「関東」が地名表記Aに該当する。マッチングルールの第3条件は、図26におけるノードページ39に含まれる「東京都港区」「東京都府中市」「神奈川県川崎市」「群馬県前橋市」「栃木県日光市」などが、地名表記Biに該当する。マッチングルールの第4条件は、「東京都港区」「東京都府中市」「神奈川県川崎市」「群馬県前橋市」「栃木県日光市」などの地名表記が、地名の階層関係において「関東」の下位に位置することに対応する。従って、サイト構造解析手段7は、図26のノードページ37・38・39が、図24の第1番目の特定ハイパーテキスト構造のマッチングルールを満たすことを検出する。次に、地名種別判定手段5が、これらのノードページ群に地名種別決定ルールを適用する。図24の第1番目に対応する地名種別決定ルールでは、図26のノードページ37におけるリンク元キー文字列40の「支店のご案内」、あるいは、ノードページ38における地名表記A「関東」の前後の文字列から、地名種別の手がかり表記を探す。その結果、「支店のご案内」に含まれる「支店」が手がかり表記となって、「所在地」という地名種別に決定される。すなわち、「関東」「東京都港区」「東京都府中市」「神奈川県川崎市」「群馬県前橋市」「栃木県日光市」などの地名表記は、「所在地」という地名種別をもつものと判定される。
【0145】次に、図27のハイパーテキスト構造が図24の第2のマッチングルールに該当することを説明する。第2のマッチングルールの第1条件は、図27のノードページ43がX、ノードページ44がYという対応関係になる。マッチングルールの第2条件は、図27におけるノードページ44内に地名表記を含むリンク元キー文字列47が複数存在することに対応し、「北海道」、「青森県」、「岩手県」、「山形県」などが地名表記Biに相当する。そして、これらの地名表記Biは、いずれも同じく県レベルの地名表記なので、地名の階層関係において兄弟関係となる。これがマッチングルールの第3条件に対応する。したがって、サイト構造解析手段7は、図27のノードページ43・44が、図24の第2番目の特定ハイパーテキスト構造のマッチングルールを満たすことを検出する。次に、地名種別判定手段5が、これらのノードページ群に地名種別決定ルールを適用する。図24の第2番目に対応する地名種別決定ルールでは、まず、図27のノードページ46におけるリンク元キー文字列46の「地域別」から地名種別の手がかり表記を探すが、それは見つからない。次に、ノードページ43のさらに上位のリンク元ページ42におけるリンク元キー文字列45「イベント案内」から地名種別の手がかり表記を探し、「イベント」という手がかり表記が得られて、「開催地」という地名種別に決定される。すなわち、「北海道」「青森県」「岩手県」「山形県」などの地名表記は、「開催地」という地名種別をもつものと判定される。
【0146】次に、図28〜図30に示されたフローチャートを参照しながら、本実施形態による処理の流れを説明する。なお、図28は、本実施形態の全体の処理の流れを示すフローチャートである。図29は、サイト構造解析手段7における処理手順を示すフローチャートである。図30は、地名種別判定手段5における処理手順を示すフローチャートである。以下では、これらを参照しながら、本実施形態の動作を説明する。
【0147】まず、図28に示されたフローチャートを参照しながら本実施形態の全体の処理の流れを説明する。まず、ステップS172では、テキスト入力手段1により、ハイパーテキストを構成するノードページのテキストを入力メモリ2に読み込む。ステップS173では、地名表記検出手段3により、入力メモリ2のテキスト中から地名表記の出現位置を検出する。即ち、地名表記検出手段3によりワークメモリ4には、地名表記が、どのノードページの何文字目に出現したか、という検出結果リストが書き込まれる。
【0148】S171・S172・S173のループは、ハイパーテキストのリンクをたどりながらノードページの読み込みを繰り返し、入力メモリ2にハイパーテキストのノードページのテキスト内容やリンク関係の情報を格納していく。ステップS171において、処理対象のノードページ群をすべて読み込んだところで、このループを抜ける。処理対象のノードページ群をすべて読み込んだかどうかの判定は、いくつかの決め方がある。例えば、起点とするノードページからリンクを深さKまでたどったところで止める方法、起点とするノードページからたどったノードページの数がM件に達したところで止める方法、ノードページのテキスト内容(キーワード)を判定しながらリンクをたどっていきテキスト内容に大きな変化が生じたところで止める方法、URL文字列から判断できるノードページの属するサイトやディレクトリが大きく変化するところで止める方法などが考えられる(ここで述べたような停止条件は従来のオートパイロットやWWWロボットなどのWWWページ自動収集ツールで用いられているものである)。
【0149】次にステップS174では、サイト構造解析手段7により、地名表記の検出されたノードページを含む周辺ノードページ群が、特定のハイパーテキスト構造に該当するかを調べる。図29は、このステップS174の処理手順の詳細である。図24の特定ハイパーテキスト構造記述辞書では、1つのルールが、ルール番号34、マッチングルール35、地名種別決定ルール36の組で構成されている。図29のフローチャートにおいて、S181、S185、S186のステップで形成されるループではカウンタRの値をインクリメントしながら、特定ハイパーテキスト構造記述辞書内のルールを1つずつ調べていく。第R番目の特定ハイパーテキスト構造に関して、ステップS182では、図24の辞書からマッチングルール35を取り出す。次のステップS183では、入力メモリ2内のノードページ群のリンク関係に関する情報や、ワークメモリ4内の地名表記の出現位置に関する情報などを参照して、マッチングルール35に該当する箇所(入力メモリ2内のノードページ群のサブセット)を探す。もしマッチングルール35に該当する箇所があったならば、そのルール番号Rと、該当箇所のノードページ群の識別番号リストをワークメモリ4に書き込む。以上のステップS174の結果として、ワークメモリ4には、特定ハイパーテキスト構造に該当した箇所のリストが格納されることになる。
【0150】このステップS174で特定のハイパーテキスト構造に該当した場合は、ステップS175で、その特定ハイパーテキスト構造に該当したノードページ群に含まれる地名表記の種別を判定する。図30は、このステップS175の処理手順の詳細である。図30のS191とS195のステップで形成されるループでは、ワークメモリ4に格納された特定ハイパーテキスト構造の検出結果情報を1つずつ取り出して処理していく。検出結果情報には、検出された特定ハイパーテキスト構造に対するルール番号が記載されているから、そのルール番号をRとすると、ステップS192では、その第R番目の特定ハイパーテキスト構造に対応する地名種別決定ルール36を、図24の辞書から読み出す。次にステップS193では、検出結果のノードページ群に地名種別決定ルールを適用して、それらのノードページ群のなかに含まれる地名表記の地名種別を決定する。検出結果のノードページ群の識別番号リストは、ワークメモリ4から得ることができ、それらに対応するノードページ群の実体は入力メモリ2に格納されている。また、それらのノードページ群に出現した地名表記は、ワークメモリ4に記録されている。このような情報を参照したパタンマッチング処理の結果、最終的にステップS194では、地名表記の種別に関する情報がワークメモリ4に書き込まれる。
【0151】最後に、図28のステップS176で、検出されたすべての特定ハイパーテキスト構造に関する地名表記とその種別の情報がワークメモリ4に書き込まれる。
【0152】このようにして、本実施形態は、処理対象のノードページ群が、あらかじめ定められた特定の構造を持つノードページ群であった場合には、この特定の構造に特有のルールを適用してノードページに出現する地名表記の種別を判定することにより、地名表記の種別をより高精度に判定することが可能となる。
【0153】次に、本発明に係る第4の実施形態について詳細に説明する。
【0154】図31には、本発明の地名情報抽出装置を利用した地図情報検索装置の構成が示されている。図31に示されるように本実施形態は、ハイパーテキストデータベース100、地名情報抽出装置110、位置依存コンテンツデータベース120、地図データベース130、データベース検索装置140、位置条件入力装置150、地名種別選択装置160、表示装置170を備える。これらの各構成要素は、以下のように動作する。
【0155】ハイパーテキストデータベース100は、ハイパーテキストが格納されている。例えば、インターネット上のWWWがこれに相当する。地名情報抽出装置110は、ハイパーテキストデータベース100内のテキストから地名表記とその種別に関する情報を抽出する。これまで説明した第2から第3の実施形態(図1や図22の構成)が、これに該当する。位置依存コンテンツデータベース120は、地名情報抽出装置110で抽出された情報を格納する。図32がそのデータ内容の例である。図32の位置依存コンテンツデータベースは、地名表記181、地名種別182、ノードページ番号183が対応付けられて格納されている。例えば、「東京都港区」という地名表記に関して、「開催地」という地名種別でノードページ31が対応し、「所在地」という地名種別でノードページ39が対応している。地図データベース130は、地図の二次元座標データと、その上にマッピングされた地名表記を格納している。位置条件入力装置150は、「東京都港区」というような地名表記を、利用者が入力するための装置である。キーボードのような文字列入力手段、マウスなどのポインティングデバイス、さらには、GPSのような人や車の現在位置を自動的に取得するシステムなどが用いられる。地名種別選択装置160は、「所在地」「開催地」「経過地」「話題地」などの地名種別を、利用者が選択するための装置である。データベース検索装置は、位置条件入力装置150と地名種別選択装置160で指定された条件で、地図データベース130と位置依存コンテンツデータベース120を検索して、その結果を表示装置170に表示する。
【0156】データベース検索装置140は、地図データベース130を、位置条件入力装置150から指示された地名表記をキーとして検索し、その地名周辺の地図データを読み出す。同時に、データベース検索装置140は、位置依存コンテンツデータベース120を、位置条件入力装置150から指示された地名表記と、地名種別選択装置160から指示された地名種別をキーとして検索する。その2つのデータベースの検索結果を重ね合わせて、表示装置170に表示する。
【0157】図33と図34は、図31の位置依存コンテンツデータベース120を用いて表示した例である。位置条件入力装置150からは関東地方の地名が指示されたものとする。図33では、地名種別として「所在地」が指定され、図34の方では、地名種別として「開催地」が指定されたものとする。このように、地名種別の情報をもっていることで、地図データに重ね合わせて表示する情報(ノードページ)の量を、利用者の目的に応じて絞り込んで提示することが可能になっている。
【0158】次に本発明に係る第5の実施形態について図面を参照して詳細に説明する。
【0159】図35を参照すると本発明に係る第5の実施形態は、入力装置200、データ処理装置210、記憶装置220、出力装置240を備え、さらに、上述した第1及び第2の実施形態の地名情報抽出装置を実現するためのプログラムを記録した記録媒体230を備える。この記録媒体230は、磁気ディスク、半導体メモリ、CD−ROMその他の記録媒体であってよい。
【0160】入力装置200は、マウス、キーボード等、操作者からの指示を入力するための装置である。また、出力装置240は、表示画面、プリンタ等のデータ処理装置210による処理結果を出力する装置である。
【0161】地名情報抽出装置を実現するためのプログラムは、記録媒体230からデータ処理装置210に読み込まれ、データ処理装置210の動作を制御し、記憶装置220に入力メモリ2とワークメモリ4を生成する。データ処理装置210は、地名情報抽出装置を実現するためのプログラムの制御により第1、第2、第3の実施形態におけるテキスト入力手段1、地名表記検出手段3、地名種別判定手段5、結果出力手段6、制御手段8、また、第3の実施形態におけるサイト構造解析手段7による処理と同一の処理を実行する。
【0162】なお、処理対象となるテキスト、あるいはハイパーテキストデータベースは、記憶媒体230から読み込む、あるいは、データ処理装置210により外部にあるデータベースにネットワーク(例えば、インターネット)を介してアクセスすることで取得する。
【0163】次に、本発明に係る第6の実施形態について図面を参照して詳細に説明する。
【0164】図36を参照すると、本発明に係る第6の実施形態は、入力装置300、データ処理装置310、記憶装置320、出力装置340、を備え、さらに、上述した第4の実施形態の地図情報検索装置を実現するためのプログラムを記録した記録媒体330を備える。この記録媒体330は、磁気ディスク、半導体メモリ、CD−ROMその他の記録媒体であってよい。
【0165】上述した第5の実施形態と同様に、入力装置300は、マウス、キーボード等、操作者からの指示を入力するための装置である。また、出力装置340も、表示装置、プリンタ等のデータ処理装置310による処理結果を出力する装置である。
【0166】地図情報検索装置を実現するためのプログラムは、記録媒体330からデータ処理装置310に読み込まれ、データ処理装置310の動作を制御し、記憶装置320に入力メモリ2、ワークメモリ4、位置依存コンテンツデータベース120を生成する。データ処理装置310は、地図情報検索装置を実現するためのプログラムの制御により第4の実施形態における地名情報抽出装置110、データベース検索装置140、位置条件入力装置150、地名種別選択装置160による処理と同一の処理を実行する。
【0167】なお、処理対象となるハイパーテキストデータベース、及び地図データベース130は、記憶媒体330から読み込む、あるいは、データ処理装置410により外部にあるデータベースにネットワーク(例えば、インターネット)を介してアクセスすることで取得する。
【0168】なお、上述した実施形態は本発明の好適な実施の形態である。但し、これに限定されるものではなく本発明の要旨を逸脱しない範囲内において種々変形実施が可能である。
【0169】
【発明の効果】本発明によれば、テキスト中から地名情報を自動抽出する際に、単に地名表記を検出するだけでなく、検出した地名表記の種別も判定可能になる。さらに、WWWのようなハイパーテキストデータベースから高精度に地名表記とその種別を抽出するものが可能になる。
【0170】また、抽出した地名情報を地図データベースなどと対応付けて利用者に提示する際に、地名種別による絞り込みを行うことで、利用者の目的に合わせた情報提供も実現することが可能になる。
【出願人】 【識別番号】000004237
【氏名又は名称】日本電気株式会社
【出願日】 平成12年10月24日(2000.10.24)
【代理人】 【識別番号】100084250
【弁理士】
【氏名又は名称】丸山 隆夫
【公開番号】 特開2002−132791(P2002−132791A)
【公開日】 平成14年5月10日(2002.5.10)
【出願番号】 特願2000−329805(P2000−329805)