| 【発明の名称】 |
データ派生装置及び方法、並びに、データ派生プログラムを格納した記憶媒体 |
| 【発明者】 |
【氏名】奥 雅博
|
| 【要約】 |
【課題】本発明は、検索キーを清音化することなく再現率の高い検索が実現されるように検索対象のデータベース中に必要なデータを元のデータから派生させる際に、不要なデータが派生されないデータ派生装置及び方法の提供を目的とする。
【解決手段】本発明のデータ派生装置は、データベースからデータレコードを一つずつ読み込む手段と、必要なデータ派生のみを行うための派生ルール群を、読み込まれたデータレコードの内容によって検索する手段と、検索する手段で得られた派生ルールに従ってデータレコードを派生させる手段と、派生させる手段で派生されたデータレコードをデータベースに追記するデータベース書き込み手段とから構成される。 |
【特許請求の範囲】
【請求項1】 検索キーによって検索されるデータベースに対しデータを派生させるデータ派生装置であって、上記データベースからデータレコードを読み込むデータ読み込み手段と、上記データ読み込み手段において読み込まれたデータレコードの内容によって必要なデータだけを派生させるための派生ルールを含む派生ルール群を検索する派生ルール検索手段と、上記派生ルール検索手段で得られた派生ルールに従ってデータレコードを派生させるデータ派生手段と、上記データ派生手段で派生されたデータレコードを上記データベースに追記するデータベース書き込み手段とから構成されることを特徴とするデータ派生装置。 【請求項2】 上記派生ルールは、漢字表記と、該漢字表記と対応した可能な読みを列挙した読みリストとからなり、上記派生ルール検索手段は、上記データ読み込み手段で得られた、漢字表記及び対応した漢字の読みを含む上記データレコード中の該漢字表記を検索キーとして上記派生ルール群を検索し、上記データ派生手段は、上記派生ルール検索手段において検索された派生ルールの中で、上記データ読み込み手段で得られたデータレコードの中の漢字の読みと一致する読みを含む上記読みリストを有する派生ルールを選択する派生ルール選択手段と、上記データレコードの中の漢字の読みが、上記選択された派生ルールの読みリストに含まれる読みの中で上記データレコードの中の漢字の読み以外の漢字の読みで置き換えられたデータレコードを派生させる読み置換手段とを有することを特徴とする請求項1記載のデータ派生装置。 【請求項3】 上記派生ルールは、漢字1文字表記と、ルールの適用条件と、該漢字1文字表記に対応した読みのリストとの3つ組から構成され、上記派生ルール検索手段は、上記データベースより得られたデータレコードに含まれる漢字表記から漢字表記1文字ずつを取り出す漢字表記取り出し手段と、上記取り出された漢字表記1文字を用いて上記派生ルール群を検索する漢字表記検索手段と、上記漢字表記検索手段による検索に成功し、上記適用条件を満たす上記派生ルールに含まれる読みのリストを取得する読みリスト取得手段とを有し、上記データ派生手段は、上記取り出された漢字表記1文字から取得された読みのリストから、上記データ読み込み手段で得られたデータレコードに含まれる漢字表記に対する可能な読みを生成する読み生成手段と、上記データ読み込み手段で得られた上記データレコードに含まれる漢字の読みが、上記読み生成手段により生成された可能な読みの中で、上記データ読み込み手段で得られた上記データレコードに含まれる漢字の読み以外の漢字の読みで置き換えられたデータレコードを派生させる読み置換手段とから構成されることを特徴とする請求項1記載のデータ派生装置。 【請求項4】 検索キーによって検索されるデータベースに対しデータを派生させるデータ派生方法であって、上記データベースからデータレコードを読み込むデータレコード読み込み段階と、上記読み込まれたデータレコードの内容によって必要なデータだけを派生させるための派生ルールを含む派生ルール群を検索する派生ルール検索段階と、検索で得られた派生ルールに従ってデータレコードを派生させるデータ派生段階と、上記データ派生段階で派生されたデータレコードを上記データベースに追記するデータベース書き込み段階とから構成されることを特徴とするデータ派生方法。 【請求項5】 上記データベース中の全てのデータレコードに対し、上記データレコード読み込み段階、上記派生ルール検索段階、上記データ派生段階、及び、上記データベース書き込み段階を繰り返し行うことを特徴とする請求項4記載のデータ派生方法。 【請求項6】 上記派生ルールは、漢字表記と、該漢字表記に対応した可能な読みを列挙した読みリストとからなり、上記派生ルール検索段階は、上記データ読み込み段階において得られた、漢字表記及び対応した漢字の読みを含む上記データレコード中の漢字表記を検索キーとして上記派生ルール群を検索する段階を有し、上記データ派生段階は、上記派生ルール検索段階において検索された派生ルールの中で、上記データ読み込み段階において得られたデータレコードの中の漢字の読みと一致する読みを含む上記読みリストを有する派生ルールを選択する段階と、上記データレコードの中の漢字の読みが、上記選択された派生ルールの読みリストに含まれる読みの中で上記データレコードの中の漢字の読み以外の漢字の読みで置き換えられたデータレコードを派生させる段階とを有することを特徴とする請求項4又は5記載のデータ派生方法。 【請求項7】 上記派生ルールは、漢字1文字表記と、ルールの適用条件と、該漢字1文字表記と対応した読みのリストとの3つ組から構成され、上記派生ルール検索段階は、上記データベースより得られたデータレコードに含まれる漢字表記から漢字表記1文字ずつを取り出す段階と、上記取り出された漢字表記1文字を用いて上記派生ルール群を検索する段階と、上記段階で検索に成功し、上記適用条件を満たす上記派生ルールに含まれる読みのリストを取得する段階とを有し、上記データ派生段階は、上記取り出された漢字表記1文字から取得された読みのリストから、上記データ読み込み手段で得られたデータレコードに含まれる漢字表記に対する可能な読みを生成する段階と、上記データ読み込み段階で得られた上記データレコードに含まれる漢字の読みが、上記段階において生成された可能な読みの中で、上記データ読み込み段階で得られた上記データレコードに含まれる漢字の読み以外の漢字の読みで置き換えられたデータレコードを派生させる段階とから構成されることを特徴とする請求項4又は5記載のデータ派生方法。 【請求項8】 検索キーによって検索されるデータベースに対しデータを派生させるデータ派生プログラムを格納した記憶媒体であって、上記データベースからデータレコードを読み込ませるデータ読み込みプロセスと、上記読み込まれたデータレコードの内容によって必要なデータだけを派生させるための派生ルールを含む派生ルール群を検索させる派生ルール検索プロセスと、上記得られた派生ルールに従ってデータレコードを派生させるデータ派生プロセスと、上記派生されたデータレコードを上記データベースに追記させるデータベース書き込みプロセスとから構成されることを特徴とするデータ派生プログラムを格納した記憶媒体。 【請求項9】 漢字表記と、該漢字表記に対応した可能な読みを列挙した読みリストとを含む上記派生ルールを構築させるプロセスと、、漢字表記及び対応した漢字の読みを含み、上記得られたデータレコード中の漢字表記を検索キーとして上記派生ルール群を検索させるプロセスと、上記検索された派生ルールの中で、上記得られたデータレコードの中の漢字の読みと一致する読みを含む上記読みリストを有する派生ルールを選択させるプロセスと、上記データレコードの中の漢字の読みが、上記選択された派生ルールの読みリストに含まれる読みの中で上記データレコードの中の漢字の読み以外の漢字の読みで置き換えられたデータレコードを派生させるプロセスとを有することを特徴とする請求項8記載のデータ派生プログラムを格納した記憶媒体。 【請求項10】 漢字1文字表記と、ルールの適用条件と、該漢字1文字表記に対応した読みのリストとの3つ組からなる上記派生ルールを構築させるプロセスと、上記データベースより得られたデータレコードに含まれる漢字表記から漢字表記1文字ずつを取り出させる漢字表記取り出しプロセスと、上記取り出された漢字表記1文字を用いて上記派生ルール群を検索させる漢字表記検索プロセスと、検索に成功し、上記適用条件を満たす上記派生ルールに含まれる読みのリストを取得させる読みリスト取得プロセスと、上記取り出された漢字表記1文字から取得された読みのリストから、上記データレコードに含まれる漢字表記に対する可能な読みを生成させる読み生成プロセスと、上記得られた上記データレコードに含まれる漢字の読みが、上記生成された可能な読みの中で、上記得られた上記データレコードに含まれる漢字の読み以外の漢字の読みで置き換えられたデータレコードを派生させる読み置換プロセスとから構成されることを特徴とするデータ派生プログラムを格納した請求項9記載の記憶媒体。
|
【発明の詳細な説明】【0001】 【発明の属する技術分野】本発明は、データ派生装置及び方法に係わり、特に、利用者からの検索要求に濁音を含む場合に、それらの濁音が本来清音である可能性を考慮して検索ヒット率(再現率)を高めるために予めデータベースの中のデータから必要なデータを派生させる際に、ヒットすべきでないデータを派生させない(適合率を上げる)ように意図されたデータ派生装置及び方法、並びに、データ派生プログラムを格納した記憶媒体に関する。 【0002】 【従来の技術】従来、読みを検索キーとする検索において再現率を上げるために、濁音を清音化してデータベースを検索する清音化検索が行われている。例えば、検索キー=“なかじま”を清音化して得られた“なかしま”を清音化検索キーとしてデータベースが検索される。ここで、再現率とは、検索すべき情報をどの程度検索することができたかを表わす指標であり、再現率=(検索すべき情報のうち、検索できた情報の件数)/(検索すべき情報の件数) で表される。消音化検索には、(1)予め清音化して検索を行なう方法と、(2)元の検索キーで検索を行った結果として検索に失敗したとき、即ち、データベース内に当該検索キーを持つ情報がないときに、清音化検索を行う方法との2通りの方法がある。 【0003】 【発明が解決しようとする課題】しかしながら、このような従来の技術では、すべての濁音を清音に変換してしまうため、本来、清音にすべきではない音まで清音化するので、余分(不要)な候補まで検索し、適合率が低下するという問題がある。例えば、検索キー=“ながしま”において、清音化検索キー=“なかしま”を作成してデータベースを検索すると、“なかしま”の元の読みとして、“ながしま”、“なかしま”の他に、“なかじま”が検索される。しかし、元の検索キー=“ながしま”に対して“なかじま”は検索されるべきではなく、余分な候補である。ここで、適合率とは、検索すべき情報がどの程度余分な情報を検索することなく検索することができたかを示す指標であり、適合率=(検索すべき情報のうち、検索できた情報の件数)/(検索した全件数) で表される。 【0004】本発明の目的は、上記の問題点を解決するため、検索キーを清音化することなく再現率の高い検索が実現されるように検索対象のデータベース中に必要なデータを元のデータから派生させる際に、派生ルールが定められた、不要なデータが派生されないよう意図されたデータ派生装置及び方法を提供することである。 【0005】 【課題を解決するための手段】図1は本発明のデータ派生装置の原理構成図である。同図に示す如く、本発明のデータ派生装置70は、検索対象であるデータベースからデータレコードを一つずつ読み込むデータ読み込み手段10と、予め用意された必要なデータ派生のみを行うための派生ルールを含む派生ルール群50を、上記データ読み込み手段10に読み込まれたデータレコードの内容によって検索する派生ルール検索手段20と、上記派生ルール検索手段20で得られた派生ルールに従ってデータレコードを派生させるデータ派生手段30と、上記データ派生手段30で派生されたデータレコードを上記データベース60に追記するデータベース書き込み手段40とから構成される。 【0006】上記本発明のデータ派生装置は、派生ルール群の記述に従う必要なデータだけを派生するので、データベース60を検索する際に不要なデータレコードを検索することが回避され、適合率が上がる。図2は本発明の原理を説明するための図である。本発明の検索キーによって検索されるデータベースに対しデータを派生させるデータ派生方法は、上記データベースからデータレコードを読み込むデータレコード読み込み段階(ステップ2)と、、上記読み込まれたデータレコードの内容によって必要なデータだけを派生させるための派生ルールを含む派生ルール群を検索する派生ルール検索段階(ステップ4)と、検索で得られた派生ルールに従ってデータレコードを派生させるデータ派生段階(ステップ6)、上記データ派生段階で派生されたデータレコードを上記データベースに追記するデータベース書き込み段階(ステップ8)とから構成されることを特徴とするデータ派生方法。 【0007】更に、本発明のデータ派生方法は、上記データベース中の全てのデータレコードに対し、上記データレコード読み込み段階、上記派生ルール検索段階、上記データ派生段階、及び、上記データベース書き込み段階を繰り返し行う。更に、本発明は、検索キーによって検索されるデータベースに対しデータを派生させるデータ派生プログラムを格納した記憶媒体である。上記記憶媒体は、上記データベースからデータレコードを読み込ませるデータ読み込みプロセスと、上記読み込まれたデータレコードの内容によって必要なデータだけを派生させるための派生ルールを含む派生ルール群を検索させる派生ルール検索プロセスと、上記得られた派生ルールに従ってデータレコードを派生させるデータ派生プロセスと、上記派生されたデータレコードを上記データベースに追記させるデータベース書き込みプロセスとから構成されることを特徴とするデータ派生プログラムを格納している。 【0008】 【発明の実施の形態】図2は本発明のデータ派生装置70の基本構成図である。データ派生装置70の本体は、ハードウェア的には、CPU及びメモリにより構成することが可能であり、機能的には、データ読み込み部10、派生ルール検索部20、データ派生部30、データベース書き込み部40、及び派生ルール群50から構成され、データベース60に対しデータを派生させる。 【0009】データ読み込み部10はデータベース60から1データレコードずつを読み込む。派生ルール検索部20は、データ読み込み部10で読み込まれたデータレコードの内容に依存して派生ルール群50を検索する。データ派生部30は、派生ルール検索部20により得られた派生ルールに従ってデータレコードを発生させ、データベース書き込み部40は、派生されたデータレコードをデータベース60に追記する。 【0010】図4は本発明のデータ派生装置の動作フローチャートである。以下、図4を参照して図3に示した本発明のデータ派生装置の動作を説明する。 ステップ10:データ読み込み部10は、データ派生指令を受けて、データベース60から1データレコードを読み込み、読み込まれたデータレコードを派生ルール検索部20に送る。 【0011】ステップ12:派生ルール検索部20は、送られてきたデータレコードの内容によって派生ルール群50を検索し、読み込まれたデータレコードに適用すべき派生ルールを取得する。 ステップ14:派生ルール検索部20は、次に、検索が成功したか否か、即ち、適用すべき派生ルールが得られたかどうかを判定する。派生ルールが得られている場合にはステップ16に進み、派生ルールが得られていない場合にはステップ20に進む。 【0012】ステップ16:得られた派生ルールとデータ読み込み部10で読み込まれたデータレコードとが派生ルール検索部20からデータ派生部30に送られる。データ派生部30は、得られた派生ルールの記述に従って元のデータレコードから派生データレコードを生成し、生成された派生データレコードをデータベース書き込み部40に送る。 【0013】ステップ18:データベース書き込み部40は、派生されたデータレコードをデータベース60に追記し、制御をデータ読み込み部10に戻す。 ステップ20:データ読み込み部10は、データベース60中の全てのデータレコードを処理したかどうかを判定する。データベース60中に未処理のデータレコードがある場合にはステップ10に戻る。未処理のデータが存在しない場合には処理を終了する。 【0014】 【実施例】図5は本発明の第1の実施例によるデータ派生装置71の構成図である。データ派生装置71は、データベース60からデータレコード62を読み込むデータ読み込み部10と、必要なデータだけを派生させる派生ルールを得るため、上記データ読み込み部10において読み込まれたデータレコード62の内容によって派生ルール群50を検索する派生ルール検索部20と、上記派生ルール検索部20で得られた派生ルール52に従ってデータレコードを派生させるデータ派生部30と、上記データ派生部30で派生されたデータレコードを上記データベース60に追記するデータベース書き込み部40とから構成される。 【0015】本発明の第1の実施例において上記派生ルール52は、漢字表記53と、対応した可能な読みを列挙した読みリスト54とからなる。上記派生ルール検索部20は、漢字表記63及び対応した漢字の読み64を含み、上記データ読み込み部10で得られた上記データレコード62中の漢字表記63を検索キーとして上記派生ルール群50を検索する。 【0016】上記データ派生部30は、上記派生ルール検索部20において検索された派生ルール52の中で、上記データ読み込み部10で得られたデータレコード62の中の漢字の読み64と一致する読みを含む上記読みリスト54を有する派生ルール52を選択する派生ルール選択部32を有する。上記データ派生部30は、上記データレコード62の中の漢字の読み64が、上記選択された派生ルール52の読みリスト54に含まれる読みの中で上記データレコード62の中の漢字の読み64以外の漢字の読みで置き換えられたデータレコードを派生させる読み置換部34を更に有する。 【0017】図6は本発明の第1の実施例によるデータベース60の内容の一例を表わす図である。同図には、データベース60を検索する際のキーとなる読みのフィールド100、漢字表記のフィールド101、及び、例えば、住所と電話番号とからなる情報本体のフィールド102が示される。図7は本発明の第1の実施例による派生ルール群50の内容の一例を表わす図である。派生ルール群50は、派生ルール群を検索する際のキーとなる漢字表記のフィールド103と、漢字表記103に対する可能な読みを列挙した読みのリストのフィールド104とからなる。 【0018】以下の本発明の第1の実施例の動作の説明に使用するステップは、図4に示されたデータ派生装置の動作フローチャート中のステップと対応している。 ステップ10:データベース読み込み部10は、図6に示されたデータベース60から1データレコードを読み込む。データレコード(なかじま 中島 横浜市××区 045-xxx-xxxx)を読み込んだ場合を想定する。更に、データベース読み込み部10は読み込まれたデータレコードを派生ルール検索部20に送る。 【0019】ステップ12:派生ルール検索部20は、送られてきたデータレコード(なかじま 中島 横浜市××区 045-xxx-xxxx)の漢字表記=“中島”をキーとして、図7に示された派生ルール群50を検索する。このとき、派生ルール(中島なかじま なかしま)の検索に成功する。 ステップ14:派生ルールの検索に成功したので、処理はステップ16に進む。 【0020】ステップ16:派生ルール検索部20は、得られた派生ルール(中島 なかじま なかしま)と、データ読み込み部10で読み込まれたデータレコード(なかじま 中島 横浜市××区 045-xxx-xxxx)とを派生ルール選択部32に送る。派生ルール選択部32は、派生ルール検索部20で得られた派生ルールの中で、読み込まれたデータレコードの読みと一致する可能な読みを含む派生ルールを選択する。この場合、得られた派生ルール(中島 なかじま なかしま)は“中島”に対する可能な読みが“なかじま”、“なかしま”の二つであることを示すと共に、読み込まれたデータレコードの読みは“なかじま”であるので、派生ルール検索部20から送られた派生ルール(中島 なかじま なかしま)が選択される。置換データレコード生成部34は、読みとしてデータレコードに含まれていない読み“なかしま”を含む派生データレコード(なかしま 中島 横浜市××区 045-xxx-xxxx)を生成し、データベース書き込み部40に送る。このようにして、データ派生部30では、派生ルール(中島 なかじま なかしま)の記述に従って派生データレコードが生成される。 【0021】ステップ18:データベース書き込み部40は、派生データレコード(なかしま 中島 横浜市××区 045-xxx-xxxx)をデータベース60に追記し、制御をデータ読み込み部10に戻す。 ステップ20:データ読み込み部10は、データベース60の中の全てのデータレコードが処理されたかどうかを判定する。この例では、未処理のデータレコードがデータベース60に存在するので、ステップ10に戻る。 【0022】上記の処理を図6に示されたデータベース60の他のデータレコードに対して繰り返し行うことにより、図6のデータレコード(ながしま 永島 横浜市○○区 045-yyy-yyyy)、(なかしま 中島 横浜市△△区 045-zzz-zzzz)、(ながじま 永島 横浜市○△区 045-vvv-vvvv)の三つのデータレコードに対し、夫々、(ながじま 永島 横浜市○○区 045-yyy-yyyy)、(なかじま 中島横浜市△△区 045-zzz-zzzz)、(ながしま 永島 横浜市○△区 045-vvv-vvvv)の三つの派生レコードが生成され、データベース60に追記される。 【0023】図8は、以上の処理によって得られるデータベース60の内容の一例を表わす図である。データベース60の内容は、元のデータレコードと、派生データレコードとを含むように更新されている。図9は本発明の第1の実施例による派生後のデータベースの内容の他の例を示す図である。読み置換部34は、図9の(a)に示される如く、元のデータレコードと、派生データレコードとの間で共通しない部分だけを派生させ、残りの共通部分とのリンクは、ポインタ105を介して行うことが可能である。このような構成の場合に、共通する情報を重複して持つ必要が無くなるのでデータベース容量を削減することが可能である。 【0024】以上の処理によって、データベース60内に可能な読みを持つデータレコードのみを派生させることが可能であるため、当該データベースを検索する際に、高い再現率が得られるだけではなく、高い適合率の検索が実現される。図10は本発明の第2の実施例によるデータ派生装置72の構成図である。データ派生装置72は、データベース60からデータレコード62を読み込むデータ読み込み部10と、必要なデータだけを派生させる派生ルールを得るため、上記データ読み込み部10において読み込まれたデータレコード62の内容によって派生ルール群50を検索する派生ルール検索部20と、上記派生ルール検索部20で得られた派生ルール52に従ってデータレコードを派生させるデータ派生部30と、上記データ派生部30で派生されたデータレコードを上記データベース60に追記するデータベース書き込み部40とから構成される。 【0025】上記派生ルール52は、漢字1文字表記55と、ルールの適用条件56と、読みのリスト54との3つ組から構成される。上記派生ルール検索部20は、上記データベース60より得られたデータレコード62に含まれる漢字表記63から漢字表記1文字ずつを取り出す漢字表記取り出し部22と、上記取り出された漢字表記1文字を用いて上記派生ルール群50を検索する漢字表記検索部24と、上記漢字表記検索部24で検索に成功し、上記適用条件56を満たす上記派生ルール52に含まれる読みのリスト54を取得する読みリスト取得部26とを有する。 【0026】上記データ派生部30は、上記取り出された漢字表記1文字から取得された読みのリスト54から、上記データ読み込み部10で得られたデータレコード62に含まれる漢字表記63に対する可能な読みを生成する読み生成部36と、上記データ読み込み部10で得られた上記データレコード62に含まれる漢字の読み63が、上記読み生成部36により生成された可能な読みの中で、上記データ読み込み部10で得られた上記データレコード62に含まれる漢字の読み63以外の漢字の読みで置き換えられたデータレコードを派生させる読み置換部38とから構成される。 【0027】データベース60の内容は、図6に示された本発明の第1の実施例によるデータベース60の内容の一例と一致する場合を考える。図11は本発明の第2の実施例による派生ルール群50の内容の一例を表わす図である。派生ルール群50は、派生ルール群を検索する際のキーとなる漢字1文字表記のフィールド106と、派生ルールを適用できるか否かの条件を示す適用条件のフィールド107と、上記の漢字1文字表記に対する可能な読みを列挙した読みのリストのフィールド108とからなる。 【0028】以下の本発明の第2の実施例の動作の説明に使用するステップは、図4に示されたデータ派生装置の動作フローチャート中のステップと対応している。 ステップ10:データベース読み込み部10は、図6に示されたデータベース60から1データレコードを読み込む。データレコード(なかじま 中島 横浜市××区 045-xxx-xxxx)を読み込んだ場合を想定する。更に、データベース読み込み部10は読み込まれたデータレコードを派生ルール検索部20に送る。 【0029】ステップ12:派生ルール検索部20の漢字表記取り出し部22は、送られてきたデータレコード(なかじま 中島 横浜市××区 045-xxx-xxxx)の漢字表記1文字毎、即ち、“中”及び“島”をキーとして、図11に示された派生ルール群50を検索する。このとき、1文字目“中”に対して派生ルール(中 すべて (なか))の検索に成功し、2文字目“島”に対して(島 1文字目 (しま))及び(島 2文字目以降 (しま じま))の二つの検索に成功し、読みリスト取得部26は検索に成功した夫々の派生ルールに含まれる読みのリストを取得する。 【0030】ステップ14:派生ルールの検索に成功したので、処理はステップ16に進む。 ステップ16:読みリスト取得部26は、得られた派生ルール(中 すべて(なか))、(島 1文字目 (しま))及び(島 2文字目以降 (しま じま))と、データ読み込み部10で読み込まれたデータレコード(なかじま 中島 横浜市××区 045-xxx-xxxx)とを読み生成部36に送る。読み生成部36は、1文字目“中”に対する派生ルール(中 すべて (なか))の適用条件は無条件である(すべてと記述されている)ので、1文字目“中”に対して、可能な読みとして“なか”を取得する。また、“島”は“中島”の2文字目に存在するので、適用条件として2文字目以降が記述されている(島 2文字目以降 (しま じま))のみが使用される。この派生ルールから2文字目“島”に対する可能な読みとして、“しま”、“じま”が得られる。夫々の漢字の可能な読みより、“なかしま”、“なかじま”の二つの読みが生成される。現在処理中のデータレコードは(なかじま 中島 横浜市××区 045-xxx-xxxx)であり、その読みは“なかじま”であるため、上記の生成された二つの読み“なかしま”、“なかじま”に含まれる。従って、読み置換部38は、派生データレコード(なかしま 中島 横浜市××区 045-xxx-xxxx)を生成し、データベース書き込み部40に送る。 【0031】ステップ18:データベース書き込み部40は、派生データレコード(なかしま 中島 横浜市××区 045-xxx-xxxx)をデータベース60に追記し、制御をデータ読み込み部10に戻す。 ステップ20:データ読み込み部10は、データベース60の中の全てのデータレコードが処理されたかどうかを判定する。この例では、未処理のデータレコードがデータベース60に存在するので、ステップ10に戻る。 【0032】上記の処理を図6に示されたデータベース60の他のデータレコードに対して繰り返し行うことにより、図6のデータレコード(ながしま 永島 横浜市○○区 045-yyy-yyyy)、(なかしま 中島 横浜市△△区 045-zzz-zzzz)、(ながじま 永島 横浜市○△区 045-vvv-vvvv)の三つのデータレコードに対し、夫々、(ながじま 永島 横浜市○○区 045-yyy-yyyy)、(なかじま 中島横浜市△△区 045-zzz-zzzz)、(ながしま 永島 横浜市○△区 045-vvv-vvvv)の三つの派生レコードが生成され、データベース60に追記される。 【0033】図8は、以上の処理によって得られるデータベース60の内容の一例を表わす図である。データベース60の内容は、元のデータレコードと、派生データレコードとを含むように更新されている。尚、本発明の第2の実施例の場合に、上記本発明の第1の実施例と同様に、派生後のデータベースの内容の他の例が図9に示される。読み置換部38は、図9の(a)に示される如く、元のデータレコードと、派生データレコードとの間で共通しない部分だけを派生させ、残りの共通部分とのリンクは、ポインタ105を介して行うことが可能である。このような構成の場合に、共通する情報を重複して持つ必要が無くなるのでデータベース容量を削減することが可能である。 【0034】以上の処理によって、データベース60内に可能な読みを持つデータレコードのみを派生させることが可能であるため、当該データベースを検索する際に、高い再現率が得られるだけではなく、高い適合率の検索が実現される。また、上記の実施例では、データ派生装置70の構成要件に基づいて説明しているが、この例に限定されることなく、データ派生装置70の各々の構成要件をソフトウェア(プログラム)で構築し、ディスク装置等に格納しておき、必要に応じてデータ派生装置70のコンピュータにインストールして不要なデータが派生されないデータ派生を行うことも可能である。さらに、構築されたプログラムをフロッピーディスクやCD−ROM等の可搬記憶媒体に格納し、このようなシステムを用いる場面で汎用的に使用することも可能である。 【0035】本発明は、上記の実施例に限定されることなく、特許請求の範囲内で種々変更・応用が可能である。 【0036】 【発明の効果】以上の説明から明らかなように、本発明のデータ派生装置及びデータ派生方法によれば、再現率の高い検索を実現するために検索対象のデータベース中に必要なデータを元のデータから派生させる際に、不要なデータの派生を回避することができる派生ルールを定めることにより、高い再現率を実現するだけではなく、高い適合率が得られる検索を実現するためのデータベースを生成することが可能になる。
|
| 【出願人】 |
【識別番号】000004226 【氏名又は名称】日本電信電話株式会社
|
| 【出願日】 |
平成9年(1997)8月19日 |
| 【代理人】 |
【弁理士】 【氏名又は名称】伊東 忠彦
|
| 【公開番号】 |
特開平11−66076 |
| 【公開日】 |
平成11年(1999)3月9日 |
| 【出願番号】 |
特願平9−222367 |
|