トップ :: G 物理学 :: G06 計算;計数




【発明の名称】 分類処理装置、分類処理装置の制御方法、制御プログラムおよび記録媒体
【発明者】 【氏名】田中 敬重
【住所又は居所】長野県諏訪市大和3丁目3番5号 セイコーエプソン株式会社内

【要約】 【課題】分類対象の文章から適当な分類オントロジーを抽出して、最適な分類を行う。

【解決手段】データベース部11は、所定のキーワード元文書に含まれる単語あるいは複合語を特定の分野に関連させて予め分類オントロジーとして記憶する。分類更新処理部12は、分類対象の文書に対応するテキストデータを解析し、当該分類対象の文書に含まれる単語あるいは複合語を分類対象語句として抽出し、分類オントロジーおよび分類対象語句を比較し、分類対象の文書が属する分類を判別する。
【特許請求の範囲】
【請求項1】 所定の分類基準文書に含まれる単語あるいは複合語を特定の分野に関連させて予め分類基準語句として記憶する分類データベース部と、分類対象の文書を解析し、当該分類対象の文書に含まれる単語あるいは複合語を分類対象語句として抽出する語句抽出部と、前記分類基準語句および前記分類対象語句を比較し、前記分類対象の文書が属する分類を判別する分類判別部と、を備えたことを特徴とする分類処理装置。
【請求項2】 請求項1記載の分類処理装置において、前記分類基準文書の形態素解析を行って前記単語あるいは前記複合語を抽出する形態素解析部と、抽出された前記単語あるいは前記複合語の当該分類基準文書における重要度を計算する重要度計算部と、抽出された前記単語あるいは前記複合語を前記重要度および前記特定の分野に対応づけて前記分類データベース部に前記分類基準語句として登録する基準語句登録部と、を備えたことを特徴とする分類処理装置。
【請求項3】 請求項1記載の分類処理装置において、前記分類判別部は、前記分類の判別において、前記分類対象語句のうち前記分類基準語句に含まれる語句の数が多い分類を優先的に前記分類対象の文書が属する分類として判別することを特徴とする分類処理装置。
【請求項4】 請求項1記載の分類処理装置において、前記分類判別部は、前記分類対象語句がN個の前記単語および前記複合語を含む場合に、前記分類対象語句をN次元のベクトル空間におけるベクトルで表し、前記分類基準語句を前記ベクトル空間におけるベクトルで表し、両ベクトルの距離に基づいて前記判別を行うことを特徴とする分類処理装置。
【請求項5】 請求項2記載の分類処理装置において、前記分類判別部は、前記分類対象語句がN個の前記単語および前記複合語を含む場合に、前記分類対象語句の前記重要度をN次元のベクトル空間におけるベクトルで表し、前記分類基準語句の重要度を前記ベクトル空間におけるベクトルで表し、両ベクトルの距離に基づいて前記判別を行うことを特徴とする分類処理装置。
【請求項6】 請求項5記載の分類処理装置において、前記分類判別部は、前記分類対象語句の前記重要度に対応するベクトルXを、X=(X1、X2、……、XN)
とし、前記分類基準語句の前記重要度に対応するベクトルYを、Y=(Y1、Y2、……、YN)
で表し、距離Dを、D=Σ(Xi−Yi)*(Xi−Yi) i=1、2、……、Nとした場合に、前記距離Dが所定のしきい値よりも小さい場合に前記分類対象の文書は前記分類基準文書の属する分類に近い分類に属すると判別することを特徴とする分類処理装置。
【請求項7】 請求項2記載の分類処理装置において、前記形態素解析部は、前記複合語が複数の単語の組み合わせ、単語および抽出された前記複合語よりも文字数の少ない複合語の組み合わせ、あるいは、抽出された前記複合語よりも文字数の少ない複合語の組み合わせのいずれかである場合に、当該複合語のみを抽出することを特徴とする分類処理装置。
【請求項8】 請求項2記載の分類処理装置において、前記形態素解析部は、前記形態素解析において、抽出すべき分類対象語句として少なくとも名詞句およびサ変名詞を含む名詞および所定の名詞句と見なせる品詞に属する単語を抽出することを特徴とする分類処理装置。
【請求項9】 請求項8記載の分類処理装置において、前記所定の名詞句と見なせる品詞として形容動詞の名詞形および一段動詞の連用形を含むことを特徴とする分類処理装置。
【請求項10】 請求項8または請求項9記載の分類処理装置において、前記分類対象語句を登録するための形態素解析用逆引辞書を備え、前記形態素解析部は、前記形態素解析用逆引辞書に基づいて前記形態素解析を行うことを特徴とする分類処理装置。
【請求項11】 請求項10記載の分類処理装置において、前記形態素解析部は、前記形態素解析用逆引辞書に登録されていない単語あるいは複合語を不定語として前記形態素解析用逆引辞書に登録することを特徴とする分類処理装置。
【請求項12】 請求項2記載の分類処理装置において、前記形態素解析部は、前記形態素解析において、抽出した単語あるいは複合語に予め定めた記号が含まれている場合、当該単語あるいは当該複合語から前記記号を除いた後に前記抽出した単語あるいは複合語とすることを特徴とする分類処理装置。
【請求項13】 請求項2記載の分類処理装置において、前記重要度計算部は、抽出された前記単語あるいは前記複合語のうち予め定めた分類対象語句として不適当な語句を除いて前記重要度計算を行うことを特徴とする分類処理装置。
【請求項14】 請求項2記載の分類処理装置において、抽出された前記単語あるいは前記複合語に対し、所定の標準化処理を行う標準化部を備え、前記重要度算出部は、前記標準化処理後の前記単語あるいは前記複合語に対し前記重要度を算出する、ことを特徴とする分類処理装置。
【請求項15】 所定の分類基準文書に含まれる単語あるいは複合語を特定の分野に関連させて予め分類基準語句として記憶する分類データベース部を備えた分類処理装置の制御方法において、分類対象の文書を解析し、当該分類対象の文書に含まれる単語あるいは複合語を分類対象語句として抽出する語句抽出過程と、前記分類基準語句および前記分類対象語句を比較し、前記分類対象の文書が属する分類を判別する分類判別過程と、を備えたことを特徴とする分類処理装置の制御方法。
【請求項16】 請求項15記載の分類処理装置の制御方法において、前記分類基準文書の形態素解析を行って前記単語あるいは前記複合語を抽出する形態素解析過程と、抽出された前記単語あるいは前記複合語の当該分類基準文書における重要度を計算する重要度計算過程と、抽出された前記単語あるいは前記複合語を前記重要度および前記特定の分野に対応づけて前記分類データベース部に前記分類基準語句として登録する基準語句登録過程と、を備えたことを特徴とする分類処理装置の制御方法。
【請求項17】 請求項16記載の分類処理装置の制御方法において、前記分類判別過程は、前記分類対象語句がN個の前記単語および前記複合語を含む場合に、前記分類対象語句の前記重要度をN次元のベクトル空間におけるベクトルで表し、前記分類基準語句の重要度を前記ベクトル空間におけるベクトルで表し、両ベクトルの距離に基づいて前記判別を行うことを特徴とする分類処理装置の制御方法。
【請求項18】 請求項17記載の分類処理装置の制御方法において、前記分類判別過程は、前記分類対象語句の前記重要度に対応するベクトルXを、X=(X1、X2、……、XN)
とし、前記分類基準語句の前記重要度に対応するベクトルYを、Y=(Y1、Y2、……、YN)
で表し、距離Dを、D=Σ(Xi−Yi)*(Xi−Yi) i=1、2、……、Nとした場合に、前記距離Dが所定のしきい値よりも小さい場合に前記分類対象の文書は前記分類基準文書の属する分類に近い分類に属すると判別することを特徴とする分類処理装置の制御方法。
【請求項19】 請求項16記載の分類処理装置の制御方法において、前記形態素解析過程は、前記複合語が複数の単語の組み合わせ、単語および抽出された前記複合語よりも文字数の少ない複合語の組み合わせ、あるいは、抽出された前記複合語よりも文字数の少ない複合語の組み合わせのいずれかである場合に、当該複合語のみを抽出することを特徴とする分類処理装置の制御方法。
【請求項20】 請求項16記載の分類処理装置の制御方法において、前記形態素解析過程は、前記分類対象語句を登録するための形態素解析用逆引辞書の登録内容に基づいて前記形態素解析を行うことを特徴とする分類処理装置の制御方法。
【請求項21】 請求項20記載の分類処理装置の制御方法において、前記形態素解析過程は、前記形態素解析用逆引辞書に登録されていない単語あるいは複合語を不定語として前記形態素解析用逆引辞書に登録することを特徴とする分類処理装置の制御方法。
【請求項22】 請求項16記載の分類処理装置の制御方法において、前記形態素解析過程は、前記形態素解析において、抽出した単語あるいは複合語に予め定めた記号が含まれている場合、当該単語あるいは当該複合語から前記記号を除いた後に前記抽出した単語あるいは複合語とすることを特徴とする分類処理装置の制御方法。
【請求項23】 請求項16記載の分類処理装置の制御方法において、前記重要度計算過程は、抽出された前記単語あるいは前記複合語のうち予め定めた分類対象語句として不適当な語句を除いて前記重要度計算を行うことを特徴とする分類処理装置の制御方法。
【請求項24】 請求項16記載の分類処理装置の制御方法において、前記重要度計算過程は、抽出された前記単語あるいは前記複合語のうち予め定めた前記分類を判別するのに不適当な語句を除いて前記重要度計算を行うことを特徴とする分類処理装置の制御方法。
【請求項25】 請求項16記載の分類処理装置の制御方法において、抽出された前記単語あるいは前記複合語に対し、所定の標準化処理を行う標準化過程を備え、前記重要度算出過程は、前記標準化処理後の前記単語あるいは前記複合語に対し前記重要度を算出する、ことを特徴とする分類処理装置の制御方法。
【請求項26】 コンピュータを所定の分類基準文書に含まれる単語あるいは複合語を特定の分野に関連させて予め分類基準語句として記憶する分類データベース部を利用した分類処理装置として機能させる制御プログラムにおいて、分類対象の文書を解析させ、当該分類対象の文書に含まれる単語あるいは複合語を分類対象語句として抽出させ、前記分類基準語句および前記分類対象語句を比較させ、前記分類対象の文書が属する分類を判別させる、ことを特徴とする制御プログラム。
【請求項27】 請求項26記載の制御プログラムにおいて、前記分類基準文書の形態素解析を行わせて前記単語あるいは前記複合語を抽出させ、抽出された前記単語あるいは前記複合語の当該分類基準文書における重要度を計算させ、抽出された前記単語あるいは前記複合語を前記重要度および前記特定の分野に対応づけて前記分類データベース部に前記分類基準語句として登録させることを特徴とする制御プログラム。
【請求項28】 請求項26記載の制御プログラムにおいて、前記分類対象語句のうち前記分類基準語句に含まれる語句および前記分類基準語句に基づいて前記分類を判別させることを特徴とする制御プログラム。
【請求項29】 請求項28記載の制御プログラムにおいて、前記分類の判別において、前記分類対象語句のうち前記分類基準語句に含まれる語句の数が多い分類を優先的に前記分類対象の文書が属する分類として判別させることを特徴とする制御プログラム。
【請求項30】 請求項26記載の制御プログラムにおいて、前記分類対象語句がN個の前記単語および前記複合語を含む場合に、前記分類対象語句をN次元のベクトル空間におけるベクトルで表させ、前記分類基準語句を前記ベクトル空間におけるベクトルで表させ、両ベクトルの距離に基づいて前記判別を行わせることを特徴とする制御プログラム。
【請求項31】 請求項27記載の制御プログラムにおいて、前記分類対象語句がN個の前記単語および前記複合語を含む場合に、前記分類対象語句の前記重要度をN次元のベクトル空間におけるベクトルで表させ、前記分類基準語句の重要度を前記ベクトル空間におけるベクトルで表させ、両ベクトルの距離に基づいて前記判別を行わせることを特徴とする制御プログラム。
【請求項32】 請求項31記載の制御プログラムにおいて、前記分類対象語句の前記重要度に対応するベクトルXを、X=(X1、X2、……、XN)
で表させ、前記分類基準語句の前記重要度に対応するベクトルYを、Y=(Y1、Y2、……、YN)
で表させ、距離Dを、D=Σ(Xi−Yi)*(Xi−Yi) i=1、2、……、Nとした場合に、前記距離Dが所定のしきい値よりも小さい場合に前記分類対象の文書は前記分類基準文書の属する分類に近い分類に属すると判別させことを特徴とする制御プログラム。
【請求項33】 請求項27記載の制御プログラムにおいて、前記複合語が複数の単語の組み合わせ、単語および抽出された前記複合語よりも文字数の少ない複合語の組み合わせ、あるいは、抽出された前記複合語よりも文字数の少ない複合語の組み合わせのいずれかである場合に、当該複合語のみを抽出させることを特徴とする制御プログラム。
【請求項34】 請求項27記載の制御プログラムにおいて、前記形態素解析において、抽出すべき分類対象語句として名詞および所定の名詞句と見なせる品詞に属する単語を抽出させることを特徴とする制御プログラム。
【請求項35】 請求項34記載の制御プログラムにおいて、前記名詞として、名詞句およびサ変名詞を含ませることを特徴とする制御プログラム。
【請求項36】 請求項34記載の制御プログラムにおいて、前記所定の名詞句と見なせる品詞として形容動詞の名詞形および一段動詞の連用形を含ませることを特徴とする制御プログラム。
【請求項37】 請求項34ないし請求項36のいずれかに記載の制御プログラムにおいて、前記分類対象語句を登録するための形態素解析用逆引辞書の登録内容に基づいて前記形態素解析を行わせることを特徴とする制御プログラム。
【請求項38】 請求項37記載の制御プログラムにおいて、前記形態素解析用逆引辞書に登録されていない単語あるいは複合語を不定語として前記形態素解析用逆引辞書に登録させることを特徴とする制御プログラム。
【請求項39】 請求項37記載の制御プログラムにおいて、前記形態素解析において、抽出した単語あるいは複合語に予め定めた記号が含まれている場合、当該単語あるいは当該複合語から前記記号を除いた後に前記抽出した単語あるいは複合語とさせることを特徴とする制御プログラム。
【請求項40】 請求項37記載の制御プログラムにおいて、抽出された前記単語あるいは前記複合語のうち予め定めた分類対象語句として不適当な語句を除いて前記重要度計算を行わせることを特徴とする制御プログラム。
【請求項41】 請求項37記載の制御プログラムにおいて、抽出された前記単語あるいは前記複合語に対し、所定の標準化処理を行わせ、前記標準化処理後の前記単語あるいは前記複合語に対し前記重要度を算出させる、ことを特徴とする制御プログラム。
【請求項42】 請求項26ないし請求項41のいずれかに記載の制御プログラムを記録したことを特徴とする記録媒体。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は、分類処理装置、分類処理装置の制御方法、制御プログラムおよび記録媒体に係り、特に対象文書の属する分類を判別して書類の分類を行うための技術に関する。
【0002】
【従来の技術】近年の情報技術の発達に伴い、膨大な情報の利用が可能になってきており、各種の文書についてもその例外ではない。しかし利用可能な情報量と利用の容易さとは相反する関係にあり、情報量すなわち文書量が増えれば増えるほど文書を容易に利用できなくなってしまうという問題点が生じる。上記問題点を回避すべく、利用対象の文書を分類し、必要な分類に属する文書を利用するようにすることが提案されており、文書の分類に際しては、当該文書に含まれるキーワードを抽出し、抽出されたキーワードに基づいて分類するのが一般的である。
【0003】このような場合に、文書からキーワードを抽出するための技術の一例として、特開平6−282572号に記載のキーワード自動抽出装置が挙げられる。特開平6−282572号に記載のキーワード自動抽出装置は、文書を形態素解析して品詞情報を取り出し、名詞句およびサ変名詞を文書から抽出する。そして抽出した名詞句およびサ変名詞の当該文書中の重要度を判別し、重要度の高いキーワードを当該文書の分類に対応するキーワードとして自動的に抽出することとなっていた。
【0004】
【発明が解決しようとする課題】ところで、上記従来のキーワード自動抽出装置においては、抽出されるキーワードとしては、例えば、複数の名詞句を組み合わせた複合語も含まれている。この場合には、複合語および当該複合語を構成する単語についてもキーワードとして抽出されることとなっていた。しかしながら、文書の分類を行う場合には、複合語と複合語を構成する単語は必ずしも同一の分野に属するものとは限らず、複合語と複合語を構成する単語の双方に基づいて文書の分類を行うと、本来の分類とは異なる分類とされてしまうという不具合があった。
【0005】例えば、分類対象の文章中に複合語である「音楽CD」が含まれる場合について考察してみる。この場合、従来のキーワード抽出装置においては、「音楽」、「CD」および「音楽CD」の3つがキーワードとして抽出されることとなる。ところで、単語「CD」は、一般的には記録媒体である「CD−ROM」をも意味しており、単語「CD」の属する分類としては、「コンピュータ分野」も含まれてしまうこととなる。従って、単語「CD」は分類を判別するためのキーワード(以下、分類オントロジーという)としては適当ではないことが分かる。そこで、本発明の目的は、分類対象の文章から適当な分類オントロジーを抽出して、最適な分類を行うことが可能な分類処理装置、分類処理装置の制御方法、分類処理装置の制御プログラムおよびこの制御プログラムを記録した記録媒体を提供することにある。
【0006】
【課題を解決するための手段】上記課題を解決するため、分類処理装置は、所定の分類基準文書に含まれる単語あるいは複合語を特定の分野に関連させて予め分類基準語句として記憶する分類データベース部と、分類対象の文書を解析し、当該分類対象の文書に含まれる単語あるいは複合語を分類対象語句として抽出する語句抽出部と、前記分類基準語句および前記分類対象語句を比較し、前記分類対象の文書が属する分類を判別する分類判別部と、を備えたことを特徴としている。上記構成によれば、分類データベースは、所定の分類基準文書に含まれる単語あるいは複合語を特定の分野に関連させて予め分類基準語句として記憶する。語句抽出部は、分類対象の文書を解析し、当該分類対象の文書に含まれる単語あるいは複合語を分類対象語句として抽出する。分類判別部は、分類基準語句および分類対象語句を比較し、分類対象の文書が属する分類を判別する。
【0007】この場合において、前記分類基準文書の形態素解析を行って前記単語あるいは前記複合語を抽出する形態素解析部と、抽出された前記単語あるいは前記複合語の当該分類基準文書における重要度を計算する重要度計算部と、抽出された前記単語あるいは前記複合語を前記重要度および前記特定の分野に対応づけて前記分類データベース部に前記分類基準語句として登録する基準語句登録部と、を備えるようにしてもよい。
【0008】また、前記分類判別部は、前記分類対象語句のうち前記分類基準語句に含まれる語句の数が多い分類を優先的に前記分類対象の文書が属する分類として判別するようにしてもよい。さらにまた、前記分類判別部は、前記分類対象語句がN個の前記単語および前記複合語を含む場合に、前記分類対象語句をN次元のベクトル空間におけるベクトルで表し、前記分類基準語句を前記ベクトル空間におけるベクトルで表し、両ベクトルの距離に基づいて前記判別を行うようにしてもよい。
【0009】また、前記分類判別部は、前記分類対象語句がN個の前記単語および前記複合語を含む場合に、前記分類対象語句の前記重要度をN次元のベクトル空間におけるベクトルで表し、前記分類基準語句の重要度を前記ベクトル空間におけるベクトルで表し、両ベクトルの距離に基づいて前記判別を行うようにしてもよい。
【0010】さらに前記分類判別部は、前記分類対象語句の前記重要度に対応するベクトルXを、X=(X1、X2、……、XN)
とし、前記分類基準語句の前記重要度に対応するベクトルYを、Y=(Y1、Y2、……、YN)
で表し、距離Dを、D=Σ(Xi−Yi)*(Xi−Yi) i=1、2、……、Nとした場合に、前記距離Dが所定のしきい値よりも小さい場合に前記分類対象の文書は前記分類基準文書の属する分類に近い分類に属すると判別するようにしてもよい。
【0011】さらにまた、前記形態素解析部は、前記複合語が複数の単語の組み合わせ、単語および抽出された前記複合語よりも文字数の少ない複合語の組み合わせ、あるいは、抽出された前記複合語よりも文字数の少ない複合語の組み合わせのいずれかである場合に、当該複合語のみを抽出するようにしてもよい。また、前記形態素解析部は、前記形態素解析において、抽出すべき分類対象語句として少なくとも名詞句およびサ変名詞を含む名詞および所定の名詞句と見なせる品詞に属する単語を抽出するようにしてもよい。
【0012】さらにまた、前記所定の名詞句と見なせる品詞として形容動詞の名詞形および一段動詞の連用形を含むようにしてもよい。また、前記分類対象語句を登録するための形態素解析用逆引辞書を備え、前記形態素解析部は、前記形態素解析用逆引辞書に基づいて前記形態素解析を行うようにしてもよい。さらに前記形態素解析部は、前記形態素解析用逆引辞書に登録されていない単語あるいは複合語を不定語として前記形態素解析用逆引辞書に登録するようにしてもよい。さらにまた、前記形態素解析部は、前記形態素解析において、抽出した単語あるいは複合語に予め定めた記号が含まれている場合、当該単語あるいは当該複合語から前記記号を除いた後に前記抽出した単語あるいは複合語とするようにしてもよい。
【0013】また、前記重要度計算部は、抽出された前記単語あるいは前記複合語のうち予め定めた分類対象語句として不適当な語句を除いて前記重要度計算を行うようにしてもよい。さらに前記重要度計算部は、抽出された前記単語あるいは前記複合語のうち予め定めた前記分類を判別するのに不適当な語句を除いて前記重要度計算を行うようにしてもよい。さらにまた、抽出された前記単語あるいは前記複合語に対し、所定の標準化処理を行う標準化部を備え、前記重要度算出部は、前記標準化処理後の前記単語あるいは前記複合語に対し前記重要度を算出するようにしてもよい。
【0014】また、所定の分類基準文書に含まれる単語あるいは複合語を特定の分野に関連させて予め分類基準語句として記憶する分類データベース部を備えた分類処理装置の制御方法は、分類対象の文書を解析し、当該分類対象の文書に含まれる単語あるいは複合語を分類対象語句として抽出する語句抽出過程と、前記分類基準語句および前記分類対象語句を比較し、前記分類対象の文書が属する分類を判別する分類判別過程と、を備えたことを特徴としている。上記構成によれば、語句抽出過程は、分類対象の文書を解析し、当該分類対象の文書に含まれる単語あるいは複合語を分類対象語句として抽出する。分類判別過程は、前記分類基準語句および前記分類対象語句を比較し、前記分類対象の文書が属する分類を判別する。
【0015】この場合において、前記分類基準文書の形態素解析を行って前記単語あるいは前記複合語を抽出する形態素解析過程と、抽出された前記単語あるいは前記複合語の当該分類基準文書における重要度を計算する重要度計算過程と、抽出された前記単語あるいは前記複合語を前記重要度および前記特定の分野に対応づけて前記分類データベース部に前記分類基準語句として登録する基準語句登録過程と、を備えるようにしてもよい。
【0016】また、前記分類判別過程は、前記分類対象語句がN個の前記単語および前記複合語を含む場合に、前記分類対象語句の前記重要度をN次元のベクトル空間におけるベクトルで表し、前記分類基準語句の重要度を前記ベクトル空間におけるベクトルで表し、両ベクトルの距離に基づいて前記判別を行うようにしてもよい。さらに前記分類判別過程は、前記分類対象語句の前記重要度に対応するベクトルXを、X=(X1、X2、……、XN)
とし、前記分類基準語句の前記重要度に対応するベクトルYを、Y=(Y1、Y2、……、YN)
で表し、距離Dを、D=Σ(Xi−Yi)*(Xi−Yi) i=1、2、……、Nとした場合に、前記距離Dが所定のしきい値よりも小さい場合に前記分類対象の文書は前記分類基準文書の属する分類に近い分類に属すると判別するようにしてもよい。
【0017】さらにまた、前記形態素解析過程は、前記複合語が複数の単語の組み合わせ、単語および抽出された前記複合語よりも文字数の少ない複合語の組み合わせ、あるいは、抽出された前記複合語よりも文字数の少ない複合語の組み合わせのいずれかである場合に、当該複合語のみを抽出するようにしてもよい。また、前記形態素解析過程は、前記分類対象語句を登録するための形態素解析用逆引辞書の登録内容に基づいて前記形態素解析を行うようにしてもよい。さらに前記形態素解析過程は、前記形態素解析用逆引辞書に登録されていない単語あるいは複合語を不定語として前記形態素解析用逆引辞書に登録するようにしてもよい。
【0018】さらにまた、前記形態素解析過程は、前記形態素解析において、抽出した単語あるいは複合語に予め定めた記号が含まれている場合、当該単語あるいは当該複合語から前記記号を除いた後に前記抽出した単語あるいは複合語とするようにしてもよい。また、前記重要度計算過程は、抽出された前記単語あるいは前記複合語のうち予め定めた分類対象語句として不適当な語句を除いて前記重要度計算を行うようにしてもよい。さらにまた、抽出された前記単語あるいは前記複合語に対し、所定の標準化処理を行う標準化過程を備え、前記重要度算出過程は、前記標準化処理後の前記単語あるいは前記複合語に対し前記重要度を算出するようにしてもよい。
【0019】また、コンピュータを所定の分類基準文書に含まれる単語あるいは複合語を特定の分野に関連させて予め分類基準語句として記憶する分類データベース部を利用した分類処理装置として機能させる制御プログラムにおいて、分類対象の文書を解析させ、当該分類対象の文書に含まれる単語あるいは複合語を分類対象語句として抽出させ、前記分類基準語句および前記分類対象語句を比較させ、前記分類対象の文書が属する分類を判別させる、ことを特徴としている。この場合において、前記分類基準文書の形態素解析を行わせて前記単語あるいは前記複合語を抽出させ、抽出された前記単語あるいは前記複合語の当該分類基準文書における重要度を計算させ、抽出された前記単語あるいは前記複合語を前記重要度および前記特定の分野に対応づけて前記分類データベース部に前記分類基準語句として登録させるようにしてもよい。
【0020】また、前記分類対象語句のうち前記分類基準語句に含まれる語句および前記分類基準語句に基づいて前記分類を判別させるようにしてもよい。さらに前記分類の判別において、前記分類対象語句のうち前記分類基準語句に含まれる語句の数が多い分類を優先的に前記分類対象の文書が属する分類として判別させるようにしてもよい。さらにまた、前記分類対象語句がN個の前記単語および前記複合語を含む場合に、前記分類対象語句をN次元のベクトル空間におけるベクトルで表させ、前記分類基準語句を前記ベクトル空間におけるベクトルで表させ、両ベクトルの距離に基づいて前記判別を行わせるようにしてもよい。
【0021】また、前記分類対象語句がN個の前記単語および前記複合語を含む場合に、前記分類対象語句の前記重要度をN次元のベクトル空間におけるベクトルで表させ、前記分類基準語句の重要度を前記ベクトル空間におけるベクトルで表させ、両ベクトルの距離に基づいて前記判別を行わせるようにしてもよい。さらに前記分類対象語句の前記重要度に対応するベクトルXを、X=(X1、X2、……、XN)
で表させ、前記分類対象語句の前記重要度に対応するベクトルYを、Y=(Y1、Y2、……、YN)
で表させ、距離Dを、D=Σ(Xi−Yi)*(Xi−Yi) i=1、2、……、Nとした場合に、前記距離Dが所定のしきい値よりも小さい場合に前記分類対象の文書は前記分類基準文書の属する分類に近い分類に属すると判別させるようにしてもよい。
【0022】さらにまた、前記複合語が複数の単語の組み合わせ、単語および抽出された前記複合語よりも文字数の少ない複合語の組み合わせ、あるいは、抽出された前記複合語よりも文字数の少ない複合語の組み合わせのいずれかである場合に、当該複合語のみを抽出させるようにしてもよい。また、前記形態素解析において、抽出すべき分類対象語句として名詞および所定の名詞句と見なせる品詞に属する単語を抽出させるようにしてもよい。さらに前記名詞として、名詞句およびサ変名詞を含むことを特徴としている。さらにまた、前記所定の名詞句と見なせる品詞として形容動詞の名詞形および一段動詞の連用形を含ませるようにしてもよい。また、前記分類対象語句を登録するための形態素解析用逆引辞書の登録内容に基づいて前記形態素解析を行わせるようにしてもよい。さらに前記形態素解析用逆引辞書に登録されていない単語あるいは複合語を不定語として前記形態素解析用逆引辞書に登録させるようにしてもよい。
【0023】さらにまた、前記形態素解析において、抽出した単語あるいは複合語に予め定めた記号が含まれている場合、当該単語あるいは当該複合語から前記記号を除いた後に前記抽出した単語あるいは複合語とさせるようにしてもよい。また、抽出された前記単語あるいは前記複合語のうち予め定めた分類対象語句として不適当な語句を除いて前記重要度計算を行わせるようにしてもよい。さらにまた、抽出された前記単語あるいは前記複合語に対し、所定の標準化処理を行わせ、前記標準化処理後の前記単語あるいは前記複合語に対し前記重要度を算出させるようにしてもよい。また、上記各制御プログラムを記録媒体に記録するようにしてもよい。
【0024】
【発明の実施の形態】次に本発明の好適な実施の形態について図面を参照して説明する。
[1]分類処理システムの概要構成図1に分類処理システムの概要構成ブロック図を示す。分類処理システム10は、大別すると、各種データをデータベースとして蓄積するデータベース部11と、データベース部11に蓄積された各データベースに基づいて分類処理を行うとともに、分類処理の結果に基づいてデータベース部11の各データベースを更新する分類更新処理部12と、各種情報を表示するディスプレイ部13と、各種データの入力を行う入力部14と、を備えている。ここで、分類処理システム10は、コンピュータシステムにおいて実現可能であり、分類更新処理部12の機能は、各部に対応するマイクロプロセッサで実行可能なプログラムによって実現される。また、このようなプログラムは、半導体メモリ、CD−ROMなどの記録媒体から直接実行してもよい。また、外部記憶装置に予めプログラムインストールして実行することも可能である。さらにプログラムの実行に先立って実行する毎、あるいは、最初に一度だけ、インターネットなどのネットワークを介してインストールするようにしてもよい。
【0025】データベース部11は、大別すると、分類データベース部15と、形態素解析用逆引き辞書16と、テキストデータベース部17と、を備えている。ここで、データベース部11は、ハードディスクなどの外部記憶装置に構築されている。分類データベース部15は、キーワード元文書(分類基準文書)に含まれていた単語あるいは複合語を予め指定された特定の分類(分野)に関連させて分類オントロジー(分類基準語句)として記憶している。形態素解析用逆引き辞書16は、形態素解析に用いる辞書データとして、テキストデータを形態素解析することにより得られる単語あるいは複合語(形態素解析結果)を格納している。テキストデータベース部17は、分類対象の文書に対応するテキストデータの形態素解析の結果(単語および複合語)を格納する。分類更新処理部12は、大別すると、形態素解析部21と、重要度計算部22と、標準化部23と、分類付加部24と、を備えている。
【0026】形態素解析部21は、分類対象のテキスト文書あるいはキーワードを抽出するためのキーワード元文書の形態素解析を行い形態素解析結果を生成する。そして形態素解析の対象が分類対象のテキスト文書である場合には、形態素解析結果である単語あるいは複合語をテキストデータベース部17に出力する。また形態素解析の対象がキーワード元文書である場合には、分類オントロジーを生成させるべく、形態素解析結果である単語あるいは複合語を分類データベース部15に出力する。重要度計算部22は、キーワード元文書の形態素解析結果である単語あるいは複合語について重要度を計算する。例えば、TFIDF法により当該キーワード元文書における重要度としてTFIDF値を計算する。そして、分類データベース部15にキーワード元文書の形態素解析結果である単語あるいは複合語と対応づけて重要度を出力することとなる。
【0027】標準化部23は、形態素解析の結果である単語あるいは複合語の表記の揺れを補正し、補正後の単語あるいは複合語を形態素解析結果として形態素解析部21に出力させることとなる。例えば、「パソコン」、「パーソナルコンピュータ」、「パーソナルコンピューター」は、標準化部23により「パソコン」に表記が統一され、形態素解析結果として形態素解析部21に出力させることとなる。同様に「ジョージ・ワシントン」および「ジョージ=ワシントン」は、「ジョージ=ワシントン」に表記が統一され、形態素解析結果として形態素解析部21に出力させることとなる。分類付加部24は、テキストデータベース部17に格納されている分類対象の文書に対応するテキストデータの形態素解析の結果(単語および複合語)および分類データベース部15に格納されている分類オントロジーを参照して分類対象の文書の分類を判別し、テキストデータベース部17内の形態素解析の結果(単語および複合語)に分類の判別結果を付加させて格納する。
【0028】[2]全体処理次に図2ないし図7を参照して実施形態の分類処理装置の動作を説明する。図2に分類処理装置の全体処理フローチャートを示す。ユーザにディスプレイ13の表示画面上で分類処理に用いるべき形態素解析用辞書(逆引き用辞書)17および分類対象文書のテキストデータについて確認を促す(ステップS1)。ユーザにより分類処理に用いるべき形態素解析用辞書(逆引き用辞書)17および分類対象文書のテキストデータの確認がなされると、形態素解析部により分類対象文書のテキストデータに対する形態素解析処理を行い、形態素解析結果である抽出した単語および複合語をテキストデータベースに登録する(ステップS2)。
【0029】ここで、ステップS2の処理における形態素解析部の処理について説明する。図3に形態素解析部の処理フローチャートを示す。まず、ユーザにディスプレイ画面上で未解析文書数の確認および形態素解析辞書の確認を促す(ステップS11)。次に形態素解析部は、未解析文書があるか否かを判別する(ステップS12)。ステップS12の判別において未解析文書がない場合には(ステップS12;No)、形態素解析を行う必要がないので処理を終了する。ステップS12の判別において未解析文書がある場合には(ステップS12;Yes)、形態素解析処理を行う(ステップS13)。この形態素解析処理においては、名詞(名詞句、サ変名詞)および名詞句と見なす品詞に属する単語および複合語を抽出する品詞処理を行っている。抽出対象の単語および複合語の品詞としては、まず、従来と同様に形容動詞、サ変名詞、普通名詞、数詞、固有名詞、連体詞、慣用句、慣用単漢字(記号を除く)、連濁(名詞連濁、連用連濁)、不定語が挙げられる。ここで、慣用句とは、「アーメン」、「哀悼の意」などの決まり文句をいう。また、連濁とは二つの語句が結合して一つの新たな語句となる際に、うしろの語の語頭の清音が濁音に変更されるものをいう。例えば、「田舎暮らし」という語句における「暮らし(ぐらし)」部分、「意向通り」という語句における「通り(どおり)」部分などが挙げられる。さらに不定語とは、形態素解析用逆引き辞書に含まれていない単語あるいは複合語をいう【0030】新たに追加した抽出対象の単語および複合語の品詞としては、形容動詞の名詞形、一段動詞の連用形が挙げられる。ここで、形容動詞の名詞形および一段動詞の連用形について具体的に説明する。例えば、「綺麗な花」における「綺麗な」は形容動詞の連用形であり抽出対象とはしないが、「花が綺麗」というように「綺麗」を形容動詞の名詞形としている場合には抽出対象とする。また、「あおむける」は抽出対象とならないが、「あおむけ」は一段動詞の連用形であるので、抽出対象とされる。逆に従来では抽出対象であった品詞であり、本実施形態では抽出対象から除いた品詞としては、サ変名詞の終止形、連体詞が挙げられる。ここで、サ変名詞の終止形および連体詞について具体的に説明する。例えば、「行動を共にする」において「行動」はサ変名詞であり抽出対象とされるが、「行動する」はサ変名詞の終止形であるので、抽出対象とならない。また、「明くる朝」における「明くる」や「悪しき習慣」における「悪しき」は連体詞であるので抽出対象とならない。
【0031】具体的には形態素解析辞書(逆引き辞書)に基づいて形態素を抽出し、形態素解析辞書(逆引き辞書)に登録されていない単語(不定語)が抽出された場合には、当該不定語については名詞句として出力される。このように抽出される不定語として抽出される単語としては製品の型番などが挙げられる。また複合語で辞書に登録されているものについては、当該複合語を構成する複数の単語までは分析しないようにしている。次に形態素解析部は、名詞(名詞句、サ変名詞)および名詞句に準ずる語句が抽出されたか否かを判別する(ステップS14)。ステップS14の判別において、名詞句および名詞句に準ずる語句が抽出されなかった場合には(ステップS14;No)、処理をステップS12に移行し、以下、同様に処理を行う。ステップS14の判別において、名詞句および名詞句に準ずる語句が抽出された場合には、形態素解析部21は、記号処理を行う。
【0032】この記号処理は、中点などの単語の先頭として不適当な文字が含まれている場合に、当該不適当な文字を含んだ文字列を抽出した語句として処理を行わないようにするためである。また、記号により違う文字列となる場合でも、例えば、「●HDD」と「HDD」のように切出位置が異なるが実質的に同一の単語である場合があるからである。さらに製品などの型番として不適当な記号である空である。この単語の先頭として不適当な文字としては、以下のようなものが挙げられる。なお、以下の説明において<>内のコードは対応するシフトJISコードである。
半角系文字:「.」、「'」、「`」、「!」、「?」、「-」、「()、「」」
全角系文字:「!<8149>」、「・<8145>」、「?<8148>」、「○<819b>」、「●<819c>」、「*<8196>」、「.<8144>」、「‘<8165>」〜「』<8178>」、「/<815e>」、「\<815f>」、「=<8181>」〜「≧<8186>」、「、<8141>」〜「,<8143>」、およびシフトJISコード8179、817aに対応する二つの文字【0033】このため、形態素解析部21は、抽出された語句の先頭の文字が記号であるか否かを判別する(ステップS15)。ステップS15の判別において、先頭の文字が記号である場合には、当該先頭の記号は見出し等を表すために使用されている可能性がある。このため、抽出された語句から当該先頭の記号を除くべく、抽出した語句の先頭を当該記号を除いた次の文字に設定して、新たに抽出した語句とみなす(ステップS16)。
【0034】次に形態素解析部21は、新たに抽出した語句について、単語の長さを判別し、単語の長さが0より大であるか否か、すなわち、新たに抽出した語句を構成する文字が存在するか否かを判別する(ステップS17)。ステップS17の判別において、単語の長さが0である場合には(ステップS17;No)、単語が存在しないこととなるので、処理を再びステップS14に移行する。ステップS17の判別において、単語の長さが0より大である場合には(ステップS17;Yes)、形態素解析部21は再びステップS15において判別を行うこととなる。
【0035】ステップS15の判別において先頭の文字が記号ではない場合には、新たに抽出された語句は、テキストデータベース16に登録すべき単語であると考えられるので、標準化部23により標準化処理を行う(ステップS18)。そして分類更新処理部12は、標準化処理後の単語をテキストデータベース16に登録する(ステップS19)。次に分類更新処理部12は、テキストデータベース16に登録された単語を形態素解析用逆引き辞書17に登録する(ステップS3)。次に分類更新処理部12は、ユーザに対しディスプレイ13の画面上でキーワード取得元の文書と分類の確認を促す(ステップS4)。再び形態素解析部によりキーワード取得元の文書に対して形態素解析処理を行う(ステップS5)。重要度計算部22において、重要度の計算を行う(ステップS6)。
【0036】ここで、ステップS6の処理における重要度計算部22の処理について説明する。図4に重要度計算部の処理フローチャートを示す。まず、重要度計算部22は、ステップS5において得られたキーワード取得元の文書の形態素解析処理データを取得する(ステップS21)。次に重要度計算部22は、未処理文書があるか否かを判別する(ステップS22)。ステップS22の判別において未だ重要度計算が完了していない未処理のキーワード取得元の文書がない場合には(ステップS22;No)、重要度計算を行う必要がないので処理を終了する。ステップS22の判別において未処理のキーワード取得元の文書がある場合には(ステップS22;Yes)、重要度計算部22は、未処理のキーワード取得元の文書に対応する形態素解析処理データに基づいて未処理のキーワード取得元の文書に含まれる単語あるいは複合語についてTFIDF値を算出し、一定のしきい値以上のTFIDF値の単語あるいは複合語を抽出する(ステップS23)。
【0037】次に重要度計算部22は、抽出した単語あるいは複合語について制限処理を行い、制限処理の対象となる(制限処理で処理対象から除くべき)単語あるいは複合語であるか否かを判別する(ステップS24)。具体的に、制限処理の対象となる単語あるいは複合語としては、以下の■〜■の場合が挙げられる。
■ 形態素解析が失敗したような場合に得られる、単語あるいは複合語の先頭文字が「ァ」、「ィ」、「ゥ」、「ェ」、「ォ」、「ッ」、「ャ」、「ュ」、「ョ」、「ヮ」、「ン」、「ヵ」、「ヶ」などとなっている場合。
■ 全角カタカナで2文字の場合■ 単語あるいは複合語を構成する文字列の途中に「%」、「&」、「;」、「:」、「+」等の半角文字を含む場合。
■ 単語あるいは複合語を構成する文字列の途中に「〜」、「×」、「+」などの全角文字を含む場合。
■ 単漢字である場合。
【0038】これらの単語あるいは複合語は、明らかに名詞句(固有名詞)あるいはサ変名詞として不適当であるため、制限処理において除かれることとなる。ステップS24の処理において、制限処理の対象となる(制限処理で処理対象から除くべき)単語あるいは複合語である場合には(ステップS25;Yes)、重要度計算部22は、当該単語あるいは複合語を破棄する(ステップS27)。そして、処理を再びステップS22に移行して、以下同様の処理を繰り返すこととなる。
【0039】ステップS24の処理において制限処理の対象となる(制限処理で処理対象から除くべき)単語あるいは複合語ではない場合には(ステップS24;No)、重要度計算部22は、ストップワード処理の対象となる(ストップワード処理で処理対象から除くべき)してはじくべき単語あるいは複合語であるか否かを判別する(ステップS25)。ここで、ストップワードとは、複数の分野において用いられる単語あるいは複合語、すなわち、極めて一般的な単語あるいは複合語であり、分類を推定するには不適当な単語あるいは複合語である。例えば、「TEL」、「FAX」、「OK」、「NG」などが挙げられる。
【0040】ステップS25の判別において、ストップワード処理の対象となる(ストップワード処理で処理対象から除くべき)単語あるいは複合語である場合には(ステップS25;Yes)、重要度計算部22は、当該単語あるいは複合語を破棄する(ステップS28)。そして処理を再びステップS22に移行して、以下同様の処理を繰り返すこととなる。ステップS25の判別において、ストップワード処理の対象となる(ストップワード処理で処理対象から除くべき)単語あるいは複合語ではない場合には(ステップS25;No)、対応する分類の分類オントロジーとして当該単語あるいは複合語を登録し、処理を再びステップS22に移行して、以下同様の処理を繰り返すこととなる。これらの結果、分類付加部24は、分類のキーワードに基づいて分類を割り振り、る(ステップS7)。
【0041】ここで分類の具体的手法について説明する。図5に2次元(N=2)のベクトル空間においてベクトル間の距離(類似度)を用いて分類を行う場合の概念図を示す。分類対象の文書に対応するテキストデータに含まれ、形態素解析処理により抽出された単語あるいは複合語(分類対象語句)の重要度に対応するベクトルXを、X=(X1、X2、……、XN)
とし、キーワード取得元の文書に含まれ、形態素解析処理により抽出された単語あるいは複合語(分類基準語句)である分類オントロジーの重要度に対応するベクトルYを、Y=(Y1、Y2、……、YN)
で表し、距離Dを、D=Σ(Xi−Yi)*(Xi−Yi) i=1、2、……、Nとした場合に、距離Dが所定のしきい値よりも小さい場合に分類対象の文書はキーワード取得元の文書(分類基準文書)の属する分類に近い分類に属すると判別する。この場合において、所定のしきい値は、様々な分類結果に基づいて適宜定めるようにすればよい。なお、本来は、距離Dは、D=√{Σ(Xi−Yi)*(Xi−Yi)} i=1、2、……、Nとすべきであるが、開平計算を省くことにより計算時間の短縮化を図っている。
【0042】ところで、図5に示すように、ベクトル領域Aは、分類対象の文書に対応するテキストデータに含まれ形態素解析処理により抽出された単語あるいは複合語(分類対象語句)のうち、キーワード取得元の文書に含まれない単語あるいは複合語に対応するベクトルが存在する領域である。また、ベクトル領域Bは、分類対象の文書に対応するテキストデータに含まれ形態素解析処理により抽出された単語あるいは複合語(分類対象語句)であり、かつ、キーワード取得元の文書に含まれ、形態素解析処理により抽出された単語あるいは複合語(分類基準語句)に対応するベクトルが存在する領域である。さらにベクトル領域Cは、キーワード取得元の文書に含まれ形態素解析処理により抽出された単語あるいは複合語(分類基準語句)のうち、分類対象の文書に対応するテキストデータには含まれない単語あるいは複合語に対応するベクトルが存在する領域である。
【0043】通常、上記ベクトル領域A、ベクトル領域Bおよびベクトル領域Cの全てのベクトル領域において、分類対象の文書とキーワード取得元の文書との間の距離Dが所定のしきい値より近ければ、キーワード取得元の文書が属する分類に分類対象の文書が属していると認めることができる。より具体的に図6を参照して距離Dの概念について説明する。図6には、文書D1:「山、山、川、川」の4単語を含む文書文書D2:「山、川、川」の3単語を含む文書文書D3:「山、山、山」の3単語を含む文書文書D4:「川」の1単語を含む文書があるものとする。
【0044】実際の計算では、ベクトルの要素である単語あるいは複合語に対して重み付けを行って距離Dを算出する。この重み付けはTFIDF値を用いるのが一般的である。この場合に、多くの文書にわたってベクトルの要素である単語あるいは複合語が出現する場合には、TFIDF値は小さな値となり、当該単語あるいは複合語は分類を決定するのに重きを置く必要は無いということである。これに対し、同一の文書内に同一の単語あるいは複合語が何度も出現する場合には、TFIDF値は大きな値となり、当該単語あるいは複合語は分類を決定するのに重要な単語であるということである。しかしながら、説明の簡略化のため、縦軸を「山」の単語出現数とし、横軸を「川」の単語出現数とするベクトル空間を考える。この場合に、図7に示すように、文書D1〜文書D4に対応するベクトルはそれぞれベクトルV1〜V4となる。従って、文書D1と文書D2との間の距離Dが最も近いと考えられ、文書D1と文書D2とが同一の分類に属すると判断できることとなる。
【0045】ところで、上記分類を判別するに際し、上記ベクトル領域Aおよびベクトル領域Bに属するベクトルの数が少ない場合には、ベクトル領域Bおよびベクトル領域Cに属するベクトルだけを用いて距離Dの計算(近似計算)を行っても、ベクトル領域A、ベクトル領域Bおよびベクトル領域Cの全てのベクトル領域に属する全てのベクトルを用いて距離Dの計算を行った場合と同様の結果を得ることが可能となる。しかしながら、近似計算を行った場合には、ベクトル領域Bの次元が1次元(N=1)の場合でも、すなわち、ベクトル領域Bに対応する単語あるいは複合語が1語であり、当該ベクトル領域Bにおける距離Dが0である(当該語が一致した)場合には、キーワード取得元の文書が属する分類に分類対象の文書が属しているという結果が得られてしまうこととなる。
【0046】すなわち、分類毎にベクトル領域Bに属するベクトルおよびベクトル領域Cに属するベクトルの総数(要素数)が違うため、ベクトルの総数が少なく、次元が小さい(Nが小さい)分類については、キーワード取得元の文書が属する分類に分類対象の文書が属しているという結果が得られてしまう確率が高くなることとなる。そこで、これを回避するためには、ベクトル領域Bの次元が大きい(Nが大きい)ものを優先的に距離Dを計算して分類の判別に用い、次元が同じであるならば距離Dの小さいものがより近い分類であると判断すればよい。この結果、処理時間を短縮しつつ、より近い分類を選択することが可能となる。
【0047】[3]実施形態の効果以上の説明のように、本実施形態によれば、形態素解析を行う場合には、上述した品詞処理および記号処理を行っているため、形態素解析の精度および効率を向上させることができ、より正確な分類を行うことができる。また分類オントロジーを生成するに際し、各単語あるいは複合語の重要度計算を行う場合には、上述した制限処理およびストップワード処理を行っているため、より正確に重要度を算出することができ、登録数を削減しつつ、より有効な分類オントロジーを生成することができる。さらに分類対象の文書を構成するテキストデータから形態素解析により得られた単語あるいは複合語を形態素解析用逆引き辞書に登録することにより、繰り返して形態素解析を行うことで学習的に正確な分類オントロジーを抽出可能な形態素解析を実現することができる。さらにまた、データベースに登録すべき単語あるいは複合語数を削減することができ、データベースの容量を削減することができる。
【0048】[4]実施形態の変形例[4.1]第1変形例以上の説明においては、データベース部11を分類更新処理部12と一体に構成していたが、両者をネットワークを介して分散処理システムとして構成することも可能である。この場合において、さらにデータベース部11を構成する各データベース15、16および形態素解析用逆引き辞書17をネットワークを介して別のデータベースサーバに格納するように構成し、複数の分類更新処理部12として機能するコンピュータシステムから利用可能な構成とすることも可能である。
[4.2]第2変形例以上の説明においては、標準化部23を必須の構成として説明したが、必ずしも標準化部23を設けなくてもデータベースの容量は多少増加するというデメリットはあるが、ほぼ同様な効果を得ることが可能である。
【0049】
【発明の効果】本発明によれば、語句抽出部は、分類対象の文書を解析し、当該分類対象の文書に含まれる単語あるいは複合語を分類対象語句として抽出し、分類判別部は、分類データベースに記憶している分類基準語句および分類対象語句を比較し、分類対象の文書が属する分類を判別するので、正確な文書の分類を容易に行える。また、形態素解析部は、形態素解析用逆引辞書に登録されていない単語あるいは複合語を不定語として形態素解析用逆引辞書に登録するので、繰り返して形態素解析を行うことで学習的に正確な分類オントロジーを抽出可能な形態素解析を実現することができる。
【0050】さらに形態素解析において、抽出した単語あるいは複合語に予め定めた記号が含まれている場合、当該単語あるいは当該複合語から前記記号を除いた後に抽出した単語あるいは複合語とさせ、抽出された単語あるいは複合語のうち予め定めた分類対象語句として不適当な語句を除いて重要度計算を行わせるようにし、抽出された前記単語あるいは前記複合語のうち予め定めた前記分類を判別するのに不適当な語句を除いて前記重要度計算を行わせるようにし、あるいは、抽出された単語あるいは複合語に対し、所定の標準化処理を行わせ、標準化処理後の単語あるいは複合語に対し重要度を算出させるようにすることにより、データベースの容量を削減しつつ、処理速度を向上させ、正確な分類を行える。
【出願人】 【識別番号】000002369
【氏名又は名称】セイコーエプソン株式会社
【住所又は居所】東京都新宿区西新宿2丁目4番1号
【出願日】 平成13年9月27日(2001.9.27)
【代理人】 【識別番号】100098084
【弁理士】
【氏名又は名称】川▲崎▼ 研二
【公開番号】 特開2003−108569(P2003−108569A)
【公開日】 平成15年4月11日(2003.4.11)
【出願番号】 特願2001−298558(P2001−298558)