トップ :: G 物理学 :: G06 計算;計数




【発明の名称】 ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体
【発明者】 【氏名】河野 聡子

【氏名】斉藤 典明

【要約】 【課題】多数のディジタルコンテンツから精度の高いキーワードを抽出して、効率よく検索を行えるようにする。

【解決手段】データベース部303に蓄積された複数のディジタルコンテンツにおけるタイトル、作者名、概要を含む各テキストデータから人物名を抽出すると共に、その人物名の出現頻度をコンテンツ毎に計算する。次に、人物名を要素とし出現頻度を要素値とする人物ベクトルをコンテンツ毎に作成し、人物ベクトルに基づいてコンテンツ間の類似度を求め、類似度に基づいてコンテンツをグループ分けする。また、各テキストデータから単語を抽出してキーワード候補とし、各候補の重要度を計算する。次に、キーワード候補を要素とし重要度を要素値とするキーワードベクトルを作成し、上記グループ毎にキーワードベクトルの和を求め、その結果から重要度の高いキーワード候補をそのグループのキーワードとして決定する。
【特許請求の範囲】
【請求項1】 それぞれタイトル、作者名、概要を含むテキストデータが付与された複数のディジタルコンテンツにおける各テキストデータから人物名を抽出する人物名抽出手段と、前記抽出された人物名の出現頻度をディジタルコンテンツ毎に計算する頻度計算手段と、前記人物名を要素とし、前記出現頻度を要素値とする人物ベクトルをディジタルコンテンツ毎に作成する人物ベクトル作成手段と、前記人物ベクトルに基づいてディジタルコンテンツ間の類似度を計算し、計算された類似度に基づいてディジタルコンテンツをグループに分類する分類手段とを設けたことを特徴とするディジタルコンテンツのキーワード抽出装置。
【請求項2】 前記複数のディジタルコンテンツにおける各テキストデータから単語を抽出してキーワード候補とするキーワード候補抽出手段と、前記抽出されたキーワード候補の重要度を計算する重要度計算手段と、前記抽出されたキーワード候補を要素とし、前記計算された重要度を要素値とするキーワードベクトルを作成するキーワードベクトル作成手段と、前記分類されたグループ毎に前記キーワードベクトルの和を求め、その結果から重要度の高いキーワード候補を前記グループのキーワードとして決定するキーワード決定手段とを設けたことを特徴とする請求項1記載のディジタルコンテンツのキーワード抽出装置。
【請求項3】 前記グループに対して決定されたキーワードを、そのグループに属する個々のディジタルコンテンツのキーワードとして扱うことを特徴とする請求項2記載のディジタルコンテンツのキーワード抽出装置。
【請求項4】 それぞれタイトル、作者名、概要を含むテキストデータが付与された複数のディジタルコンテンツにおける各テキストデータから人物名を抽出する人物名抽出手順と、前記抽出された人物名の出現頻度をディジタルコンテンツ毎に計算する頻度計算手順と、前記人物名を要素とし、前記出現頻度を要素値とする人物ベクトルをディジタルコンテンツ毎に作成する人物ベクトル作成手順と、前記人物ベクトルに基づいてディジタルコンテンツ間の類似度を計算し、計算された類似度に基づいてディジタルコンテンツをグループに分類する分類手順と、前記複数のディジタルコンテンツにおける各テキストデータから単語を抽出してキーワード候補とするキーワード候補抽出手順と、前記抽出されたキーワード候補の重要度を計算する重要度計算手順と、前記抽出されたキーワード候補を要素とし、前記計算された重要度を要素値とするキーワードベクトルを作成するキーワードベクトル作成手順と、前記分類されたグループ毎に前記キーワードベクトルの和を求め、その結果から重要度の高いキーワード候補を前記グループのキーワードとして決定するキーワード決定手順とを設けたことを特徴とするディジタルコンテンツのキーワード抽出方法。
【請求項5】 それぞれタイトル、作者名、概要を含むテキストデータが付与された複数のディジタルコンテンツにおける各テキストデータから人物名を抽出する作者名抽出処理と、前記抽出された人物名の出現頻度をディジタルコンテンツ毎に計算する頻度計算処理と、前記人物名を要素とし、前記出現頻度を要素値とする人物ベクトルをディジタルコンテンツ毎に作成する人物ベクトル作成処理と、前記人物ベクトルに基づいてディジタルコンテンツ間の類似度を計算し、計算された類似度に基づいてディジタルコンテンツをグループに分類する分類処理と、前記複数のディジタルコンテンツにおける各テキストデータから単語を抽出してキーワード候補とするキーワード候補抽出処理と、前記抽出されたキーワード候補の重要度を計算する重要度計算処理と、前記抽出されたキーワード候補を要素とし、前記計算された重要度を要素値とするキーワードベクトルを作成するキーワードベクトル作成処理と、前記分類されたグループ毎に前記キーワードベクトルの和を求め、その結果から重要度の高いキーワード候補を前記グループのキーワードとして決定するキーワード決定処理とをコンピュータが実行するためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は、それぞれタイトル、作者名、概要を含むテキストデータが付与された複数のディジタルコンテンツから、そのディジタルコンテンツの特徴を示すキーワードを抽出するディジタルコンテンツのキーワード抽出装置、方法及びそれらに用いられるコンピュータ読み取り可能な記録媒体に関するものである。
【0002】
【従来の技術】データベースに格納された膨大な数のディジタルコンテンツ群から、効率良く所望するディジタルコンテンツを検索するための索引源として、ディジタルコンテンツに付与されたタイトル・作者名・概要等を含むテキストデータからキーワードを抽出する手法がある。この手法には、自然言語処理、例えば形態素解析処理により名詞のみをキーワードとして抽出する方法や、抽出した単語のうちテキストデータ内の出現頻度が高いもののみをキーワードとして抽出する方法がある。また、単語の出現頻度と共に不要語辞書を用いる方法や、出現頻度と共に各単語が出現するテキストデータ数を考慮する方法がある。
【0003】不要語辞書を用いる方法は、キーワードには適さない語として予め不要語辞書に登録された不要語を削除した後、残った単語に出現頻度による重要度を付与して、重要度の高い順にキーワードを抽出する方法である。テキスト数を考慮する方法は、あらゆるディジタルコンテンツのテキストデータ内に頻繁に出現する単語の重要度を下げ、逆に特定のテキストに集中する単語の重要度を高く評価する手法である。
【0004】図5は、上記名詞のみをキーワードとして抽出する方法による従来のキーワード抽出装置の一例を示すブロック図ある。図5において、201はキーワード抽出機能をもつコンピュータであり、202はそのオペレーティングシステム部である。203はテキストデータ(タイトル、作者名、概要等)を含むディジタルコンテンツを蓄積したデータベース部であり、キーワード抽出対象となるディジタルコンテンツを格納するキーワード抽出対象コンテンツ蓄積部204と、キーワード候補格納部207と、キーワード格納部209を有する。
【0005】205はキーワード抽出対象コンテンツ蓄積部204からテキストデータを読み込むテキストデータ入力部であり、206は読み込まれたテキストデータに対して形態素解析処理を行って単語を抽出し、抽出した単語をキーワード候補とするキーワード候補抽出部である。上記キーワード候補格納部207は、抽出されたキーワード候補を格納する。208は格納されたキーワード候補から名詞のみを抽出し、抽出した名詞をキーワードとして決定するキーワード決定部であり、209は決定されたキーワードを格納するキーワード格納部209である。
【0006】
【発明が解決しようとする課題】しかしながら、従来の上述した手法では、テキストデータ(例えば、コンテンツに含まれる概要部分)の文意を踏まえていないため、不要な単語がキーワードとして多数抽出されることがあった。このため、キーワード検索を実行した際、当該キーワードがコンテンツの主題とは全く関係がないものや、当該キーワードに関する情報量が極めて低いものも検索結果として数多く検索されししまい、所望する情報を効率良く見つけ出すことが困難であるという問題があった。
【0007】本発明は上記の問題を解決するためになされたもので、ディジタルコンテンツ群から検索のための精度の高いキーワードを抽出できるようにすることを目的としている。
【0008】
【課題を解決するための手段】上記の目的を達成するために、本発明によるディジタルコンテンツのキーワード抽出装置においては、それぞれタイトル、作者名、概要を含むテキストデータが付与された複数のディジタルコンテンツにおける各テキストデータから人物名を抽出する人物名抽出手段と、前記抽出された人物名の出現頻度をディジタルコンテンツ毎に計算する頻度計算手段と、前記人物名を要素とし、前記出現頻度を要素値とする人物ベクトルをディジタルコンテンツ毎に作成する人物ベクトル作成手段と、前記人物ベクトルに基づいてディジタルコンテンツ間の類似度を計算し、計算された類似度に基づいてディジタルコンテンツをグループに分類する分類手段とを設けている。
【0009】また、本発明によるディジタルコンテンツのキーワード抽出方法においては、それぞれタイトル、作者名、概要を含むテキストデータが付与された複数のディジタルコンテンツにおける各テキストデータから人物名を抽出する作者名抽出手順と、前記抽出された人物名の出現頻度をディジタルコンテンツ毎に計算する頻度計算手順と、前記人物名を要素とし、前記出現頻度を要素値とする人物ベクトルをディジタルコンテンツ毎に作成する人物ベクトル作成手順と、前記人物ベクトルに基づいてディジタルコンテンツ間の類似度を計算し、計算された類似度に基づいてディジタルコンテンツをグループに分類する分類手順と、前記複数のディジタルコンテンツにおける各テキストデータから単語を抽出してキーワード候補とするキーワード候補抽出手順と、前記抽出されたキーワード候補の重要度を計算する重要度計算手順と、前記抽出されたキーワード候補を要素とし、前記計算された重要度を要素値とるキーワードベクトルを作成するキーワードベクトル作成手順と、前記分類されたグループ毎に前記キーワードベクトルの和を求め、その結果から重要度の高いキーワード候補を前記グループのキーワードとして決定するキーワード決定手順とを設けている。
【0010】また、本発明によるコンピュータ読み取り可能な記録媒体においては、それぞれタイトル、作者名、概要を含むテキストデータが付与された複数のディジタルコンテンツにおける各テキストデータから人物名を抽出する人物名抽出処理と、前記抽出された人物名の出現頻度をディジタルコンテンツ毎に計算する頻度計算処理と、前記人物名を要素とし、前記出現頻度を要素値とする人物ベクトルをディジタルコンテンツ毎に作成する人物ベクトル作成処理と、前記人物ベクトルに基づいてディジタルコンテンツ間の類似度を計算し、計算された類似度に基づいてディジタルコンテンツをグループに分類する分類処理と、前記複数のディジタルコンテンツにおける各テキストデータから単語を抽出してキーワード候補とするキーワード候補抽出処理と、前記抽出されたキーワード候補の重要度を計算する重要度計算処理と、前記抽出されたキーワード候補を要素とし、前記計算された重要度を要素値とるキーワードベクトルを作成するキーワードベクトル作成処理と、前記分類されたグループ毎に前記キーワードベクトルの和を求め、その結果から重要度の高いキーワード候補を前記グループのキーワードとして決定するキーワード決定処理とをコンピュータが実行するためのプログラムを記録している。
【0011】
【作用】従って、本発明においては、タイトル、作者名、概要を含むテキストデータが付与された複数のディジタルコンテンツにおいて、各テキストデータ中に現れる人物名に基づいてディジタルコンテンツがグループに分類される。
【0012】また、各テキストデータから形態素解析等により抽出された単語をキーワード候補とし、テキストデータに現れる人物名の類似性と、公知の技術を用いて求められる単語の重要度とによって絞り込みを行うことで、登場人物が類似するグループ内で重要とされる単語のみがキーワードとして抽出され、不要な単語の抽出が押さえられる。
【0013】また、このようにしてテキストデータから抽出されたキーワードを索引源としてデータベースを検索することにより、当該コンテンツと類似するコンテンツをデータベースから関連コンテンツとして取得することができる。
【0014】
【発明の実施の形態】以下、本発明の実施の形態について図面を参照して説明する。図2は、タイトル、作者名、概要を含むテキストデータが付与されたディジタルコンテンツの構成の一例を示す。図2において、101は「タイトル」「作者名」「概要」が電子化されたテキストデータであり、102は電子化された画像データである。
【0015】図1は、本発明の実施の形態によるディジタルコンテンツのキーワード抽出装置を示すブロック図である。図1において、301はキーワード抽出機能をもつコンピュータであり、302はそのオペレーティングシステム部である。303はテキストデータ(タイトル、作者名、概要等)を含むディジタルコンテンツを蓄積したデータベース部であり、キーワード抽出対象となるディジタルコンテンツを格納するキーワード抽出対象コンテンツ蓄積部304と、キーワードベクトル格納部309と、人物ベクトル格納部313と、キーワード格納部315とを有する。
【0016】305はキーワード抽出対象コンテンツ蓄積部304からテキストデータを読み込むテキストデータ入力部であり、306は読み込まれたテキストデータに対して形態素解析により単語を抽出し、抽出した単語をキーワード候補とするキーワード候補抽出部である。307は抽出されたキーワード候補の重要度を公知の技術を用いて計算する重要度計算部である。
【0017】単語の重要度は、例えば、以下の式で求めることができる。
w(x,t)=TF(x,t)×IDF(x,t)……………(1)
w(x,t):単語tのコンテンツxにおける重要度TF(x,t):コンテンツxにおける単語tの出現頻度IDF(t)=log{(データベース中のコンテンツ数)/(単語tが現れる数)}
【0018】308は抽出された単語(キーワード候補)を要素とすると共に、その単語の重要度を要素値とするキーワードベクトル(例えば、後述する図3の右側の欄に記載)を作成して、上記キーワードベクトル格納部309に格納するキーワードベクトル作成部である。
【0019】310はテキストデータ入力部305から読み込まれたテキストデータから人物名を抽出する人物名抽出部である。311は抽出された人物名の出現回数(テキストデータ内に当該人物名が出現する回数)をコンテンツ毎に数える人物名頻度計算部である。312は人物名を要素すると共に、その人物名の出現頻度を要素値とする人物ベクトル(図3の左側の欄に記載)をコンテンツ毎に作成し、人物ベクトル格納部313に格納する人物ベクトル作成部である。
【0020】314はキーワード決定部であり、各コンテンツを人物ベクトルにより分類して登場人物の類似するグループに分割し、各グループ毎にキーワードベクトルの和をとり、その和から重要度の高いキーワード候補をキーワードとして決定し、キーワード格納部315に格納する。但し、人物ベクトルによる分類は、公知の技術を用いてコンテンツ間の類似度を計算することにより行われる。
【0021】類似度の計算は、例えば以下の式で求めることができる。
類似度=(2つの人物ベクトルの共通の要素の値の和)/(2つの人物ベクト ルの要素の値の和)……………(2)+【0022】図4(a)は、美術作品に関するコンテンツ(タイトル、作者名(画家名)、解説文(概要)等のテキストデータを含む)511〜514を示す。図3及び図4(b)は各コンテンツ511〜514について作成したキーワードベクトルと人物ベクトルの例を示す。右側の欄のキーワードベクトル601は、テキストデータから形態素解析によって抽出された単語を要素とすると共に、その単語の重要度を要素値としたものである。左側の欄の人物ベクトル600は、テキストデータから予め抽出した人物名を要素とすると共に、各コンテンツに現れる人物名の出現回数を要素値としたものである。尚、図4(a)の例では、登場人物名として「マネ」と「モネ」が、複数のコンテンツのテキストデータにおける作者名と概要とに出現している。
【0023】本実施の形態による手法は、図3、図4(b)の斜線部分のようにテキストデータ中の登場人物が類似したコンテンツのキーワードベクトルを足し合わせ、その結果、高い重要度を持つ単語をキーワードとして決定するものである。
【0024】次に、図1のキーワード抽出装置におけるキーワード抽出処理の一例を、図1、図4を参照して説明する。図1、図4において、キーワード抽出対象コンテンツ蓄積部304には、タイトル、作者名、概要を含むテキストデータが付与されたディジタルコンテンツ511〜514(a〜d)が蓄積されており、これらのテキストデータ部分501〜504がテキストデータ入力部305により収集され、図4(b)のようにキーワードベクトル作成部308と人物ベクトル作成部312において、各コンテンツ毎に人物ベクトル600とキーワードベクトル601が生成される。
【0025】次に、各コンテンツは人物ベクトル600の類似度に基づいてグルーピングされる。例えば、図4(c)のようにコンテンツグループA(701)、コンテンツグループB(702)、コンテンツグループC(703)にグルーピングされる。
【0026】次に、図4(d)のように、コンテンツグループA〜C(701〜703)毎にキーワードベクトルを足し合わせ、その和から重要度の高いキーワード候補を抽出してコンテンツグループのキーワード801〜803と決定する。最後に、図4(e)のように、各コンテンツに対してそのコンテンツが所属するコンテンツグループのキーワード801〜803を付与し、その情報をキーワード格納部315に格納する。
【0027】以上説明したように、本実施の形態によれば、自然言語処理(例えば、形態素解析処理等)により抽出されたキーワード候補を、テキストデータに現れる人物名の類似性と、公知の技術を用いて求めた単語の重要度とによって絞り込みを行うことによって、登場人物が類似するディジタルコンテンツのグループの中で重要とされる単語のみがキーワードとして抽出・決定されるので、不要な単語の抽出を押さえることができる。特に、図4のような美術作品の解説のように、人物に関わる記述が多いディジタルコンテンツの場合に高い精度が期待できる。
【0028】また、本実施の形態による分類方法は、人物名に限らず文中で意味の変化が生じにくい固有名詞(例えば、地名やブランド名、車名など)を用いた応用も可能であり、美術以外の多くの分野でも精度の高い情報抽出が期待できる。さらに、このようにしてテキストデータから抽出されたキーワードを索引源としてデータベースを検索することにより、当該コンテンツと類似するコンテンツをデータベースから関連コンテンツとして効率よく取得することができる。
【0029】次に、本発明の実施の形態によるコンピュータ読み取り可能な記録媒体について説明する。前述したキーワード抽出処理を、図1のコンピュータ301のCPUが実行するためのプログラムを格納する記録媒体は、本発明によるコンピュータ読み取り可能な記録媒体を構成する。
【0030】この記録媒体としては、光磁気ディスク、光ディスク、半導体メモリ、磁気記録媒体等を用いることができ、これらをROM、RAM、CD−ROM、フロッピー(登録商標)ディスク、メモリカード等に構成して用いてよい。
【0031】またこの記録媒体は、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部のRAM等の揮発性メモリのように、一定時間プログラムを保持するものも含まれる。
【0032】また上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから伝送媒体を介して、あるいは伝送媒体中の伝送波により他のコンピュータシステムに伝送されるものであってもよい。上記伝送媒体とは、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体をいうものとする。
【0033】また、上記プログラムは、前述した機能の一部を実現するためであってもよい。さらに、前述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0034】従って、この記録媒体を図1のシステム又は装置とは異なるシステム又は装置において用い、そのシステム又は装置のコンピュータがこの記録媒体に格納されたプログラムを実行することによっても、各実施の形態で説明した機能及び効果と同等の機能及び効果を得ることができ、本発明の目的を達成することができる。
【0035】
【発明の効果】以上説明したように本発明によれば、登場人物が類似するディジタルコンテンツのグループの中で重要とされる単語のみがキーワードとして高い精度で抽出・決定することができるので、不要な単語の抽出を押さえることができる。また、本発明によりテキストデータから抽出されたキーワードを索引源としてデータベースを検索することにより、当該コンテンツと類似するコンテンツをデータベースから関連コンテンツとして効率よく取得することができる。
【出願人】 【識別番号】399040405
【氏名又は名称】東日本電信電話株式会社
【出願日】 平成12年9月29日(2000.9.29)
【代理人】 【識別番号】100064908
【弁理士】
【氏名又は名称】志賀 正武
【公開番号】 特開2002−108888(P2002−108888A)
【公開日】 平成14年4月12日(2002.4.12)
【出願番号】 特願2000−300276(P2000−300276)