トップ :: G 物理学 :: G06 計算;計数




【発明の名称】 ニュース話題トラッキング装置、ニュース話題構成要素抽出提示装置及び放送サービス方法
【発明者】 【氏名】山田 一郎

【氏名】柴田 正啓

【要約】 【課題】1ヶ月間に出現した類似したニュース原稿を利用して精度の良いトラッキング処理が行えるようにする。

【解決手段】ニュース話題抽出装置2がファイル装置1から取り出したニュース記事に施したクラスタリング処理により抽出された1ヶ月ごとのニュース話題の類似性を評価して、長期にわたり出現する話題を1つの話題として認識する機能を備えることを特徴としている。
【特許請求の範囲】
【請求項1】 電子化されたニュース記事からクラスタリング処理によって抽出された所定周期毎のニュース話題の類似性を評価して、長期にわたり出現する話題を1つの話題として認識する手段、を備えたことを特徴とするニュース話題トラッキング装置。
【請求項2】 請求項1に記載のニュース話題トラッキング装置によってまとめられたニュースの話題に関連するニュース原稿を解析して、話題の変化点を抽出する手段、を備えたことを特徴とするニュース話題構成要素抽出提示装置。
【請求項3】 請求項1に記載のニュース話題トラッキング装置によってまとめられたニュースの話題に関連するニュース原稿を解析して、話題の変化点間の代表的なニュースを抽出する手段、を備えたことを特徴とするニュース話題構成要素抽出提示装置。
【請求項4】 請求項1に記載のニュース話題トラッキング装置によってまとめられたニュースの話題に関連するニュース原稿を解析して、話題の変化点間の代表的なニュースから、話題構成要素を的確に表現する自然言語文を生成する手段、を備えたことを特徴とするニュース話題構成要素抽出提示装置。
【請求項5】 テレビのニュース放送時に、請求項4に記載のニュース話題構成要素抽出提示装置により抽出されたニュース話題構成要素を付加情報として利用して、放送されたニュースの以前の経過をテキストまたは映像で提示することを特徴とする放送サービス方法。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は、ニュース話題トラッキング装置及びニュース話題構成要素抽出提示装置並びにニュース話題構成要素抽出提示装置を利用した放送サービス方法に関する。
【0002】[発明の概要]本発明は、ニュース話題抽出装置(特願平11−65658号;未公開)にて抽出された例えば1ヶ月ごとのニュース話題のトラッキング処理を行うニュース話題トラッキング装置、及びその話題を構成する主要な要素を自動抽出、提示するニュース話題構成要素抽出提示装置、並びにニュース話題構成要素抽出提示装置を利用した放送サービス方法に関する。
【0003】ニュース話題トラッキング装置は、隣接する月の話題の類似性を評価することにより話題のトラッキングを高精度で実現することができる。ニュース話題構成要素抽出提示装置は、そのトラッキング結果の言語解析を行うことにより、1つの話題がいつ発生し、どのように変化したかを示す話題構成要素をわかりやすい自然言語文で提示することができる。
【0004】したがって、テレビのニュース放送時に、ニュース話題構成要素抽出提示装置により抽出されたニュース話題構成要素を付加情報として利用することにより、放送されたニュースの以前の経過をテキストまたは映像で提示する放送サービスが実現できる。
【0005】
【従来の技術】ニュース番組を視聴している時、そのニュースで取り上げられている話題が、いつどこで発生して、どのような経緯をたどっているかを、全てについて思い出すことは難しい。
【0006】ニュース番組で取り上げられている話題が、いつどこで発生して、どのような経緯をたどっているかを視聴者に提示できるようにするには、まず、関連する話題を抽出するニュースのトラッキング処理が必要である。次いで、関連する話題のタイトルや構成要素を求める処理が必要である。タイトルや構成要素は、当然自然言語文であることが望まれる。
【0007】
【発明が解決しようとする課題】前者のトラッキング処理は、従来でも行われており、1つのニュース原稿が、過去のどのニュース原稿に使用されている語彙と類似しているかを計算する手法が知られている。
【0008】しかし、従来のトラッキング手法では、1つのニュース原稿に使用されている単語情報しか利用していないため、同じ事件や現象などについての話題を扱うニュースでも、時間の経過につれて使用される単語や主題に変化が起こり、トラッキングの精度が低くなってしまう。
【0009】一方、後者のタイトルや構成要素を求める処理については、ニュース話題は、時系列に変化し、いつどこで何が起こっているかを、大量のニューステキストデータから把握することが難しいこともあって、未だ提案されていない。したがって、ニュース話題の構成要素をどのようにして抽出し、自然言語文で生成するかが問題となる。
【0010】本発明は、このような事情に鑑みてなされたもので、ニュース話題抽出装置(特願平11−65658号;未公開)が例えば1ヶ月間に出現した類似したニュース原稿をクラスタリング処理によりまとめている点に着目し、それを利用して精度の良いトラッキング処理が行えるニュース話題トラッキング装置を提供することを目的としている。
【0011】また、本発明は、トラッキング結果の言語解析を行うことによりニュース話題の構成要素の変化点を抽出し、その抽出した話題構成要素をわかりやすい自然言語文で提示できるニュース話題構成要素抽出提示装置を提供することを目的としている。
【0012】さらに、本発明は、ニュース話題構成要素抽出提示装置の機能を利用して、放送されたニュースの以前の経過をテキストまたは映像で提示できる放送サービス方法を提供することを目的としている。
【0013】
【課題を解決するための手段】上記目的を達成するために、本発明のニュース話題トラッキング装置は、電子化されたニュース記事からクラスタリング処理によって抽出された所定周期毎のニュース話題の類似性を評価して、長期にわたり出現する話題を1つの話題として認識する手段を備えたことを特徴としている。
【0014】この構成によれば、クラスタリング処理により抽出された所定周期、例えば1ヶ月間に出現した類似したニュース原稿のまとまりを対象としてトラッキングの処理を行うため、1つのニュース原稿より情報量が多くなり、正確なトラッキングが可能となる。
【0015】また、本発明のニュース話題構成要素抽出提示装置は、上記本発明のニュース話題トラッキング装置によってまとめられたニュースの話題に関連するニュース原稿を解析して、話題の変化点を抽出する手段を備えたことを特徴としている。
【0016】この構成によれば、単語の出現変化の情報を利用して、話題内容の変化点を抽出することできる。
【0017】また、本発明のニュース話題構成要素抽出提示装置は、上記本発明のニュース話題トラッキング装置によってまとめられたニュースの話題に関連するニュース原稿を解析して、話題の変化点間の代表的なニュースを抽出する手段を備えたことを特徴としている。
【0018】この構成によれば、各変化点間を話題構成要素として抽出することができる。
【0019】また、本発明のニュース話題構成要素抽出提示装置は、上記本発明のニュース話題トラッキング装置によってまとめられたニュースの話題に関連するニュース原稿を解析して、話題の変化点間の代表的なニュースから、話題構成要素を的確に表現する自然言語文を生成する手段を備えたことを特徴としている。
【0020】この構成によれば、話題構成要素の内容を的確に表現する名詞句を生成して提示することができる。
【0021】さらに、本発明の放送サービス方法は、テレビのニュース放送時に、上記本発明のニュース話題構成要素抽出提示装置により抽出されたニュース話題構成要素を付加情報として利用して、放送されたニュースの以前の経過をテキストまたは映像で提示することを特徴としている。
【0022】この方法によれば、視聴者がテレビを視聴している時に、テレビ画面上にニュース履歴を提示することができる。
【0023】したがって、本発明によれば、ニュース番組で取り上げられている話題が、いつどこで発生して、どのような経緯をたどっているかを視聴者に提示できるシステムを構築することができる。
【0024】
【発明の実施の形態】図1は、本発明に係るニュース話題トラッキング装置及びニュース話題構成要素抽出提示装置の実施形態であるシステムの全体構成図である。
【0025】図1において、ニュース番組で実際に利用される1日分のニュース原稿には、約200記事が含まれている。ファイル装置1には、そのような時系列に変化するニュース原稿の例えば十年分が電子化されて格納されている。
【0026】ニュース話題抽出装置2は、本出願人の先の出願に係るもので(特願平11−65658号:未公開)、図2に示すように、形態素解析部21と、構文解析部22と、単語重要度演算部23と、類似度比較部24と、ニュース記事分類部25とを備えており、ファイル装置1に格納されるニュース原稿にクラスタリング処理を施して、1ヶ月間に出現した類似したニュース話題のかたまりを抽出する。抽出した毎月のニュース話題は、ニュース話題トラッキング装置3に出力される。
【0027】ニュース話題トラッキング装置3は、テレビ4の視聴者が指定したニュースが、ニュース話題抽出装置2にて抽出された1ヶ月間ごとのニュース話題のどの月のニュース話題に属するかを特定し、その特定した月と隣接する月のニュース話題との類似性を評価し、類似した話題を関連づけることにより、視聴者が指定したニュースに関連する話題を集合し、ニュース話題構成要素抽出提示装置5に出力する。
【0028】ニュース話題構成要素抽出提示装置5は、ニュース話題変化点抽出装置51とニュース話題構成要素抽出装置52とを備えている。
【0029】ニュース話題変化点抽出装置51は、ニュース話題トラッキング装置3により抽出された長期にわたり出現したニュース話題の内容が変化した時期を抽出する。
【0030】ニュース話題構成要素抽出装置52は、ニュース話題トラッキング装置3にて抽出された長期にわたり出現したニュース話題とニュース話題変化点抽出装置51にて抽出された話題変化点とを受けて、一話題変化点間のニュースにどのような内容が含まれていたかを認識し、わかりやすい自然言語文で話題タイトルと話題構成要素を提示する。
【0031】《ニュース話題抽出装置2の動作説明》初めに、ニュース話題抽出装置2の動作を図3に示す記事分類処理の動作フローチャートを参照して説明する。
【0032】ファイル装置1から読み出された1つのニュース記事は、形態素解析部21及び構文解析部22において周知の形態素解析処理及び構文解析処理を受け、その記事から抽出された単語が単語重要度演算部23に入力される。単語重要度演算部23、類似度比較部24及びニュース記事分類部25では、図3に示す手順により、ニュース記事の分類処理が行われる。
【0033】単語重要度演算部23では、1つのニュース記事に含まれる単語が入力されると(ステップST1)、χ 値を利用して記事に含まれる単語の例えば月単位の重要度を演算する(ステップST2)。具体的には、単語Wがある月に出現した頻度をn、期待値をeとすると、それらを式(1)に代入して単語の重要度Weight(W)を演算する。
【0034】
【数1】
Weight(w)=(n−e)/e ・・・n≧e =0 ・・・n<e ・・・(1)
【0035】次に、類似度比較部24とニュース記事分類部25では、似た項目に分類された記事の集まりであるクラスタを生成するクラスタリングを単語の重要度、出現頻度を利用して行う。まず、以下のように定義した記事ベクトルとクラスタベクトルとを利用して記事とクラスタとの類似度を計算する(ステップST3)。
【0036】記事を特徴づける記事ベクトルは、記事に含まれる単語(例えば記事の第1文に含まれる単語)をベクトルの要素に、その単語の重要度を各ベクトル要素の値として定義する。また、クラスタを特徴づけるクラスタベクトルは、そのクラスタに属する記事に含まれる単語をベクトルの要素に、(各単語の重要度)と(クラスタ内での出現率)の積を各ベクトル要素の値として定義する。なお、出現率は、出現した記事の頻度をクラスタに含まれる全記事数で割った値である。そして、類似度は、式(2)によって求められる。
【0037】
【数2】
類似度=(共通する要素ベクトルの和×2)
/(記事、クラスタの要素ベクトルの値の和) ・・・(2)
【0038】このようにして、記事とクラスタとの類似度を評価し(ステップST4)、クラスタとの類似度が、ある閾値(例えば0.5)以上であれば、最も似ていると評価されたクラスタに統合する(ステップST5)。また、クラスタとの類似度が、閾値以下であれば、全てのクラスタについて同様の評価を行う(ステップST4→ステップST6→ステップST3→ステップST4)。その結果、全てのクラスタとの類似度が閾値以下であれば、その記事で新たなクラスタを構築する(ステップST7)。以上の処理を繰り返すことにより(ステップST8)、類似度の高いクラスタが得られる。つまり、ニュース原稿に含まれる記事が高精度に分類される。
【0039】このようにして得られた各月のニュース話題は、ニューストラッキング装置3に出力される。なお、比較の順番によっても結果は異なるが、以上説明した処理では、比較は日付け順に行っている。
【0040】《ニュース話題トラッキング装置3およびニュース話題構成要素抽出提示装置5の動作説明》まず、図4のフローチャートを参照してニュース話題トラッキング装置3の動作を説明する。
【0041】図4において、ニュース話題抽出装置2にてクラスタリング処理により抽出された各月のニュース話題の中で、テレビ4の視聴者が指定したニュースが属する話題を特定する(ステップST21)。
【0042】次に、ユーザが指定したニュースが属する話題について、その前の月の全ての話題への類似性を評価し、類似度が一定以上(例えば、0.2以上)のとき、同一の話題と特定し関連づける(ステップST22〜ST24)。
【0043】ここで、前の月の話題との類似度比較処理(ステップST22〜ST24)で用いる類似度は、例えば次の式(3)で示されるとした。この定義式(3)は、ニュース話題抽出装置2にて抽出された話題はベクトル表現されているので、その話題ベクトルを利用したものである。
【0044】
【数3】
類似度=(共通する要素の値の和)
÷{(2つの話題ベクトルの要素の値の和)−(共通する要素の値の和)} ・・・(3)
【0045】この前の月の話題との類似度比較処理(ステップST22〜ST24)を繰り返し行って、関連づけられた前の月の全ての話題から、さらに前の月の話題との類似度比較処理を行い、視聴者が指定した話題との関連づけが行われる。
【0046】そして、前の月の全ての話題についての類似度比較処理が終了し、その前の月の話題と比較する処理対象月の話題が存在しないとき(ステップST22:Yes)、そこで関連づけられた全ての話題を、視聴者が指定したニュースに関連する話題集合として提示する(ステップST25)。
【0047】このように、トラッキング処理では、クラスタリング処理によってまとめられた類似した原稿のまとまりを対象とするので、1つのニュース原稿よりも情報量を多くすることができ、正確なトラッキングを行うことができる。
【0048】次に、図5〜図9を用いてニュース話題構成要素抽出提示装置5の動作を説明する。図5は、ニュース話題変化点抽出装置51の処理手順を示すフローチャートである。図6は、ニュース話題変化点抽出装置51で実行される特定パターン記述抽出処理の手順を示すフローチャートである。図7は、ニュース話題変化点抽出結果例である。図8は、ニュース話題構成要素抽出装置52の処理手順を示すフローチャートである。図9は、話題構成要素自動抽出結果例である。
【0049】ニュース話題の変化点抽出処理は、次のようにして行われる。図5において、ニュース話題トラッキング装置3から視聴者が指定したニュースが属する話題を構成するニュース原稿集合を取得し(ステップST31)、図示しないニュースタイトル抽出装置でのタイトル抽出処理で行われた特定パターン記述の抽出を行い、それを処理対象から除外する(ステップST32)。ニュース話題の変化点抽出処理では、話題全体を説明する特定パターン記述はノイズと判断するからである。
【0050】ここで、ニュース話題変化点抽出装置51では、まず、図6のフローチャートに示すように、特定パターン記述抽出処理を実行する。すなわち、図6において、ニュース話題抽出装置2にて抽出されたニュースの話題集合に属するニュース原稿をファイル装置1から取り出し、その取り出したニュース原稿の特定パターンを抽出する(ステップST61)。ここでは、以下の特定パターンを利用する。
【0051】《特定パターン(正規表現)》
1.、(.事件)[でにはが].2.(.事件)[でにはが].3.、(.事故)[でにはが].4.(.事故)[でにはが].5.、(.問題)[でにはが].6.(.問題)[でにはが].7.、(.)について.8.(.)について.9.、(.)に関連.10.(.)に関連.11.、(.)に関して.12.(.)に関して.【0052】図5の処理に戻り、次いで、上記のようにして抽出された特定パターン記述部分が除かれたニュース原稿を特徴ベクトルで表現する(ステップST33)。特徴ベクトルは、“要素”がニュース原稿(特定パターン部以外)に含まれる単語”であり、“要素の値”が次の式(6)で示されるとした。
【0053】
【数6】
要素の値=(ニュース原稿(特定パターン部以外)での単語Wiの出現数)
×log2(話題を構成するニュース原稿数/ 単語Wiが出現したニュース原稿(特定パターン部以外))
・・・(6)
【0054】次に、ニュース原稿の特徴ベクトル(以後「原稿ベクトル」という)の平均ベクトルを計算して、各原稿ベクトルと平均ベクトルとの差を計算する(ステップST34)。ここでは、例えば、平均ベクトルの要素の値が原稿ベクトルの要素の値よりも大きい要素は、差をゼロとし、原稿ベクトルの要素の値が大きいもののみを差とした。この差を、原稿ベクトルの出現順(原稿が作られた日時順)に並べ、値の変化により、話題の変化点(例えば極小値)を抽出し、出力する(ステップST35、ST36)。
【0055】例えば図7は、「中央アジアのキルギスで日本人の鉱山技師四人を含む七人が武装勢力に拉致されている事件」のニュース話題変化点抽出結果例である。図7において、横軸は原稿番号であり、縦軸は差の値である。
【0056】図7に示すように、8個の点線部が極小値であり、話題の変化点として抽出されている。変化点の間が話題の構成要素である。したがって、図7のニュース話題変化点抽出結果例では、9個の話題の構成要素を持つことが示されている。この変化点は、ニュースの時期ごとの出現数変化によっても同じように抽出可能である。
【0057】次いで、ニュース話題構成要素抽出処理は、次のようして行われる。図8において、ニュース話題トラッキング装置3から視聴者が指定したニュースに関連する話題を構成するニュース原稿集合を取得し、また、ニュース話題変化点抽出装置51から話題の変化点を取得し(ステップST41)、話題構成原稿の解析を行って特定パターンと定型パターンを抽出する(ステップST42)。そして、ステップST43〜ST48の処理とステップST49の処理とで2つの名詞句を生成する。
【0058】即ち、ステップST42では、前述した特定パターン記述抽出処理(図6参照)を行い、抽出された特定パターン記述を処理対象から除外する。ニュース話題構成要素の抽出処理では、話題全体を説明する特定パターンはノイズになるからである。また、文末表現に着目して、「明らかにする」、「考えを示す」、「判る」、「述べる」、「話す」の場合は、定型パターン記述として抽出する。
【0059】抽出された定型パターン記述については、後述する変換規則によって定型表現の変換を行い、変化点間を説明する名詞句を生成する(ステップST49)。一方、特定パターン記述以外の部分からの名詞句の生成では、まず、変化点間の原稿に含まれる単語の寄与度の計算を行う(ステップST43)。単語の寄与度は次の式(7)で定義する。
【0060】
【数7】
単語の寄与度=(ニュース原稿(特定パターン部以外)での単語Wiの出現数)
×log2(話題を構成するニュース原稿数/ 単語Wiが出現したニュース原稿(特定パターン部以外))
×(単語Wiが出現した変化点間の原稿数)/(変化点間の全原稿数)
・・・(7)
【0061】そして、変化点間の原稿でそれに含まれる単語の寄与度が最大の原稿を変化点間の代表原稿として抽出し(ステップST44)、代表原稿から寄与度が最大のサ変動詞を抽出する(ステップST45)。このとき、サ変動詞が存在しない場合は、寄与度が最大の名詞とする。次いで構文解析により、このサ変動詞に係る単語を全て抽出して、下記の変換規則を利用して名詞句を生成する(ステップST46、ST47)。
【0062】
(変換規則)
「主体」は「を格」を「に格」に「サ変」→「主体」「を格」を「に格」に「サ変」
「主体」は「サ変」 →「主体」の「サ変」
「主体」が「を格」を「に格」に「サ変」→「主体」「を格」を「に格」に「サ変」
「主体」が「サ変」 →「主体」の「サ変」
【0063】一方、ステップST44にて抽出された代表原稿に定型表現が存在する場合は(ステップST48:Yes)、次の定型パターン記述変換規則を適用して、この定型表現からも変化点間を説明する名詞句を生成する(ステップST49)。
【0064】(定型パターン記述変換規則)
「主体」が「明らかにする」→「主体」の「表明」
「主体」が「考えを示す」→「主体」の「表明」
「主体」が「判る」→「主体」の「判明」
「主体」が「述べる」→「主体」の「会見」
「主体」が「話す」→「主体」の「会見」
(なお、原稿中に「会見」「表明」等の言葉が使われている場合は、その言葉を優先させて変換する)
【0065】最後に、定型表現から生成した名詞句と、特定パターン記述以外の部分から生成した名詞句とをコロン(:)により合成する(ステップST50)。これにより、話題の変化点間に対応する話題のタイトルと構成要素を表す名詞句が得られる。
【0066】図9は、図7に示した「中央アジアのキルギスで日本人の鉱山技師四人を含む七人が武装勢力に拉致されている事件」からのニュース話題構成要素自動抽出結果を示す。即ち、図9において、番号は、図7に示す領域に対応する。また、下線部は、定型表現により生成した部分である。
【0067】次に、図10は、ニュース話題構成要素抽出提示装置5の応用例を示す図である。図10では、テレビのニュース放送時に、ニュース話題構成要素抽出提示装置5により抽出されたニュース話題構成要素を付加情報として利用することにより、放送されたニュースの以前の経過をテキストまたは映像で提示するサービスモデルが示されている。
【0068】図10(1);視聴者が今日のニュースを視聴中に、あるニュース項目について気になり、リモコンの話題内容を押す。
【0069】図10(2);すると、テレビ画面上に、選択されたニュースのこれまでの経緯が提示される。視聴者が1つのニュースを選択する。
【0070】図10(3);その結果、視聴者は、選択した過去のニュースを視聴することができる。
【0071】以上、上述した実施の形態では、長期に渡り出現する話題を1つの話題として認識する際に1ヶ月毎のニュース話題の類似性を評価するにようにしたが、1ヶ月に限定されず、週単位、数ヶ月単位等の所定周期であれば良いことは言うまでもない。
【0072】
【発明の効果】以上説明したように、本発明によれば、長期にわたり継続する話題に対してトラッキング処理を行うことにより、現状の技術では分断されている話題を、一連のものとして自動認識することが可能となる。そして、その一連の話題を言語解析することにより、話題の変化点を抽出し、抽出した変化点間の話題の構成要素を自然言語によって提示することが可能となる。その結果、視聴者の希望するニュースの履歴を提示できるシステムの構築が可能となる。
【出願人】 【識別番号】000004352
【氏名又は名称】日本放送協会
【出願日】 平成12年10月2日(2000.10.2)
【代理人】 【識別番号】100083806
【弁理士】
【氏名又は名称】三好 秀和 (外8名)
【公開番号】 特開2002−108917(P2002−108917A)
【公開日】 平成14年4月12日(2002.4.12)
【出願番号】 特願2000−302770(P2000−302770)