トップ :: G 物理学 :: G06 計算;計数




【発明の名称】 インターネット最新トレンド解析及び表示システム
【発明者】 【氏名】寺尾 英作

【要約】 【課題】

【解決手段】
【特許請求の範囲】
【請求項1】 インターネット上の複数のホームページから文書を自動的に収集し、収集したデータから単語を切り出す単語抽出部と、単語を解析する単語解析部と、単語の解析結果を格納する重要語・関連語格納部と、そして解析結果を表示する表示部を具備することを特徴とするインターネット最新トレンド解析及び表示システム【請求項2】 インターネット上の複数のホームページから文書を自動的に収集し、単語抽出部において収集したデータから使用頻度の多い単語を抽出し、単語解析部の標準使用頻度辞書作成部に記憶させ、再びインターネット上の複数のホームページから文書を自動的に収集し、単語抽出部において収集したデータから標準使用頻度辞書に記憶した単語のみを抽出し、抽出した単語の使用頻度を測定し、使用頻度の高い単語を重要語として重要語・関連語格納部に格納し、さらに重要語に関連する関連語を単語抽出部において抽出し、関連語についての使用頻度の測定を行い重要語・関連語格納部に格納し、重要語と関連語の関連度の計算をし、表示部において重要語と関連語、そして関連度を表示することを特徴とするインターネット最新トレンド解析及び表示システム
【発明の詳細な説明】【0001】
【発明が属する技術分野】本発明は、インターネットにおける文書の解析及び表示に関するインターネット最新トレンド解析及び表示システムの発明である。
【0002】
【従来の技術】近年のインターネットの普及に伴い、ホームページ上で手軽に様々なニュースが見られるようになってきた。これらの多種多様なホームページはニュースサイトと呼ばれ、新聞社や出版社等がホームページを開設し、それぞれが独自に記事を作成し公開している。
【0003】前記多種多様なホームページの内容は、政治、経済から前日に起きた事件や事故、また芸能関係のゴシップ記事まで、様々なジャンルの記事がホームページ上で掲載されている。
【0004】
【発明が解決しようとする課題】しかし、ホームページごとにニュースの内容が違い、一方のホームページでは、ある記事が大きく取り扱われているが、別のホームページを見ると全く取り扱われていない等の問題がある。
【0005】また、一つのニュースサイトだけでは、そのニュースがどの程度の話題性をもっているか判断することはできず、ニュースの話題性を調べるために、複数のニュースサイトを比較する必要があり、これらすべてのホームページを見ることは、利用者に負担となる。
【0006】そこで、本発明は、インターネットのホームページ上で、インターネット上のニュースサイトの中で現在話題になっている記事の中から重要語を取り出し、それに関連する関連語と合わせてホームページ上で分かり易く表示することができるようにするインターネット最新トレンド解析及び表示システムを提供することを目的とするものである。
【0007】
【課題を解決するための手段】本発明は、上記の課題を解決するために、インターネットのホームページ上で、その時々で話題となっているニュースを、複数のニュースサイトから自動的に収集し、収集したデータから単語を取り出す単語抽出部と、この単語を独自の解析技術によって、どのニュースが最も話題になっているのかリアルタイムに解析する単語解析部と、単語解析部で解析した結果を格納する重要語・関連語格納部と、重要語・関連語格納部に格納された情報を基に、重要語の分布状況や、重要語と関連語の相関図を表示する表示部を有することを特徴としたインターネット最新トレンド解析及び表示システムの構成とした。
【0008】
【実施例】以下に、図面とともに本発明の一実施例につき説明する。図1は本発明のインターネット最新トレンド解析及び表示システム3の全体図を示す。
【0009】図1に示すように、本発明のインターネット最新トレンド解析及び表示システム3の全体図は、インターネット1と、インターネット1上のニュースサイト2、そして本発明のインターネット最新トレンド解析及び表示システム3からなる。
【0010】図1に示すように、本発明のインターネット最新トレンド解析及び表示システム3では、インターネット1上で掲載されている複数のニュースサイト2の文書を単語抽出部4で取り込み、単語解析部5で重要語9及び関連語10を決定する。
【0011】また、前記で決定した重要語9及び関連語10の関連度11を測定し、前記の重要語9及び関連語10そして関連度11を重要語・関連語格納部6に格納し、表示部7で重要語9及び関連語10を画面で表示する。
【0012】次に、本発明のインターネット最新トレンド解析及び表示システム3の解析手順について説明する。図2は、本発明のインターネット最新トレンド解析及び表示システムの全体のフローチャートを示した図である。
【0013】図2に示すように、本発明のインターネット最新トレンド解析及び表示システム3は単語抽出部4、単語解析部5、重要語・関連語格納部6及び表示部7からなる。前記単語解析部5は、標準使用頻度辞書作成部5aと重要語・関連語演算部5b及び単語使用頻度測定部5cからなる。
【0014】まず、図2で示す本発明のインターネット最新トレンド解析及び表示システム3の単語解析部5の標準使用頻度辞書作成部5aで使用する標準使用頻度辞書の作成を行う。
【0015】図3は、本発明のインターネット最新トレンド解析及び表示システムの標準使用頻度辞書作成のフローチャートを示した図である。
【0016】図3で示すように、標準使用頻度辞書の作成は、まずインターネット1上の複数のニュースサイト2から文書を取り込み8、本発明のインターネット最新トレンド解析及び表示システム3の単語抽出部4により品詞に分けて分類し、分類した中から名詞や動詞を中心に抜き出す(S101)。
【0017】例えば「昨日、関東地方は大雨に見舞われ、各地に大きな被害をもたらしました。」のような文書の場合、まず「昨日」、「関東地方」、「は」、「大雨」、「に」、「見舞われ」、「各地」、「に」、「大きな」、「被害」、「を」、「もたらしました」に分類する。
【0018】そして、上記の分類した中から「昨日」、「関東地方」 、「大雨」 、「見舞われ」、「各地」 、「被害」 、「もたらしました」のように名詞や動詞を選択する。
【0019】上記で選択した単語について、インターネット1上の複数のニュースサイト2の文書で何回使用されているかの使用頻度の測定を、図2に示す本発明のインターネット最新トレンド解析及び表示システム3の単語使用頻度測定部5cで行う(S102)。
【0020】そして、上記の単語使用頻度測定部5cで使用頻度の比較的多い単語を選択する(S103)。上記で選択された単語は標準使用頻度辞書作成部5aで独自に演算を行い、演算結果を重要語・関連語格納部に格納し、標準使用頻度辞書の作成が完了する(S104)。
【0021】次に、重要語9の決定方法について図4で示すフローチャートで説明する。図4は、本発明のインターネット最新トレンド解析及び表示システムの重要語の決定のフローチャートを示した図である。
【0022】図4で示すように、図2に示す本発明のインターネット最新トレンド解析及び表示システム3の単語抽出部4ではインターネット1上の複数のニュースサイト2を選択し、前記のニュースサイト2の中から、自動的に文書を取り込む8(S201)。
【0023】そして、前記で収集した文書を品詞に分けて分類し、分類した中から名詞や動詞を中心に抜き出す(S202)。
【0024】例えば、「昨日、関東地方で地震がありました。地震の規模を示すマグニチュードは5.4でした。」 のような文書の場合、まず「昨日」、「関東地方」、「で」、「地震」、「が」、「ありました」、「地震」、「の」、「規模」、「を」、「示す」、「マグニチュード」、「は」、「5.4」、「でした」に分類する。
【0025】そして、上記の分類した品詞について、上記で説明した標準使用頻度辞書に記憶されている単語との比較を行い(S203)、該当する単語のみを抽出する(S204)。この作業を、選択したニュースサイト2全てについて行う。
【0026】図4は、本発明のインターネット最新トレンド解析及び表示システムの重要語の決定のフローチャートを示した図であり、次に、図4に示すように、図2に示す本発明のインターネット最新トレンド解析及び表示システム3の単語解析部5の単語使用頻度測定部5cにより、上記で選択された単語について、前記の単語がニュースサイト2の中で何回使用されているか調べる(S205)。
【0027】そして、使用頻度が多い順に上位10個の単語を選択する(S206)。前記の単語を重要語9と定義する(S207)。前記の重要語9は、図4に示すように、重要語・関連語格納部6に格納される(S208)。
【0028】次に、関連語10の決定方法について図5のフローチャートで説明する。上記で説明したように、重要語9についての決定と同様に関連語10の決定を行う。まず、図2に示す本発明のインターネット最新トレンド解析及び表示システム3の単語抽出部4において、インターネット1上の複数のニュースサイト2を選択し、前記のニュースサイト2の中から、文書を自動的に収集する(S301)。
【0029】そして、上記で収集した文書の中から重要語9を含んだ文章や複合語を単語抽出部4により自動的に収集する(S302)。「大雨」が重要語9の場合、「大雨」を含む文章や複合語、例えば「昨日、大雨により新幹線のダイヤが乱れました。」や「大雨警報」等が抜き出される。
【0030】そして、上記の文章や複合語を品詞で分類し、上記で説明した標準使用頻度辞書作成部5aに記憶されている単語との比較を行い(S303)、該当する単語の抽出を行う(S304)。
【0032】また、図5に示すように、単語解析部5の単語使用頻度測定部5cにより、上記で抽出した単語について、使用頻度の測定を行う(S305)。前記の使用頻度の測定で、使用頻度の比較的高い単語を関連語10とし、(S306)以下で説明する重要語9と関連語10の関連度11の計算結果(S307)とともに、関連語10を重要語・関連語格納部6に格納する(S308)。
【0033】次に重要語9と関連語10の関連度11の測定について説明する。関連度11の解析は、重要語9と関連語10がニュースサイト2の中で同一文又は複合語を形成している場合の数について計算する。
【0034】 例えば、「大雨」が重要語9の場合、「大雨」に関連する関連語10として「低気圧」や「洪水」、「土砂崩れ」が選ばれたと仮定する。そして、重要語9である「大雨」と関連語10の「低気圧」が同一文又は複合語を形成している場合が何カ所存在するのかを計算する。
【0035】同様に、上記の「洪水」、「土砂崩れ」についても同じ方法で計算し、数値が高いほど重要語9と関連語10の関連度11が高いものとする。前記の関連度11の数値の取り扱いについては以下の表示方法で説明する。
【0036】次に、本発明のインターネット最新トレンド解析及び表示システム3の表示方について説明する。図6は、本発明のインターネット最新トレンド解析及び表示システムの表示画面を示した図である。
【0037】図6で示すように、利用者が本発明のインターネット最新トレンド解析及び表示システム3が掲載されているホームページにアクセスすると、図6で示すように、二次元画像11で複数の重要語9を表示する。
【0038】前記の重要語9は、上記の解析手順で説明したように、本発明のインターネット最新トレンド解析及び表示システム3の単語解析部5により重要語9として選ばれ、重要語・関連語格納部6に格納されている重要語9を表示するものである。
【0039】上記の二次元画像12では、本発明のインターネット最新トレンド解析及び表示システム3の単語解析部5で解析された結果、使用頻度の高い重要語9ほど、前記の重要語9を取り囲む略円形状の枠14が大きく表示される。この二次元画像12で、今世間でどのようなことが話題になっているかが、一目で分かるようになっている。
【0040】そして、図6に示す二次元画像12の重要語9の部分をマウスで選択すると、図7で示すように、画面上に立体画像13が表示される。前記の立体画像13の上部の表示部分には、上記の図6で選択した重要語9が表示される。
【0041】また、同時に図7に示すように、重要語9と前記の重要語9と関連性のある関連語10が立体画像13上に表示される。さらに、上記の重要語9及び関連語10は単語が掲載されているニュースサイト2とリンクしており、重要語9及び関連語10の文字を選択すると該当するニュースサイト2に移動する。
【0042】また、図7で示す立体画像12では、重要語9と関連語10の関係についても、表現することができる。例えば、選挙の場合には、重要語9としては総選挙が該当し、関連語としては政権交代、自保公連立、小選挙区、公約、公約違反、自由党、汚職、投票率等が該当する。
【0043】上記の解析手順で説明したように、本発明のインターネット最新トレンド解析及び表示システム3の単語解析部5の重要語・関連語演算部5bにより、重要語9と関連語10の関連度11が計算され、重要語9と関連語10の関連度11が深いほど、線のサイズ15が太く表示される。
【0044】また、図7に示すように、使用頻度の高い関連語10ほど、立体画像12の上部に表示される。
【0045】
【発明の効果】本発明のインターネット最新トレンド解析及び表示システムの利用により、インターネットで配信されているニュースの中で、最も話題になっているものだけ短時間で迅速に見ることができ、複数のニュースサイトの検索に費やす時間の節約になる。
【0046】本発明のインターネット最新トレンド解析及び表示システムはニュースサイトでの運用の他に、特定のテーマサイトについての運用にも使用できる。
【出願人】 【識別番号】399109274
【氏名又は名称】株式会社つくばマルチメディア
【出願日】 平成12年9月27日(2000.9.27)
【代理人】 【識別番号】100093816
【弁理士】
【氏名又は名称】中川 邦雄
【公開番号】 特開2002−108937(P2002−108937A)
【公開日】 平成14年4月12日(2002.4.12)
【出願番号】 特願2000−294896(P2000−294896)