トップ :: G 物理学 :: G06 計算;計数

【発明の名称】 ページ評価装置、ページ評価方法、およびページ評価プログラム
【発明者】 【氏名】宮崎 祐
【課題】ネットワーク上で公開されたページを公平かつ正確に評価し、ページの検索サービスの向上を図ること。

【解決手段】アクセスログ収集部301は、定期的にログ情報DB100からユーザごとのアクセスログを収集する。本人ログ抽出部302は、ユーザごとのアクセスログからユーザ本人のページへのアクセスを示す本人ログを抽出する。共通語解析部303は、本人ページとユーザが本人ページの編集直前に閲覧した直前ページとが関連した内容を含むことを示唆する共通語があるか否かを解析する。配分スコア算出部304は、本人ページと直前ページとが共通語を有している場合、本人ページから直前ページへ配分される配分スコアを算出する。スコア更新部305は、直前ページを参照して編集された本人ページからの配分スコアを合計して直前ページごとのスコアとする。
【特許請求の範囲】
【請求項1】
ユーザがアクセスしたページの履歴から当該ユーザが編集可能な本人ページへのアクセスログおよび当該ユーザが本人ページに先行してアクセスした先行ページへのアクセスログを取得する取得手段と、
前記取得手段によって取得されたアクセスログに対応する本人ページおよび先行ページが内容の関連性を示唆する共通語を含むか否かを判定する判定手段と、
前記判定手段による判定の結果、本人ページおよび先行ページが共通語を含む場合に、本人ページから先行ページへ配分される配分スコアを算出する算出手段と、
前記算出手段によって算出された配分スコアに基づいて先行ページのスコアを決定する決定手段と
を有することを特徴とするページ評価装置。
【請求項2】
前記取得手段は、
先行ページのうち前記ユーザが本人ページの直前に閲覧した直前ページへのアクセスログを取得することを特徴とする請求項1記載のページ評価装置。
【請求項3】
前記算出手段は、
本人ページとの共通語を含むすべての先行ページに本人ページのスコアを等分して配分スコアとすることを特徴とする請求項1記載のページ評価装置。
【請求項4】
前記決定手段は、
先行ページへ配分されるすべての配分スコアの合計を先行ページのスコアと決定することを特徴とする請求項1記載のページ評価装置。
【請求項5】
前記取得手段は、
ユーザの識別子、ユーザがアクセスしたページのアドレス情報、およびユーザがページにアクセスしたアクセス日時を対応付けて記憶するデータベースから本人ページおよび先行ページへのアクセスログを取得することを特徴とする請求項1記載のページ評価装置。
【請求項6】
前記決定手段は、
決定した先行ページのスコアをページのアドレス情報およびページのスコアを対応付けて記憶するデータベースに記憶させることを特徴とする請求項1記載のページ評価装置。
【請求項7】
ユーザがアクセスしたページの履歴から当該ユーザが編集可能な本人ページへのアクセスログおよび当該ユーザが本人ページに先行してアクセスした先行ページへのアクセスログを取得する取得ステップと、
前記取得ステップにて取得されたアクセスログに対応する本人ページおよび先行ページが内容の関連性を示唆する共通語を含むか否かを判定する判定ステップと、
前記判定ステップにおける判定の結果、本人ページおよび先行ページが共通語を含む場合に、本人ページから先行ページへ配分される配分スコアを算出する算出ステップと、
前記算出ステップにて算出された配分スコアに基づいて先行ページのスコアを決定する決定ステップと
を有することを特徴とするページ評価方法。
【請求項8】
コンピュータによって実行されるページ評価プログラムであって、前記コンピュータに、
ユーザがアクセスしたページの履歴から当該ユーザが編集可能な本人ページへのアクセスログおよび当該ユーザが本人ページに先行してアクセスした先行ページへのアクセスログを取得する取得ステップと、
前記取得ステップにて取得されたアクセスログに対応する本人ページおよび先行ページが内容の関連性を示唆する共通語を含むか否かを判定する判定ステップと、
前記判定ステップにおける判定の結果、本人ページおよび先行ページが共通語を含む場合に、本人ページから先行ページへ配分される配分スコアを算出する算出ステップと、
前記算出ステップにて算出された配分スコアに基づいて先行ページのスコアを決定する決定ステップと
を実行させることを特徴とするページ評価プログラム。
【発明の詳細な説明】【技術分野】
【0001】
本発明は、ページ評価装置、ページ評価方法、およびページ評価プログラムに関し、特に、ネットワーク上で公開されたページを公平かつ正確に評価し、ページの検索サービスの向上を図ることができるページ評価装置、ページ評価方法、およびページ評価プログラムに関する。
【背景技術】
【0002】
近年、ネットワークを介したWWW(World Wide Web)などのドキュメントシステムにおいては、非常に多くの数のウェブページ(以下、単に「ページ」という)が公開されている。このため、ユーザは、閲覧したいページに関するキーワードなどの検索条件を検索サイトに入力し、検索条件に適合するページのURL(Uniform Resource Locator)を取得し、取得されたURLへのリンクを辿って所望のページを閲覧することがある。最近では、公開されたページ数が膨大になっていることから、検索条件に適合するページの数も多くなっており、検索結果として多数のページのURLが取得されることになる。
【0003】
このように、多数のページのURLが取得されると、検索結果を例えばディスプレイなどの一画面中に表示することができないため、ユーザがすべての検索結果を閲覧するためには、画面のスクロールや画面遷移などの操作が必要となる。そこで、ユーザの便宜を図るために、多くの検索サイトでは、検索結果のページを評価し、より信頼度が高く、ユーザの要望に見合ったページが上位に表示されるように工夫されている。
【0004】
具体的には、例えば特許文献1においては、PAGERANK(登録商標)と呼ばれる方法でページのスコアを決定し、検索結果を表示する際には、スコアが高いページを先に表示することが記載されている。PAGERANKと呼ばれる方法においては、あるページAが他のページへのリンクを含む場合に、ページAのスコアを他のページに配分することにより、各ページのスコアが決定される。すなわち、ページAのスコアが例えば30点であり、ページAがページB、C、Dの3つのページへのリンクを含んでいる場合、ページB、C、Dには10点ずつスコアが配分される。ここで、ページAのスコア30点は、ページAへのリンクを含むページから配分されたスコアの合計である。また、ページB、C、DがページA以外のページからもリンクされている場合は、ページAから配分される10点にページA以外のページから配分されるスコアが加算され、それぞれページB、C、Dのスコアが決定される。
【0005】
このようなPAGERANKを用いたページ評価によれば、多くのページからリンクされるページはスコアが高くなるとともに、多くのページからリンクされたページにリンクが含まれるページはスコアが高くなる。つまり、多くのページからリンクされるページは信頼度が高いページとなるとともに、信頼度が高いページからリンクされるページも信頼度が高いページとなる。
【0006】
【特許文献1】特開2007−183825号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかしながら、PAGERANKを用いたページ評価では、例えばリンク集などのようなページの内容とは無関係に他のページへのリンクを含むページからのリンクや、意図的な相互リンクなどによるスパムリンクによってもリンク先のページのスコアが増加し、ページの評価が上昇する。したがって、必ずしもPAGERANKによるページ評価が正確であるわけではないという問題がある。
【0008】
そして、例えばスパムリンクなどの不正によって評価が上昇したページが検索結果の上位に表示されると、ユーザが必要としている内容のページは相対的に検索結果の下位に表示されることになる。結果として、ユーザは、所望の情報を含むページを閲覧するまでに、上位の検索結果のリンクを辿って不正に評価が上昇したページの内容を確認したり、下位の検索結果を表示させるために画面スクロールや画面遷移などの操作を行ったりしなければならない。このように、評価が高い順に検索結果のURLを表示する場合、ページの評価の精度が低下すると、ユーザに不毛な操作を強いることになってしまい、サービスの低下につながる。
【0009】
本発明はかかる点に鑑みてなされたものであり、ネットワーク上で公開されたページを公平かつ正確に評価し、ページの検索サービスの向上を図ることができるページ評価装置、ページ評価方法、およびページ評価プログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
上記課題を解決するために、本発明に係るページ評価装置は、ユーザがアクセスしたページの履歴から当該ユーザが編集可能な本人ページへのアクセスログおよび当該ユーザが本人ページに先行してアクセスした先行ページへのアクセスログを取得する取得手段と、前記取得手段によって取得されたアクセスログに対応する本人ページおよび先行ページが内容の関連性を示唆する共通語を含むか否かを判定する判定手段と、前記判定手段による判定の結果、本人ページおよび先行ページが共通語を含む場合に、本人ページから先行ページへ配分される配分スコアを算出する算出手段と、前記算出手段によって算出された配分スコアに基づいて先行ページのスコアを決定する決定手段とを有する構成を採る。
【0011】
この構成によれば、本人ページと先行ページが共通語を含む場合に、本人ページのスコアが先行ページへ配分されるため、本人ページの編集時に参照された先行ページのスコアが高くなる。したがって、ページの編集時に多くのユーザによって参照されるページほどスコアが高くなる。結果として、有用な情報を含むページが高評価となり、ネットワーク上で公開されたページを公平かつ正確に評価することができる。また、スコアに応じて検索結果の表示順序を決定すれば、ページの検索サービスの向上を図ることができる。
【0012】
また、本発明に係るページ評価装置は、上記構成において、前記取得手段は、先行ページのうち前記ユーザが本人ページの直前に閲覧した直前ページへのアクセスログを取得する構成を採る。
【0013】
この構成によれば、先行ページのうち直前ページへのアクセスログを取得するため、本人ページの編集時に参照された可能性が高いページへのアクセスログのみを取得することができ、共通語を含むか否かの判定による処理負荷を最小限に抑制することができる。
【0014】
また、本発明に係るページ評価装置は、上記構成において、前記算出手段は、本人ページとの共通語を含むすべての先行ページに本人ページのスコアを等分して配分スコアとする構成を採る。
【0015】
この構成によれば、共通語を含むすべての先行ページに本人ページのスコアを等分して配分するため、本人ページのスコアが高ければ、先行ページへ配分されるスコアも高くなり、多くのユーザによって参照されるスコアが高いページの編集時に参照されるページほどスコアが高くなる。結果として、情報の信頼度が高いページの編集時に参照されるページのスコアを高くすることができ、より正確なページ評価を行うことができる。
【0016】
また、本発明に係るページ評価装置は、上記構成において、前記決定手段は、先行ページへ配分されるすべての配分スコアの合計を先行ページのスコアと決定する構成を採る。
【0017】
この構成によれば、先行ページへ配分されるすべての配分スコアの合計を先行ページのスコアと決定するため、多くのページの編集時に参照されるページほどスコアが高くなり、有用な情報を含むページの評価を確実に高くすることができる。
【0018】
また、本発明に係るページ評価装置は、上記構成において、前記取得手段は、ユーザの識別子、ユーザがアクセスしたページのアドレス情報、およびユーザがページにアクセスしたアクセス日時を対応付けて記憶するデータベースから本人ページおよび先行ページへのアクセスログを取得する構成を採る。
【0019】
この構成によれば、ユーザごとのページへのアクセス履歴を記憶するデータベースから必要なアクセスログを取得するため、例えばユーザ端末に常駐するツールバーによって取得されたアクセス履歴を蓄積するデータベースが構築されるシステムにおいて上記と同様の効果を得ることができる。
【0020】
また、本発明に係るページ評価装置は、上記構成において、前記決定手段は、決定した先行ページのスコアをページのアドレス情報およびページのスコアを対応付けて記憶するデータベースに記憶させる構成を採る。
【0021】
この構成によれば、ページごとのスコアを記憶するデータベースに決定したスコアを記憶させるため、例えば検索サーバから参照されるページごとのスコアを記憶するデータベースが構築されるシステムにおいて上記と同様の効果を得ることができる。
【0022】
また、本発明に係るページ評価方法は、ユーザがアクセスしたページの履歴から当該ユーザが編集可能な本人ページへのアクセスログおよび当該ユーザが本人ページに先行してアクセスした先行ページへのアクセスログを取得する取得ステップと、前記取得ステップにて取得されたアクセスログに対応する本人ページおよび先行ページが内容の関連性を示唆する共通語を含むか否かを判定する判定ステップと、前記判定ステップにおける判定の結果、本人ページおよび先行ページが共通語を含む場合に、本人ページから先行ページへ配分される配分スコアを算出する算出ステップと、前記算出ステップにて算出された配分スコアに基づいて先行ページのスコアを決定する決定ステップとを有するようにした。
【0023】
また、本発明に係るページ評価プログラムは、コンピュータによって実行されるページ評価プログラムであって、前記コンピュータに、ユーザがアクセスしたページの履歴から当該ユーザが編集可能な本人ページへのアクセスログおよび当該ユーザが本人ページに先行してアクセスした先行ページへのアクセスログを取得する取得ステップと、前記取得ステップにて取得されたアクセスログに対応する本人ページおよび先行ページが内容の関連性を示唆する共通語を含むか否かを判定する判定ステップと、前記判定ステップにおける判定の結果、本人ページおよび先行ページが共通語を含む場合に、本人ページから先行ページへ配分される配分スコアを算出する算出ステップと、前記算出ステップにて算出された配分スコアに基づいて先行ページのスコアを決定する決定ステップとを実行させるようにした。
【0024】
これらによれば、本人ページと先行ページが共通語を含む場合に、本人ページのスコアが先行ページへ配分されるため、本人ページの編集時に参照された先行ページのスコアが高くなる。したがって、ページの編集時に多くのユーザによって参照されるページほどスコアが高くなる。結果として、有用な情報を含むページが高評価となり、ネットワーク上で公開されたページを公平かつ正確に評価することができる。また、スコアに応じて検索結果の表示順序を決定すれば、ページの検索サービスの向上を図ることができる。
【発明の効果】
【0025】
本発明によれば、ネットワーク上で公開されたページを公平かつ正確に評価し、ページの検索サービスの向上を図ることができる。
【発明を実施するための最良の形態】
【0026】
本発明の骨子は、ユーザが本人のページへアクセスした場合に、直前にアクセスしたページと本人のページとが関連した内容を含むか否かを判定し、関連した内容を含む場合に、ユーザが本人のページの直前にアクセスしたページの内容を参照して本人のページを編集したものとし、直前にアクセスされたページへ本人のページのスコアを配分することである。以下、本発明の一実施の形態について、図面を参照して詳細に説明する。
【0027】
図1は、本発明の一実施の形態に係るページ評価装置300の要部構成を示すブロック図である。同図に示すページ評価装置300は、ログ情報データベース(以下「ログ情報DB」と略記する)100およびページスコアデータベース(以下「ページスコアDB」と略記する)200に接続されている。なお、本実施の形態においては、ログ情報DB100およびページスコアDB200がページ評価装置300の外部に接続されるものとしたが、これらのデータベースの一方または双方がページ評価装置300の内部に設置されても良い。
【0028】
ログ情報DB100は、図示しないユーザ端末を利用してユーザがアクセスしたページのログを記憶する。すなわち、ログ情報DB100は、ユーザがアクセスしたページのURLをユーザ別かつ時系列に記憶する。また、ログ情報DB100は、ユーザがアクセスしたページがユーザ本人のページであるか否かを示す本人フラグをそれぞれのアクセスログに対応付けて記憶する。
【0029】
具体的には、ログ情報DB100は、例えば図2に示すように、ユーザIDごとに、アクセスしたURL、アクセス日時、および本人フラグを記憶する。例えば、ユーザID「324」のユーザは、2008年4月15日の9時15分36秒に「http://GGG.HHH.III」というURLのページへアクセスし、同日の9時18分14秒に「http://AAA.BBB.CCC」というURLのページへアクセスしたことが記憶されている。
【0030】
そして、前者のURLに対応する本人フラグは「0」となっているのに対し、後者のURLに対応する本人フラグは「1」となっている。これは、前者のURLが他人のページのURLであるのに対し、後者のURLが本人のページのURLであることを示している。換言すれば、ユーザID「324」のユーザは、「http://AAA.BBB.CCC」というURLのページを自由に編集することが可能であることになる。
【0031】
ログ情報DB100に記憶されるユーザごとのアクセスのログ情報は、図示しないユーザ端末に常駐するツールバーがアクセス先のURLなどを取得して、ログ情報DB100へ送信することにより蓄積することが可能である。また、図示しないユーザ端末に対してページのデータを配信する図示しない配信サーバがユーザ端末ごとのアクセスのログ情報を収集して、ログ情報DB100へ送信することにより蓄積することも可能である。
【0032】
ページスコアDB200は、ネットワーク上で公開されているページのURLに、当該ページのスコアおよび当該ページにスコアを配分するページ(以下「関連ページ」という)を対応付けて記憶する。すなわち、ページスコアDB200は、各ページのURLおよびスコアに対応付けて、関連ページのURLおよび関連ページから他のページへ配分される配分スコアを記憶する。
【0033】
具体的には、ページスコアDB200は、例えば図3に示すように、ページのURLおよびスコアごとに、関連ページのURLおよび関連ページごとの配分スコアを記憶する。各ページのスコアは、関連ページの配分スコアの合計に等しくなっている。例えば、URLが「http://AAA.BBB.CCC」のページのスコアは180点であり、このスコアは、2つの関連ページの配分スコア(すなわち45点と135点)の合計に等しくなっている。また、URLが「http://DDD.EEE.FFF」のページのスコアは45点であり、上述したように、URLが「http://AAA.BBB.CCC」のページの関連ページとしての配分スコアも45点であることから、URLが「http://DDD.EEE.FFF」のページは、1つのページからのみ参照されており、全スコアがURLが「http://AAA.BBB.CCC」のページへの配分スコアとなっていることがわかる。
【0034】
ページスコアDB200は、例えば図示しない検索サーバなどによって参照され、検索サーバがユーザの要求に従った検索結果を出力する際、ページごとのスコア順にURLが並べられて検索結果ページが作成される。そのほかにも、ページが有用な情報を含むか否かの視点での評価が必要な場合に、ページスコアDB200に記憶されたページごとのスコアを利用することが可能である。
【0035】
図1に戻って、ページ評価装置300は、アクセスログ収集部301、本人ログ抽出部302、共通語解析部303、配分スコア算出部304、およびスコア更新部305を有している。
【0036】
アクセスログ収集部301は、定期的にログ情報DB100からユーザごとのアクセスログを収集する。すなわち、アクセスログ収集部301は、前回の収集時から今回の収集時までに各ユーザIDのユーザがアクセスしたページのURL、アクセス日時、および本人フラグをログ情報DB100から取得する。
【0037】
本人ログ抽出部302は、アクセスログ収集部301によって収集されたアクセスログの本人フラグを参照して、ユーザごとのアクセスログからユーザ本人のページへのアクセスを示す本人ログを抽出する。すなわち、本人ログ抽出部302は、ユーザごとのアクセスログのうち、本人フラグが「1」となっている本人ログを抽出する。そして、本人ログ抽出部302は、本人ログと本人ログの直前のログとを共通語解析部303へ出力する。換言すれば、本人ログ抽出部302は、ユーザが編集したページのURLとユーザがページの編集直前に閲覧したページのURLとを共通語解析部303へ出力する。なお、本人ログ抽出部302は、本人ログに先行する複数のログを本人ログとともに共通語解析部303へ出力しても良い。要するに、本人ログ抽出部302は、ユーザが本人のページを編集する際に参照した可能性があるページのURLを本人ログとともに共通語解析部303へ出力すれば良い。
【0038】
共通語解析部303は、本人ログ抽出部302から出力されたすべてのログのページのテキストを形態素解析などして単語に分解した上で、本人ログのページ(以下「本人ページ」という)と本人ログの直前のログのページ(以下「直前ページ」という)とが共通の単語を含むか否かを判定する。つまり、共通語解析部303は、ユーザが編集したページとユーザがページの編集直前に閲覧したページとが関連した内容を含むことを示唆する共通語があるか否かを解析する。このとき、共通語解析部303は、たとえ本人ページおよび直前ページに共通した単語であっても、ごく一般的な名詞などの単語を共通語とすることはなく、例えば固有名詞などの単語を共通語とする。また、共通語解析部303は、1つの単語を共通語とするのみではなく、複数の連続した単語を共通語としても良い。共通語解析部303による解析の結果、本人ページと直前ページが共通語を有する場合、本人ページは、直前ページを参照して編集されていると判断され、直前ページの関連ページとなり、直前ページへスコアを配分することになる。
【0039】
配分スコア算出部304は、共通語解析部303における解析の結果、本人ページと直前ページとが共通語を有している場合、本人ページから直前ページへ配分される配分スコアを算出する。具体的には、配分スコア算出部304は、本人ページのスコアをページスコアDB200から読み出すとともに、ページスコアDB200において本人ページを関連ページとしているページ数をカウントする。そして、配分スコア算出部304は、カウントされた関連ページと直前ページとを合わせたページ数、換言すれば、本人ページの編集時に参照されており本人ページとの共通語を有するページ数(参照数)で本人ページのスコアを除算し、本人ページの編集時に参照された各ページへ配分される配分スコアを算出する。
【0040】
すなわち、例えば本人ページが直前ページのみを参照しており、本人ページが関連ページとしてページスコアDB200に記憶されていない場合、配分スコア算出部304は、本人ページのスコアをすべて直前ページへの配分スコアとする。また、例えば本人ページが直前ページのほかに2つのページを参照しており、本人ページが2つのページの関連ページとしてページスコアDB200に記憶されている場合、配分スコア算出部304は、本人ページのスコアを参照数3で除算して各ページへの配分スコアとする。
【0041】
なお、配分スコア算出部304が算出する配分スコアは、ページ間の参照関係の影響を受けるため、ページスコアDB200によって記憶されている関連ページが変化すれば配分スコアも変化する。このため、配分スコア算出部304は、共通語解析部303による解析の結果、共通語を含むと判定された本人ページと直前ページとの関係をすべてページスコアDB200に反映した後、改めて各ページから配分される配分スコアを算出するようにしても良い。
【0042】
スコア更新部305は、配分スコア算出部304によって算出された配分スコアを関連ページに対応付けてページスコアDB200に記憶させる。そして、スコア更新部305は、各ページの関連ページに対応する配分スコアを合計してページごとのスコアを算出し、ページスコアDB200に記憶されたページごとのスコアを更新する。
【0043】
次いで、上記のように構成されたページ評価装置300の動作について、具体的に例を挙げながら、図4に示すフロー図を参照して説明する。
【0044】
本実施の形態においては、例えば図示しないユーザ端末に常駐するツールバーなどにより、ユーザがアクセスしたページのログ情報がログ情報DB100に蓄積されている。そして、ページ評価装置300のアクセスログ収集部301によって、ログ情報DB100に蓄積されたログ情報から定期的にユーザごとのアクセスログが収集される(ステップS101)。すなわち、アクセスログ収集部301によって、ユーザIDに対応付けられた状態で、ユーザがアクセスしたページのURL、アクセス日時、および本人フラグが取得される。
【0045】
そして、本人ログ抽出部302によって、収集されたアクセスログの本人フラグが確認され、ユーザが編集可能な本人のページにアクセスしたことを示す本人ログが抽出される(ステップS102)。具体的には、本人ログ抽出部302によって、本人フラグが「1」となっているログが本人ログとして抽出される。同時に、本人ログ抽出部302によって、アクセス日時が本人ログの直前の時刻を示すログが取得され、取得されたログと本人ログが共通語解析部303へ出力される。これにより、ユーザが編集可能な本人ページへのアクセスログと、ユーザが本人ページの編集直前に閲覧した直前ページへのアクセスログとが共通語解析部303へ出力されたことになる。
【0046】
これらのアクセスログが共通語解析部303へ出力されると、共通語解析部303によって、本人ページおよび直前ページの共通語に関する解析が行われる(ステップS103)。すなわち、共通語解析部303によって、本人ページおよび直前ページのテキスト情報が取得され、それぞれのテキスト情報が例えば形態素解析などにより単語に分解され、本人ページおよび直前ページのテキスト情報から、本人ページと直前ページが関連した内容を含むことを示唆する共通語が探索される。そして、共通語解析部303によって、本人ページおよび直前ページそれぞれのテキスト情報に共通語が存在するか否かが判定される(ステップS104)。共通語が存在する場合には、本人ページの内容が直前ページの内容と関連していることから、ユーザが本人ページを編集する際に、直前ページを参照したと考えられる。
【0047】
共通語解析部303によって有無が判断される共通語としては、ごく一般的に用いられる名詞などは好ましくなく、例えば固有名詞や複数の連続する単語などが好ましい。したがって、例えば図5に示すように、本人ページのURLが「http://DDD.EEE.FFF」であり、直前ページのURLが「http://AAA.BBB.CCC」である場合、双方のページに例えば「ラーメン」という単語が共通しているのみでは、共通語解析部303によって共通語があると判定されない。しかし、双方のページに例えば「○×ラーメン」という固有名詞が共通していれば、共通語解析部303によって共通語があると判定されることになる。
【0048】
共通語解析部303による共通語の有無の判定の結果、本人ページおよび直前ページに共通語がなければ(ステップS104No)、本人ページおよび直前ページの間に関連性がなく、スコアの授受もないことからページ評価装置300の処理が終了する。一方、本人ページおよび直前ページに共通語があれば(ステップS104Yes)、配分スコア算出部304によって、本人ページから直前ページへ配分される配分スコアが算出される(ステップS105)。
【0049】
具体的には、配分スコア算出部304によって、本人ページと直前ページの参照関係がすべてページスコアDB200に反映された後、それぞれの本人ページから直前ページへの配分スコアが算出される。すなわち、共通語を含む本人ページおよび直前ページの組み合わせがある場合、すべての組み合わせについて、直前ページに対応する関連ページとして本人ページのURLがページスコアDB200に登録される。そして、配分スコア算出部304によって、スコアを他のページへ配分する配分元のページのスコアと配分元のページを関連ページとして記憶しているページ数(参照数)とがページスコアDB200から取得される。スコアおよび参照数が取得されると、配分スコア算出部304によって、配分元のページのスコアが参照数で除算されることにより、配分元のページから他のページへ配分される配分スコアが算出される。
【0050】
このようにして、各ページの配分スコアが算出されると、スコア更新部305によって、ページスコアDB200の関連ページに対応付けられた配分スコアが新たに算出された配分スコアに更新される。同時に、スコア更新部305によって、各ページのスコアが各ページのURLに対応付けられた関連ページの配分スコアの合計値に更新される(ステップS106)。こうして各ページのスコアが決定されるが、配分元のページのスコアが更新されると配分スコアも変化するため、すべてのページのスコアが収束するまで、上記の配分スコア算出およびスコア更新を繰り返すようにしても良い。
【0051】
最終的に各ページのスコアが収束すると、ページ編集時に参照されたページのスコアは、編集されたページから配分される配分スコアの合計値に等しくなっている。この関係を例示すると、例えば図6に示すように、ページA、BがページCを参照して編集され、ページCがページD、E、Fを参照して編集された場合、編集されたページA、Bからの配分スコアの合計がページCのスコアになっている。図6においては、ページAがページCのみを参照して編集されているため、ページAのスコア「4点」がすべてページCへの配分スコアとなり、ページBがページCと他の1つのページとを参照して編集されているため、ページBのスコア「82点」の半分の「41点」がページCへの配分スコアとなる。したがって、ページCのスコアは「45点」となる。
【0052】
さらに、ページCがページD、E、Fを参照して編集されているため、ページCのスコア「45点」が3等分され、「15点」がページD、E、Fへの配分スコアとなる。したがって、ページD、E、FがページC以外のページから参照されていなければ、ページD、E、Fのスコアはいずれも「15点」となる。このように、編集されたページから参照されたページへ配分される配分スコアは、編集されたページのスコアを参照されたページ数(参照数)で除算した値となるため、編集されたページのスコアが高ければ高いほど配分スコアが大きくなり、参照されたページのスコアも高くなる。
【0053】
これにより、ページスコアDB200に記憶された各ページのスコアは、ページの編集時に多くのユーザによって参照されるページほど高く、また、多くのユーザによって参照されるページの編集時に参照されるページほど高い値となる。つまり、有用な情報を含むページのスコアが高くなる一方、単なるリンク集やスパムリンクなどのようにページ編集時に参照されることがないページのスコアが高くなることはない。結果として、ネットワーク上で公開されたページを公平かつ正確に評価することができ、スコアに応じて検索結果の表示順序を決定すれば、ページの検索サービスの向上を図ることができる。
【0054】
以上のように、本実施の形態によれば、ユーザによるページへのアクセスログから本人ページを編集する際の本人ログを抽出すると同時に、本人ページの直前にユーザが閲覧した直前ページを抽出し、本人ページおよび直前ページが共通語を含むか否かを判定し、共通語を含む場合に、本人ページから直前ページへの配分スコアを算出して直前ページのスコアを更新する。このため、ユーザが本人ページを編集する際に参照した直前ページに対して、本人ページのスコアを配分することができ、ユーザがページ編集に際して参照する程度に有用な情報を含むページのスコアを高くすることができる。結果として、ネットワーク上で公開されたページを公平かつ正確に評価し、ページの検索サービスの向上を図ることができる。
【0055】
なお、上記一実施の形態において説明したページ評価方法をコンピュータが実行可能な形式で記述したページ評価プログラムを生成し、このページ評価プログラムをコンピュータに実行させることにより本発明のページ評価装置およびページ評価方法を実現することも可能である。このとき、ページ評価プログラムをコンピュータが読み取り可能な記録媒体に記憶させ、記録媒体を用いてコンピュータにページ評価プログラムを導入することも可能である。
【産業上の利用可能性】
【0056】
本発明は、ネットワーク上で公開されたページを公平かつ正確に評価し、ページの検索サービスの向上を図る場合に適用することができる。
【図面の簡単な説明】
【0057】
【図1】一実施の形態に係るページ評価装置の要部構成を示すブロック図である。
【図2】一実施の形態に係るログ情報DBの具体例を示す図である。
【図3】一実施の形態に係るページスコアDBの具体例を示す図である。
【図4】一実施の形態に係るページ評価装置の動作を示すフロー図である。
【図5】一実施の形態に係る本人ページおよび直前ページの具体例を示す図である。
【図6】一実施の形態に係るページ間の参照関係の具体例を示す図である。
【符号の説明】
【0058】
100 ログ情報DB
200 ページスコアDB
300 ページ評価装置
301 アクセスログ収集部
302 本人ログ抽出部
303 共通語解析部
304 配分スコア算出部
305 スコア更新部

特許の図
【出願人】 【識別番号】500257300
【氏名又は名称】ヤフー株式会社
【出願日】 平成20年4月9日(2008.4.9)
【代理人】 【識別番号】100089118
【弁理士】
【氏名又は名称】酒井 宏明
【公開番号】 特開2009−252082(P2009−252082A)
【公開日】 平成21年10月29日(2009.10.29)
【出願番号】 特願2008−101363(P2008−101363)