投稿日:2015/02/27 更新日: WWW 論文紹介

Answering relationship queries on the web

Luo, Gang
Tang, Chunqiang
Tian, Ying-li
In Proc. of WWW 2007
http://dl.acm.org/citation.cfm?id=1242648

概要

2つのクエリ(たとえば「京都大学」と「東京ドーム」)を入力したときに、各クエリの検索結果の中から、2つのクエリの共通点を表すページのペアを並べてユーザに提示する。ページのペアは、共通度合いの高い順に表示される。

手法の流れ

  1. Webページの取得
  2. Google APIを使って、各クエリの上位50件の検索結果を取得。ステップ4では、50×50=2,500ペアをランキングすることになる。

  3. Webページの前処理
  4. ステミング等を行ったあとで、ノイズ語を除くために、ページ内でクエリの前後30語を抽出し、ステップ3に使用する。

  5. ページ間の類似度計算
  6. Okapiを拡張した手法を提案して、ページ間の類似度を計算。一般的すぎる語の影響を小さくするために、一方のクエリの検索結果内でのIDFの低い語の重みを大きくしたり、長いページの影響を小さくするために、2つのページで共通する語の中で重要度の高い20語だけを使ってページ間の類似度を計算する、といった工夫をしている。

  7. ページペアのランキング
  8. ステップ3で計算した類似度の高い順にページペアをランキング。

実験

TRECのrelationshipタスクで使用されたクエリ等、30種類のクエリを用意。各クエリに対して得られた結果をあげながら定性的な評価を行っている。
それに加えて、共通点を表すページペアとしてふさわしいかを人手で判定したうえで、ステップ1で取得する検索結果数やステップ2でのウィンドウサイズを変更したときの精度を定量的に評価している。


-WWW, 論文紹介

関連記事

Emotional Divergence Influences Information Spreading in Twitter

Rene Pfitzner Antonios Garas Frank Schweitzer In Proc. of ICWSM 2012 概要 ツイッターでリツイートされやすいツイートの性質を、ツイー …

Time-critical search

Mishra, Nina and White, Ryen W. and Ieong, Samuel and Horvitz, Eric In Proc. of SIGIR 2014 概要 一緒にいる人 …

Regularization of Latent Variable Models to Obtain Sparsity

Ramnath Balasubramanyan, William W. Cohen In Proc. of SDM 2013 概要 LDAのようなトピックモデルでは、単語が所属するトピックの分布や、文 …

Re-Examining Search Result Snippet Examination Time for Relevance Estimation

Lagun, Dmitry Agichtein, Eugene In Proc. of SIGIR2012 http://dl.acm.org/citation.cfm?id=2348509 概要 従 …

Characterizing the influence of domain expertise on web search behavior

White, Ryen W. Dumais, Susan T. Teevan, Jaime In Proc. of WSDM 2009 http://dl.acm.org/citation.cfm?i …