投稿日:2015/02/27 更新日: WWW 論文紹介

Answering relationship queries on the web

Luo, Gang
Tang, Chunqiang
Tian, Ying-li
In Proc. of WWW 2007
http://dl.acm.org/citation.cfm?id=1242648

概要

2つのクエリ(たとえば「京都大学」と「東京ドーム」)を入力したときに、各クエリの検索結果の中から、2つのクエリの共通点を表すページのペアを並べてユーザに提示する。ページのペアは、共通度合いの高い順に表示される。

手法の流れ

  1. Webページの取得
  2. Google APIを使って、各クエリの上位50件の検索結果を取得。ステップ4では、50×50=2,500ペアをランキングすることになる。

  3. Webページの前処理
  4. ステミング等を行ったあとで、ノイズ語を除くために、ページ内でクエリの前後30語を抽出し、ステップ3に使用する。

  5. ページ間の類似度計算
  6. Okapiを拡張した手法を提案して、ページ間の類似度を計算。一般的すぎる語の影響を小さくするために、一方のクエリの検索結果内でのIDFの低い語の重みを大きくしたり、長いページの影響を小さくするために、2つのページで共通する語の中で重要度の高い20語だけを使ってページ間の類似度を計算する、といった工夫をしている。

  7. ページペアのランキング
  8. ステップ3で計算した類似度の高い順にページペアをランキング。

実験

TRECのrelationshipタスクで使用されたクエリ等、30種類のクエリを用意。各クエリに対して得られた結果をあげながら定性的な評価を行っている。
それに加えて、共通点を表すページペアとしてふさわしいかを人手で判定したうえで、ステップ1で取得する検索結果数やステップ2でのウィンドウサイズを変更したときの精度を定量的に評価している。


-WWW, 論文紹介

関連記事

Efficient multiple-click models in web search

Guo, Fan Liu, Chao Wang, Yi Min In Proc. of WSDM2009 概要 クリックモデルに関するこれまでの研究では、ユーザはクエリを入力して1度検索結果をクリック …

Statistical Models of Music-listening Sessions in Social Media

Zheleva, Elena and Guiver, John and Mendes Rodrigues, Eduarda and Milić-Frayling, Nataša In Proc. of …

What are you looking for? An eye-tracking study of information usage in Web search

Cutrell, Edward Guan, Zhiwei In Proc. of CHI2007 http://dl.acm.org/citation.cfm?id=1240690 概要 デスクトップ …

Supporting Complex Search Tasks

Ahmed Hassan Awadallah Ryen W. White Patrick Pantel Susan T. Dumais Yi-Min Wang In Proc. of CIKM2014 …

Toward self-correcting search engines: using underperforming queries to improve search

Hassan, Ahmed White, Ryen W. Wang, Yi-Min In Proc. of SIGIR 2013 http://dl.acm.org/citation.cfm?id=2 …