投稿日:2015/02/27 更新日: WWW 論文紹介

Answering relationship queries on the web

Luo, Gang
Tang, Chunqiang
Tian, Ying-li
In Proc. of WWW 2007
http://dl.acm.org/citation.cfm?id=1242648

概要

2つのクエリ(たとえば「京都大学」と「東京ドーム」)を入力したときに、各クエリの検索結果の中から、2つのクエリの共通点を表すページのペアを並べてユーザに提示する。ページのペアは、共通度合いの高い順に表示される。

手法の流れ

  1. Webページの取得
  2. Google APIを使って、各クエリの上位50件の検索結果を取得。ステップ4では、50×50=2,500ペアをランキングすることになる。

  3. Webページの前処理
  4. ステミング等を行ったあとで、ノイズ語を除くために、ページ内でクエリの前後30語を抽出し、ステップ3に使用する。

  5. ページ間の類似度計算
  6. Okapiを拡張した手法を提案して、ページ間の類似度を計算。一般的すぎる語の影響を小さくするために、一方のクエリの検索結果内でのIDFの低い語の重みを大きくしたり、長いページの影響を小さくするために、2つのページで共通する語の中で重要度の高い20語だけを使ってページ間の類似度を計算する、といった工夫をしている。

  7. ページペアのランキング
  8. ステップ3で計算した類似度の高い順にページペアをランキング。

実験

TRECのrelationshipタスクで使用されたクエリ等、30種類のクエリを用意。各クエリに対して得られた結果をあげながら定性的な評価を行っている。
それに加えて、共通点を表すページペアとしてふさわしいかを人手で判定したうえで、ステップ1で取得する検索結果数やステップ2でのウィンドウサイズを変更したときの精度を定量的に評価している。


-WWW, 論文紹介

関連記事

Time-sensitive query auto-completion

Shokouhi, Milad Radinsky, Kira In Proc. of SIGIR 2012 http://dl.acm.org/citation.cfm?id=2348364 概要 従 …

Measuring Pair-Wise Social Influence in Microblog

Zibin Yin Ya Zhang In Proc. of SocialCom 2012 概要 Weibo上でのリツイートのモデル化を提案。提案モデルを使うことで、ユーザAのツイートがフォロワーのユ …

Contextual queries express mobile information needs

Hinze, Annika M. Chang, Carole Nichols, David M. In Proc. of MobileHCI 2010 http://dl.acm.org/citati …

Semantic Similarity Between Search Engine Queries Using Temporal Correlation

S. Chien, and N. Immorlica In Proc. of WWW 2005 http://dl.acm.org/citation.cfm?id=1060752 目的 クエリログを用 …

【論文紹介】Matrix factorization techniques for context aware recommendation

Baltrunas, Linas and Ludwig, Bernd and Ricci, Francesco RecSys 2011 ACM, PDF 概要 コンテキストによるバイアスを考慮したレー …