投稿日:2015/02/27 更新日: WWW 論文紹介

Answering relationship queries on the web

Luo, Gang
Tang, Chunqiang
Tian, Ying-li
In Proc. of WWW 2007
http://dl.acm.org/citation.cfm?id=1242648

概要

2つのクエリ(たとえば「京都大学」と「東京ドーム」)を入力したときに、各クエリの検索結果の中から、2つのクエリの共通点を表すページのペアを並べてユーザに提示する。ページのペアは、共通度合いの高い順に表示される。

手法の流れ

  1. Webページの取得
  2. Google APIを使って、各クエリの上位50件の検索結果を取得。ステップ4では、50×50=2,500ペアをランキングすることになる。

  3. Webページの前処理
  4. ステミング等を行ったあとで、ノイズ語を除くために、ページ内でクエリの前後30語を抽出し、ステップ3に使用する。

  5. ページ間の類似度計算
  6. Okapiを拡張した手法を提案して、ページ間の類似度を計算。一般的すぎる語の影響を小さくするために、一方のクエリの検索結果内でのIDFの低い語の重みを大きくしたり、長いページの影響を小さくするために、2つのページで共通する語の中で重要度の高い20語だけを使ってページ間の類似度を計算する、といった工夫をしている。

  7. ページペアのランキング
  8. ステップ3で計算した類似度の高い順にページペアをランキング。

実験

TRECのrelationshipタスクで使用されたクエリ等、30種類のクエリを用意。各クエリに対して得られた結果をあげながら定性的な評価を行っている。
それに加えて、共通点を表すページペアとしてふさわしいかを人手で判定したうえで、ステップ1で取得する検索結果数やステップ2でのウィンドウサイズを変更したときの精度を定量的に評価している。


-WWW, 論文紹介

関連記事

Towards Better Measurement of Attention and Satisfaction in Mobile Search

Lagun, Dmitry Hsieh, Chih-Hung Webster, Dale Navalpakkam, Vidhya In Proc. of SIGIR2014 http://dl.acm …

Unsupervised Semantic Similarity Computation between Terms Using Web Documents

Elias Iosif Alexandros Potamianos In IEEE Transactions on Knowledge and Data Engineering, Vol.22, Nu …

How smart does your profile image look? Estimating intelligence from social network profile images

Wei, Xingjie and Stillwell, David In Proc. of WSDM 2017 概要 Facebookの1,122ユーザを対象にして、(1)ユーザのIQ、(2)ユーザの …

A music recommendation system based on annotations about listeners’ preferences and situations

Kaji, K. Hirata, K. Nagao, K. In Proc. of AXMEDIS 2005 http://ieeexplore.ieee.org/xpl/login.jsp?tp=& …

Modelling User Interest for Zero-query Ranking

Liu Yang, Qi Guo, Yang Song, Sha Meng, Milad Shokouhi, Kieran McDonald, and W. Bruce Croft In Proc. …