投稿日:2013/09/24 更新日: SIGIR 論文紹介

Fighting search engine amnesia: reranking repeated results

Shokouhi, Milad
White, Ryen W.
Bennett, Paul
Radlinski, Filip
In Proc. of SIGIR 2013
http://dl.acm.org/citation.cfm?id=2484075

概要

1つの検索セッション中であるクエリを入力したときに得られる検索結果には,そのセッション中でこれまで入力したクエリの検索結果に出現したページも含まれる.重複しているからといって提示しないのが良いかというと必ずしもそうではなく,そのページに対するこれまでのアクション(クリックしたか等)によっては上位に提示することが望ましい場合もある.この論文では,重複して現れるページの有用度を推定し,検索結果をリランキングすることを目的としている.

データ分析

BingとYandexのクエリログを使用.

1セッションに2回しかクエリを入力しない場合でも,Bingでは44%のセッションで同じページが上位10件に複数回出現する.セッション中のクエリ数が9個になると,その割合は90%以上になる.

続いて,セッション中に複数回現れるページに対するユーザの振る舞いの傾向を分析.
初めて出現したページに対するユーザのアクションを以下の3つに分類.

  • clicked:そのページをクリックした.
  • skipped:そのページはクリックせず,そのページより下位にあるページを1つ以上クリックした.
  • missed:そのページはクリックせず,そのページより下位にあるページも1つもクリックしなかった.

検索結果の上位4件のclickthrough rates(CTR)を調べると,初めて出現するページのCTRが最も高く,そのあとにmissed,skipped,clickedと続く.
これまでにskipされた回数によるCTRを調べると,skipの回数が多いほどCTRは低くなる.つまり,skipの多いページはユーザにとって真に不要なページであると言える.
これまでにclickされた回数によるCTRを調べると,clickの回数が多いほどCTRは高くなる.つまり,clickの多いページは,同一セッションで複数回提示された場合でもそのユーザにとっては有用なページであると言える.
これまでのページの滞在時間によるCTRを調べると,滞在時間の長いページほどCTRは高くなる.つまり,滞在時間の長かったページは,同一セッションで複数回提示された場合でもそのユーザにとっては有用なページであると言える.

以上のように,1つのセッション内で複数回提示されるページであっても,そのページに対するユーザのそれまでの振る舞いによってページの重要度は異なるので,リランキングをすることが重要になる.

手法

ページの重要度推定にはLambdaMARTを使用.各ページに対して使用する素性は大きくわけて以下の4種類.

  • Click features:同一セッション内でこれまでにクリックされた回数など.
  • Display features:同一セッション内でこれまでに検索結果に現れた回数など.
  • Query features:今入力しているクエリと,同一セッション内でこれまでに入力したクエリの平均類似度など.
  • Other features:検索エンジンによって計算されるページのスコアなど.

実験

セッションの一番最後にクリックされたページと,滞在時間が30秒以上のページをユーザが満足したページ,つまり正解ページとして,リランキング前後のMRRとMAPを計算.
MRRはリランキング前が0.696でリランキング後が0.711と2.1%の改善が,MAPはリランキング前が0.536でリランキング後が0.553と3.2%の改善が見られた.
順位が変動したページのうち,63%は順位が1つだけ上昇または下降したものであった.


-SIGIR, 論文紹介

関連記事

Identifying topical authorities in microblogs

Pal, Aditya Counts, Scott In Proc. of WSDM2011 http://dl.acm.org/citation.cfm?id=1935843 概要 あるキーワードに …

A New Semantic Similarity Measuring Method Based on Web Search Engines

Lu, Gang Huang, Peng He, Lijun Cu, Changyong Li, Xiaobo In W. Trans. on Comp. vol. 9 http://dl.acm.o …

Modelling User Interest for Zero-query Ranking

Liu Yang, Qi Guo, Yang Song, Sha Meng, Milad Shokouhi, Kieran McDonald, and W. Bruce Croft In Proc. …

【論文紹介】Modeling Paying Behavior in Game Social Networks

Fang, Zhanpeng and Zhou, Xinyu and Tang, Jie and Shao, Wei and Fong, A.C.M. and Sun, Longjun and Din …

【論文紹介】Matrix factorization techniques for context aware recommendation

Baltrunas, Linas and Ludwig, Bernd and Ricci, Francesco RecSys 2011 ACM, PDF 概要 コンテキストによるバイアスを考慮したレー …