投稿日:2013/09/24 更新日: SIGIR 論文紹介

Fighting search engine amnesia: reranking repeated results

Shokouhi, Milad
White, Ryen W.
Bennett, Paul
Radlinski, Filip
In Proc. of SIGIR 2013
http://dl.acm.org/citation.cfm?id=2484075

概要

1つの検索セッション中であるクエリを入力したときに得られる検索結果には,そのセッション中でこれまで入力したクエリの検索結果に出現したページも含まれる.重複しているからといって提示しないのが良いかというと必ずしもそうではなく,そのページに対するこれまでのアクション(クリックしたか等)によっては上位に提示することが望ましい場合もある.この論文では,重複して現れるページの有用度を推定し,検索結果をリランキングすることを目的としている.

データ分析

BingとYandexのクエリログを使用.

1セッションに2回しかクエリを入力しない場合でも,Bingでは44%のセッションで同じページが上位10件に複数回出現する.セッション中のクエリ数が9個になると,その割合は90%以上になる.

続いて,セッション中に複数回現れるページに対するユーザの振る舞いの傾向を分析.
初めて出現したページに対するユーザのアクションを以下の3つに分類.

  • clicked:そのページをクリックした.
  • skipped:そのページはクリックせず,そのページより下位にあるページを1つ以上クリックした.
  • missed:そのページはクリックせず,そのページより下位にあるページも1つもクリックしなかった.

検索結果の上位4件のclickthrough rates(CTR)を調べると,初めて出現するページのCTRが最も高く,そのあとにmissed,skipped,clickedと続く.
これまでにskipされた回数によるCTRを調べると,skipの回数が多いほどCTRは低くなる.つまり,skipの多いページはユーザにとって真に不要なページであると言える.
これまでにclickされた回数によるCTRを調べると,clickの回数が多いほどCTRは高くなる.つまり,clickの多いページは,同一セッションで複数回提示された場合でもそのユーザにとっては有用なページであると言える.
これまでのページの滞在時間によるCTRを調べると,滞在時間の長いページほどCTRは高くなる.つまり,滞在時間の長かったページは,同一セッションで複数回提示された場合でもそのユーザにとっては有用なページであると言える.

以上のように,1つのセッション内で複数回提示されるページであっても,そのページに対するユーザのそれまでの振る舞いによってページの重要度は異なるので,リランキングをすることが重要になる.

手法

ページの重要度推定にはLambdaMARTを使用.各ページに対して使用する素性は大きくわけて以下の4種類.

  • Click features:同一セッション内でこれまでにクリックされた回数など.
  • Display features:同一セッション内でこれまでに検索結果に現れた回数など.
  • Query features:今入力しているクエリと,同一セッション内でこれまでに入力したクエリの平均類似度など.
  • Other features:検索エンジンによって計算されるページのスコアなど.

実験

セッションの一番最後にクリックされたページと,滞在時間が30秒以上のページをユーザが満足したページ,つまり正解ページとして,リランキング前後のMRRとMAPを計算.
MRRはリランキング前が0.696でリランキング後が0.711と2.1%の改善が,MAPはリランキング前が0.536でリランキング後が0.553と3.2%の改善が見られた.
順位が変動したページのうち,63%は順位が1つだけ上昇または下降したものであった.


-SIGIR, 論文紹介

関連記事

How fresh do you want your search results?

Shiwen Cheng Anastasios Arvanitis Vagelis Hristidis In Proc. of CIKM 2013 概要 検索結果中の情報の鮮度に着目した研究はこれまで …

Modeling documents as mixtures of persons for expert finding

Serdyukov, Pavel Hiemstra, Djoerd In Proc. of ECIR2008 http://dl.acm.org/citation.cfm?id=1793313 概要 …

Mining Contentious Documents Using an Unsupervised Topic Model Based Approach

Amine, Trabelsi and Osmar R., Zaiane In Proc. of ICDM 2014 概要 ある話題に関する文書集合が与えられたときに、「賛成」や「反対」などの各観点( …

【論文紹介】Exploiting Geographical Influence for Collaborative Point-of-Interest Recommendation

Ye, Mao and Yin, Peifeng and Lee, Wang-Chien and Lee, Dik-Lun In Proc. of SIGIR 2011 概要 POIに対するユーザの興 …

Perception and understanding of social annotations in web search

Fernquist, Jennifer Chi, Ed H. In Proc. of WWW 2013 http://dl.acm.org/citation.cfm?id=2488424 概要 Goo …