投稿日:2013/09/24 更新日: SIGIR 論文紹介

Fighting search engine amnesia: reranking repeated results

Shokouhi, Milad
White, Ryen W.
Bennett, Paul
Radlinski, Filip
In Proc. of SIGIR 2013
http://dl.acm.org/citation.cfm?id=2484075

概要

1つの検索セッション中であるクエリを入力したときに得られる検索結果には,そのセッション中でこれまで入力したクエリの検索結果に出現したページも含まれる.重複しているからといって提示しないのが良いかというと必ずしもそうではなく,そのページに対するこれまでのアクション(クリックしたか等)によっては上位に提示することが望ましい場合もある.この論文では,重複して現れるページの有用度を推定し,検索結果をリランキングすることを目的としている.

データ分析

BingとYandexのクエリログを使用.

1セッションに2回しかクエリを入力しない場合でも,Bingでは44%のセッションで同じページが上位10件に複数回出現する.セッション中のクエリ数が9個になると,その割合は90%以上になる.

続いて,セッション中に複数回現れるページに対するユーザの振る舞いの傾向を分析.
初めて出現したページに対するユーザのアクションを以下の3つに分類.

  • clicked:そのページをクリックした.
  • skipped:そのページはクリックせず,そのページより下位にあるページを1つ以上クリックした.
  • missed:そのページはクリックせず,そのページより下位にあるページも1つもクリックしなかった.

検索結果の上位4件のclickthrough rates(CTR)を調べると,初めて出現するページのCTRが最も高く,そのあとにmissed,skipped,clickedと続く.
これまでにskipされた回数によるCTRを調べると,skipの回数が多いほどCTRは低くなる.つまり,skipの多いページはユーザにとって真に不要なページであると言える.
これまでにclickされた回数によるCTRを調べると,clickの回数が多いほどCTRは高くなる.つまり,clickの多いページは,同一セッションで複数回提示された場合でもそのユーザにとっては有用なページであると言える.
これまでのページの滞在時間によるCTRを調べると,滞在時間の長いページほどCTRは高くなる.つまり,滞在時間の長かったページは,同一セッションで複数回提示された場合でもそのユーザにとっては有用なページであると言える.

以上のように,1つのセッション内で複数回提示されるページであっても,そのページに対するユーザのそれまでの振る舞いによってページの重要度は異なるので,リランキングをすることが重要になる.

手法

ページの重要度推定にはLambdaMARTを使用.各ページに対して使用する素性は大きくわけて以下の4種類.

  • Click features:同一セッション内でこれまでにクリックされた回数など.
  • Display features:同一セッション内でこれまでに検索結果に現れた回数など.
  • Query features:今入力しているクエリと,同一セッション内でこれまでに入力したクエリの平均類似度など.
  • Other features:検索エンジンによって計算されるページのスコアなど.

実験

セッションの一番最後にクリックされたページと,滞在時間が30秒以上のページをユーザが満足したページ,つまり正解ページとして,リランキング前後のMRRとMAPを計算.
MRRはリランキング前が0.696でリランキング後が0.711と2.1%の改善が,MAPはリランキング前が0.536でリランキング後が0.553と3.2%の改善が見られた.
順位が変動したページのうち,63%は順位が1つだけ上昇または下降したものであった.


-SIGIR, 論文紹介

関連記事

Predicting the popularity of web 2.0 items based on user comments

He, Xiangnan and Gao, Ming and Kan, Min-Yen and Liu, Yiqun and Sugiyama, Kazunari In Proc. of SIGIR …

Deciphering Mobile Search Patterns: A Study of Yahoo! Mobile Search Queries

Yi, Jeonghee Maghoul, Farzin Pedersen, Jan In Proc. of WWW2008 http://dl.acm.org/citation.cfm?id=136 …

Measuring Message Propagation and Social Influence on Twitter.com

Ye, Shaozhi Wu, S. Felix In Proc SocInfo 2010 http://dl.acm.org/citation.cfm?id=1929342 概要 マイケル・ジャクソ …

Spatial influence vs. community influence: modeling the global spread of social media

Kamath, Krishna Y. Caverlee, James Cheng, Zhiyuan Sui, Daniel Z. In Proc. of CIKM 2012 http://dl.acm …

A comparison of visual and textual page previews in judging the helpfulness of web pages

Aula, Anne Khan, Rehan M. Guan, Zhiwei Fontes, Paul Hong, Peter In Proc. of WWW2010 http://dl.acm.or …