投稿日: CIKM 論文紹介

Analyzing and evaluating query reformulation strategies in web search logs

Huang, Jeff
Efthimiadis, Efthimis N.
In Proc. of CIKM2009
http://dl.acm.org/citation.cfm?id=1645966

概要

1日に入力される20億クエリのうち、約28%は直前に入力したクエリのreformulationであることが知られている。
この論文ではクエリのreformulationの種類を整理して、各種類に分類するためのルールを構築。実際のクエリログを用いて分類し、種類間でのユーザの振る舞いの違いを分析。

Taxonomy

クエリのreformulationを以下の11種類に分類。

  1. word reorder
    例:seattle pizza palace → pizza seattle palace
  2. whitespace and punctuation
    例:wal mart, tomatoprices → walmart tomato prices
  3. remove words
    例:yahoo stock price → price yahoo
  4. add words
    例:eastlake home → eastlake home price index
  5. url stripping
    例:http www.yahoo.com → yahoo
  6. stemming
    例:running over bridges → run over bridge
  7. acronym
    例:personal computer → pc、pda → personal digital assistant
  8. substring
    例:is there spyware on my computer → is there spywa
  9. abbreviation
    例:shortened dict → short dictionary
  10. word substitution
    例:easter egg search → easter egg hunt
  11. spelling correction
    例:reformualtion → reformulation

クエリログ分析

上記の各taxonomyに対応する分類ルールを作成して、AOLのクエリログに適用したところ、適合率は98.2%を達成。

ユーザの行動には、1つ目のクエリで検索結果をクリックしたか否か(Click or Skip)、修正したクエリで検索結果をクリックしたか否かの組み合わせで4パターンに分類される。ClickClick+ClickSkipに対するSkipSkip+SkipClickの割合を調べたところ、spelling correlationとexpand acronymとsupersutringではその値が高く、検索結果に満足していないのでクエリのreformulationが行われていることがわかる。Form acronym、remove words、word reorder、word substitutionではその値は低く、ユーザは1つ目のクエリである程度満足しているが何らかの理由でクエリのreformulationをしていることがわかる。

Word substitutionとadd / remove wordsでは、reformulation後にクリックする検索結果の順位が大きく上昇しており、reformulationが上手く行われていることを示している。


-CIKM, 論文紹介

関連記事

TwitterRank: Finding Topic-sensitive Influential Twitterers

Weng, Jianshu Lim, Ee-Peng Jiang, Jing He, Qi In Proc. of WSDM 2010 http://dl.acm.org/citation.cfm?i …

Re-Examining Search Result Snippet Examination Time for Relevance Estimation

Lagun, Dmitry Agichtein, Eugene In Proc. of SIGIR2012 http://dl.acm.org/citation.cfm?id=2348509 概要 従 …

Struggling or Exploring? Disambiguating Search Sessions

Ahmed Hassan Ryen W. White Susan Dumais Yi-Min Wang In Proc. of WSDM2014 概要 長い検索セッションには,ユーザが情報の探索をして …

Answering relationship queries on the web

Luo, Gang Tang, Chunqiang Tian, Ying-li In Proc. of WWW 2007 http://dl.acm.org/citation.cfm?id=12426 …

Mining long-term search history to improve search accuracy

Tan, Bin Shen, Xuehua Zhai, ChengXiang In Proc. of KDD2006 http://dl.acm.org/citation.cfm?id=1150493 …