投稿日: SIGIR 論文紹介

Fusion Helps Diversification

Liang, Shangsong and Ren, Zhaochun and de Rijke, Maarten
In Proc. of SIGIR 2014

概要

検索結果を多様化する際に、複数の検索結果を統合することで、より良い多様化検索結果を生成することを目的とした論文。

先行研究との違い

多様化結果を生成するために複数の検索結果を統合したのはこの研究が初。また、多様化の研究では一般的に、「京都」というクエリに対して「観光」や「歴史」などのサブトピックを明示的に扱うが、この論文ではトピックモデルのトピックという抽象度が一段高い情報を使って多様化をしている。

手法

以下の3ステップから成る。

  1. 検索結果統合
  2. クエリに対して、何種類かのアルゴリズムによって生成された複数の検索結果がある場合に、CombSUMなどの既存手法を使ってひとつの新しい検索結果に統合する。

  3. トピック推定
  4. ステップ1の統合に使用した全文書を使って、LDAベースのトピックモデルを使用してクエリに関するトピックを抽出。

  5. 多様化
  6. PM-2という既存の多様化手法を使って、ステップ2で得られたトピックを元にステップ1で生成した検索結果を多様化。

評価

TREC2009から2012の多様化タスクのデータを使用。各年に提出された多様化結果のうち、上位5つの結果を統合に使う。つまり、既に多様化された検索結果をステップ1で統合し、その後さらにステップ3で多様化していることになる。
単に統合するだけでも、統合前の多様化結果よりも精度が高くなり、統合結果を多様化することでさらに精度が高くなることを示した。


-SIGIR, 論文紹介

関連記事

Who Will You “@”?

Gong, Yeyun and Zhang, Qi and Sun, Xuyang and Huang, Xuanjing In Proc. of CIKM 2015 概要 Twitterではリプライ …

【論文紹介】How Much Novelty is Relevant?: It Depends on Your Curiosity

Zhao, Pengfei and Lee, Dik Lun In Proc. of SIGIR 2016 概要 心理学の分野では、対象物の刺激が強すぎても弱すぎても人は惹き付けられず、中程度のとき最 …

What’s in a hashtag?: content based prediction of the spread of ideas in microblogging communities

sur, Oren Rappoport, Ari In Proc. of WSDM 2012 http://dl.acm.org/citation.cfm?id=2124320 概要 ツイッター上で、 …

Retrieval models for question and answer archives

Xue, Xiaobing Jeon, Jiwoon Croft, W. Bruce In Proc. of SIGIR 2008 http://dl.acm.org/citation.cfm?id= …

Re-Examining Search Result Snippet Examination Time for Relevance Estimation

Lagun, Dmitry Agichtein, Eugene In Proc. of SIGIR2012 http://dl.acm.org/citation.cfm?id=2348509 概要 従 …