投稿日: CIKM 論文紹介

Extending Faceted Search to the General Web

Kong, Weize
Allan, James
In Proc. of CIKM2014
http://dl.acm.org/citation.cfm?id=2661964

概要

ファセットを提示することでユーザの検索を支援する仕組みは、eコマースなどの特定のサービスでは見られるが、一般のWeb検索では実現されていない。この論文では一般のWeb上でのファセットに基づく検索(Faceted Web Search)の実現を目指す。たとえば、「computer monitor」というクエリが入力された場合、「ブランド」というファセットに関してSamsungやDell、Acerを提示し、「モニタの種類」というファセットに関してLET-LitやLCD、OLEDを提示する。

Faceted Web Searchの流れ

  1. ファセットに含まれる語の候補の収集
  2. クエリの検索結果から、構文パターンとHTML構造を利用して収集。

  3. 語のクラスタリング
  4. 1つのクラスタが1つのファセットを表すように1の語をクラスタリング。クラスタリングにはLDAなど5種類を使用し、実験にて精度を比較。

  5. ユーザのフィードバックに基づく検索結果のリランキング
  6. ユーザが選択したファセット内の語集合を元に、検索結果をリランキングする。リランキング方法として、Boolean Filtering Model(ユーザの選択した全単語を含む文書のみをリランキングの対象にするなど)とSoft Ranking Model(ユーザの選択した各単語が文書内に含まれる頻度に応じて文書のスコアを決定)を用意。

実験

実験にはTRECのdiversityタスクで使用されたデータを使用。このデータでは、クエリの各検索結果に対して、クエリのサブトピックとの関連度がスコア付けされているのでMAP等の計算が可能。

この実験では、実際にユーザに検索をしてもらうのではなく、oracle feedbackとannotator feedbackという仕組みを利用して機械的にリランキング精度を調べている。たとえばoracle feedbackでは、Soft Ranking Modelを使用して、リランキング後のMAPの精度が一定以上改善される語のみが選択される。annotator feedbackでは、全ファセット内の全単語の中で、検索意図の実現に有益そうなものを人手で選択してリランキングに使用している。
また、ユーザがファセット内の語を選択するためにかかる時間をモデル化し、消費時間とリランキング精度の関係を機械的に調べられるようにしている。

実験の結果、ファセット内の語の選択に10秒費やすだけでも、oracle feedbackにおけるリランキング後の検索結果は元の検索結果よりもMAPの値は有意に上昇し、20秒ほどかけたところでMAPの値はサチる。oracle feedbackにおいてはSoft Ranking Modelの方がBoolean Filtering Modelよりも良い結果を記録。annotator feedbackの精度はoracle feedbackよりも低く、この結果は人が必ずしも検索に適切な語を選択できていないことを示している。


-CIKM, 論文紹介

関連記事

【論文紹介】Exploiting Geographical Influence for Collaborative Point-of-Interest Recommendation

Ye, Mao and Yin, Peifeng and Lee, Wang-Chien and Lee, Dik-Lun In Proc. of SIGIR 2011 概要 POIに対するユーザの興 …

Fusion Helps Diversification

Liang, Shangsong and Ren, Zhaochun and de Rijke, Maarten In Proc. of SIGIR 2014 概要 検索結果を多様化する際に、複数の検 …

Experiments with a Venue-Centric Model for Personalisedand Time-Aware Venue Suggestion

Deveaud, Romain and Albakour, M-Dyaa and Macdonald, Craig and Ounis, Iadh In Proc. of CIKM 2015 概要 ユ …

Explainable User Clustering in Short Text Streams

Zhao, Yukun and Liang, Shangsong and Ren, Zhaochun and Ma, Jun and Yilmaz, Emine and de Rijke, Maart …

Quantifying Controversy in Social Media

Garimella, Kiran De Francisci Morales, Gianmarco Gionis, Aristides Mathioudakis, Michael In Proc. of …