投稿日: CIKM 論文紹介

Finding Dimensions for Queries

Z. Dou, S. Hu, Y. Luo, R. Song, and JR. Wen
In Proc. of CIKM2011
http://dl.acm.org/citation.cfm?id=2063767

目的

クエリの観点を発見することが目的.例えば「時計」というクエリに対しては「カルティエ」や「男性用」,「黒色」などが観点.さらに,発見したクエリのクラスタリングも行なっている.
観点を発見することで,クエリ拡張や検索結果の多様化に利用できる.

手法

クエリの検索結果の上位のページにリスト形式で記述されている情報はそのクエリの観点を表すという仮説を立てている.リスト形式というのは,「男性用、女性用、子供用」のように読点で区切られているものや表形式の記述など.以下では,「男性用,女性用,子供用」のように抽出されたものを「リスト」,その中の「男性用」,「女性用」などを「要素」と呼ぶ.手法は以下の4つから成る.

  1. クエリの検索結果上位K件のウェブページからリスト形式で記述されている部分を抽出.
  2. 抽出された各リストの重み付け.
  3. リストのクラスタリング.
  4. クラスタおよび各クラスタ内の要素のランキング.

1.については,正規表現を用意してリストを抽出する方法と,HTMLタグ(<li>など)に着目して抽出する方法と,DOMツリーの構造から繰り返し部分を求めてリストを抽出する方法を用いている.
2.については,リストの各要素が検索結果の上位ページに含まれているほど,また出現回数が少ないほど(IDF)重要なリストとみなしてスコア計算をする.
3.については,まずリスト間の距離を要素の重複度から求め,QT(Quality Threshold)クラスタリングという手法を拡張したものを用いてクラスタリングを行う.
4.については,クラスタのランキングでは2.で求められた重要度の高いリストを多く含むクラスタほど重要とみなす.クラスタ内の要素のランキングでも,2.で求められた重要度の高いリストに含まれる要素ほど重要とみなす.

実験

実験には,システムを実際に作ってユーザが入力したクエリと,検索エンジンのクエリからランダムに抽出したクエリの2種類を使用.
提案手法によって発見されたクラスタや要素の良さを被験者を用いて3段階で評価.リストは検索結果の上位100件から抽出.精度面では2つのクエリに大きな差はなかったが,システムに入力されたクエリの方が多くの要素を発見できていた.これは,検索エンジンからランダムに選んだクエリの中には複雑なクエリも混じっていたため.
また,実験では1.でリストを抽出する3つの手法すべてを用いたものとどれか1つだけを用いたもので精度の比較を行ったり,リストの重み付けの2手法すべてを用いたものといずれか1つだけを用いたもので精度の比較を行ったりしていて,いずれも全て用いた方が精度が良いという結果が得られた.
検索結果の上位何件を使用したかによっても,10件,20件,...,100件と10段階で精度の比較を行なっており,件数が増えるほど精度は良くなる.ただし,50件以上については,それほど大きな差はないので50件も使用すれば十分.


-CIKM, 論文紹介

関連記事

Learning from the Past: Answering New Questions with Past Answers

A. Shtok, G. Dror, Y. Maarek, and I. Szpektor In Proc. of WWW 2012 http://dl.acm.org/citation.cfm?id …

Efficiently answering top-k typicality queries on large databases

Hua, Ming Pei, Jian Fu, Ada W. C. Lin, Xuemin Leung, Ho-Fung In Proc. of VLDB 2007 http://dl.acm.org …

【論文紹介】Generative Feature Language Models for Mining Implicit Features from Customer Reviews

Karmaker Santu, Shubhra Kanti and Sondhi, Parikshit and Zhai, ChengXiang CIKM 2016 ACM 概要 イリノイ大学のChe …

Information Credibility on Twitter

Castillo, Carlos Mendoza, Marcelo Poblete, Barbara In Proc. of WWW 2011 http://dl.acm.org/citation.c …

Crowdsourcing for relevance evaluation

Alonso, Omar Rose, Daniel E. Stewart, Benjamin In SIGIR Forum, Vol.42, Num.2 http://dl.acm.org/citat …