投稿日:2012/10/26 更新日: WWW 論文紹介

Semantic Similarity Between Search Engine Queries Using Temporal Correlation

S. Chien, and N. Immorlica
In Proc. of WWW 2005
http://dl.acm.org/citation.cfm?id=1060752

目的

クエリログを用いて,入力クエリと意味的に類似したクエリを発見することが目的.

手法

基本的なアイデアは,ある2つのクエリが入力されるタイミングが似ていれば,その2つのクエリは類似している,というもの.

例えば入力クエリが「ディズニー」であった場合,1日のクエリログを調べて,「ディズニー」という語の,その日に入力された全クエリに対する出現割合を求める.これを30日間にわたって求めると,「ディズニー」というクエリに対して30次元のベクトルを作成できる.
さらに,その30日間に入力された全てのクエリについても同様に30次元のベクトルを作成する.そして,各クエリについて「ディズニー」のベクトルとの相関係数を求め,その値が高いほど意味的に類似していると考える.
この研究では,クエリのタイプとして「greeting cards」や「superbowl」のように,時期によってクエリの発行頻度が異なるもの(event driven query)と,「dictionary」や「disney」のように,発行頻度が時期に依存しないもの(periodic query)を考える.

実験

クエリログはMSNのものを使用.実験では以下の3点を検証する.

  • クエリの出現割合を求めるための時間の長さはどれぐらいが良いのか.6時間にするのか,12時間にするのか,1日にするのか.
  • ベクトルはどれぐらいの期間に渡って作成すれば良いのか.
  • 相関係数の値がどれぐらいあれば意味的に類似していると言えるのか.

1点目については,event drivenなクエリについては1日,のように長い期間の出現割合を求めるのが良く,periodicなクエリについては3時間,のように短い期間の出現割合を求めるのが良い.
2点目についても,event drivenなクエリについては半年,のように長い期間に渡って出現割合を求めるのが良く,periodicなクエリについては1ヵ月,のように短い期間が良い.
3点目については,相関係数0.9以上が必要条件であることがわかった.
他にも明らかになった点として,periodicなクエリの場合,出現頻度をグラフにしたとき,人が見るとどのクエリも似たような形であるが,相関係数を求めるとちゃんと意味的に類似したクエリが見つかる.

入力クエリに対して発見された類似クエリの例

・event driven query
入力:greeting cards 出力:free e-cards, egreetings.com, bluemountain.com, yahoo cards, etc.
入力:superbowl 出力:superbowl commercials, superbowl halftime show, janet jackson, tom brady, etc.

・periodic query
入力:dictionary 出力:websters dictionary, thesaurus, free translation, etc.
入力:disney 出力:barbie.com, postopia.com, noggin.com, cartoon network, etc.


-WWW, 論文紹介
-,

関連記事

Using preference judgments for novel document retrieval

Chandar, Praveen Carterette, Ben In Proc. of SIGIR 2012 http://dl.acm.org/citation.cfm?id=2348398 概要 …

Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! using word lengthening to detect sentiment in microblogs

Brody, Samuel Diakopoulos, Nicholas In Proc. of EMNLP2011 http://dl.acm.org/citation.cfm?id=2145498 …

The Last Click: Why Users Give up Information Network Navigation

Aju Thalappillil Scaria Rose Marie Philip Robert West Jure Leskovec In Proc. of WSDM 2014 概要 リンクをたどっ …

Efficiently answering top-k typicality queries on large databases

Hua, Ming Pei, Jian Fu, Ada W. C. Lin, Xuemin Leung, Ho-Fung In Proc. of VLDB 2007 http://dl.acm.org …

Exploring and exploiting user search behavior on mobile and tablet devices to improve search relevance

Song, Yang Ma, Hao Wang, Hongning Wang, Kuansan In Proc. of WWW 2013 http://dl.acm.org/citation.cfm? …