投稿日:2012/10/26 更新日: WWW 論文紹介

Semantic Similarity Between Search Engine Queries Using Temporal Correlation

S. Chien, and N. Immorlica
In Proc. of WWW 2005
http://dl.acm.org/citation.cfm?id=1060752

目的

クエリログを用いて,入力クエリと意味的に類似したクエリを発見することが目的.

手法

基本的なアイデアは,ある2つのクエリが入力されるタイミングが似ていれば,その2つのクエリは類似している,というもの.

例えば入力クエリが「ディズニー」であった場合,1日のクエリログを調べて,「ディズニー」という語の,その日に入力された全クエリに対する出現割合を求める.これを30日間にわたって求めると,「ディズニー」というクエリに対して30次元のベクトルを作成できる.
さらに,その30日間に入力された全てのクエリについても同様に30次元のベクトルを作成する.そして,各クエリについて「ディズニー」のベクトルとの相関係数を求め,その値が高いほど意味的に類似していると考える.
この研究では,クエリのタイプとして「greeting cards」や「superbowl」のように,時期によってクエリの発行頻度が異なるもの(event driven query)と,「dictionary」や「disney」のように,発行頻度が時期に依存しないもの(periodic query)を考える.

実験

クエリログはMSNのものを使用.実験では以下の3点を検証する.

  • クエリの出現割合を求めるための時間の長さはどれぐらいが良いのか.6時間にするのか,12時間にするのか,1日にするのか.
  • ベクトルはどれぐらいの期間に渡って作成すれば良いのか.
  • 相関係数の値がどれぐらいあれば意味的に類似していると言えるのか.

1点目については,event drivenなクエリについては1日,のように長い期間の出現割合を求めるのが良く,periodicなクエリについては3時間,のように短い期間の出現割合を求めるのが良い.
2点目についても,event drivenなクエリについては半年,のように長い期間に渡って出現割合を求めるのが良く,periodicなクエリについては1ヵ月,のように短い期間が良い.
3点目については,相関係数0.9以上が必要条件であることがわかった.
他にも明らかになった点として,periodicなクエリの場合,出現頻度をグラフにしたとき,人が見るとどのクエリも似たような形であるが,相関係数を求めるとちゃんと意味的に類似したクエリが見つかる.

入力クエリに対して発見された類似クエリの例

・event driven query
入力:greeting cards 出力:free e-cards, egreetings.com, bluemountain.com, yahoo cards, etc.
入力:superbowl 出力:superbowl commercials, superbowl halftime show, janet jackson, tom brady, etc.

・periodic query
入力:dictionary 出力:websters dictionary, thesaurus, free translation, etc.
入力:disney 出力:barbie.com, postopia.com, noggin.com, cartoon network, etc.


-WWW, 論文紹介
-,

関連記事

How smart does your profile image look? Estimating intelligence from social network profile images

Wei, Xingjie and Stillwell, David In Proc. of WSDM 2017 概要 Facebookの1,122ユーザを対象にして、(1)ユーザのIQ、(2)ユーザの …

How fresh do you want your search results?

Shiwen Cheng Anastasios Arvanitis Vagelis Hristidis In Proc. of CIKM 2013 概要 検索結果中の情報の鮮度に着目した研究はこれまで …

Identifying topical authorities in microblogs

Pal, Aditya Counts, Scott In Proc. of WSDM2011 http://dl.acm.org/citation.cfm?id=1935843 概要 あるキーワードに …

Optimizing Search by Showing Results In Context

Dumais, Susan Cutrell, Edward Chen, Hao In Proc. of CHI2001 http://dl.acm.org/citation.cfm?id=365116 …

Adaptive Query Suggestion for Difficult Queries

Liu, Yang Song, Ruihua Chen, Yu Nie, Jian-Yun Wen, Ji-Rong In Proc. of SIGIR 2012 http://dl.acm.org/ …