投稿日: その他 論文紹介

Mining long-term search history to improve search accuracy

Tan, Bin
Shen, Xuehua
Zhai, ChengXiang
In Proc. of KDD2006
http://dl.acm.org/citation.cfm?id=1150493

概要

ある検索クエリが入力されたときに、従来の検索モデルではそのクエリ内の語のみに基づいて各文書との適合度を計算していた。提案モデルでは、過去に入力したクエリに含まれる語も考慮して文書との適合度を計算する。これにより、クエリが「ジャガー」で過去に「サバンナ」というクエリを入力していた場合、動物のジャガーに関して記述した文書との適合度が高くなる。

モデル

現在のクエリをq_{k}、それ以前に入力されたクエリの集合をH_{k}とする。このとき、単語wの生成確率は以下で表される。
 p(w|\theta_{q_{k},H_{k}}) = \lambda_{q_{k}}p(w|\theta_{q_{k}}) + (1-\lambda_{q_{k}})p(w|\theta_{H_{k}})
さらにp(w|\theta_{H_{k}})は次のように展開される。
 p(w|\theta_{H_{k}}) = \frac{\sum_{q_{i}\in H_{k}} \lambda_{i}p(w|\theta_{i})}{\sum_{q_{i}\in H_{k}}\lambda_{i}}

パラメータ推定

上の式中の\lambda_{i}を推定する。
そのために、以下のようなモデルを考える。
 p(w|\theta_{mix}) = \mu_{C}p(w|\theta_{C}) + \mu_{q}p(w|\theta_{q_{k}}) + \sum_{i=1}^{k-1}\mu_{i}p(w|\phi_{i})
p(w|\phi_{i})q_{i}の検索結果の文書集合から構築される語生成モデルである。
\mu_{C} + \mu_{q} + \sum_{i=1}^{k-1}\mu_{i} = 1という制約のもとで、q_{k}の検索結果がp(w|\theta_{mix})から生成される尤度が最も高くなるように、EMアルゴリズムを用いて\mu_{C}\mu_{q}\mu_{i}を求める。その上で、\mu_{i}\lambda_{i}として用いる。


-その他, 論文紹介

関連記事

Placing Videos on a Semantic Hierarchy for Search Result Navigation

Tan, Song Jiang, Yu-Gang Ngo, Chong-Wah ACM TOMM 2014 http://dl.acm.org/citation.cfm?id=2578394 概要 「 …

Crowdsourcing for relevance evaluation

Alonso, Omar Rose, Daniel E. Stewart, Benjamin In SIGIR Forum, Vol.42, Num.2 http://dl.acm.org/citat …

Personalized Diversification of Search Results

D. Vallet and P. Castells In Proc. of SIGIR 2012 http://dl.acm.org/citation.cfm?id=2348396 目的 検索結果の多 …

Improving the exploration of tag spaces using automated tag clustering

Radelaar, Joni Boor, Aart-Jan Vandic, Damir Van Dam, Jan-Willem Hogenboom, Frederik Frasincar, Flavi …

【論文紹介】Cats and Captions vs. User Characteristics and the Clock: A Time-Controlled Analysis of Multimodal Content

Hessel, Jack and Lee, Lillian and Mimno David In Proc. of WWW 2017 概要 Redditと呼ばれるソーシャルニュースサイトに投稿された画 …