投稿日: その他 論文紹介

Mining long-term search history to improve search accuracy

Tan, Bin
Shen, Xuehua
Zhai, ChengXiang
In Proc. of KDD2006
http://dl.acm.org/citation.cfm?id=1150493

概要

ある検索クエリが入力されたときに、従来の検索モデルではそのクエリ内の語のみに基づいて各文書との適合度を計算していた。提案モデルでは、過去に入力したクエリに含まれる語も考慮して文書との適合度を計算する。これにより、クエリが「ジャガー」で過去に「サバンナ」というクエリを入力していた場合、動物のジャガーに関して記述した文書との適合度が高くなる。

モデル

現在のクエリをq_{k}、それ以前に入力されたクエリの集合をH_{k}とする。このとき、単語wの生成確率は以下で表される。
 p(w|\theta_{q_{k},H_{k}}) = \lambda_{q_{k}}p(w|\theta_{q_{k}}) + (1-\lambda_{q_{k}})p(w|\theta_{H_{k}})
さらにp(w|\theta_{H_{k}})は次のように展開される。
 p(w|\theta_{H_{k}}) = \frac{\sum_{q_{i}\in H_{k}} \lambda_{i}p(w|\theta_{i})}{\sum_{q_{i}\in H_{k}}\lambda_{i}}

パラメータ推定

上の式中の\lambda_{i}を推定する。
そのために、以下のようなモデルを考える。
 p(w|\theta_{mix}) = \mu_{C}p(w|\theta_{C}) + \mu_{q}p(w|\theta_{q_{k}}) + \sum_{i=1}^{k-1}\mu_{i}p(w|\phi_{i})
p(w|\phi_{i})q_{i}の検索結果の文書集合から構築される語生成モデルである。
\mu_{C} + \mu_{q} + \sum_{i=1}^{k-1}\mu_{i} = 1という制約のもとで、q_{k}の検索結果がp(w|\theta_{mix})から生成される尤度が最も高くなるように、EMアルゴリズムを用いて\mu_{C}\mu_{q}\mu_{i}を求める。その上で、\mu_{i}\lambda_{i}として用いる。


-その他, 論文紹介

関連記事

Quantifying Controversy in Social Media

Garimella, Kiran De Francisci Morales, Gianmarco Gionis, Aristides Mathioudakis, Michael In Proc. of …

Fusion Helps Diversification

Liang, Shangsong and Ren, Zhaochun and de Rijke, Maarten In Proc. of SIGIR 2014 概要 検索結果を多様化する際に、複数の検 …

No clicks, no problem: using cursor movements to understand and improve search

Huang, Jeff White, Ryen W. Dumais, Susan In Proc. of CHI2011 概要 検索行動中のユーザのカーソルの動きに関する分析を行った。また、カーソルの …

Fighting search engine amnesia: reranking repeated results

Shokouhi, Milad White, Ryen W. Bennett, Paul Radlinski, Filip In Proc. of SIGIR 2013 http://dl.acm.o …

Efficiently answering top-k typicality queries on large databases

Hua, Ming Pei, Jian Fu, Ada W. C. Lin, Xuemin Leung, Ho-Fung In Proc. of VLDB 2007 http://dl.acm.org …