投稿日: その他 論文紹介

Mining long-term search history to improve search accuracy

Tan, Bin
Shen, Xuehua
Zhai, ChengXiang
In Proc. of KDD2006
http://dl.acm.org/citation.cfm?id=1150493

概要

ある検索クエリが入力されたときに、従来の検索モデルではそのクエリ内の語のみに基づいて各文書との適合度を計算していた。提案モデルでは、過去に入力したクエリに含まれる語も考慮して文書との適合度を計算する。これにより、クエリが「ジャガー」で過去に「サバンナ」というクエリを入力していた場合、動物のジャガーに関して記述した文書との適合度が高くなる。

モデル

現在のクエリをq_{k}、それ以前に入力されたクエリの集合をH_{k}とする。このとき、単語wの生成確率は以下で表される。
 p(w|\theta_{q_{k},H_{k}}) = \lambda_{q_{k}}p(w|\theta_{q_{k}}) + (1-\lambda_{q_{k}})p(w|\theta_{H_{k}})
さらにp(w|\theta_{H_{k}})は次のように展開される。
 p(w|\theta_{H_{k}}) = \frac{\sum_{q_{i}\in H_{k}} \lambda_{i}p(w|\theta_{i})}{\sum_{q_{i}\in H_{k}}\lambda_{i}}

パラメータ推定

上の式中の\lambda_{i}を推定する。
そのために、以下のようなモデルを考える。
 p(w|\theta_{mix}) = \mu_{C}p(w|\theta_{C}) + \mu_{q}p(w|\theta_{q_{k}}) + \sum_{i=1}^{k-1}\mu_{i}p(w|\phi_{i})
p(w|\phi_{i})q_{i}の検索結果の文書集合から構築される語生成モデルである。
\mu_{C} + \mu_{q} + \sum_{i=1}^{k-1}\mu_{i} = 1という制約のもとで、q_{k}の検索結果がp(w|\theta_{mix})から生成される尤度が最も高くなるように、EMアルゴリズムを用いて\mu_{C}\mu_{q}\mu_{i}を求める。その上で、\mu_{i}\lambda_{i}として用いる。


-その他, 論文紹介

関連記事

Time-sensitive query auto-completion

Shokouhi, Milad Radinsky, Kira In Proc. of SIGIR 2012 http://dl.acm.org/citation.cfm?id=2348364 概要 従 …

Web Object Retrieval

Nie, Zaiqing Ma, Yunxiao Shi, Shuming Wen, Ji-Rong Ma, Wei-Ying In Proc. of WWW 2007 http://dl.acm.o …

Predicting web searcher satisfaction with existing community-based answers

Liu, Qiaoling Agichtein, Eugene Dror, Gideon Gabrilovich, Evgeniy Maarek, Yoelle Pelleg, Dan Szpekto …

Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! using word lengthening to detect sentiment in microblogs

Brody, Samuel Diakopoulos, Nicholas In Proc. of EMNLP2011 http://dl.acm.org/citation.cfm?id=2145498 …

A New Semantic Similarity Measuring Method Based on Web Search Engines

Lu, Gang Huang, Peng He, Lijun Cu, Changyong Li, Xiaobo In W. Trans. on Comp. vol. 9 http://dl.acm.o …