投稿日: その他 論文紹介

Mining long-term search history to improve search accuracy

Tan, Bin
Shen, Xuehua
Zhai, ChengXiang
In Proc. of KDD2006
http://dl.acm.org/citation.cfm?id=1150493

概要

ある検索クエリが入力されたときに、従来の検索モデルではそのクエリ内の語のみに基づいて各文書との適合度を計算していた。提案モデルでは、過去に入力したクエリに含まれる語も考慮して文書との適合度を計算する。これにより、クエリが「ジャガー」で過去に「サバンナ」というクエリを入力していた場合、動物のジャガーに関して記述した文書との適合度が高くなる。

モデル

現在のクエリをq_{k}、それ以前に入力されたクエリの集合をH_{k}とする。このとき、単語wの生成確率は以下で表される。
 p(w|\theta_{q_{k},H_{k}}) = \lambda_{q_{k}}p(w|\theta_{q_{k}}) + (1-\lambda_{q_{k}})p(w|\theta_{H_{k}})
さらにp(w|\theta_{H_{k}})は次のように展開される。
 p(w|\theta_{H_{k}}) = \frac{\sum_{q_{i}\in H_{k}} \lambda_{i}p(w|\theta_{i})}{\sum_{q_{i}\in H_{k}}\lambda_{i}}

パラメータ推定

上の式中の\lambda_{i}を推定する。
そのために、以下のようなモデルを考える。
 p(w|\theta_{mix}) = \mu_{C}p(w|\theta_{C}) + \mu_{q}p(w|\theta_{q_{k}}) + \sum_{i=1}^{k-1}\mu_{i}p(w|\phi_{i})
p(w|\phi_{i})q_{i}の検索結果の文書集合から構築される語生成モデルである。
\mu_{C} + \mu_{q} + \sum_{i=1}^{k-1}\mu_{i} = 1という制約のもとで、q_{k}の検索結果がp(w|\theta_{mix})から生成される尤度が最も高くなるように、EMアルゴリズムを用いて\mu_{C}\mu_{q}\mu_{i}を求める。その上で、\mu_{i}\lambda_{i}として用いる。


-その他, 論文紹介

関連記事

Mining Contentious Documents Using an Unsupervised Topic Model Based Approach

Amine, Trabelsi and Osmar R., Zaiane In Proc. of ICDM 2014 概要 ある話題に関する文書集合が与えられたときに、「賛成」や「反対」などの各観点( …

Finding Dimensions for Queries

Z. Dou, S. Hu, Y. Luo, R. Song, and JR. Wen In Proc. of CIKM2011 http://dl.acm.org/citation.cfm?id=2 …

Happy, Nervous or Surprised? Classification of Human Affective States in Social Media

Munmun De Choudhury Michael Gamon Scott Counts In Proc. of ICWSM 2012 概要 ツイートを11種類の感情に分類することを目的とした論文 …

Ready to buy or just browsing?: detecting web searcher goals from interaction data

Guo, Qi Agichtein, Eugene In Proc. of SIGIR 2010 http://dl.acm.org/citation.cfm?id=1835473 概要 ユーザの検索 …

Personalized Diversification of Search Results

D. Vallet and P. Castells In Proc. of SIGIR 2012 http://dl.acm.org/citation.cfm?id=2348396 目的 検索結果の多 …