投稿日: その他 論文紹介

Mining long-term search history to improve search accuracy

Tan, Bin
Shen, Xuehua
Zhai, ChengXiang
In Proc. of KDD2006
http://dl.acm.org/citation.cfm?id=1150493

概要

ある検索クエリが入力されたときに、従来の検索モデルではそのクエリ内の語のみに基づいて各文書との適合度を計算していた。提案モデルでは、過去に入力したクエリに含まれる語も考慮して文書との適合度を計算する。これにより、クエリが「ジャガー」で過去に「サバンナ」というクエリを入力していた場合、動物のジャガーに関して記述した文書との適合度が高くなる。

モデル

現在のクエリをq_{k}、それ以前に入力されたクエリの集合をH_{k}とする。このとき、単語wの生成確率は以下で表される。
 p(w|\theta_{q_{k},H_{k}}) = \lambda_{q_{k}}p(w|\theta_{q_{k}}) + (1-\lambda_{q_{k}})p(w|\theta_{H_{k}})
さらにp(w|\theta_{H_{k}})は次のように展開される。
 p(w|\theta_{H_{k}}) = \frac{\sum_{q_{i}\in H_{k}} \lambda_{i}p(w|\theta_{i})}{\sum_{q_{i}\in H_{k}}\lambda_{i}}

パラメータ推定

上の式中の\lambda_{i}を推定する。
そのために、以下のようなモデルを考える。
 p(w|\theta_{mix}) = \mu_{C}p(w|\theta_{C}) + \mu_{q}p(w|\theta_{q_{k}}) + \sum_{i=1}^{k-1}\mu_{i}p(w|\phi_{i})
p(w|\phi_{i})q_{i}の検索結果の文書集合から構築される語生成モデルである。
\mu_{C} + \mu_{q} + \sum_{i=1}^{k-1}\mu_{i} = 1という制約のもとで、q_{k}の検索結果がp(w|\theta_{mix})から生成される尤度が最も高くなるように、EMアルゴリズムを用いて\mu_{C}\mu_{q}\mu_{i}を求める。その上で、\mu_{i}\lambda_{i}として用いる。


-その他, 論文紹介

関連記事

Modelling User Interest for Zero-query Ranking

Liu Yang, Qi Guo, Yang Song, Sha Meng, Milad Shokouhi, Kieran McDonald, and W. Bruce Croft In Proc. …

Extending Faceted Search to the General Web

Kong, Weize Allan, James In Proc. of CIKM2014 http://dl.acm.org/citation.cfm?id=2661964 概要 ファセットを提示す …

Collective intelligence in the online social network of yahoo!answers and its implications

Li, Ze Shen, Haiying Grant, Joseph Edward In Proc. of CIKM 2012 http://dl.acm.org/citation.cfm?id=23 …

A Study of Mobile Search Queries in Japan

Ricardo Baeza-yates Georges Dupret Javier Velasco In Proc. of WWW2007 概要 デスクトップ検索とモバイル検索の日本語のクエリログに着 …

Adaptive Query Suggestion for Difficult Queries

Liu, Yang Song, Ruihua Chen, Yu Nie, Jian-Yun Wen, Ji-Rong In Proc. of SIGIR 2012 http://dl.acm.org/ …