投稿日: SIGIR 論文紹介

Mining Query Subtopics from Search Log Data

Hu, Yunhua
Qian, Yanan
Li, Hang
Jiang, Daxin
Pei, Jian
Zheng, Qinghua
In Proc. of SIGIR 2012
http://dl.acm.org/citation.cfm?id=2348327

概要

クエリログから,あるクエリに対するサブトピック及びサブトピックに関係のあるURLを発見することを目的としている.例えば,「harry shum」というクエリのサブトピックとしては,「harry shum microsoft」や「harry syum jr」がある.この研究ではユーザの2種類の検索行動に着目してクリックログのURLをクラスタリングし,サブトピックを発見する.また,発見されたサブトピックを検索結果のリランキングに適用している.

手法

サブトピックを発見するにあたり,2つの検索行動に基づいた仮説を立てている.
1つ目は,「one subtopic per search(OSS)」と呼ばれるもので,あるユーザが1つのクエリの検索結果で複数のURLをクリックした場合,それらのURLは同じサブトピックに関連しているというもの.
2つ目は,「subtopic clarification by keyword(SCAK)」と呼ばれるもので,「harry shum」に対して「harry shum microsoft」のようにキーワードを追加したクエリがあったときに,両方のURLでクリックされたURLは同じサブトピックに関連しているというもの.

クエリに対するサブトピックはクエリログ中のURLのクラスタリングにより抽出する.クラスタリングの結果としては各クラスタのラベル(サブトピックに相当)とURL集合が得られる.
クエリQが与えられたときに,Wを1語のキーワードとして「Q+W」および「W+Q」の形で表されるクエリと各クエリでクリックされたURL集合をクエリログから収集する.
抽出されたURLの階層的クラスタリングを行う.URL間の距離(類似度)は次式により表される.
S(u_{i},u_{j})=\alpha S_{1}(u_{i},u_{j})+ \beta S_{2}(u_{i},u_{j})+ \gamma S_{3}(u_{i},u_{j})
S_{1}(u_{i},u_{j})はOSSに基づくURLの類似度.抽出されたクエリをq_{1},q_{2},\cdots ,q_{n}としたとき,各URLはクエリq_{i}によってk回クリックされたらi番目の要素がkであるようなベクトル.類似度はコサイン類似度により計算.
S_{2}(u_{i},u_{j})はSCAKに基づくURLの類似度.抽出されたクエリをq_{1},q_{2},\cdots ,q_{n}としたとき,各URLはクエリq_{i}によってクリックされたらi番目の要素が1であるようなベクトル.類似度はコサイン類似度により計算.
S_{3}(u_{i},u_{j})はURLを文字列として見た時の類似度.
クラスタリングは凝集型クラスタリングを採用.各クラスタのラベルは,クラスタ内のURLと紐付いたクエリの中で頻度の高いものを選択.

実験

クエリログはBingのものを使用.クエリはTRECで用いられたクエリやクエリログからサンプリングしたものを使用.あるクエリでクリックされたURL集合を人出でグルーピングすることで正解データを作成.クラスタリングの精度評価にはB-cubed Precision,B-cubed Recall,B-cubed F1を使用.
評価の結果,OSSとSCAKを単独で用いてもPrecisionは高いが,Recallは低い.提案手法のように組み合わせることでRecallも高くなる.

その他データ

クエリQQ+WW+QQを含むその他の形式のクエリの割合は45.5%,25.5%,16.5%,12.5%.
2個以上のURLをクリックした検索クエリのうち,84%はただ1つの検索意図をもつ.


-SIGIR, 論文紹介
-

関連記事

Exploring and exploiting user search behavior on mobile and tablet devices to improve search relevance

Song, Yang Ma, Hao Wang, Hongning Wang, Kuansan In Proc. of WWW 2013 http://dl.acm.org/citation.cfm? …

Modeling User Posting Behavior on Social Media

Xu, Zhiheng Zhang, Yang Wu, Yao Yang, Qing In Proc. of SIGIR 2012 http://dl.acm.org/citation.cfm?id= …

Can social features help learning to rank youtube videos?

Chelaru, Sergiu Viorel Orellana-Rodriguez, Claudia Altingovde, Ismail Sengor In Proc. of WISE 2012 概 …

Good Abandonment in Mobile and PC Internet Search

Li, Jane Huffman, Scott Tokuda, Akihito In Proc of SIGIR2009 http://dl.acm.org/citation.cfm?id=15719 …

A music recommendation system based on annotations about listeners’ preferences and situations

Kaji, K. Hirata, K. Nagao, K. In Proc. of AXMEDIS 2005 http://ieeexplore.ieee.org/xpl/login.jsp?tp=& …