投稿日: SIGIR 論文紹介

Mining Query Subtopics from Search Log Data

Hu, Yunhua
Qian, Yanan
Li, Hang
Jiang, Daxin
Pei, Jian
Zheng, Qinghua
In Proc. of SIGIR 2012
http://dl.acm.org/citation.cfm?id=2348327

概要

クエリログから,あるクエリに対するサブトピック及びサブトピックに関係のあるURLを発見することを目的としている.例えば,「harry shum」というクエリのサブトピックとしては,「harry shum microsoft」や「harry syum jr」がある.この研究ではユーザの2種類の検索行動に着目してクリックログのURLをクラスタリングし,サブトピックを発見する.また,発見されたサブトピックを検索結果のリランキングに適用している.

手法

サブトピックを発見するにあたり,2つの検索行動に基づいた仮説を立てている.
1つ目は,「one subtopic per search(OSS)」と呼ばれるもので,あるユーザが1つのクエリの検索結果で複数のURLをクリックした場合,それらのURLは同じサブトピックに関連しているというもの.
2つ目は,「subtopic clarification by keyword(SCAK)」と呼ばれるもので,「harry shum」に対して「harry shum microsoft」のようにキーワードを追加したクエリがあったときに,両方のURLでクリックされたURLは同じサブトピックに関連しているというもの.

クエリに対するサブトピックはクエリログ中のURLのクラスタリングにより抽出する.クラスタリングの結果としては各クラスタのラベル(サブトピックに相当)とURL集合が得られる.
クエリQが与えられたときに,Wを1語のキーワードとして「Q+W」および「W+Q」の形で表されるクエリと各クエリでクリックされたURL集合をクエリログから収集する.
抽出されたURLの階層的クラスタリングを行う.URL間の距離(類似度)は次式により表される.
S(u_{i},u_{j})=\alpha S_{1}(u_{i},u_{j})+ \beta S_{2}(u_{i},u_{j})+ \gamma S_{3}(u_{i},u_{j})
S_{1}(u_{i},u_{j})はOSSに基づくURLの類似度.抽出されたクエリをq_{1},q_{2},\cdots ,q_{n}としたとき,各URLはクエリq_{i}によってk回クリックされたらi番目の要素がkであるようなベクトル.類似度はコサイン類似度により計算.
S_{2}(u_{i},u_{j})はSCAKに基づくURLの類似度.抽出されたクエリをq_{1},q_{2},\cdots ,q_{n}としたとき,各URLはクエリq_{i}によってクリックされたらi番目の要素が1であるようなベクトル.類似度はコサイン類似度により計算.
S_{3}(u_{i},u_{j})はURLを文字列として見た時の類似度.
クラスタリングは凝集型クラスタリングを採用.各クラスタのラベルは,クラスタ内のURLと紐付いたクエリの中で頻度の高いものを選択.

実験

クエリログはBingのものを使用.クエリはTRECで用いられたクエリやクエリログからサンプリングしたものを使用.あるクエリでクリックされたURL集合を人出でグルーピングすることで正解データを作成.クラスタリングの精度評価にはB-cubed Precision,B-cubed Recall,B-cubed F1を使用.
評価の結果,OSSとSCAKを単独で用いてもPrecisionは高いが,Recallは低い.提案手法のように組み合わせることでRecallも高くなる.

その他データ

クエリQQ+WW+QQを含むその他の形式のクエリの割合は45.5%,25.5%,16.5%,12.5%.
2個以上のURLをクリックした検索クエリのうち,84%はただ1つの検索意図をもつ.


-SIGIR, 論文紹介
-

関連記事

Modelling User Interest for Zero-query Ranking

Liu Yang, Qi Guo, Yang Song, Sha Meng, Milad Shokouhi, Kieran McDonald, and W. Bruce Croft In Proc. …

Web Object Retrieval

Nie, Zaiqing Ma, Yunxiao Shi, Shuming Wen, Ji-Rong Ma, Wei-Ying In Proc. of WWW 2007 http://dl.acm.o …

【論文紹介】Cats and Captions vs. User Characteristics and the Clock: A Time-Controlled Analysis of Multimodal Content

Hessel, Jack and Lee, Lillian and Mimno David In Proc. of WWW 2017 概要 Redditと呼ばれるソーシャルニュースサイトに投稿された画 …

Ready to buy or just browsing?: detecting web searcher goals from interaction data

Guo, Qi Agichtein, Eugene In Proc. of SIGIR 2010 http://dl.acm.org/citation.cfm?id=1835473 概要 ユーザの検索 …

Extending Faceted Search to the General Web

Kong, Weize Allan, James In Proc. of CIKM2014 http://dl.acm.org/citation.cfm?id=2661964 概要 ファセットを提示す …