投稿日: WSDM 論文紹介

Search engine click spam detection based on bipartite graph propagation

Li, Xin
Zhang, Min
Liu, Yiqun
Ma, Shaoping
Jin, Yijiang
Ru, Liyun
In Proc. of WSDM 2014
http://dl.acm.org/citation.cfm?id=2556214

概要

スクリプト等によって、特定のクエリに対してある検索結果を何度もクリックすることで検索順位を上げようとするスパム行為が問題になりつつあるので、そのようなクリックの特定を目的とした論文。
スパムクリックの検出手法として、ユーザとセッションから成る2部グラフを用いる方法と、頻出する検索行動パターンとセッションから成る2部グラフを用いる方法を提案。

使用データ

中国の検索エンジンの2011年12月の検索ログ。1日約80万件のクリックログをサンプリングして使用。

ユーザとセッションを用いたスパムクリック特定

ユーザがクエリを発行後30分をセッションとして設定。各セッションを、クエリ入力、クリック、スクロール、ページのクリックなど抽象化した行動のリストとして表現。
クエリ入力後に同じページを連続でクリックしているセッション、同一のクエリを連続で入力し続けているセッションなど5種類のセッションを、スパムセッションのシードとする。
ユーザとセッションから成る2部グラフを構築し、シードに選ばれたスパムセッションにのみ初期値1を割り振り、他のノードは初期値0として値を伝播させる。収束時の値が0.9以上のセッションをスパムセッションとして抽出。

頻出する検索行動パターンとセッションを用いたスパムクリック特定

セッション内に特定の行動パターンが含まれていれば、そのセッションはスパムの可能性が高いという仮説に基づいた手法。
既存手法を用いて、頻出する検索行動パターンを全セッションから抽出し、頻出する検索行動パターンとセッションで2部グラフを構築。
一つ目の手法と同様に、シードに選ばれたスパムセッションにのみ初期値1を割り振り、他のノードは初期値0として値を伝播させる。収束時の値が0.9以上のセッションをスパムセッションとして抽出。

評価

各手法で、値が0.9以上のセッションから評価用にセッションをサンプリングし、人手で各セッションがスパムか否かをラベリング。その結果、いずれの手法も適合率は97%と高い値であった。
また、手法1では値が0.9以上のセッションは全体の2.1%、手法2では2.6%であったことから、手法2では適合率を落とすことなく再現率を上げられることが示された。


-WSDM, 論文紹介

関連記事

Modeling User Posting Behavior on Social Media

Xu, Zhiheng Zhang, Yang Wu, Yao Yang, Qing In Proc. of SIGIR 2012 http://dl.acm.org/citation.cfm?id= …

Spatio-temporal Dynamics of Online Memes: A Study of Geo-tagged Tweets

Kamath, Krishna Y. Caverlee, James Lee, Kyumin Cheng, Zhiyuan In Proc. of WWW 2013 http://dl.acm.org …

Tourist Trip Planning Functionalities: State–of–the–Art and Future

Souffriau, W. Vansteenwegen, P. In Current Trends in Web Engineering http://link.springer.com/chapte …

Re-Examining Search Result Snippet Examination Time for Relevance Estimation

Lagun, Dmitry Agichtein, Eugene In Proc. of SIGIR2012 http://dl.acm.org/citation.cfm?id=2348509 概要 従 …

Displaying relevance scores for search results

Shani, Guy Tractinsky, Noam In Proc. of SIGIR 2013 http://dl.acm.org/citation.cfm?id=2484112 概要 Web検 …