投稿日: WSDM 論文紹介

Search engine click spam detection based on bipartite graph propagation

Li, Xin
Zhang, Min
Liu, Yiqun
Ma, Shaoping
Jin, Yijiang
Ru, Liyun
In Proc. of WSDM 2014
http://dl.acm.org/citation.cfm?id=2556214

概要

スクリプト等によって、特定のクエリに対してある検索結果を何度もクリックすることで検索順位を上げようとするスパム行為が問題になりつつあるので、そのようなクリックの特定を目的とした論文。
スパムクリックの検出手法として、ユーザとセッションから成る2部グラフを用いる方法と、頻出する検索行動パターンとセッションから成る2部グラフを用いる方法を提案。

使用データ

中国の検索エンジンの2011年12月の検索ログ。1日約80万件のクリックログをサンプリングして使用。

ユーザとセッションを用いたスパムクリック特定

ユーザがクエリを発行後30分をセッションとして設定。各セッションを、クエリ入力、クリック、スクロール、ページのクリックなど抽象化した行動のリストとして表現。
クエリ入力後に同じページを連続でクリックしているセッション、同一のクエリを連続で入力し続けているセッションなど5種類のセッションを、スパムセッションのシードとする。
ユーザとセッションから成る2部グラフを構築し、シードに選ばれたスパムセッションにのみ初期値1を割り振り、他のノードは初期値0として値を伝播させる。収束時の値が0.9以上のセッションをスパムセッションとして抽出。

頻出する検索行動パターンとセッションを用いたスパムクリック特定

セッション内に特定の行動パターンが含まれていれば、そのセッションはスパムの可能性が高いという仮説に基づいた手法。
既存手法を用いて、頻出する検索行動パターンを全セッションから抽出し、頻出する検索行動パターンとセッションで2部グラフを構築。
一つ目の手法と同様に、シードに選ばれたスパムセッションにのみ初期値1を割り振り、他のノードは初期値0として値を伝播させる。収束時の値が0.9以上のセッションをスパムセッションとして抽出。

評価

各手法で、値が0.9以上のセッションから評価用にセッションをサンプリングし、人手で各セッションがスパムか否かをラベリング。その結果、いずれの手法も適合率は97%と高い値であった。
また、手法1では値が0.9以上のセッションは全体の2.1%、手法2では2.6%であったことから、手法2では適合率を落とすことなく再現率を上げられることが示された。


-WSDM, 論文紹介

関連記事

Toward self-correcting search engines: using underperforming queries to improve search

Hassan, Ahmed White, Ryen W. Wang, Yi-Min In Proc. of SIGIR 2013 http://dl.acm.org/citation.cfm?id=2 …

Enhancing collaborative filtering systems with personality information

Hu, Rong and Pu, Pearl In Proc. of RecSys 2011 概要 協調フィルタリングを用いてあるユーザに推薦するアイテムを決める際、通常はそのユーザの過去のアイテムの …

Understanding the importance of location, time, and people in mobile local search behavior

Teevan, Jaime Karlson, Amy Amini, Shahriyar Brush, A. J. Bernheim Krumm, John In Proc. of MobileHCI …

Crowdsourcing for relevance evaluation

Alonso, Omar Rose, Daniel E. Stewart, Benjamin In SIGIR Forum, Vol.42, Num.2 http://dl.acm.org/citat …

Collective intelligence in the online social network of yahoo!answers and its implications

Li, Ze Shen, Haiying Grant, Joseph Edward In Proc. of CIKM 2012 http://dl.acm.org/citation.cfm?id=23 …