投稿日: WSDM 論文紹介

Search engine click spam detection based on bipartite graph propagation

Li, Xin
Zhang, Min
Liu, Yiqun
Ma, Shaoping
Jin, Yijiang
Ru, Liyun
In Proc. of WSDM 2014
http://dl.acm.org/citation.cfm?id=2556214

概要

スクリプト等によって、特定のクエリに対してある検索結果を何度もクリックすることで検索順位を上げようとするスパム行為が問題になりつつあるので、そのようなクリックの特定を目的とした論文。
スパムクリックの検出手法として、ユーザとセッションから成る2部グラフを用いる方法と、頻出する検索行動パターンとセッションから成る2部グラフを用いる方法を提案。

使用データ

中国の検索エンジンの2011年12月の検索ログ。1日約80万件のクリックログをサンプリングして使用。

ユーザとセッションを用いたスパムクリック特定

ユーザがクエリを発行後30分をセッションとして設定。各セッションを、クエリ入力、クリック、スクロール、ページのクリックなど抽象化した行動のリストとして表現。
クエリ入力後に同じページを連続でクリックしているセッション、同一のクエリを連続で入力し続けているセッションなど5種類のセッションを、スパムセッションのシードとする。
ユーザとセッションから成る2部グラフを構築し、シードに選ばれたスパムセッションにのみ初期値1を割り振り、他のノードは初期値0として値を伝播させる。収束時の値が0.9以上のセッションをスパムセッションとして抽出。

頻出する検索行動パターンとセッションを用いたスパムクリック特定

セッション内に特定の行動パターンが含まれていれば、そのセッションはスパムの可能性が高いという仮説に基づいた手法。
既存手法を用いて、頻出する検索行動パターンを全セッションから抽出し、頻出する検索行動パターンとセッションで2部グラフを構築。
一つ目の手法と同様に、シードに選ばれたスパムセッションにのみ初期値1を割り振り、他のノードは初期値0として値を伝播させる。収束時の値が0.9以上のセッションをスパムセッションとして抽出。

評価

各手法で、値が0.9以上のセッションから評価用にセッションをサンプリングし、人手で各セッションがスパムか否かをラベリング。その結果、いずれの手法も適合率は97%と高い値であった。
また、手法1では値が0.9以上のセッションは全体の2.1%、手法2では2.6%であったことから、手法2では適合率を落とすことなく再現率を上げられることが示された。


-WSDM, 論文紹介

関連記事

Finding Dimensions for Queries

Z. Dou, S. Hu, Y. Luo, R. Song, and JR. Wen In Proc. of CIKM2011 http://dl.acm.org/citation.cfm?id=2 …

Measuring Pair-Wise Social Influence in Microblog

Zibin Yin Ya Zhang In Proc. of SocialCom 2012 概要 Weibo上でのリツイートのモデル化を提案。提案モデルを使うことで、ユーザAのツイートがフォロワーのユ …

From Skimming to Reading: A Two-stage Examination Model for Web Search

Liu, Yiqun Wang, Chao Zhou, Ke Nie, Jianyun Zhang, Min Ma, Shaoping In Proc. of CIKM 2014 http://dl. …

Unsupervised Semantic Similarity Computation between Terms Using Web Documents

Elias Iosif Alexandros Potamianos In IEEE Transactions on Knowledge and Data Engineering, Vol.22, Nu …

Using preference judgments for novel document retrieval

Chandar, Praveen Carterette, Ben In Proc. of SIGIR 2012 http://dl.acm.org/citation.cfm?id=2348398 概要 …