投稿日: WSDM 論文紹介

Search engine click spam detection based on bipartite graph propagation

Li, Xin
Zhang, Min
Liu, Yiqun
Ma, Shaoping
Jin, Yijiang
Ru, Liyun
In Proc. of WSDM 2014
http://dl.acm.org/citation.cfm?id=2556214

概要

スクリプト等によって、特定のクエリに対してある検索結果を何度もクリックすることで検索順位を上げようとするスパム行為が問題になりつつあるので、そのようなクリックの特定を目的とした論文。
スパムクリックの検出手法として、ユーザとセッションから成る2部グラフを用いる方法と、頻出する検索行動パターンとセッションから成る2部グラフを用いる方法を提案。

使用データ

中国の検索エンジンの2011年12月の検索ログ。1日約80万件のクリックログをサンプリングして使用。

ユーザとセッションを用いたスパムクリック特定

ユーザがクエリを発行後30分をセッションとして設定。各セッションを、クエリ入力、クリック、スクロール、ページのクリックなど抽象化した行動のリストとして表現。
クエリ入力後に同じページを連続でクリックしているセッション、同一のクエリを連続で入力し続けているセッションなど5種類のセッションを、スパムセッションのシードとする。
ユーザとセッションから成る2部グラフを構築し、シードに選ばれたスパムセッションにのみ初期値1を割り振り、他のノードは初期値0として値を伝播させる。収束時の値が0.9以上のセッションをスパムセッションとして抽出。

頻出する検索行動パターンとセッションを用いたスパムクリック特定

セッション内に特定の行動パターンが含まれていれば、そのセッションはスパムの可能性が高いという仮説に基づいた手法。
既存手法を用いて、頻出する検索行動パターンを全セッションから抽出し、頻出する検索行動パターンとセッションで2部グラフを構築。
一つ目の手法と同様に、シードに選ばれたスパムセッションにのみ初期値1を割り振り、他のノードは初期値0として値を伝播させる。収束時の値が0.9以上のセッションをスパムセッションとして抽出。

評価

各手法で、値が0.9以上のセッションから評価用にセッションをサンプリングし、人手で各セッションがスパムか否かをラベリング。その結果、いずれの手法も適合率は97%と高い値であった。
また、手法1では値が0.9以上のセッションは全体の2.1%、手法2では2.6%であったことから、手法2では適合率を落とすことなく再現率を上げられることが示された。


-WSDM, 論文紹介

関連記事

Predicting web searcher satisfaction with existing community-based answers

Liu, Qiaoling Agichtein, Eugene Dror, Gideon Gabrilovich, Evgeniy Maarek, Yoelle Pelleg, Dan Szpekto …

Analyzing and evaluating query reformulation strategies in web search logs

Huang, Jeff Efthimiadis, Efthimis N. In Proc. of CIKM2009 http://dl.acm.org/citation.cfm?id=1645966 …

Perception and understanding of social annotations in web search

Fernquist, Jennifer Chi, Ed H. In Proc. of WWW 2013 http://dl.acm.org/citation.cfm?id=2488424 概要 Goo …

Mining long-term search history to improve search accuracy

Tan, Bin Shen, Xuehua Zhai, ChengXiang In Proc. of KDD2006 http://dl.acm.org/citation.cfm?id=1150493 …

Using preference judgments for novel document retrieval

Chandar, Praveen Carterette, Ben In Proc. of SIGIR 2012 http://dl.acm.org/citation.cfm?id=2348398 概要 …