投稿日: WSDM 論文紹介

Quantifying Controversy in Social Media

Garimella, Kiran
De Francisci Morales, Gianmarco
Gionis, Aristides
Mathioudakis, Michael
In Proc. of WSDM 2016

概要

Twitterのハッシュタグを入力として与えて、そのハッシュタグの論争の度合いを数値化することを目的とした論文。#indianaというタグのスコアは0.9で論争が活発に起きており、#sxswというタグのスコアは0.2で論争がほとんど起きていない、といったことがわかるようになる。

先行研究との違い

先行研究は政治的なトピックの論争に特化して、ドメイン依存の知識を使用することでSNS上の論争を発見していたが、この研究ではあらゆるドメインのトピックについて論争が起きているトピックを発見するための汎用的な手法を提案。

手法の概要

  1. グラフ構築:ハッシュタグ#indianaの論争度合いを測りたい場合、そのハッシュタグを使用しているTwitterユーザを抽出し、ユーザをノードとするグラフを構築。エッジの有無はフォロー関係や、ユーザ間のリツイートの有無などによって決定。
  2. グラフ分割:METISと呼ばれる既存アルゴリズムを使用して、構築したグラフの構造を基にノードを2種類のグループに分類する。グループの違いが論争における立場の違いに相当する。
  3. 論争度の計算:グラフ上のランダムウォークによって、トピックの論争度合いを計算。一方のグループから出発して同じグループのノードに到達する確率や、別のグループのノードに到達する確率などを基に計算。
    他にもグラフを用いたいくつかの計算方法を提案しているが、ランダムウォークを用いた手法が最も良い結果となった。

評価方法

Twitterで論争が起きているハッシュタグと論争が起きていないハッシュタグを10個ずつ人手で選択。各ハッシュタグの論争度を計算したときに、前者の10個はスコアが高く、後者の10個はスコアが低くなっているかを複数の手法で比較。
上述のとおり、ランダムウォークを用いた手法が最もきれいに前者と後者を区別することができていた。


-WSDM, 論文紹介

関連記事

【論文紹介】Matrix factorization techniques for context aware recommendation

Baltrunas, Linas and Ludwig, Bernd and Ricci, Francesco RecSys 2011 ACM, PDF 概要 コンテキストによるバイアスを考慮したレー …

【論文紹介】The Influence of Early Respondents: Information Cascade Effects in Online Event Scheduling

Romero, Daniel M. and Reinecke, Katharina and Robert,Jr., Lionel P. WSDM 2017 ACM, PDF 概要 Doodleのような …

Answering relationship queries on the web

Luo, Gang Tang, Chunqiang Tian, Ying-li In Proc. of WWW 2007 http://dl.acm.org/citation.cfm?id=12426 …

Enhancing collaborative filtering systems with personality information

Hu, Rong and Pu, Pearl In Proc. of RecSys 2011 概要 協調フィルタリングを用いてあるユーザに推薦するアイテムを決める際、通常はそのユーザの過去のアイテムの …

Search engine click spam detection based on bipartite graph propagation

Li, Xin Zhang, Min Liu, Yiqun Ma, Shaoping Jin, Yijiang Ru, Liyun In Proc. of WSDM 2014 http://dl.ac …