投稿日: WSDM 論文紹介

Quantifying Controversy in Social Media

Garimella, Kiran
De Francisci Morales, Gianmarco
Gionis, Aristides
Mathioudakis, Michael
In Proc. of WSDM 2016

概要

Twitterのハッシュタグを入力として与えて、そのハッシュタグの論争の度合いを数値化することを目的とした論文。#indianaというタグのスコアは0.9で論争が活発に起きており、#sxswというタグのスコアは0.2で論争がほとんど起きていない、といったことがわかるようになる。

先行研究との違い

先行研究は政治的なトピックの論争に特化して、ドメイン依存の知識を使用することでSNS上の論争を発見していたが、この研究ではあらゆるドメインのトピックについて論争が起きているトピックを発見するための汎用的な手法を提案。

手法の概要

  1. グラフ構築:ハッシュタグ#indianaの論争度合いを測りたい場合、そのハッシュタグを使用しているTwitterユーザを抽出し、ユーザをノードとするグラフを構築。エッジの有無はフォロー関係や、ユーザ間のリツイートの有無などによって決定。
  2. グラフ分割:METISと呼ばれる既存アルゴリズムを使用して、構築したグラフの構造を基にノードを2種類のグループに分類する。グループの違いが論争における立場の違いに相当する。
  3. 論争度の計算:グラフ上のランダムウォークによって、トピックの論争度合いを計算。一方のグループから出発して同じグループのノードに到達する確率や、別のグループのノードに到達する確率などを基に計算。
    他にもグラフを用いたいくつかの計算方法を提案しているが、ランダムウォークを用いた手法が最も良い結果となった。

評価方法

Twitterで論争が起きているハッシュタグと論争が起きていないハッシュタグを10個ずつ人手で選択。各ハッシュタグの論争度を計算したときに、前者の10個はスコアが高く、後者の10個はスコアが低くなっているかを複数の手法で比較。
上述のとおり、ランダムウォークを用いた手法が最もきれいに前者と後者を区別することができていた。


-WSDM, 論文紹介

関連記事

Efficiently answering top-k typicality queries on large databases

Hua, Ming Pei, Jian Fu, Ada W. C. Lin, Xuemin Leung, Ho-Fung In Proc. of VLDB 2007 http://dl.acm.org …

Identifying breakpoints in public opinion

Akcora, Cuneyt Gurcan Bayir, Murat Ali Demirbas, Murat Ferhatosmanoglu, Hakan In Proc. of SOMA 2010 …

Modeling documents as mixtures of persons for expert finding

Serdyukov, Pavel Hiemstra, Djoerd In Proc. of ECIR2008 http://dl.acm.org/citation.cfm?id=1793313 概要 …

Adaptive Query Suggestion for Difficult Queries

Liu, Yang Song, Ruihua Chen, Yu Nie, Jian-Yun Wen, Ji-Rong In Proc. of SIGIR 2012 http://dl.acm.org/ …

Supporting Complex Search Tasks

Ahmed Hassan Awadallah Ryen W. White Patrick Pantel Susan T. Dumais Yi-Min Wang In Proc. of CIKM2014 …