投稿日: WSDM 論文紹介

Quantifying Controversy in Social Media

Garimella, Kiran
De Francisci Morales, Gianmarco
Gionis, Aristides
Mathioudakis, Michael
In Proc. of WSDM 2016

概要

Twitterのハッシュタグを入力として与えて、そのハッシュタグの論争の度合いを数値化することを目的とした論文。#indianaというタグのスコアは0.9で論争が活発に起きており、#sxswというタグのスコアは0.2で論争がほとんど起きていない、といったことがわかるようになる。

先行研究との違い

先行研究は政治的なトピックの論争に特化して、ドメイン依存の知識を使用することでSNS上の論争を発見していたが、この研究ではあらゆるドメインのトピックについて論争が起きているトピックを発見するための汎用的な手法を提案。

手法の概要

  1. グラフ構築:ハッシュタグ#indianaの論争度合いを測りたい場合、そのハッシュタグを使用しているTwitterユーザを抽出し、ユーザをノードとするグラフを構築。エッジの有無はフォロー関係や、ユーザ間のリツイートの有無などによって決定。
  2. グラフ分割:METISと呼ばれる既存アルゴリズムを使用して、構築したグラフの構造を基にノードを2種類のグループに分類する。グループの違いが論争における立場の違いに相当する。
  3. 論争度の計算:グラフ上のランダムウォークによって、トピックの論争度合いを計算。一方のグループから出発して同じグループのノードに到達する確率や、別のグループのノードに到達する確率などを基に計算。
    他にもグラフを用いたいくつかの計算方法を提案しているが、ランダムウォークを用いた手法が最も良い結果となった。

評価方法

Twitterで論争が起きているハッシュタグと論争が起きていないハッシュタグを10個ずつ人手で選択。各ハッシュタグの論争度を計算したときに、前者の10個はスコアが高く、後者の10個はスコアが低くなっているかを複数の手法で比較。
上述のとおり、ランダムウォークを用いた手法が最もきれいに前者と後者を区別することができていた。


-WSDM, 論文紹介

関連記事

Mining long-term search history to improve search accuracy

Tan, Bin Shen, Xuehua Zhai, ChengXiang In Proc. of KDD2006 http://dl.acm.org/citation.cfm?id=1150493 …

Fusion Helps Diversification

Liang, Shangsong and Ren, Zhaochun and de Rijke, Maarten In Proc. of SIGIR 2014 概要 検索結果を多様化する際に、複数の検 …

A Study of Mobile Search Queries in Japan

Ricardo Baeza-yates Georges Dupret Javier Velasco In Proc. of WWW2007 概要 デスクトップ検索とモバイル検索の日本語のクエリログに着 …

Modeling Paying Behavior in Game Social Networks

Fang, Zhanpeng and Zhou, Xinyu and Tang, Jie and Shao, Wei and Fong, A.C.M. and Sun, Longjun and Din …

Search engine click spam detection based on bipartite graph propagation

Li, Xin Zhang, Min Liu, Yiqun Ma, Shaoping Jin, Yijiang Ru, Liyun In Proc. of WSDM 2014 http://dl.ac …