投稿日: WSDM 論文紹介

Quantifying Controversy in Social Media

Garimella, Kiran
De Francisci Morales, Gianmarco
Gionis, Aristides
Mathioudakis, Michael
In Proc. of WSDM 2016

概要

Twitterのハッシュタグを入力として与えて、そのハッシュタグの論争の度合いを数値化することを目的とした論文。#indianaというタグのスコアは0.9で論争が活発に起きており、#sxswというタグのスコアは0.2で論争がほとんど起きていない、といったことがわかるようになる。

先行研究との違い

先行研究は政治的なトピックの論争に特化して、ドメイン依存の知識を使用することでSNS上の論争を発見していたが、この研究ではあらゆるドメインのトピックについて論争が起きているトピックを発見するための汎用的な手法を提案。

手法の概要

  1. グラフ構築:ハッシュタグ#indianaの論争度合いを測りたい場合、そのハッシュタグを使用しているTwitterユーザを抽出し、ユーザをノードとするグラフを構築。エッジの有無はフォロー関係や、ユーザ間のリツイートの有無などによって決定。
  2. グラフ分割:METISと呼ばれる既存アルゴリズムを使用して、構築したグラフの構造を基にノードを2種類のグループに分類する。グループの違いが論争における立場の違いに相当する。
  3. 論争度の計算:グラフ上のランダムウォークによって、トピックの論争度合いを計算。一方のグループから出発して同じグループのノードに到達する確率や、別のグループのノードに到達する確率などを基に計算。
    他にもグラフを用いたいくつかの計算方法を提案しているが、ランダムウォークを用いた手法が最も良い結果となった。

評価方法

Twitterで論争が起きているハッシュタグと論争が起きていないハッシュタグを10個ずつ人手で選択。各ハッシュタグの論争度を計算したときに、前者の10個はスコアが高く、後者の10個はスコアが低くなっているかを複数の手法で比較。
上述のとおり、ランダムウォークを用いた手法が最もきれいに前者と後者を区別することができていた。


-WSDM, 論文紹介

関連記事

Ready to buy or just browsing?: detecting web searcher goals from interaction data

Guo, Qi Agichtein, Eugene In Proc. of SIGIR 2010 http://dl.acm.org/citation.cfm?id=1835473 概要 ユーザの検索 …

What’s in a hashtag?: content based prediction of the spread of ideas in microblogging communities

sur, Oren Rappoport, Ari In Proc. of WSDM 2012 http://dl.acm.org/citation.cfm?id=2124320 概要 ツイッター上で、 …

The Last Click: Why Users Give up Information Network Navigation

Aju Thalappillil Scaria Rose Marie Philip Robert West Jure Leskovec In Proc. of WSDM 2014 概要 リンクをたどっ …

Using preference judgments for novel document retrieval

Chandar, Praveen Carterette, Ben In Proc. of SIGIR 2012 http://dl.acm.org/citation.cfm?id=2348398 概要 …

Re-Examining Search Result Snippet Examination Time for Relevance Estimation

Lagun, Dmitry Agichtein, Eugene In Proc. of SIGIR2012 http://dl.acm.org/citation.cfm?id=2348509 概要 従 …