投稿日: その他 論文紹介

Bad News Travel Fast: A Content-based Analysis of Interestingness on Twitter

Nasir Naveed
Thomas Gottron
Jérôme Kunegis
Arifah Che Alhadi
In Proc. of WebSci 2011
http://dl.acm.org/citation.cfm?id=2527052&dl=ACM&coll=DL&CFID=472575376&CFTOKEN=83550246

概要

ツイッター上のツイートがリツイートされる確率を予測することを目的とした論文。フォロー関係などの情報は使わずに、ツイートの内容のみから確率の予測を試みている点に特徴がある。

手法

ロジスティック回帰を用いて確率を予測。使用する素性は以下のとおり。

  1. ツイートがリプライか否か
  2. ツイートにユーザ名、ハッシュタグ、URLが含まれるか否か
  3. ツイートに「!」と「?」が含まれるか否か
  4. ツイートにポジティブな単語、ネガティブな単語が含まれるか否か
  5. ツイートにポジティブな顔文字、ネガティブな顔文字が含まれるか否か
  6. ツイートのvalence (pleasure vs displeasure)、arousal (excitement vs calmness)、dominance (weakness vs strength)の度合い
  7. テストデータ内で、各単語を含むツイートのリツイートのされやすさを求め、それを元に対象のツイートがどの程度リツイートされやすいかをスコア化した値
  8. LDAを用いて求められた、ツイートのトピック

結果

重みがマイナスに大きかったのは素性1で、プラスに大きかったのは素性2のユーザ名とURL。
また、ポジティブなツイートよりもネガティブなツイートの方がリツイートされやすいこと、ツイートの最後が「?」のものは「!」のものよりリツイートされやすいことなどがわかった。
リツイートされやすいトピックはソーシャルメディア、経済、公式イベントなどで、リツイートされにくいトピックは自分の気分や天気に関するもの。


-その他, 論文紹介

関連記事

Your neighbors affect your ratings: on geographical neighborhood influence to rating prediction

Hu, Longke and Sun, Aixin and Liu, Yong In Proc. of SIGIR 2014 概要 店sの周辺の店の情報を利用することで、ユーザuのsに対するレーティン …

Modeling User Posting Behavior on Social Media

Xu, Zhiheng Zhang, Yang Wu, Yao Yang, Qing In Proc. of SIGIR 2012 http://dl.acm.org/citation.cfm?id= …

Enhancing collaborative filtering systems with personality information

Hu, Rong and Pu, Pearl In Proc. of RecSys 2011 概要 協調フィルタリングを用いてあるユーザに推薦するアイテムを決める際、通常はそのユーザの過去のアイテムの …

On a Topic Model for Sentences

Balikas, Georgios and Amini, Massih-Reza and Clausel, Marianne In Proc. of SIGIR 2016 概要 通常のLDAでは文書ご …

Supporting Complex Search Tasks

Ahmed Hassan Awadallah Ryen W. White Patrick Pantel Susan T. Dumais Yi-Min Wang In Proc. of CIKM2014 …