投稿日: その他 論文紹介

Bad News Travel Fast: A Content-based Analysis of Interestingness on Twitter

Nasir Naveed
Thomas Gottron
Jérôme Kunegis
Arifah Che Alhadi
In Proc. of WebSci 2011
http://dl.acm.org/citation.cfm?id=2527052&dl=ACM&coll=DL&CFID=472575376&CFTOKEN=83550246

概要

ツイッター上のツイートがリツイートされる確率を予測することを目的とした論文。フォロー関係などの情報は使わずに、ツイートの内容のみから確率の予測を試みている点に特徴がある。

手法

ロジスティック回帰を用いて確率を予測。使用する素性は以下のとおり。

  1. ツイートがリプライか否か
  2. ツイートにユーザ名、ハッシュタグ、URLが含まれるか否か
  3. ツイートに「!」と「?」が含まれるか否か
  4. ツイートにポジティブな単語、ネガティブな単語が含まれるか否か
  5. ツイートにポジティブな顔文字、ネガティブな顔文字が含まれるか否か
  6. ツイートのvalence (pleasure vs displeasure)、arousal (excitement vs calmness)、dominance (weakness vs strength)の度合い
  7. テストデータ内で、各単語を含むツイートのリツイートのされやすさを求め、それを元に対象のツイートがどの程度リツイートされやすいかをスコア化した値
  8. LDAを用いて求められた、ツイートのトピック

結果

重みがマイナスに大きかったのは素性1で、プラスに大きかったのは素性2のユーザ名とURL。
また、ポジティブなツイートよりもネガティブなツイートの方がリツイートされやすいこと、ツイートの最後が「?」のものは「!」のものよりリツイートされやすいことなどがわかった。
リツイートされやすいトピックはソーシャルメディア、経済、公式イベントなどで、リツイートされにくいトピックは自分の気分や天気に関するもの。


-その他, 論文紹介

関連記事

【論文紹介】Modeling Paying Behavior in Game Social Networks

Fang, Zhanpeng and Zhou, Xinyu and Tang, Jie and Shao, Wei and Fong, A.C.M. and Sun, Longjun and Din …

Efficiently answering top-k typicality queries on large databases

Hua, Ming Pei, Jian Fu, Ada W. C. Lin, Xuemin Leung, Ho-Fung In Proc. of VLDB 2007 http://dl.acm.org …

Unexpected Relevance: An Empirical Study of Serendipity in Retweets

Tao Sun Ming Zhang Qiaozhu Mei In Proc. of ICWSM 2013 概要 Serendipityな情報とはどのようなものかを定義した論文.また,その定義に基づい …

【論文紹介】Content-boosted matrix factorization for recommender systems: experiments with recipe recommendation

Forbes, Peter and Zhu, Mu RecSys 2011 ACM, PDF 概要 ユーザのアイテムに対するレーティングを予測する際に、アイテムの構成要素を考慮した、Matrix Fa …

Unsupervised Semantic Similarity Computation between Terms Using Web Documents

Elias Iosif Alexandros Potamianos In IEEE Transactions on Knowledge and Data Engineering, Vol.22, Nu …