投稿日: その他 論文紹介

Bad News Travel Fast: A Content-based Analysis of Interestingness on Twitter

Nasir Naveed
Thomas Gottron
Jérôme Kunegis
Arifah Che Alhadi
In Proc. of WebSci 2011
http://dl.acm.org/citation.cfm?id=2527052&dl=ACM&coll=DL&CFID=472575376&CFTOKEN=83550246

概要

ツイッター上のツイートがリツイートされる確率を予測することを目的とした論文。フォロー関係などの情報は使わずに、ツイートの内容のみから確率の予測を試みている点に特徴がある。

手法

ロジスティック回帰を用いて確率を予測。使用する素性は以下のとおり。

  1. ツイートがリプライか否か
  2. ツイートにユーザ名、ハッシュタグ、URLが含まれるか否か
  3. ツイートに「!」と「?」が含まれるか否か
  4. ツイートにポジティブな単語、ネガティブな単語が含まれるか否か
  5. ツイートにポジティブな顔文字、ネガティブな顔文字が含まれるか否か
  6. ツイートのvalence (pleasure vs displeasure)、arousal (excitement vs calmness)、dominance (weakness vs strength)の度合い
  7. テストデータ内で、各単語を含むツイートのリツイートのされやすさを求め、それを元に対象のツイートがどの程度リツイートされやすいかをスコア化した値
  8. LDAを用いて求められた、ツイートのトピック

結果

重みがマイナスに大きかったのは素性1で、プラスに大きかったのは素性2のユーザ名とURL。
また、ポジティブなツイートよりもネガティブなツイートの方がリツイートされやすいこと、ツイートの最後が「?」のものは「!」のものよりリツイートされやすいことなどがわかった。
リツイートされやすいトピックはソーシャルメディア、経済、公式イベントなどで、リツイートされにくいトピックは自分の気分や天気に関するもの。


-その他, 論文紹介

関連記事

Regularization of Latent Variable Models to Obtain Sparsity

Ramnath Balasubramanyan, William W. Cohen In Proc. of SDM 2013 概要 LDAのようなトピックモデルでは、単語が所属するトピックの分布や、文 …

Predicting the popularity of web 2.0 items based on user comments

He, Xiangnan and Gao, Ming and Kan, Min-Yen and Liu, Yiqun and Sugiyama, Kazunari In Proc. of SIGIR …

Personalized Models of Search Satisfaction

Ahmed Hassan Ryen W. White In Proc. of CIKM 2013 概要 ユーザが検索セッションに対して満足したか,不満足だったかを知ることは検索エンジンの質を高めるうえ …

Using information scent and need for cognition to understand online search behavior

Wu, Wan-Ching Kelly, Diane Sud, Avneesh In Proc. of SIGIR2014 http://dl.acm.org/citation.cfm?id=2609 …

Modeling documents as mixtures of persons for expert finding

Serdyukov, Pavel Hiemstra, Djoerd In Proc. of ECIR2008 http://dl.acm.org/citation.cfm?id=1793313 概要 …