投稿日: WSDM 論文紹介

What’s in a hashtag?: content based prediction of the spread of ideas in microblogging communities

sur, Oren
Rappoport, Ari
In Proc. of WSDM 2012
http://dl.acm.org/citation.cfm?id=2124320

概要

ツイッター上で、任意の時刻間のハッシュタグの出現頻度を予測することを目的とした論文。予測には線形回帰を使用。使用する素性はハッシュタグに関するもの、ツイートの内容に関するもの、ツイッター上のソーシャルグラフに関するもの、時間に関するもの、の4カテゴリ。

素性

4つの各カテゴリで使用する素性の詳細は以下の通り。

  • ハッシュタグ関連
  • 文字数、単語数、ツイート内でのハッシュタグの位置、人名を含むか否か、LIWCというツールを用いて分析した印象情報など。

  • ツイートの内容関連
  • ツイートに含まれる語の中で、ハッシュタグとの共起度の高い1000語を対象にしてLIWCを使用した印象情報。

  • ソーシャルグラフ関連
  • ハッシュタグを使用しているユーザの平均フォロワー数、最大フォロワー数、ハッシュタグの付いたツイートがリツイートされる確率。

  • 時間関連
  • ハッシュタグが初めて出現した週および、1週間後、2週間後、6週間後のハッシュタグ付きツイート数を調べ、前の期間に対するツイート数の増減度合いを使用。

実験

上記の全ての素性を使用した場合が最も精度高くハッシュタグ付きツイートの出現頻度を予測できていた。
各カテゴリの素性を単独で使用した場合、精度の高い順に時間関連、ソーシャルグラフ関連、ハッシュタグ関連、ツイートの内容関連であった。
時間関連の素性は、出現頻度のスパイクが1回あるハッシュタグに対する予測精度は高かったが、スパイクが複数回あるものに対しては精度が落ちる傾向にあった。


-WSDM, 論文紹介

関連記事

Optimizing Search by Showing Results In Context

Dumais, Susan Cutrell, Edward Chen, Hao In Proc. of CHI2001 http://dl.acm.org/citation.cfm?id=365116 …

Predicting web searcher satisfaction with existing community-based answers

Liu, Qiaoling Agichtein, Eugene Dror, Gideon Gabrilovich, Evgeniy Maarek, Yoelle Pelleg, Dan Szpekto …

Contextual queries express mobile information needs

Hinze, Annika M. Chang, Carole Nichols, David M. In Proc. of MobileHCI 2010 http://dl.acm.org/citati …

Bad News Travel Fast: A Content-based Analysis of Interestingness on Twitter

Nasir Naveed Thomas Gottron Jérôme Kunegis Arifah Che Alhadi In Proc. of WebSci 2011 http://dl.acm.o …

Mining Contentious Documents Using an Unsupervised Topic Model Based Approach

Amine, Trabelsi and Osmar R., Zaiane In Proc. of ICDM 2014 概要 ある話題に関する文書集合が与えられたときに、「賛成」や「反対」などの各観点( …