投稿日: WSDM 論文紹介

What’s in a hashtag?: content based prediction of the spread of ideas in microblogging communities

sur, Oren
Rappoport, Ari
In Proc. of WSDM 2012
http://dl.acm.org/citation.cfm?id=2124320

概要

ツイッター上で、任意の時刻間のハッシュタグの出現頻度を予測することを目的とした論文。予測には線形回帰を使用。使用する素性はハッシュタグに関するもの、ツイートの内容に関するもの、ツイッター上のソーシャルグラフに関するもの、時間に関するもの、の4カテゴリ。

素性

4つの各カテゴリで使用する素性の詳細は以下の通り。

  • ハッシュタグ関連
  • 文字数、単語数、ツイート内でのハッシュタグの位置、人名を含むか否か、LIWCというツールを用いて分析した印象情報など。

  • ツイートの内容関連
  • ツイートに含まれる語の中で、ハッシュタグとの共起度の高い1000語を対象にしてLIWCを使用した印象情報。

  • ソーシャルグラフ関連
  • ハッシュタグを使用しているユーザの平均フォロワー数、最大フォロワー数、ハッシュタグの付いたツイートがリツイートされる確率。

  • 時間関連
  • ハッシュタグが初めて出現した週および、1週間後、2週間後、6週間後のハッシュタグ付きツイート数を調べ、前の期間に対するツイート数の増減度合いを使用。

実験

上記の全ての素性を使用した場合が最も精度高くハッシュタグ付きツイートの出現頻度を予測できていた。
各カテゴリの素性を単独で使用した場合、精度の高い順に時間関連、ソーシャルグラフ関連、ハッシュタグ関連、ツイートの内容関連であった。
時間関連の素性は、出現頻度のスパイクが1回あるハッシュタグに対する予測精度は高かったが、スパイクが複数回あるものに対しては精度が落ちる傾向にあった。


-WSDM, 論文紹介

関連記事

Semantic Similarity Between Search Engine Queries Using Temporal Correlation

S. Chien, and N. Immorlica In Proc. of WWW 2005 http://dl.acm.org/citation.cfm?id=1060752 目的 クエリログを用 …

Statistical Models of Music-listening Sessions in Social Media

Zheleva, Elena and Guiver, John and Mendes Rodrigues, Eduarda and Milić-Frayling, Nataša In Proc. of …

【論文紹介】Matrix factorization techniques for context aware recommendation

Baltrunas, Linas and Ludwig, Bernd and Ricci, Francesco RecSys 2011 ACM, PDF 概要 コンテキストによるバイアスを考慮したレー …

Information Credibility on Twitter

Castillo, Carlos Mendoza, Marcelo Poblete, Barbara In Proc. of WWW 2011 http://dl.acm.org/citation.c …

Topic-Driven Reader Comments Summarization

Ma, Zongyang and Sun, Aixin and Yuan, Quan and Cong, Gao In Proc. of CIKM 2012 概要 ニュース記事のコメントをトピックごと …