投稿日: WSDM 論文紹介

What’s in a hashtag?: content based prediction of the spread of ideas in microblogging communities

sur, Oren
Rappoport, Ari
In Proc. of WSDM 2012
http://dl.acm.org/citation.cfm?id=2124320

概要

ツイッター上で、任意の時刻間のハッシュタグの出現頻度を予測することを目的とした論文。予測には線形回帰を使用。使用する素性はハッシュタグに関するもの、ツイートの内容に関するもの、ツイッター上のソーシャルグラフに関するもの、時間に関するもの、の4カテゴリ。

素性

4つの各カテゴリで使用する素性の詳細は以下の通り。

  • ハッシュタグ関連
  • 文字数、単語数、ツイート内でのハッシュタグの位置、人名を含むか否か、LIWCというツールを用いて分析した印象情報など。

  • ツイートの内容関連
  • ツイートに含まれる語の中で、ハッシュタグとの共起度の高い1000語を対象にしてLIWCを使用した印象情報。

  • ソーシャルグラフ関連
  • ハッシュタグを使用しているユーザの平均フォロワー数、最大フォロワー数、ハッシュタグの付いたツイートがリツイートされる確率。

  • 時間関連
  • ハッシュタグが初めて出現した週および、1週間後、2週間後、6週間後のハッシュタグ付きツイート数を調べ、前の期間に対するツイート数の増減度合いを使用。

実験

上記の全ての素性を使用した場合が最も精度高くハッシュタグ付きツイートの出現頻度を予測できていた。
各カテゴリの素性を単独で使用した場合、精度の高い順に時間関連、ソーシャルグラフ関連、ハッシュタグ関連、ツイートの内容関連であった。
時間関連の素性は、出現頻度のスパイクが1回あるハッシュタグに対する予測精度は高かったが、スパイクが複数回あるものに対しては精度が落ちる傾向にあった。


-WSDM, 論文紹介

関連記事

Semantic Similarity Between Search Engine Queries Using Temporal Correlation

S. Chien, and N. Immorlica In Proc. of WWW 2005 http://dl.acm.org/citation.cfm?id=1060752 目的 クエリログを用 …

Ready to buy or just browsing?: detecting web searcher goals from interaction data

Guo, Qi Agichtein, Eugene In Proc. of SIGIR 2010 http://dl.acm.org/citation.cfm?id=1835473 概要 ユーザの検索 …

User see, user point: gaze and cursor alignment in web search

Huang, Jeff White, Ryen Buscher, Georg In Proc. of CHI 2012 http://dl.acm.org/citation.cfm?id=220859 …

Unexpected Relevance: An Empirical Study of Serendipity in Retweets

Tao Sun Ming Zhang Qiaozhu Mei In Proc. of ICWSM 2013 概要 Serendipityな情報とはどのようなものかを定義した論文.また,その定義に基づい …

A comparison of visual and textual page previews in judging the helpfulness of web pages

Aula, Anne Khan, Rehan M. Guan, Zhiwei Fontes, Paul Hong, Peter In Proc. of WWW2010 http://dl.acm.or …