投稿日: WSDM 論文紹介

What’s in a hashtag?: content based prediction of the spread of ideas in microblogging communities

sur, Oren
Rappoport, Ari
In Proc. of WSDM 2012
http://dl.acm.org/citation.cfm?id=2124320

概要

ツイッター上で、任意の時刻間のハッシュタグの出現頻度を予測することを目的とした論文。予測には線形回帰を使用。使用する素性はハッシュタグに関するもの、ツイートの内容に関するもの、ツイッター上のソーシャルグラフに関するもの、時間に関するもの、の4カテゴリ。

素性

4つの各カテゴリで使用する素性の詳細は以下の通り。

  • ハッシュタグ関連
  • 文字数、単語数、ツイート内でのハッシュタグの位置、人名を含むか否か、LIWCというツールを用いて分析した印象情報など。

  • ツイートの内容関連
  • ツイートに含まれる語の中で、ハッシュタグとの共起度の高い1000語を対象にしてLIWCを使用した印象情報。

  • ソーシャルグラフ関連
  • ハッシュタグを使用しているユーザの平均フォロワー数、最大フォロワー数、ハッシュタグの付いたツイートがリツイートされる確率。

  • 時間関連
  • ハッシュタグが初めて出現した週および、1週間後、2週間後、6週間後のハッシュタグ付きツイート数を調べ、前の期間に対するツイート数の増減度合いを使用。

実験

上記の全ての素性を使用した場合が最も精度高くハッシュタグ付きツイートの出現頻度を予測できていた。
各カテゴリの素性を単独で使用した場合、精度の高い順に時間関連、ソーシャルグラフ関連、ハッシュタグ関連、ツイートの内容関連であった。
時間関連の素性は、出現頻度のスパイクが1回あるハッシュタグに対する予測精度は高かったが、スパイクが複数回あるものに対しては精度が落ちる傾向にあった。


-WSDM, 論文紹介

関連記事

Everyday Life Music Information-Seeking Behaviour of Young Adults

Audrey Laplante J. Stephen Downie In Proc. of ISMIR 2006 概要 20人の若者を対象に、新しい音楽を探す際にとる行動についてインタビューを行い、結 …

AutoWeb: automatic classification of mobile web pages for revisitation

Liu, Jie Xu, Wenchang Shi, Yuanchun In Proc. of MobileHCI 2012 http://dl.acm.org/citation.cfm?id=237 …

Are Web User Comments Useful for Search?

Wai Gen Yee Andrew Yates Shizhu Liu Ophir Frieder In Proc. of LSDS-IR Workshop 2009 概要 YouTubeの動画を検索 …

【論文紹介】Regularising Factorised Models for Venue Recommendation using Friends and their Comments

Manotumruksa, Jarana and Macdonald, Craig and Ounis, Iadh CIKM 2016 ACM, PDF 概要 グラスゴー大学のIadh Ounisのグ …

Addressing people’s information needs directly in a web search result page

Chilton, Lydia B. Teevan, Jaime In Proc. of WWW 2011 http://dl.acm.org/citation.cfm?id=1963413 概要 最近 …