投稿日: その他 論文紹介

Modeling User Interest and Community Interest in Microbloggings: An Integrated Approach

Tuan-Anh Hoang
In Proc. of PAKDD 2015

概要

ツイッターユーザの興味と所属するコミュニティを、ユーザのツイート内容と振る舞い(リツイート、メンション、ハッシュタグの使用)から推定することを目的とした論文。

先行研究との違い

ツイート内容と振る舞いの両方を同時に考慮してユーザの興味とコミュニティをモデル化した研究は初めて。
また、政治コミュニティに属しているユーザであってもエンタメに興味を持つこともあるため、個人の興味とコミュニティの興味を分けて扱っている点も特徴である。

手法

トピックモデルを使用。ユーザはひとつのコミュニティにのみ属すると仮定している。ユーザごとに、ユーザのツイート内の単語やツイッター上での振る舞いが、ユーザ個人の興味とコミュニティの興味のどちらにどの程度影響を受けて生成されるかを表すベルヌーイ分布を持つ(例:ユーザAは個人の興味の影響度0.3、コミュニティの興味の影響度0.7)。

一部のユーザのコミュニティを人手でラベル付けして、それを教師データに使用することで、半教師ありトピックモデルに拡張。

さらに、既存研究(論文紹介はこちら)の手法を使うことで、特定のコミュニティでのみ生起確率が高くなるような質の高いトピックを抽出しやすくしている。これは、「グルメ」のような、どのコミュニティでもそこそこ生起確率が高くなるようなトピックの抽出を防ぐことを目的としている。

評価

ツイッターでsoftware engineeringに興味のある約1.5万ユーザを収集。うち3023ユーザにはdeveloperコミュニティかmarketerコミュニティのいずれに属するかを人手でラベル付け。つまりコミュニティ数は2。このデータを教師データおよび、ユーザの所属するコミュニティ推定結果の評価に使用。

評価には他にも、テストデータで計算されるperplexityを用いた定量的評価や、各コミュニティで生起確率の高いトピックの定性的評価を行っている。


-その他, 論文紹介

関連記事

Tagging Your Tweets: A Probabilistic Modeling of Hashtag Annotation in Twitter

Ma, Zongyang Sun, Aixin Yuan, Quan Cong, Gao In Proc. of CIKM2014 http://dl.acm.org/citation.cfm?id= …

Efficient multiple-click models in web search

Guo, Fan Liu, Chao Wang, Yi Min In Proc. of WSDM2009 概要 クリックモデルに関するこれまでの研究では、ユーザはクエリを入力して1度検索結果をクリック …

Can social features help learning to rank youtube videos?

Chelaru, Sergiu Viorel Orellana-Rodriguez, Claudia Altingovde, Ismail Sengor In Proc. of WISE 2012 概 …

Measuring Pair-Wise Social Influence in Microblog

Zibin Yin Ya Zhang In Proc. of SocialCom 2012 概要 Weibo上でのリツイートのモデル化を提案。提案モデルを使うことで、ユーザAのツイートがフォロワーのユ …

Explainable User Clustering in Short Text Streams

Zhao, Yukun and Liang, Shangsong and Ren, Zhaochun and Ma, Jun and Yilmaz, Emine and de Rijke, Maart …