投稿日: その他 論文紹介

Modeling User Interest and Community Interest in Microbloggings: An Integrated Approach

Tuan-Anh Hoang
In Proc. of PAKDD 2015

概要

ツイッターユーザの興味と所属するコミュニティを、ユーザのツイート内容と振る舞い(リツイート、メンション、ハッシュタグの使用)から推定することを目的とした論文。

先行研究との違い

ツイート内容と振る舞いの両方を同時に考慮してユーザの興味とコミュニティをモデル化した研究は初めて。
また、政治コミュニティに属しているユーザであってもエンタメに興味を持つこともあるため、個人の興味とコミュニティの興味を分けて扱っている点も特徴である。

手法

トピックモデルを使用。ユーザはひとつのコミュニティにのみ属すると仮定している。ユーザごとに、ユーザのツイート内の単語やツイッター上での振る舞いが、ユーザ個人の興味とコミュニティの興味のどちらにどの程度影響を受けて生成されるかを表すベルヌーイ分布を持つ(例:ユーザAは個人の興味の影響度0.3、コミュニティの興味の影響度0.7)。

一部のユーザのコミュニティを人手でラベル付けして、それを教師データに使用することで、半教師ありトピックモデルに拡張。

さらに、既存研究(論文紹介はこちら)の手法を使うことで、特定のコミュニティでのみ生起確率が高くなるような質の高いトピックを抽出しやすくしている。これは、「グルメ」のような、どのコミュニティでもそこそこ生起確率が高くなるようなトピックの抽出を防ぐことを目的としている。

評価

ツイッターでsoftware engineeringに興味のある約1.5万ユーザを収集。うち3023ユーザにはdeveloperコミュニティかmarketerコミュニティのいずれに属するかを人手でラベル付け。つまりコミュニティ数は2。このデータを教師データおよび、ユーザの所属するコミュニティ推定結果の評価に使用。

評価には他にも、テストデータで計算されるperplexityを用いた定量的評価や、各コミュニティで生起確率の高いトピックの定性的評価を行っている。


-その他, 論文紹介

関連記事

A Study of Mobile Search Queries in Japan

Ricardo Baeza-yates Georges Dupret Javier Velasco In Proc. of WWW2007 概要 デスクトップ検索とモバイル検索の日本語のクエリログに着 …

Search engine click spam detection based on bipartite graph propagation

Li, Xin Zhang, Min Liu, Yiqun Ma, Shaoping Jin, Yijiang Ru, Liyun In Proc. of WSDM 2014 http://dl.ac …

Mining long-term search history to improve search accuracy

Tan, Bin Shen, Xuehua Zhai, ChengXiang In Proc. of KDD2006 http://dl.acm.org/citation.cfm?id=1150493 …

Predicting clicks: estimating the click-through rate for new ads

Richardson, Matthew Dominowska, Ewa Ragno, Robert In Proc. of WWW2007 概要 検索結果の横に表示される広告のCTRの推定を目的として …

User see, user point: gaze and cursor alignment in web search

Huang, Jeff White, Ryen Buscher, Georg In Proc. of CHI 2012 http://dl.acm.org/citation.cfm?id=220859 …