投稿日: SIGIR 論文紹介

Explainable User Clustering in Short Text Streams

Zhao, Yukun and Liang, Shangsong and Ren, Zhaochun and Ma, Jun and Yilmaz, Emine and de Rijke, Maarten
In Proc. of SIGIR 2016

概要

Twitterユーザの興味の時間的な推移を考慮しながら、その時々でのユーザの興味に応じて、似た興味を持つユーザ同士をクラスタリングすることを目的とした論文。ユーザの興味を推定するためにトピックモデルを使用しており、時刻tにおけるユーザのトピック分布とトピックの単語分布が時刻t-1のそれぞれの分布に依存して決まるモデルを提案している。

先行研究との違い

時刻に依存しない情報を利用してユーザをクラスタリングする研究はあったが、この研究では時刻に依存したユーザの興味に応じてユーザをクラスタリングしている。

手法

大きく分けて以下の3ステップから成る。

  1. ツイートからの単語ペアの抽出
  2. ストップワード除去後のツイートから、あらゆる2単語のペアを作成する。

  3. トピックモデルを用いたユーザの興味推定
  4. 提案モデルでは、ユーザ毎にトピック(興味)の分布を持ち、その分布から、ステップ1で抽出した単語ペアごとにトピックがひとつ生成される。また、時刻tにおけるユーザのトピック分布とトピックの単語分布は時刻t-1のそれぞれの分布に依存して決まる。

  5. ユーザのクラスタリング
  6. 各ユーザのトピック分布を利用して、K-meansによりユーザをクラスタリング。クラスタ数はトピック数と同じ値を用いる。時刻tで初めて登場したユーザに対しても、時刻tでのそのユーザのツイート内容からトピック分布を推定することでクラスタリングの対象に含めることを可能としている。

評価

1375名の378万ツイートを使用。時刻tの粒度として週単位、月単位、四半期単位、半年単位、年単位を使用。正解データとして、各粒度において1375名のユーザを人手でクラスタリング。週単位の場合、クラスタ数は48から60であった。

Dynamic topic modelやTopic tracking modelなどをベースライン手法として、ARIやH-scoreなどのクラスタリングの精度を測る指標を使って評価。

特定のユーザの月ごとの興味の移り変わりを、各月で興味の強いトピック内の語集合を示すことで定性的に評価。

関連研究

  • クラスタリングの評価指標:Normalized Mutual Information (NMI)
  • C. D. Manning, P. Raghavan, and H. Schütze. Introduction to information retrieval. Cambridge university press, 2008.

  • クラスタリングの評価指標:Adjusted Rand Index (ARI)
  • L. Hubert and P. Arabie. Comparing partitions. J. Classification, 1(2):193–218, 1985.

  • クラスタリングの評価指標:H-score
  • X. Cheng, X. Yan, Y. Lan, and J. Guo. A biterm topic model for short texts. In WWW, pages 1445–1456. ACM, 2013.


-SIGIR, 論文紹介

関連記事

【論文紹介】Online Actions with Offline Impact: How Online Social Networks Influence Online and Offline User Behavior

Althoff, Tim and Jindal, Pranav and Leskovec, Jure In Proc. of WSDM 2017 概要 スマホのArgusという活動記録アプリのログから …

Measuring Pair-Wise Social Influence in Microblog

Zibin Yin Ya Zhang In Proc. of SocialCom 2012 概要 Weibo上でのリツイートのモデル化を提案。提案モデルを使うことで、ユーザAのツイートがフォロワーのユ …

Where you Instagram?: Associating Your Instagram Photos with Points of Interest

Li, Xutao and Pham, Tuan-Anh Nguyen and Cong, Gao and Yuan, Quan and Li, Xiao-Li and Krishnaswamy, S …

Predicting web searcher satisfaction with existing community-based answers

Liu, Qiaoling Agichtein, Eugene Dror, Gideon Gabrilovich, Evgeniy Maarek, Yoelle Pelleg, Dan Szpekto …

Spatio-temporal Dynamics of Online Memes: A Study of Geo-tagged Tweets

Kamath, Krishna Y. Caverlee, James Lee, Kyumin Cheng, Zhiyuan In Proc. of WWW 2013 http://dl.acm.org …