投稿日: SIGIR 論文紹介

Explainable User Clustering in Short Text Streams

Zhao, Yukun and Liang, Shangsong and Ren, Zhaochun and Ma, Jun and Yilmaz, Emine and de Rijke, Maarten
In Proc. of SIGIR 2016

概要

Twitterユーザの興味の時間的な推移を考慮しながら、その時々でのユーザの興味に応じて、似た興味を持つユーザ同士をクラスタリングすることを目的とした論文。ユーザの興味を推定するためにトピックモデルを使用しており、時刻tにおけるユーザのトピック分布とトピックの単語分布が時刻t-1のそれぞれの分布に依存して決まるモデルを提案している。

先行研究との違い

時刻に依存しない情報を利用してユーザをクラスタリングする研究はあったが、この研究では時刻に依存したユーザの興味に応じてユーザをクラスタリングしている。

手法

大きく分けて以下の3ステップから成る。

  1. ツイートからの単語ペアの抽出
  2. ストップワード除去後のツイートから、あらゆる2単語のペアを作成する。

  3. トピックモデルを用いたユーザの興味推定
  4. 提案モデルでは、ユーザ毎にトピック(興味)の分布を持ち、その分布から、ステップ1で抽出した単語ペアごとにトピックがひとつ生成される。また、時刻tにおけるユーザのトピック分布とトピックの単語分布は時刻t-1のそれぞれの分布に依存して決まる。

  5. ユーザのクラスタリング
  6. 各ユーザのトピック分布を利用して、K-meansによりユーザをクラスタリング。クラスタ数はトピック数と同じ値を用いる。時刻tで初めて登場したユーザに対しても、時刻tでのそのユーザのツイート内容からトピック分布を推定することでクラスタリングの対象に含めることを可能としている。

評価

1375名の378万ツイートを使用。時刻tの粒度として週単位、月単位、四半期単位、半年単位、年単位を使用。正解データとして、各粒度において1375名のユーザを人手でクラスタリング。週単位の場合、クラスタ数は48から60であった。

Dynamic topic modelやTopic tracking modelなどをベースライン手法として、ARIやH-scoreなどのクラスタリングの精度を測る指標を使って評価。

特定のユーザの月ごとの興味の移り変わりを、各月で興味の強いトピック内の語集合を示すことで定性的に評価。

関連研究

  • クラスタリングの評価指標:Normalized Mutual Information (NMI)
  • C. D. Manning, P. Raghavan, and H. Schütze. Introduction to information retrieval. Cambridge university press, 2008.

  • クラスタリングの評価指標:Adjusted Rand Index (ARI)
  • L. Hubert and P. Arabie. Comparing partitions. J. Classification, 1(2):193–218, 1985.

  • クラスタリングの評価指標:H-score
  • X. Cheng, X. Yan, Y. Lan, and J. Guo. A biterm topic model for short texts. In WWW, pages 1445–1456. ACM, 2013.


-SIGIR, 論文紹介

関連記事

Identifying breakpoints in public opinion

Akcora, Cuneyt Gurcan Bayir, Murat Ali Demirbas, Murat Ferhatosmanoglu, Hakan In Proc. of SOMA 2010 …

Retrieval models for question and answer archives

Xue, Xiaobing Jeon, Jiwoon Croft, W. Bruce In Proc. of SIGIR 2008 http://dl.acm.org/citation.cfm?id= …

Search engine click spam detection based on bipartite graph propagation

Li, Xin Zhang, Min Liu, Yiqun Ma, Shaoping Jin, Yijiang Ru, Liyun In Proc. of WSDM 2014 http://dl.ac …

Time-critical search

Mishra, Nina and White, Ryen W. and Ieong, Samuel and Horvitz, Eric In Proc. of SIGIR 2014 概要 一緒にいる人 …

Characterizing the influence of domain expertise on web search behavior

White, Ryen W. Dumais, Susan T. Teevan, Jaime In Proc. of WSDM 2009 http://dl.acm.org/citation.cfm?i …