投稿日: SIGIR 論文紹介

Explainable User Clustering in Short Text Streams

Zhao, Yukun and Liang, Shangsong and Ren, Zhaochun and Ma, Jun and Yilmaz, Emine and de Rijke, Maarten
In Proc. of SIGIR 2016

概要

Twitterユーザの興味の時間的な推移を考慮しながら、その時々でのユーザの興味に応じて、似た興味を持つユーザ同士をクラスタリングすることを目的とした論文。ユーザの興味を推定するためにトピックモデルを使用しており、時刻tにおけるユーザのトピック分布とトピックの単語分布が時刻t-1のそれぞれの分布に依存して決まるモデルを提案している。

先行研究との違い

時刻に依存しない情報を利用してユーザをクラスタリングする研究はあったが、この研究では時刻に依存したユーザの興味に応じてユーザをクラスタリングしている。

手法

大きく分けて以下の3ステップから成る。

  1. ツイートからの単語ペアの抽出
  2. ストップワード除去後のツイートから、あらゆる2単語のペアを作成する。

  3. トピックモデルを用いたユーザの興味推定
  4. 提案モデルでは、ユーザ毎にトピック(興味)の分布を持ち、その分布から、ステップ1で抽出した単語ペアごとにトピックがひとつ生成される。また、時刻tにおけるユーザのトピック分布とトピックの単語分布は時刻t-1のそれぞれの分布に依存して決まる。

  5. ユーザのクラスタリング
  6. 各ユーザのトピック分布を利用して、K-meansによりユーザをクラスタリング。クラスタ数はトピック数と同じ値を用いる。時刻tで初めて登場したユーザに対しても、時刻tでのそのユーザのツイート内容からトピック分布を推定することでクラスタリングの対象に含めることを可能としている。

評価

1375名の378万ツイートを使用。時刻tの粒度として週単位、月単位、四半期単位、半年単位、年単位を使用。正解データとして、各粒度において1375名のユーザを人手でクラスタリング。週単位の場合、クラスタ数は48から60であった。

Dynamic topic modelやTopic tracking modelなどをベースライン手法として、ARIやH-scoreなどのクラスタリングの精度を測る指標を使って評価。

特定のユーザの月ごとの興味の移り変わりを、各月で興味の強いトピック内の語集合を示すことで定性的に評価。

関連研究

  • クラスタリングの評価指標:Normalized Mutual Information (NMI)
  • C. D. Manning, P. Raghavan, and H. Schütze. Introduction to information retrieval. Cambridge university press, 2008.

  • クラスタリングの評価指標:Adjusted Rand Index (ARI)
  • L. Hubert and P. Arabie. Comparing partitions. J. Classification, 1(2):193–218, 1985.

  • クラスタリングの評価指標:H-score
  • X. Cheng, X. Yan, Y. Lan, and J. Guo. A biterm topic model for short texts. In WWW, pages 1445–1456. ACM, 2013.


-SIGIR, 論文紹介

関連記事

Efficiently answering top-k typicality queries on large databases

Hua, Ming Pei, Jian Fu, Ada W. C. Lin, Xuemin Leung, Ho-Fung In Proc. of VLDB 2007 http://dl.acm.org …

Statistical Models of Music-listening Sessions in Social Media

Zheleva, Elena and Guiver, John and Mendes Rodrigues, Eduarda and Milić-Frayling, Nataša In Proc. of …

Can social features help learning to rank youtube videos?

Chelaru, Sergiu Viorel Orellana-Rodriguez, Claudia Altingovde, Ismail Sengor In Proc. of WISE 2012 概 …

Experiments with a Venue-Centric Model for Personalisedand Time-Aware Venue Suggestion

Deveaud, Romain and Albakour, M-Dyaa and Macdonald, Craig and Ounis, Iadh In Proc. of CIKM 2015 概要 ユ …

Lessons from the Journey: A Query Log Analysis of Within-Session Learning

Carsten Eickhoff Jaime Teevan Ryen White Susan T. Dumais In Proc. of WSDM 2014 概要 ユーザの検索トピックに対する専門度は …