投稿日: SIGIR 論文紹介

Explainable User Clustering in Short Text Streams

Zhao, Yukun and Liang, Shangsong and Ren, Zhaochun and Ma, Jun and Yilmaz, Emine and de Rijke, Maarten
In Proc. of SIGIR 2016

概要

Twitterユーザの興味の時間的な推移を考慮しながら、その時々でのユーザの興味に応じて、似た興味を持つユーザ同士をクラスタリングすることを目的とした論文。ユーザの興味を推定するためにトピックモデルを使用しており、時刻tにおけるユーザのトピック分布とトピックの単語分布が時刻t-1のそれぞれの分布に依存して決まるモデルを提案している。

先行研究との違い

時刻に依存しない情報を利用してユーザをクラスタリングする研究はあったが、この研究では時刻に依存したユーザの興味に応じてユーザをクラスタリングしている。

手法

大きく分けて以下の3ステップから成る。

  1. ツイートからの単語ペアの抽出
  2. ストップワード除去後のツイートから、あらゆる2単語のペアを作成する。

  3. トピックモデルを用いたユーザの興味推定
  4. 提案モデルでは、ユーザ毎にトピック(興味)の分布を持ち、その分布から、ステップ1で抽出した単語ペアごとにトピックがひとつ生成される。また、時刻tにおけるユーザのトピック分布とトピックの単語分布は時刻t-1のそれぞれの分布に依存して決まる。

  5. ユーザのクラスタリング
  6. 各ユーザのトピック分布を利用して、K-meansによりユーザをクラスタリング。クラスタ数はトピック数と同じ値を用いる。時刻tで初めて登場したユーザに対しても、時刻tでのそのユーザのツイート内容からトピック分布を推定することでクラスタリングの対象に含めることを可能としている。

評価

1375名の378万ツイートを使用。時刻tの粒度として週単位、月単位、四半期単位、半年単位、年単位を使用。正解データとして、各粒度において1375名のユーザを人手でクラスタリング。週単位の場合、クラスタ数は48から60であった。

Dynamic topic modelやTopic tracking modelなどをベースライン手法として、ARIやH-scoreなどのクラスタリングの精度を測る指標を使って評価。

特定のユーザの月ごとの興味の移り変わりを、各月で興味の強いトピック内の語集合を示すことで定性的に評価。

関連研究

  • クラスタリングの評価指標:Normalized Mutual Information (NMI)
  • C. D. Manning, P. Raghavan, and H. Schütze. Introduction to information retrieval. Cambridge university press, 2008.

  • クラスタリングの評価指標:Adjusted Rand Index (ARI)
  • L. Hubert and P. Arabie. Comparing partitions. J. Classification, 1(2):193–218, 1985.

  • クラスタリングの評価指標:H-score
  • X. Cheng, X. Yan, Y. Lan, and J. Guo. A biterm topic model for short texts. In WWW, pages 1445–1456. ACM, 2013.


-SIGIR, 論文紹介

関連記事

Addressing people’s information needs directly in a web search result page

Chilton, Lydia B. Teevan, Jaime In Proc. of WWW 2011 http://dl.acm.org/citation.cfm?id=1963413 概要 最近 …

Spatial influence vs. community influence: modeling the global spread of social media

Kamath, Krishna Y. Caverlee, James Cheng, Zhiyuan Sui, Daniel Z. In Proc. of CIKM 2012 http://dl.acm …

On a Topic Model for Sentences

Balikas, Georgios and Amini, Massih-Reza and Clausel, Marianne In Proc. of SIGIR 2016 概要 通常のLDAでは文書ご …

Modeling documents as mixtures of persons for expert finding

Serdyukov, Pavel Hiemstra, Djoerd In Proc. of ECIR2008 http://dl.acm.org/citation.cfm?id=1793313 概要 …

The Last Click: Why Users Give up Information Network Navigation

Aju Thalappillil Scaria Rose Marie Philip Robert West Jure Leskovec In Proc. of WSDM 2014 概要 リンクをたどっ …