投稿日: その他 論文紹介

It Is Not Just What We Say, But How We Say Them: LDA-based Behavior-Topic Model

Qiu, Minghui and Zhu, Feida and Jiang, Jing
In Proc. of SDM 2013

概要

トピックモデルを用いて文書の生成過程をモデル化する際、通常は文書内の単語のみを考慮する。この論文では、文書内の単語に加えて、ユーザの振る舞いも考慮したモデルB-LDA(Bはbehaviorを表す)を提案。具体的には、Twitterを対象として、ユーザの振る舞いとしてツイートの投稿、リツイート、リプライ、メンションの4種類を考慮。

モデル

ユーザごとにトピック分布を持つ。Twitterのような短文を扱う際によく行われるように、ツイートごとにひとつのトピックを生成する。あるツイートtのトピックをzとすると、ツイート内の全ての単語はトピックzの単語分布から生成される。同時に、各トピックは振る舞いの確率分布も持つ。概要で述べたように、本研究で扱う振る舞いは4種類であり、4種類の各振る舞いの確率の和が1になるような分布になっている。ツイートtの振る舞い(リツイートかリプライか、など)は観測可能であり、トピックzの振る舞いの分布から振る舞いが生成される。

評価実験

比較手法として既存手法のTwitter-LDA(T-LDA)と通常のLDAを使用。

B-LDAではトピックごとに振る舞いの分布を持っている。トピックごとに分布のエントロピーを計算し、全トピックでの平均値を求めたときに、エントロピーが低いほど、トピックごとに振る舞いの偏りがあり、上手くモデル化できているとみなす。T-LDAとLDAでは振る舞いの分布は直接はモデル化されていないが、各ツイートのトピックと振る舞いからトピックごとの振る舞いの分布は計算できる。比較した結果、B-LDAのエントロピーの値が最も低くなっていた。

定性的な評価として、T-LDAではひとつのトピックとして表されているものが、B-LDAでは単語の分布は似ているが振る舞いの分布が異なる2つのトピックに分けられている例が紹介されている。さらに、定量的評価としてfolloweeの推薦精度の3手法での比較も行い、B-LDAが最も高い精度であることを検証している。


-その他, 論文紹介

関連記事

Struggling or Exploring? Disambiguating Search Sessions

Ahmed Hassan Ryen W. White Susan Dumais Yi-Min Wang In Proc. of WSDM2014 概要 長い検索セッションには,ユーザが情報の探索をして …

Mobile App Retrieval for Social Media Users via Inference of Implicit Intent in Social Media Text

Park, Dae Hoon and Fang, Yi and Liu, Mengwen and Zhai, ChengXiang In Proc. of CIKM 2016 概要 ツイートに含まれる …

【論文紹介】Matrix factorization techniques for context aware recommendation

Baltrunas, Linas and Ludwig, Bernd and Ricci, Francesco RecSys 2011 Link 概要 コンテキストによるバイアスを考慮したレーティング …

Who Will You “@”?

Gong, Yeyun and Zhang, Qi and Sun, Xuyang and Huang, Xuanjing In Proc. of CIKM 2015 概要 Twitterではリプライ …

Mining Contentious Documents Using an Unsupervised Topic Model Based Approach

Amine, Trabelsi and Osmar R., Zaiane In Proc. of ICDM 2014 概要 ある話題に関する文書集合が与えられたときに、「賛成」や「反対」などの各観点( …