投稿日: その他 論文紹介

It Is Not Just What We Say, But How We Say Them: LDA-based Behavior-Topic Model

Qiu, Minghui and Zhu, Feida and Jiang, Jing
In Proc. of SDM 2013

概要

トピックモデルを用いて文書の生成過程をモデル化する際、通常は文書内の単語のみを考慮する。この論文では、文書内の単語に加えて、ユーザの振る舞いも考慮したモデルB-LDA(Bはbehaviorを表す)を提案。具体的には、Twitterを対象として、ユーザの振る舞いとしてツイートの投稿、リツイート、リプライ、メンションの4種類を考慮。

モデル

ユーザごとにトピック分布を持つ。Twitterのような短文を扱う際によく行われるように、ツイートごとにひとつのトピックを生成する。あるツイートtのトピックをzとすると、ツイート内の全ての単語はトピックzの単語分布から生成される。同時に、各トピックは振る舞いの確率分布も持つ。概要で述べたように、本研究で扱う振る舞いは4種類であり、4種類の各振る舞いの確率の和が1になるような分布になっている。ツイートtの振る舞い(リツイートかリプライか、など)は観測可能であり、トピックzの振る舞いの分布から振る舞いが生成される。

評価実験

比較手法として既存手法のTwitter-LDA(T-LDA)と通常のLDAを使用。

B-LDAではトピックごとに振る舞いの分布を持っている。トピックごとに分布のエントロピーを計算し、全トピックでの平均値を求めたときに、エントロピーが低いほど、トピックごとに振る舞いの偏りがあり、上手くモデル化できているとみなす。T-LDAとLDAでは振る舞いの分布は直接はモデル化されていないが、各ツイートのトピックと振る舞いからトピックごとの振る舞いの分布は計算できる。比較した結果、B-LDAのエントロピーの値が最も低くなっていた。

定性的な評価として、T-LDAではひとつのトピックとして表されているものが、B-LDAでは単語の分布は似ているが振る舞いの分布が異なる2つのトピックに分けられている例が紹介されている。さらに、定量的評価としてfolloweeの推薦精度の3手法での比較も行い、B-LDAが最も高い精度であることを検証している。


-その他, 論文紹介

関連記事

Mining long-term search history to improve search accuracy

Tan, Bin Shen, Xuehua Zhai, ChengXiang In Proc. of KDD2006 http://dl.acm.org/citation.cfm?id=1150493 …

Modeling documents as mixtures of persons for expert finding

Serdyukov, Pavel Hiemstra, Djoerd In Proc. of ECIR2008 http://dl.acm.org/citation.cfm?id=1793313 概要 …

Improving relevance judgment of web search results with image excerpts

Li, Zhiwei Shi, Shuming Zhang, Lei In Proc. of WWW2008 http://dl.acm.org/citation.cfm?id=1367497.136 …

Emotional Divergence Influences Information Spreading in Twitter

Rene Pfitzner Antonios Garas Frank Schweitzer In Proc. of ICWSM 2012 概要 ツイッターでリツイートされやすいツイートの性質を、ツイー …

On a Topic Model for Sentences

Balikas, Georgios and Amini, Massih-Reza and Clausel, Marianne In Proc. of SIGIR 2016 概要 通常のLDAでは文書ご …