投稿日: その他 論文紹介

Regularization of Latent Variable Models to Obtain Sparsity

Ramnath Balasubramanyan, William W. Cohen
In Proc. of SDM 2013

概要

LDAのようなトピックモデルでは、単語が所属するトピックの分布や、文書が所属するトピックの分布が一様分布に近くなる、つまりエントロピーが高くなり、その結果としてモデル化の精度が落ちるということが起こりうる。この論文では、エントロピーが高いときにペナルティを課すようにしてエントロピーを低く抑える手法を提案し、各トピックの特徴をより明確にしてモデルの精度を上げることを達成した。

手法

単語のトピック分布に偏りを持たせる場合について説明する。トピックモデルでは、単語wの各トピックでの生起確率が計算できるので、その分布からwのエントロピーHwを計算する。ここで、単語ごとに擬似観測変数lwを導入する。lwは平均がHw、分散がσwの正規分布から生成されるとする。つまり、すべての単語に対してlw=0とすれば、Hw=0となるべきであり、エントロピーが0なので各単語は1つのトピックにのみ所属することになる。実際、この論文ではすべての単語に対してlw=0としている。また、σwの値を小さくすることで、lwが0以外の状態を想定しない度合いが強くなり、トピックの分布により偏りを持たせることができる。

この正規分布からのlwの生成確率を同時分布に組み込むことで、Hwのエントロピーが高くなるほど尤度が低くなるようにしている。

評価方法

使用するデータはamazonのレビュー情報と、映画のレビュー情報。

全単語のエントロピーの平均値を計算したところ、通常のトピックモデルよりも提案モデルの方がその値は低くなっており、分布に偏りを持たせることができていることを示した。また、σwの値を小さくするほどエントロピーが低くなることも示した。

通常のトピックモデル、σw=0.5とした提案モデル、σw=0.2とした提案モデルでperplexityを計算したところ、σw=0.5の時が最もperplexityが小さくなった。この結果から、単純にσwを小さくしてトピックの分布の偏りを大きくするほど良いわけではなく、適度に偏りを持たせる必要があることを示した。


-その他, 論文紹介

関連記事

Modeling Paying Behavior in Game Social Networks

Fang, Zhanpeng and Zhou, Xinyu and Tang, Jie and Shao, Wei and Fong, A.C.M. and Sun, Longjun and Din …

Predicting clicks: estimating the click-through rate for new ads

Richardson, Matthew Dominowska, Ewa Ragno, Robert In Proc. of WWW2007 概要 検索結果の横に表示される広告のCTRの推定を目的として …

Happy, Nervous or Surprised? Classification of Human Affective States in Social Media

Munmun De Choudhury Michael Gamon Scott Counts In Proc. of ICWSM 2012 概要 ツイートを11種類の感情に分類することを目的とした論文 …

Personalized Diversification of Search Results

D. Vallet and P. Castells In Proc. of SIGIR 2012 http://dl.acm.org/citation.cfm?id=2348396 目的 検索結果の多 …

Music on YouTube: User engagement with traditional, user-appropriated and derivative videos

Liikkanen, Lassi A. and Salovaara, Antti In Computers in Human Behavior, vol. 50 概要 YouTubeの音楽動画を対象に …