投稿日: その他 論文紹介

Regularization of Latent Variable Models to Obtain Sparsity

Ramnath Balasubramanyan, William W. Cohen
In Proc. of SDM 2013

概要

LDAのようなトピックモデルでは、単語が所属するトピックの分布や、文書が所属するトピックの分布が一様分布に近くなる、つまりエントロピーが高くなり、その結果としてモデル化の精度が落ちるということが起こりうる。この論文では、エントロピーが高いときにペナルティを課すようにしてエントロピーを低く抑える手法を提案し、各トピックの特徴をより明確にしてモデルの精度を上げることを達成した。

手法

単語のトピック分布に偏りを持たせる場合について説明する。トピックモデルでは、単語wの各トピックでの生起確率が計算できるので、その分布からwのエントロピーHwを計算する。ここで、単語ごとに擬似観測変数lwを導入する。lwは平均がHw、分散がσwの正規分布から生成されるとする。つまり、すべての単語に対してlw=0とすれば、Hw=0となるべきであり、エントロピーが0なので各単語は1つのトピックにのみ所属することになる。実際、この論文ではすべての単語に対してlw=0としている。また、σwの値を小さくすることで、lwが0以外の状態を想定しない度合いが強くなり、トピックの分布により偏りを持たせることができる。

この正規分布からのlwの生成確率を同時分布に組み込むことで、Hwのエントロピーが高くなるほど尤度が低くなるようにしている。

評価方法

使用するデータはamazonのレビュー情報と、映画のレビュー情報。

全単語のエントロピーの平均値を計算したところ、通常のトピックモデルよりも提案モデルの方がその値は低くなっており、分布に偏りを持たせることができていることを示した。また、σwの値を小さくするほどエントロピーが低くなることも示した。

通常のトピックモデル、σw=0.5とした提案モデル、σw=0.2とした提案モデルでperplexityを計算したところ、σw=0.5の時が最もperplexityが小さくなった。この結果から、単純にσwを小さくしてトピックの分布の偏りを大きくするほど良いわけではなく、適度に偏りを持たせる必要があることを示した。


-その他, 論文紹介

関連記事

Tagging Your Tweets: A Probabilistic Modeling of Hashtag Annotation in Twitter

Ma, Zongyang Sun, Aixin Yuan, Quan Cong, Gao In Proc. of CIKM2014 http://dl.acm.org/citation.cfm?id= …

【論文紹介】Cats and Captions vs. User Characteristics and the Clock: A Time-Controlled Analysis of Multimodal Content

Hessel, Jack and Lee, Lillian and Mimno David In Proc. of WWW 2017 概要 Redditと呼ばれるソーシャルニュースサイトに投稿された画 …

Your neighbors affect your ratings: on geographical neighborhood influence to rating prediction

Hu, Longke and Sun, Aixin and Liu, Yong In Proc. of SIGIR 2014 概要 店sの周辺の店の情報を利用することで、ユーザuのsに対するレーティン …

Improving relevance judgment of web search results with image excerpts

Li, Zhiwei Shi, Shuming Zhang, Lei In Proc. of WWW2008 http://dl.acm.org/citation.cfm?id=1367497.136 …

Quantifying Controversy in Social Media

Garimella, Kiran De Francisci Morales, Gianmarco Gionis, Aristides Mathioudakis, Michael In Proc. of …