投稿日: その他 論文紹介

Regularization of Latent Variable Models to Obtain Sparsity

Ramnath Balasubramanyan, William W. Cohen
In Proc. of SDM 2013

概要

LDAのようなトピックモデルでは、単語が所属するトピックの分布や、文書が所属するトピックの分布が一様分布に近くなる、つまりエントロピーが高くなり、その結果としてモデル化の精度が落ちるということが起こりうる。この論文では、エントロピーが高いときにペナルティを課すようにしてエントロピーを低く抑える手法を提案し、各トピックの特徴をより明確にしてモデルの精度を上げることを達成した。

手法

単語のトピック分布に偏りを持たせる場合について説明する。トピックモデルでは、単語wの各トピックでの生起確率が計算できるので、その分布からwのエントロピーHwを計算する。ここで、単語ごとに擬似観測変数lwを導入する。lwは平均がHw、分散がσwの正規分布から生成されるとする。つまり、すべての単語に対してlw=0とすれば、Hw=0となるべきであり、エントロピーが0なので各単語は1つのトピックにのみ所属することになる。実際、この論文ではすべての単語に対してlw=0としている。また、σwの値を小さくすることで、lwが0以外の状態を想定しない度合いが強くなり、トピックの分布により偏りを持たせることができる。

この正規分布からのlwの生成確率を同時分布に組み込むことで、Hwのエントロピーが高くなるほど尤度が低くなるようにしている。

評価方法

使用するデータはamazonのレビュー情報と、映画のレビュー情報。

全単語のエントロピーの平均値を計算したところ、通常のトピックモデルよりも提案モデルの方がその値は低くなっており、分布に偏りを持たせることができていることを示した。また、σwの値を小さくするほどエントロピーが低くなることも示した。

通常のトピックモデル、σw=0.5とした提案モデル、σw=0.2とした提案モデルでperplexityを計算したところ、σw=0.5の時が最もperplexityが小さくなった。この結果から、単純にσwを小さくしてトピックの分布の偏りを大きくするほど良いわけではなく、適度に偏りを持たせる必要があることを示した。


-その他, 論文紹介

関連記事

Supporting Complex Search Tasks

Ahmed Hassan Awadallah Ryen W. White Patrick Pantel Susan T. Dumais Yi-Min Wang In Proc. of CIKM2014 …

The Last Click: Why Users Give up Information Network Navigation

Aju Thalappillil Scaria Rose Marie Philip Robert West Jure Leskovec In Proc. of WSDM 2014 概要 リンクをたどっ …

Unsupervised Semantic Similarity Computation between Terms Using Web Documents

Elias Iosif Alexandros Potamianos In IEEE Transactions on Knowledge and Data Engineering, Vol.22, Nu …

Learning from the Past: Answering New Questions with Past Answers

A. Shtok, G. Dror, Y. Maarek, and I. Szpektor In Proc. of WWW 2012 http://dl.acm.org/citation.cfm?id …

Sentiment-Based Topic Suggestion for Micro-Reviews

Ziyu Lu, Nikos Mamoulis, Evaggelia Pitoura, Panayiotis Tsaparas In Proc. of ICWSM 2016 概要 Foursquare …