投稿日: その他 論文紹介

Regularization of Latent Variable Models to Obtain Sparsity

Ramnath Balasubramanyan, William W. Cohen
In Proc. of SDM 2013

概要

LDAのようなトピックモデルでは、単語が所属するトピックの分布や、文書が所属するトピックの分布が一様分布に近くなる、つまりエントロピーが高くなり、その結果としてモデル化の精度が落ちるということが起こりうる。この論文では、エントロピーが高いときにペナルティを課すようにしてエントロピーを低く抑える手法を提案し、各トピックの特徴をより明確にしてモデルの精度を上げることを達成した。

手法

単語のトピック分布に偏りを持たせる場合について説明する。トピックモデルでは、単語wの各トピックでの生起確率が計算できるので、その分布からwのエントロピーHwを計算する。ここで、単語ごとに擬似観測変数lwを導入する。lwは平均がHw、分散がσwの正規分布から生成されるとする。つまり、すべての単語に対してlw=0とすれば、Hw=0となるべきであり、エントロピーが0なので各単語は1つのトピックにのみ所属することになる。実際、この論文ではすべての単語に対してlw=0としている。また、σwの値を小さくすることで、lwが0以外の状態を想定しない度合いが強くなり、トピックの分布により偏りを持たせることができる。

この正規分布からのlwの生成確率を同時分布に組み込むことで、Hwのエントロピーが高くなるほど尤度が低くなるようにしている。

評価方法

使用するデータはamazonのレビュー情報と、映画のレビュー情報。

全単語のエントロピーの平均値を計算したところ、通常のトピックモデルよりも提案モデルの方がその値は低くなっており、分布に偏りを持たせることができていることを示した。また、σwの値を小さくするほどエントロピーが低くなることも示した。

通常のトピックモデル、σw=0.5とした提案モデル、σw=0.2とした提案モデルでperplexityを計算したところ、σw=0.5の時が最もperplexityが小さくなった。この結果から、単純にσwを小さくしてトピックの分布の偏りを大きくするほど良いわけではなく、適度に偏りを持たせる必要があることを示した。


-その他, 論文紹介

関連記事

【論文紹介】Exploiting ranking factorization machines for microblog retrieval

Qiang, Runwei and Liang, Feng and Yang, Jianwu CIKM 2013 ACM, PDF 概要 入力として与えられたクエリに対してランキングされたツイートのリ …

Unsupervised Semantic Similarity Computation between Terms Using Web Documents

Elias Iosif Alexandros Potamianos In IEEE Transactions on Knowledge and Data Engineering, Vol.22, Nu …

Understanding the importance of location, time, and people in mobile local search behavior

Teevan, Jaime Karlson, Amy Amini, Shahriyar Brush, A. J. Bernheim Krumm, John In Proc. of MobileHCI …

Good Abandonment in Mobile and PC Internet Search

Li, Jane Huffman, Scott Tokuda, Akihito In Proc of SIGIR2009 http://dl.acm.org/citation.cfm?id=15719 …

【論文紹介】Modeling Paying Behavior in Game Social Networks

Fang, Zhanpeng and Zhou, Xinyu and Tang, Jie and Shao, Wei and Fong, A.C.M. and Sun, Longjun and Din …