投稿日: SIGIR 論文紹介

On a Topic Model for Sentences

Balikas, Georgios and Amini, Massih-Reza and Clausel, Marianne
In Proc. of SIGIR 2016

概要

通常のLDAでは文書ごとにトピック分布が存在し、その分布から単語ごとにトピックが生成される。この論文では、文書のトピック分布から文ごとにトピックを生成し、文内の単語は共通のトピックを持つsentenceLDAを提案している。LDAとsentenceLDAでperplexityの比較と文書の分類精度の比較を行っている。

評価実験1:perplexity

2種類の公開データセット(WikipediaとPubMed)を使用。sentenceLDAはperplexityが収束するまでの時間が短いというメリットはあるものの、最終的なperplexityの値はLDAより劣っていた。perplexityは単語単位での評価なので、単語単位でトピックを生成するLDAの方が柔軟性が高いことから、LDAのperplexityの方が勝る結果となった。

評価実験2:分類

LDA、sentenceLDAともに文書ごとにトピックの分布が得られるので、K(論文ではK=125)トピックとした場合、各文書はK次元のベクトルで表される。このベクトルを素性としてSVMで文書の分類精度を比較。データサイズの小さいWikipediaデータセットでは分類精度に大きな差はなかったが、データサイズの大きいPubMedの方ではsentenceLDAがLDAを上回る結果に。また、LDAとsentenceLDAのトピック分布を合わせて各文書を2K(=250)次元のベクトルで表して分類すると、いずれのデータセットでもLDAとsentenceLDAを単体で使うよりも分類精度は高かった。

関連研究

  • トピックモデルにおけるperplexityの結果の優劣は、人が評価したトピックモデルの優劣の結果と一致するとは限らない
  • L. Azzopardi, M. Girolami, and K. van Risjbergen. Investigating the relationship between language model perplexity and IR precision-recall measures. In SIGIR, pages 369-370, 2003.


-SIGIR, 論文紹介

関連記事

Explainable User Clustering in Short Text Streams

Zhao, Yukun and Liang, Shangsong and Ren, Zhaochun and Ma, Jun and Yilmaz, Emine and de Rijke, Maart …

Predicting web searcher satisfaction with existing community-based answers

Liu, Qiaoling Agichtein, Eugene Dror, Gideon Gabrilovich, Evgeniy Maarek, Yoelle Pelleg, Dan Szpekto …

Spatial influence vs. community influence: modeling the global spread of social media

Kamath, Krishna Y. Caverlee, James Cheng, Zhiyuan Sui, Daniel Z. In Proc. of CIKM 2012 http://dl.acm …

Search engine click spam detection based on bipartite graph propagation

Li, Xin Zhang, Min Liu, Yiqun Ma, Shaoping Jin, Yijiang Ru, Liyun In Proc. of WSDM 2014 http://dl.ac …

Understanding the importance of location, time, and people in mobile local search behavior

Teevan, Jaime Karlson, Amy Amini, Shahriyar Brush, A. J. Bernheim Krumm, John In Proc. of MobileHCI …