投稿日: SIGIR 論文紹介

On a Topic Model for Sentences

Balikas, Georgios and Amini, Massih-Reza and Clausel, Marianne
In Proc. of SIGIR 2016

概要

通常のLDAでは文書ごとにトピック分布が存在し、その分布から単語ごとにトピックが生成される。この論文では、文書のトピック分布から文ごとにトピックを生成し、文内の単語は共通のトピックを持つsentenceLDAを提案している。LDAとsentenceLDAでperplexityの比較と文書の分類精度の比較を行っている。

評価実験1:perplexity

2種類の公開データセット(WikipediaとPubMed)を使用。sentenceLDAはperplexityが収束するまでの時間が短いというメリットはあるものの、最終的なperplexityの値はLDAより劣っていた。perplexityは単語単位での評価なので、単語単位でトピックを生成するLDAの方が柔軟性が高いことから、LDAのperplexityの方が勝る結果となった。

評価実験2:分類

LDA、sentenceLDAともに文書ごとにトピックの分布が得られるので、K(論文ではK=125)トピックとした場合、各文書はK次元のベクトルで表される。このベクトルを素性としてSVMで文書の分類精度を比較。データサイズの小さいWikipediaデータセットでは分類精度に大きな差はなかったが、データサイズの大きいPubMedの方ではsentenceLDAがLDAを上回る結果に。また、LDAとsentenceLDAのトピック分布を合わせて各文書を2K(=250)次元のベクトルで表して分類すると、いずれのデータセットでもLDAとsentenceLDAを単体で使うよりも分類精度は高かった。

関連研究

  • トピックモデルにおけるperplexityの結果の優劣は、人が評価したトピックモデルの優劣の結果と一致するとは限らない
  • L. Azzopardi, M. Girolami, and K. van Risjbergen. Investigating the relationship between language model perplexity and IR precision-recall measures. In SIGIR, pages 369-370, 2003.


-SIGIR, 論文紹介

関連記事

【論文紹介】Online Actions with Offline Impact: How Online Social Networks Influence Online and Offline User Behavior

Althoff, Tim and Jindal, Pranav and Leskovec, Jure In Proc. of WSDM 2017 概要 スマホのArgusという活動記録アプリのログから …

Mining long-term search history to improve search accuracy

Tan, Bin Shen, Xuehua Zhai, ChengXiang In Proc. of KDD2006 http://dl.acm.org/citation.cfm?id=1150493 …

Struggling or Exploring? Disambiguating Search Sessions

Ahmed Hassan Ryen W. White Susan Dumais Yi-Min Wang In Proc. of WSDM2014 概要 長い検索セッションには,ユーザが情報の探索をして …

AutoWeb: automatic classification of mobile web pages for revisitation

Liu, Jie Xu, Wenchang Shi, Yuanchun In Proc. of MobileHCI 2012 http://dl.acm.org/citation.cfm?id=237 …

Modeling User Posting Behavior on Social Media

Xu, Zhiheng Zhang, Yang Wu, Yao Yang, Qing In Proc. of SIGIR 2012 http://dl.acm.org/citation.cfm?id= …