投稿日: SIGIR 論文紹介

On a Topic Model for Sentences

Balikas, Georgios and Amini, Massih-Reza and Clausel, Marianne
In Proc. of SIGIR 2016

概要

通常のLDAでは文書ごとにトピック分布が存在し、その分布から単語ごとにトピックが生成される。この論文では、文書のトピック分布から文ごとにトピックを生成し、文内の単語は共通のトピックを持つsentenceLDAを提案している。LDAとsentenceLDAでperplexityの比較と文書の分類精度の比較を行っている。

評価実験1:perplexity

2種類の公開データセット(WikipediaとPubMed)を使用。sentenceLDAはperplexityが収束するまでの時間が短いというメリットはあるものの、最終的なperplexityの値はLDAより劣っていた。perplexityは単語単位での評価なので、単語単位でトピックを生成するLDAの方が柔軟性が高いことから、LDAのperplexityの方が勝る結果となった。

評価実験2:分類

LDA、sentenceLDAともに文書ごとにトピックの分布が得られるので、K(論文ではK=125)トピックとした場合、各文書はK次元のベクトルで表される。このベクトルを素性としてSVMで文書の分類精度を比較。データサイズの小さいWikipediaデータセットでは分類精度に大きな差はなかったが、データサイズの大きいPubMedの方ではsentenceLDAがLDAを上回る結果に。また、LDAとsentenceLDAのトピック分布を合わせて各文書を2K(=250)次元のベクトルで表して分類すると、いずれのデータセットでもLDAとsentenceLDAを単体で使うよりも分類精度は高かった。

関連研究

  • トピックモデルにおけるperplexityの結果の優劣は、人が評価したトピックモデルの優劣の結果と一致するとは限らない
  • L. Azzopardi, M. Girolami, and K. van Risjbergen. Investigating the relationship between language model perplexity and IR precision-recall measures. In SIGIR, pages 369-370, 2003.


-SIGIR, 論文紹介

関連記事

It Is Not Just What We Say, But How We Say Them: LDA-based Behavior-Topic Model

Qiu, Minghui and Zhu, Feida and Jiang, Jing In Proc. of SDM 2013 概要 トピックモデルを用いて文書の生成過程をモデル化する際、通常は文書 …

A Study of Mobile Search Queries in Japan

Ricardo Baeza-yates Georges Dupret Javier Velasco In Proc. of WWW2007 概要 デスクトップ検索とモバイル検索の日本語のクエリログに着 …

Re-Examining Search Result Snippet Examination Time for Relevance Estimation

Lagun, Dmitry Agichtein, Eugene In Proc. of SIGIR2012 http://dl.acm.org/citation.cfm?id=2348509 概要 従 …

Modelling User Interest for Zero-query Ranking

Liu Yang, Qi Guo, Yang Song, Sha Meng, Milad Shokouhi, Kieran McDonald, and W. Bruce Croft In Proc. …

【論文紹介】Local implicit feedback mining for music recommendation

Yang, Diyi and Chen, Tianqi and Zhang, Weinan and Lu, Qiuxia and Yu, Yong RecSys 2012 ACM, PDF 概要 ある …