投稿日: その他 論文紹介

Mining Contentious Documents Using an Unsupervised Topic Model Based Approach

Amine, Trabelsi and Osmar R., Zaiane
In Proc. of ICDM 2014

概要

ある話題に関する文書集合が与えられたときに、「賛成」や「反対」などの各観点(viewpoint)について、どのようなトピックについて記述されているかを集約することを目的とした論文。たとえば、アメリカの医療保険制度改革に関する文書集合が与えられると、賛成の観点では「価格の手軽さ」や「多くの人が望んでいる」といったトピックが、反対の観点では「自分のお金を他人の治療費に使われたくない」や「政府は健康管理の問題に関わるべきでない」といったトピックが抽出される。

先行研究との違い

最も関連するモデルにTopic Aspect Modelと呼ばれるものがあるが、このモデルではトピックと観点を独立に扱っている。それに対して本研究ではトピックと観点が相互に依存するようにモデル化している。

手法

トピックモデルを使用。文書ごとにトピックの分布を持ち、各文書の各トピックごとに観点の分布を持つ。また、各トピックの各観点ごとに単語の分布を持つ。単語ごとにトピックと観点を生成し、それを元に単語を生成する。

トピックAにおけるひとつめの観点と、トピックBにおけるひとつめの観点は同じ観点を表しているとは限らない(たとえば、トピックAのひとつめの観点は「賛成」を、トピックBのひとつめの観点は「反対」を表しているかもしれない)ので、トピックモデルのパラメータ推定後に観点のクラスタリングを行う。トピックモデルでの観点数をL個としていれば、各トピックの各観点の単語分布を元にCOP-KMEANSという手法を用いてL個のクラスタに分ける。

評価

6種類のデータセットを用意。各データセットはひとつの話題に関する文書集合となっている。6種類のうち1種類は文書あたりの単語数が少なめ(約15単語)、3種類は中程度(100単語)、2種類は多め(700~800単語)。

実際に抽出された観点とトピックの定性的評価に加えて、テストデータにおけるperplexity、観点の分類精度などの定量的評価を実施。提案手法は1文書あたりの単語数が少ないときに特に有効であることを示した。


-その他, 論文紹介

関連記事

A music recommendation system based on annotations about listeners’ preferences and situations

Kaji, K. Hirata, K. Nagao, K. In Proc. of AXMEDIS 2005 http://ieeexplore.ieee.org/xpl/login.jsp?tp=& …

Information Credibility on Twitter

Castillo, Carlos Mendoza, Marcelo Poblete, Barbara In Proc. of WWW 2011 http://dl.acm.org/citation.c …

【論文紹介】Personalised Rating Prediction for New Users Using Latent Factor Models

Seroussi, Yanir and Bohnert, Fabian and Zukerman, Ingrid In Proc. of HT 2011 概要 映画や書籍に対するユーザのレーティングを …

【論文紹介】How Much Novelty is Relevant?: It Depends on Your Curiosity

Zhao, Pengfei and Lee, Dik Lun In Proc. of SIGIR 2016 概要 心理学の分野では、対象物の刺激が強すぎても弱すぎても人は惹き付けられず、中程度のとき最 …

Music on YouTube: User engagement with traditional, user-appropriated and derivative videos

Liikkanen, Lassi A. and Salovaara, Antti In Computers in Human Behavior, vol. 50 概要 YouTubeの音楽動画を対象に …