投稿日: その他 論文紹介

Mining Contentious Documents Using an Unsupervised Topic Model Based Approach

Amine, Trabelsi and Osmar R., Zaiane
In Proc. of ICDM 2014

概要

ある話題に関する文書集合が与えられたときに、「賛成」や「反対」などの各観点(viewpoint)について、どのようなトピックについて記述されているかを集約することを目的とした論文。たとえば、アメリカの医療保険制度改革に関する文書集合が与えられると、賛成の観点では「価格の手軽さ」や「多くの人が望んでいる」といったトピックが、反対の観点では「自分のお金を他人の治療費に使われたくない」や「政府は健康管理の問題に関わるべきでない」といったトピックが抽出される。

先行研究との違い

最も関連するモデルにTopic Aspect Modelと呼ばれるものがあるが、このモデルではトピックと観点を独立に扱っている。それに対して本研究ではトピックと観点が相互に依存するようにモデル化している。

手法

トピックモデルを使用。文書ごとにトピックの分布を持ち、各文書の各トピックごとに観点の分布を持つ。また、各トピックの各観点ごとに単語の分布を持つ。単語ごとにトピックと観点を生成し、それを元に単語を生成する。

トピックAにおけるひとつめの観点と、トピックBにおけるひとつめの観点は同じ観点を表しているとは限らない(たとえば、トピックAのひとつめの観点は「賛成」を、トピックBのひとつめの観点は「反対」を表しているかもしれない)ので、トピックモデルのパラメータ推定後に観点のクラスタリングを行う。トピックモデルでの観点数をL個としていれば、各トピックの各観点の単語分布を元にCOP-KMEANSという手法を用いてL個のクラスタに分ける。

評価

6種類のデータセットを用意。各データセットはひとつの話題に関する文書集合となっている。6種類のうち1種類は文書あたりの単語数が少なめ(約15単語)、3種類は中程度(100単語)、2種類は多め(700~800単語)。

実際に抽出された観点とトピックの定性的評価に加えて、テストデータにおけるperplexity、観点の分類精度などの定量的評価を実施。提案手法は1文書あたりの単語数が少ないときに特に有効であることを示した。


-その他, 論文紹介

関連記事

Enhancing collaborative filtering systems with personality information

Hu, Rong and Pu, Pearl In Proc. of RecSys 2011 概要 協調フィルタリングを用いてあるユーザに推薦するアイテムを決める際、通常はそのユーザの過去のアイテムの …

Spatio-temporal Dynamics of Online Memes: A Study of Geo-tagged Tweets

Kamath, Krishna Y. Caverlee, James Lee, Kyumin Cheng, Zhiyuan In Proc. of WWW 2013 http://dl.acm.org …

Predicting the popularity of web 2.0 items based on user comments

He, Xiangnan and Gao, Ming and Kan, Min-Yen and Liu, Yiqun and Sugiyama, Kazunari In Proc. of SIGIR …

Towards Better Measurement of Attention and Satisfaction in Mobile Search

Lagun, Dmitry Hsieh, Chih-Hung Webster, Dale Navalpakkam, Vidhya In Proc. of SIGIR2014 http://dl.acm …

Can social features help learning to rank youtube videos?

Chelaru, Sergiu Viorel Orellana-Rodriguez, Claudia Altingovde, Ismail Sengor In Proc. of WISE 2012 概 …