投稿日: その他 論文紹介

Mining Contentious Documents Using an Unsupervised Topic Model Based Approach

Amine, Trabelsi and Osmar R., Zaiane
In Proc. of ICDM 2014

概要

ある話題に関する文書集合が与えられたときに、「賛成」や「反対」などの各観点(viewpoint)について、どのようなトピックについて記述されているかを集約することを目的とした論文。たとえば、アメリカの医療保険制度改革に関する文書集合が与えられると、賛成の観点では「価格の手軽さ」や「多くの人が望んでいる」といったトピックが、反対の観点では「自分のお金を他人の治療費に使われたくない」や「政府は健康管理の問題に関わるべきでない」といったトピックが抽出される。

先行研究との違い

最も関連するモデルにTopic Aspect Modelと呼ばれるものがあるが、このモデルではトピックと観点を独立に扱っている。それに対して本研究ではトピックと観点が相互に依存するようにモデル化している。

手法

トピックモデルを使用。文書ごとにトピックの分布を持ち、各文書の各トピックごとに観点の分布を持つ。また、各トピックの各観点ごとに単語の分布を持つ。単語ごとにトピックと観点を生成し、それを元に単語を生成する。

トピックAにおけるひとつめの観点と、トピックBにおけるひとつめの観点は同じ観点を表しているとは限らない(たとえば、トピックAのひとつめの観点は「賛成」を、トピックBのひとつめの観点は「反対」を表しているかもしれない)ので、トピックモデルのパラメータ推定後に観点のクラスタリングを行う。トピックモデルでの観点数をL個としていれば、各トピックの各観点の単語分布を元にCOP-KMEANSという手法を用いてL個のクラスタに分ける。

評価

6種類のデータセットを用意。各データセットはひとつの話題に関する文書集合となっている。6種類のうち1種類は文書あたりの単語数が少なめ(約15単語)、3種類は中程度(100単語)、2種類は多め(700~800単語)。

実際に抽出された観点とトピックの定性的評価に加えて、テストデータにおけるperplexity、観点の分類精度などの定量的評価を実施。提案手法は1文書あたりの単語数が少ないときに特に有効であることを示した。


-その他, 論文紹介

関連記事

Mobile App Retrieval for Social Media Users via Inference of Implicit Intent in Social Media Text

Park, Dae Hoon and Fang, Yi and Liu, Mengwen and Zhai, ChengXiang In Proc. of CIKM 2016 概要 ツイートに含まれる …

Spatio-Temporal Topic Modeling in Mobile Social Media for Location Recommendation

Bo, Hu and Mohsen, Jamali and Martin, Ester In Proc. of ICDM 2013 概要 チェックインサービス等でのユーザと場所と時刻を考慮したモデル化 …

VODUM: A Topic Model Unifying Viewpoint, Topic and Opinion Discovery

Thibaut, Thonet and Guillaume, Cabanac and Mohand, Boughanem and Karen, Pinel-Sauvagnat In Proc. of …

Extending Faceted Search to the General Web

Kong, Weize Allan, James In Proc. of CIKM2014 http://dl.acm.org/citation.cfm?id=2661964 概要 ファセットを提示す …

How fresh do you want your search results?

Shiwen Cheng Anastasios Arvanitis Vagelis Hristidis In Proc. of CIKM 2013 概要 検索結果中の情報の鮮度に着目した研究はこれまで …