投稿日: CIKM 論文紹介

Topic-Driven Reader Comments Summarization

Ma, Zongyang and Sun, Aixin and Yuan, Quan and Cong, Gao
In Proc. of CIKM 2012

概要

ニュース記事のコメントをトピックごとにクラスタリングし、各トピックの代表的な数コメントを表示することを目的とした論文。

先行研究との違い

ニュースのコメントを対象にして、スパムの特定、議論の構造抽出、コメント数予測、コメントに基づくニュース推薦などに取り組んだ研究は存在するが、ニュース記事のコメントの要約に取り組んだ研究は存在しない。

トピック抽出手法

トピックモデルに基づき、Master-Slave Topic Model(MSTM)とExtended Master-Slave Topic Model(EXTM)の2種類のモデルを提案。Masterはニュース記事のことを、Slaveはコメントのことを指す。

MSTMでは、ニュース記事の生成モデルはLDAと同様。コメントは短いので、各コメントはひとつのトピックを持つと仮定している。ニュース記事に単語が5個あり、各単語のトピック番号が1,3,1,1,2であれば、各コメントのトピックはこのリストからひとつランダムに選択する。

MSTMでは、コメントのトピックはニュース記事で触れられたトピックの中から選ばれるという制約があったが、ニュース記事とは直接関係ないコメントも存在するため、EXTMではコメント用のトピック分布とトピックごとの単語分布も用意する。コメントごとにスイッチ変数を用意し、その値に応じてコメントのトピックをMSTMのように選択するかコメント用のトピック分布から選択するかを決める。

代表コメント抽出手法

コメントのクラスタリングは各コメントのトピック番号をそのまま使用。クラスタ内のコメント数が多いほど重要なトピックであるとみなす。
各クラスタからの代表コメントを選択する際はふたつの手法を使用。ひとつ目はMMRを使用。ふたつ目はコメントに対するレーティングとコメントの長さをそれぞれ0-1で正規化して線形和をとったスコアの高い順に抽出。

評価

Yahoo! Newsの1,005記事を評価に使用。各記事に投稿された平均コメント数は1,059件。

1つ目の定量的評価では2モデルのperplexityを比較。
2つ目の定量的評価ではコメントの要約精度を評価。提案した2手法とベースライン手法(CLUTO)1つ使用。各手法に対して代表コメント抽出手法が2種類あるので計6種類の手法を比較。評価用に記事を50件選択。各手法でひとつの記事のコメントから上位3トピック、各トピックから5コメントを抽出。次の3項目に対して1-5の尺度で評価:(1)5コメントでトピックは一貫しているか、(2)3つのトピックは異なるトピックであるか、(3)3つのトピックはニュースと関連があるか。評価の結果、3項目の平均はEXTMとMMRの組合せが最も高い精度を記録。


-CIKM, 論文紹介

関連記事

Unsupervised Semantic Similarity Computation between Terms Using Web Documents

Elias Iosif Alexandros Potamianos In IEEE Transactions on Knowledge and Data Engineering, Vol.22, Nu …

Mining Contentious Documents Using an Unsupervised Topic Model Based Approach

Amine, Trabelsi and Osmar R., Zaiane In Proc. of ICDM 2014 概要 ある話題に関する文書集合が与えられたときに、「賛成」や「反対」などの各観点( …

Semantic Role Labeling of Emotions in Tweets

Saif M. Mohammad Xiaodan Zhu Joel Martin In Proc. of WASSA 2014 概要 これまでにも、ツイートに含まれる感情を推定する研究は行われてきたが …

Using information scent and need for cognition to understand online search behavior

Wu, Wan-Ching Kelly, Diane Sud, Avneesh In Proc. of SIGIR2014 http://dl.acm.org/citation.cfm?id=2609 …

What are you looking for? An eye-tracking study of information usage in Web search

Cutrell, Edward Guan, Zhiwei In Proc. of CHI2007 http://dl.acm.org/citation.cfm?id=1240690 概要 デスクトップ …