投稿日: CIKM 論文紹介

Topic-Driven Reader Comments Summarization

Ma, Zongyang and Sun, Aixin and Yuan, Quan and Cong, Gao
In Proc. of CIKM 2012

概要

ニュース記事のコメントをトピックごとにクラスタリングし、各トピックの代表的な数コメントを表示することを目的とした論文。

先行研究との違い

ニュースのコメントを対象にして、スパムの特定、議論の構造抽出、コメント数予測、コメントに基づくニュース推薦などに取り組んだ研究は存在するが、ニュース記事のコメントの要約に取り組んだ研究は存在しない。

トピック抽出手法

トピックモデルに基づき、Master-Slave Topic Model(MSTM)とExtended Master-Slave Topic Model(EXTM)の2種類のモデルを提案。Masterはニュース記事のことを、Slaveはコメントのことを指す。

MSTMでは、ニュース記事の生成モデルはLDAと同様。コメントは短いので、各コメントはひとつのトピックを持つと仮定している。ニュース記事に単語が5個あり、各単語のトピック番号が1,3,1,1,2であれば、各コメントのトピックはこのリストからひとつランダムに選択する。

MSTMでは、コメントのトピックはニュース記事で触れられたトピックの中から選ばれるという制約があったが、ニュース記事とは直接関係ないコメントも存在するため、EXTMではコメント用のトピック分布とトピックごとの単語分布も用意する。コメントごとにスイッチ変数を用意し、その値に応じてコメントのトピックをMSTMのように選択するかコメント用のトピック分布から選択するかを決める。

代表コメント抽出手法

コメントのクラスタリングは各コメントのトピック番号をそのまま使用。クラスタ内のコメント数が多いほど重要なトピックであるとみなす。
各クラスタからの代表コメントを選択する際はふたつの手法を使用。ひとつ目はMMRを使用。ふたつ目はコメントに対するレーティングとコメントの長さをそれぞれ0-1で正規化して線形和をとったスコアの高い順に抽出。

評価

Yahoo! Newsの1,005記事を評価に使用。各記事に投稿された平均コメント数は1,059件。

1つ目の定量的評価では2モデルのperplexityを比較。
2つ目の定量的評価ではコメントの要約精度を評価。提案した2手法とベースライン手法(CLUTO)1つ使用。各手法に対して代表コメント抽出手法が2種類あるので計6種類の手法を比較。評価用に記事を50件選択。各手法でひとつの記事のコメントから上位3トピック、各トピックから5コメントを抽出。次の3項目に対して1-5の尺度で評価:(1)5コメントでトピックは一貫しているか、(2)3つのトピックは異なるトピックであるか、(3)3つのトピックはニュースと関連があるか。評価の結果、3項目の平均はEXTMとMMRの組合せが最も高い精度を記録。


-CIKM, 論文紹介

関連記事

Understanding the importance of location, time, and people in mobile local search behavior

Teevan, Jaime Karlson, Amy Amini, Shahriyar Brush, A. J. Bernheim Krumm, John In Proc. of MobileHCI …

Everyday Life Music Information-Seeking Behaviour of Young Adults

Audrey Laplante J. Stephen Downie In Proc. of ISMIR 2006 概要 20人の若者を対象に、新しい音楽を探す際にとる行動についてインタビューを行い、結 …

Happy, Nervous or Surprised? Classification of Human Affective States in Social Media

Munmun De Choudhury Michael Gamon Scott Counts In Proc. of ICWSM 2012 概要 ツイートを11種類の感情に分類することを目的とした論文 …

User see, user point: gaze and cursor alignment in web search

Huang, Jeff White, Ryen Buscher, Georg In Proc. of CHI 2012 http://dl.acm.org/citation.cfm?id=220859 …

Tagging Your Tweets: A Probabilistic Modeling of Hashtag Annotation in Twitter

Ma, Zongyang Sun, Aixin Yuan, Quan Cong, Gao In Proc. of CIKM2014 http://dl.acm.org/citation.cfm?id= …