投稿日: WWW 論文紹介

Information Credibility on Twitter

Castillo, Carlos
Mendoza, Marcelo
Poblete, Barbara
In Proc. of WWW 2011
http://dl.acm.org/citation.cfm?id=1963500

概要

Twitterに投稿されるtweetの信憑度を測ることを目的とした論文.手法の流れとしては,まずtwitterで話題になったトピックをニュース性のあるものと単なる会話の2種類に分類する.その後,ニュース性のあると判断された各トピックの信憑度を求める.いずれも教師あり学習に基づいている.

手法

まずはデータセットとなるtweetの収集について.この研究では,大きく話題になったトピックに関するtweetを収集している.話題になったトピックの発見には,Twitter Monitorという既存のサービスを利用.このサービスを使うことで,そのトピックに関する複数のキーワードも取得できるので,そのキーワードを含むtweetを,その話題に関連するものとして収集.2ヶ月間にわたって2500以上のトピックを収集.

次に,教師データを作成.Mechanical Turkを用いて収集したトピックをニュース性のあるものと会話のようなものの2種類に分類.会話のようなものとは,トピックに対する個人の意見など.1つのトピックに対して10個のtweetを提示して7人が判定し,5人の分類が一致したものを正しいとする.その結果,29.5%がニュース性のあるもの,34.9%が会話,35.6%が不定となった.
さらに,ニュース性のある各トピックの信憑性の正解データもMechanical Turkにより作成.こちらも各トピックに対して10個のtweetを提示.その結果,「ほぼ間違いなく正しい」が41%,「間違っていそう」が31.8%,「ほぼ間違いなく誤り」が8.6%,「不定」が18.6%となった.

最後に,分類器の構築.特徴量は主に4つのクラスから成る.Message-based feature:tweetの長さや,クエスチョンマークを含むか,など.User-based feature:ユーザの年齢やフォロワー数など.Topic-based feature:URLを含むtweetの割合やハッシュタグを含むtweetの割合など,トピックごとに決まるもの.Propagation-based feature:re-tweetによって構成された木の深さなど.ニュース性のあるトピックと会話のトピックの分類では全ての特徴を使い,信憑度の評価では,最良優先探索により,15の有効な特徴を選出して使用.

実験

ニュース性のあるトピックと会話のトピックの分類では,いずれの場合も適合率,再現率ともに90%前後の精度.
信憑度の評価では,「ほぼ間違いなく正しい」のクラスと「間違っていそう」または「ほぼ間違いなく誤り」のクラスの2クラスの分類としている.精度はいずれのクラスも適合率,再現率ともに85%前後.分類に有効な素性としては,Topic-based featureではURLを含むか,ネガティブな語を含むか,User-based featureではtweetの投稿者がフォローしているユーザ数,Propagation-based featureではリツイート数がそれぞれあげられる.


-WWW, 論文紹介
-,

関連記事

Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! using word lengthening to detect sentiment in microblogs

Brody, Samuel Diakopoulos, Nicholas In Proc. of EMNLP2011 http://dl.acm.org/citation.cfm?id=2145498 …

【論文紹介】Will This Paper Increase Your h-index?: Scientific Impact Prediction

Dong, Yuxiao and Johnson, Reid A. and Chawla, Nitesh V. WSDM 2015 ACM, PDF 概要 2007年に発表された論文dは、論文dの中で …

What’s in a hashtag?: content based prediction of the spread of ideas in microblogging communities

sur, Oren Rappoport, Ari In Proc. of WSDM 2012 http://dl.acm.org/citation.cfm?id=2124320 概要 ツイッター上で、 …

【論文紹介】Generative Feature Language Models for Mining Implicit Features from Customer Reviews

Karmaker Santu, Shubhra Kanti and Sondhi, Parikshit and Zhai, ChengXiang CIKM 2016 ACM 概要 イリノイ大学のChe …

Predicting clicks: estimating the click-through rate for new ads

Richardson, Matthew Dominowska, Ewa Ragno, Robert In Proc. of WWW2007 概要 検索結果の横に表示される広告のCTRの推定を目的として …