投稿日: その他 論文紹介

Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! using word lengthening to detect sentiment in microblogs

Brody, Samuel
Diakopoulos, Nicholas
In Proc. of EMNLP2011
http://dl.acm.org/citation.cfm?id=2145498

概要

Twitterでは感情を表す際に「coooooollllll」のように、文字を重ねて書くことが多い。この論文では、文字を重ねて書かれる単語は感情を表す語であるかを調べたり、そのpositive、negativeの推定に取り組んだりしている。

データ

2011年3月9日の約50万ツイートを収集。約650万の単語が含まれていたが、そのうちの108,762単語は文字の繰り返しが存在する語であり、そのような語を含むツイートは全体の17.44%であった。

感情語との関連度

文字を繰り返して書かれる単語は感情を表す語であるかを、既存の感情語辞書を用いて調べる。
単語によって、繰り返しの多様性にはばらつきがあり、(niceであればniiiice、niccceeの3種類、coolであればcoooool、coollll、cooooollllllなど10種類、のような)多様性の高い単語ほど感情語辞書に登録されている割合が高かった。

極性推定

既存手法を用いて、感情語辞書に載っていない単語のpositive、negativeを推定。実験に用いた1,077単語のうち、辞書に載っていたのは217語だけであったため、極性を推定する重要性は高い。

手法によって求められたpositiveのスコアの高い50語、negativeのスコアの高い50語のそれぞれに人間がnegative、weakly-negative、neutral、weakly-positive、positiveから1つ正解をラベル付けして評価したところ、positive、negative共に推定精度は高く、positiveの方がより高い精度であった。手法によって求められたpositiveの上位5語はsee、win、way、gotta、summerで、negativeの上位5語はshit、niggas、dis、gettin、smh。


-その他, 論文紹介

関連記事

Contextual queries express mobile information needs

Hinze, Annika M. Chang, Carole Nichols, David M. In Proc. of MobileHCI 2010 http://dl.acm.org/citati …

Mining Query Subtopics from Search Log Data

Hu, Yunhua Qian, Yanan Li, Hang Jiang, Daxin Pei, Jian Zheng, Qinghua In Proc. of SIGIR 2012 http:// …

Measuring Pair-Wise Social Influence in Microblog

Zibin Yin Ya Zhang In Proc. of SocialCom 2012 概要 Weibo上でのリツイートのモデル化を提案。提案モデルを使うことで、ユーザAのツイートがフォロワーのユ …

Efficiently answering top-k typicality queries on large databases

Hua, Ming Pei, Jian Fu, Ada W. C. Lin, Xuemin Leung, Ho-Fung In Proc. of VLDB 2007 http://dl.acm.org …

Struggling or Exploring? Disambiguating Search Sessions

Ahmed Hassan Ryen W. White Susan Dumais Yi-Min Wang In Proc. of WSDM2014 概要 長い検索セッションには,ユーザが情報の探索をして …