投稿日: その他 論文紹介

Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! using word lengthening to detect sentiment in microblogs

Brody, Samuel
Diakopoulos, Nicholas
In Proc. of EMNLP2011
http://dl.acm.org/citation.cfm?id=2145498

概要

Twitterでは感情を表す際に「coooooollllll」のように、文字を重ねて書くことが多い。この論文では、文字を重ねて書かれる単語は感情を表す語であるかを調べたり、そのpositive、negativeの推定に取り組んだりしている。

データ

2011年3月9日の約50万ツイートを収集。約650万の単語が含まれていたが、そのうちの108,762単語は文字の繰り返しが存在する語であり、そのような語を含むツイートは全体の17.44%であった。

感情語との関連度

文字を繰り返して書かれる単語は感情を表す語であるかを、既存の感情語辞書を用いて調べる。
単語によって、繰り返しの多様性にはばらつきがあり、(niceであればniiiice、niccceeの3種類、coolであればcoooool、coollll、cooooollllllなど10種類、のような)多様性の高い単語ほど感情語辞書に登録されている割合が高かった。

極性推定

既存手法を用いて、感情語辞書に載っていない単語のpositive、negativeを推定。実験に用いた1,077単語のうち、辞書に載っていたのは217語だけであったため、極性を推定する重要性は高い。

手法によって求められたpositiveのスコアの高い50語、negativeのスコアの高い50語のそれぞれに人間がnegative、weakly-negative、neutral、weakly-positive、positiveから1つ正解をラベル付けして評価したところ、positive、negative共に推定精度は高く、positiveの方がより高い精度であった。手法によって求められたpositiveの上位5語はsee、win、way、gotta、summerで、negativeの上位5語はshit、niggas、dis、gettin、smh。


-その他, 論文紹介

関連記事

Information Credibility on Twitter

Castillo, Carlos Mendoza, Marcelo Poblete, Barbara In Proc. of WWW 2011 http://dl.acm.org/citation.c …

【論文紹介】Exploiting ranking factorization machines for microblog retrieval

Qiang, Runwei and Liang, Feng and Yang, Jianwu CIKM 2013 ACM, PDF 概要 入力として与えられたクエリに対してランキングされたツイートのリ …

Identifying topical authorities in microblogs

Pal, Aditya Counts, Scott In Proc. of WSDM2011 http://dl.acm.org/citation.cfm?id=1935843 概要 あるキーワードに …

Who Will You “@”?

Gong, Yeyun and Zhang, Qi and Sun, Xuyang and Huang, Xuanjing In Proc. of CIKM 2015 概要 Twitterではリプライ …

User see, user point: gaze and cursor alignment in web search

Huang, Jeff White, Ryen Buscher, Georg In Proc. of CHI 2012 http://dl.acm.org/citation.cfm?id=220859 …