投稿日: その他 論文紹介

Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! using word lengthening to detect sentiment in microblogs

Brody, Samuel
Diakopoulos, Nicholas
In Proc. of EMNLP2011
http://dl.acm.org/citation.cfm?id=2145498

概要

Twitterでは感情を表す際に「coooooollllll」のように、文字を重ねて書くことが多い。この論文では、文字を重ねて書かれる単語は感情を表す語であるかを調べたり、そのpositive、negativeの推定に取り組んだりしている。

データ

2011年3月9日の約50万ツイートを収集。約650万の単語が含まれていたが、そのうちの108,762単語は文字の繰り返しが存在する語であり、そのような語を含むツイートは全体の17.44%であった。

感情語との関連度

文字を繰り返して書かれる単語は感情を表す語であるかを、既存の感情語辞書を用いて調べる。
単語によって、繰り返しの多様性にはばらつきがあり、(niceであればniiiice、niccceeの3種類、coolであればcoooool、coollll、cooooollllllなど10種類、のような)多様性の高い単語ほど感情語辞書に登録されている割合が高かった。

極性推定

既存手法を用いて、感情語辞書に載っていない単語のpositive、negativeを推定。実験に用いた1,077単語のうち、辞書に載っていたのは217語だけであったため、極性を推定する重要性は高い。

手法によって求められたpositiveのスコアの高い50語、negativeのスコアの高い50語のそれぞれに人間がnegative、weakly-negative、neutral、weakly-positive、positiveから1つ正解をラベル付けして評価したところ、positive、negative共に推定精度は高く、positiveの方がより高い精度であった。手法によって求められたpositiveの上位5語はsee、win、way、gotta、summerで、negativeの上位5語はshit、niggas、dis、gettin、smh。


-その他, 論文紹介

関連記事

Mining long-term search history to improve search accuracy

Tan, Bin Shen, Xuehua Zhai, ChengXiang In Proc. of KDD2006 http://dl.acm.org/citation.cfm?id=1150493 …

Displaying relevance scores for search results

Shani, Guy Tractinsky, Noam In Proc. of SIGIR 2013 http://dl.acm.org/citation.cfm?id=2484112 概要 Web検 …

Predicting the popularity of web 2.0 items based on user comments

He, Xiangnan and Gao, Ming and Kan, Min-Yen and Liu, Yiqun and Sugiyama, Kazunari In Proc. of SIGIR …

Time-sensitive query auto-completion

Shokouhi, Milad Radinsky, Kira In Proc. of SIGIR 2012 http://dl.acm.org/citation.cfm?id=2348364 概要 従 …

Statistical Models of Music-listening Sessions in Social Media

Zheleva, Elena and Guiver, John and Mendes Rodrigues, Eduarda and Milić-Frayling, Nataša In Proc. of …