投稿日: その他 論文紹介

【論文紹介】The automated acquisition of suggestions from tweets

Dong, Li and Wei, Furu and Duan, Yajuan and Liu, Xiaohua and Zhou, Ming and Xu, Ke
AAAI 2013
Link

概要

ツイッターの中から、企業や人、製品にたいして何か提案をしているツイートを抽出することを目的とした論文。Factorizaion Machines(FMs)を使用しており、著者曰く、NLP分野でFMsを使った最初の論文。

手法

FMsに使用する素性は単語ユニグラム、ハッシュタグ、提案に用いられるテンプレート表現、の3カテゴリ。
テンプレートの抽出は、Windows Phoneの公式サイトに投稿されたユーザのフィードバックから収集。PrefixSpanを使って頻出する言い回しを収集して、提案を表す言い回しを人手で抽出。

提案ツイートは非提案ツイートよりも数が圧倒的に少ないので、データのアンバランス度合いを考慮して学習する必要がある。この論文ではOversamplingとThresholding(正例と判定する閾値を0.5ではなく交差検証で決める)の両方を使用することで解決している。Undersamplingも試したが、Oversamplingの方が精度が高かった。

評価

Windows Phone 7に関するツイート3,000件を収集し、提案ツイートか否かを人手でラベル付け。238件が提案ツイートであった。比較手法として、素性の組み合わせを考慮した多項式カーネルのSVMなどを使用。

この実験では提案ツイートを対象にしたprecisionとrecallの精度が重要であり、この点において提案手法はF値で他の手法を上回っていた。特にrecallの値が高かった。多項式カーネルSVMも提案手法に近い精度は出ていたが、一般に多項式カーネルSVMは疎なデータには向かないと言われているように、今回のデータも疎なことから、提案手法が勝る結果となった。


-その他, 論文紹介
-,

関連記事

Mining long-term search history to improve search accuracy

Tan, Bin Shen, Xuehua Zhai, ChengXiang In Proc. of KDD2006 http://dl.acm.org/citation.cfm?id=1150493 …

Identifying breakpoints in public opinion

Akcora, Cuneyt Gurcan Bayir, Murat Ali Demirbas, Murat Ferhatosmanoglu, Hakan In Proc. of SOMA 2010 …

Modeling Paying Behavior in Game Social Networks

Fang, Zhanpeng and Zhou, Xinyu and Tang, Jie and Shao, Wei and Fong, A.C.M. and Sun, Longjun and Din …

Tourist Trip Planning Functionalities: State–of–the–Art and Future

Souffriau, W. Vansteenwegen, P. In Current Trends in Web Engineering http://link.springer.com/chapte …

What’s in a hashtag?: content based prediction of the spread of ideas in microblogging communities

sur, Oren Rappoport, Ari In Proc. of WSDM 2012 http://dl.acm.org/citation.cfm?id=2124320 概要 ツイッター上で、 …