投稿日:2017/06/07 更新日: その他 論文紹介

【論文紹介】The automated acquisition of suggestions from tweets

Dong, Li and Wei, Furu and Duan, Yajuan and Liu, Xiaohua and Zhou, Ming and Xu, Ke
AAAI 2013
ACM, PDF

概要

ツイッターの中から、企業や人、製品にたいして何か提案をしているツイートを抽出することを目的とした論文。Factorizaion Machines(FMs)を使用しており、著者曰く、NLP分野でFMsを使った最初の論文。

手法

FMsに使用する素性は単語ユニグラム、ハッシュタグ、提案に用いられるテンプレート表現、の3カテゴリ。
テンプレートの抽出は、Windows Phoneの公式サイトに投稿されたユーザのフィードバックから収集。PrefixSpanを使って頻出する言い回しを収集して、提案を表す言い回しを人手で抽出。

提案ツイートは非提案ツイートよりも数が圧倒的に少ないので、データのアンバランス度合いを考慮して学習する必要がある。この論文ではOversamplingとThresholding(正例と判定する閾値を0.5ではなく交差検証で決める)の両方を使用することで解決している。Undersamplingも試したが、Oversamplingの方が精度が高かった。

評価

Windows Phone 7に関するツイート3,000件を収集し、提案ツイートか否かを人手でラベル付け。238件が提案ツイートであった。比較手法として、素性の組み合わせを考慮した多項式カーネルのSVMなどを使用。

この実験では提案ツイートを対象にしたprecisionとrecallの精度が重要であり、この点において提案手法はF値で他の手法を上回っていた。特にrecallの値が高かった。多項式カーネルSVMも提案手法に近い精度は出ていたが、一般に多項式カーネルSVMは疎なデータには向かないと言われているように、今回のデータも疎なことから、提案手法が勝る結果となった。


-その他, 論文紹介
-,

関連記事

Bad News Travel Fast: A Content-based Analysis of Interestingness on Twitter

Nasir Naveed Thomas Gottron Jérôme Kunegis Arifah Che Alhadi In Proc. of WebSci 2011 http://dl.acm.o …

Web Object Retrieval

Nie, Zaiqing Ma, Yunxiao Shi, Shuming Wen, Ji-Rong Ma, Wei-Ying In Proc. of WWW 2007 http://dl.acm.o …

【論文紹介】Generative Feature Language Models for Mining Implicit Features from Customer Reviews

Karmaker Santu, Shubhra Kanti and Sondhi, Parikshit and Zhai, ChengXiang CIKM 2016 ACM 概要 イリノイ大学のChe …

Measuring Message Propagation and Social Influence on Twitter.com

Ye, Shaozhi Wu, S. Felix In Proc SocInfo 2010 http://dl.acm.org/citation.cfm?id=1929342 概要 マイケル・ジャクソ …

How fresh do you want your search results?

Shiwen Cheng Anastasios Arvanitis Vagelis Hristidis In Proc. of CIKM 2013 概要 検索結果中の情報の鮮度に着目した研究はこれまで …