投稿日: SIGIR 論文紹介

Modeling User Posting Behavior on Social Media

Xu, Zhiheng
Zhang, Yang
Wu, Yao
Yang, Qing
In Proc. of SIGIR 2012
http://dl.acm.org/citation.cfm?id=2348358

概要

Twitter上でのユーザのツイートの投稿をモデル化することを目的とした論文.この論文では特にあるユーザが他のユーザのツイートをリツイートするかどうかを予測するためのモデルを提案している.
既存研究では,ユーザは自分の興味のあることを投稿すると仮定していたが,この研究では「ニュース情報」「友人の投稿内容」「ユーザ自身の興味」の3要素に影響されて投稿するという仮説を立てている.

提案モデル

ユーザaがある時区間T(例えば24時間)の間に単語wを書き込む確率を次式で表す.
 p_{Ta}(w)=\lambda_{B}p(w|\theta_{B}) + (1-\lambda_{B}) (\lambda_{a2}p_{T}(w|\theta_{N}) + \lambda_{a3}p_{T}(w|\theta_{aF}) + \lambda_{a0}p(w|\theta_{aI}))
ここでp(w|\theta_{B})は全データセット中でのwの生起確率,p_{T}(w|\theta_{N})Tにおけるニュース情報中でのwの生起確率,p_{T}(w|\theta_{aF})Tにおける友人の投稿上でのwの生起確率,p(w|\theta_{aI})はユーザaの興味の中でのwの生起確率を表す.\lambdaはそれぞれ係数であり,\lambda_{a0},\lambda_{a2},\lambda_{a3}の値はユーザによって異なる(ニュースに影響されやすいユーザは\lambda_{a2}の値が大きくなる等).

まず,ニュース情報の影響による単語の生起確率の求め方について述べる.この論文では24時間ごとの区間中での単語wのスコアをTFIDF的に求めている.ここでのIDFはwが出現する時区間の数に相当する.そのスコアを全単語のスコアの総和で割って正規化することでp_{T}(w|\theta_{N})を求めている.

次に,友人の投稿の影響による単語の生起確率の求め方について述べる.ユーザaが友人bのツイートをリツイートしているほど,また友人bにメンションを飛ばしているほど,友人bのユーザaへの影響力は大きいと考える.さらに,時区間Tの間に友人bが語wを書き込んでいるほどユーザaが語wを書き込む確率が高くなると考える.つまり,ユーザaの各友人について「友人の影響力」×「その友人のwの発言回数」を求め,それをもとにp_{T}(w|\theta_{aF})を求める.

最後に,ユーザ自身の興味の影響による単語の生起確率の求め方について述べる.これにはauthor topicモデルの考えが用いられており,ユーザごとにトピックの分布を,トピックごとに単語の生起確率を持っており,それに応じて語wが生成されると考える.トピックの分布と単語の生起確率はギブスサンプリングにより求める.

\lambda_{a0},\lambda_{a2},\lambda_{a3}の各値もギブスサンプリングにより求める.

実験

実験では,評価の対象となるユーザのフォロワーのツイートの中から,そのユーザがリツイートしたツイートを1つ,リツイートしなかったツイートを10個ランダムに選択し,各ツイートの生起確率を計算したときに,ユーザが実際にリツイートしたものがどれだけ上位に位置しているかを検証した.

実験の結果,提案手法では約17%の確率でユーザがリツイートしたツイートを最上位にランキングできていた.

さらに,既存研究で16個の素性を用いたロジスティック回帰によりリツイートを予測する手法があるのでそれと比較を行うと,提案手法の方が下回っていた.しかし,提案手法のスコアを素性に加えて17個の素性でロジスティック回帰を行うと,16個の場合よりも良い結果が得られた.


-SIGIR, 論文紹介
-

関連記事

Improving the exploration of tag spaces using automated tag clustering

Radelaar, Joni Boor, Aart-Jan Vandic, Damir Van Dam, Jan-Willem Hogenboom, Frederik Frasincar, Flavi …

Mining Query Subtopics from Search Log Data

Hu, Yunhua Qian, Yanan Li, Hang Jiang, Daxin Pei, Jian Zheng, Qinghua In Proc. of SIGIR 2012 http:// …

Finding Dimensions for Queries

Z. Dou, S. Hu, Y. Luo, R. Song, and JR. Wen In Proc. of CIKM2011 http://dl.acm.org/citation.cfm?id=2 …

Who Will You “@”?

Gong, Yeyun and Zhang, Qi and Sun, Xuyang and Huang, Xuanjing In Proc. of CIKM 2015 概要 Twitterではリプライ …

Retrieval models for question and answer archives

Xue, Xiaobing Jeon, Jiwoon Croft, W. Bruce In Proc. of SIGIR 2008 http://dl.acm.org/citation.cfm?id= …