投稿日: WWW 論文紹介

Semantic Annotation of Mobility Data using Social Media

Wu, Fei and Li, Zhenhui and Lee, Wang-Chien and Wang, Hongjian and Huang, Zhuojie
In Proc. of WWW 2015

概要

あるユーザの行動ログとして(時刻、緯度、経度)の三つ組が与えられたときに、そのユーザがその場所を訪れた理由の推定を目的とした論文。時刻と場所が近いツイートを集めて、その時間と場所に特有の語集合(ランドマークやイベント)を求めることで訪問理由を推定する。これによって、ユーザの移動履歴を集めれば、ユーザの興味のプロファイリングが可能になる。

先行研究との違い

位置情報をランドマークなどの静的な情報と紐付けることを目的とした研究は行われてきた。しかし、「東京ドーム」というランドマークであっても、時間によっては「野球」や「コンサート」などの異なるイベントが行われており、この研究ではそのような動的な情報の抽出も行う点が異なる。

手法

(時刻、緯度、経度)の三つ組が与えられると、その時刻の前後τ時間の間に投稿されたツイートを収集する。全ツイート集合に含まれる各単語に対して、与えられた三つ組との関連度を求める。関連度の高い順に単語をランキングすることで、その時刻にその場所を訪れた理由がわかる。

カーネル密度推定を利用することで、三つ組の場所とより近い場所で投稿されたツイートに含まれる単語が高いスコアを持つようにするというのが基本的な手法。カーネル関数にはガウシアンカーネルを使用している。

評価方法

ニューヨーク、シカゴ、ロサンゼルスの位置情報付きツイートを使用。

正解データを作成するために、Foursquareのチェックイン情報を含むツイートを収集。Foursquareのツイートには、ランドマークやイベント名が含まれるので、それらを人手で抽出してツイートごとに正解の単語集合を求める。ツイートからテキスト情報を除いた(時刻、緯度、経度)の三つ組を与えたときに求められる単語のリストに対して、precision、recallを求める。

実験の結果、単純な単語出現頻度を用いた手法や、GMMを用いた手法よりもカーネル密度推定を用いた手法の方が優れていることを示した。また、単語ごとに動的にバンド幅を決めるよりも、ヒューリスティックに決めた全単語で共通のバンド幅の方が優れていることを示した。定性的な評価にもかなりのスペースを割き、ユーザごとのプロファイルが可能になることを示した。

関連研究

  • カーネル密度推定では、カーネル関数の決め方よりもバンド幅の決め方の方が影響が大きい。
  • K. Dehnad. Density estimation for statistics and data analysis. Technometrics, 29(4):495-495, 1987.


-WWW, 論文紹介

関連記事

Computers and iPhones and Mobile Phones, oh my! A logs-based comparison of search users on different devices.

Kamvar, Maryam Kellar, Melanie Patel, Rajan Xu, Ya In Proc. of WWW2009 http://dl.acm.org/citation.cf …

Modeling User Posting Behavior on Social Media

Xu, Zhiheng Zhang, Yang Wu, Yao Yang, Qing In Proc. of SIGIR 2012 http://dl.acm.org/citation.cfm?id= …

【論文紹介】Matrix factorization techniques for context aware recommendation

Baltrunas, Linas and Ludwig, Bernd and Ricci, Francesco RecSys 2011 ACM, PDF 概要 コンテキストによるバイアスを考慮したレー …

Predicting clicks: estimating the click-through rate for new ads

Richardson, Matthew Dominowska, Ewa Ragno, Robert In Proc. of WWW2007 概要 検索結果の横に表示される広告のCTRの推定を目的として …

Mining long-term search history to improve search accuracy

Tan, Bin Shen, Xuehua Zhai, ChengXiang In Proc. of KDD2006 http://dl.acm.org/citation.cfm?id=1150493 …