投稿日: WWW 論文紹介

Semantic Annotation of Mobility Data using Social Media

Wu, Fei and Li, Zhenhui and Lee, Wang-Chien and Wang, Hongjian and Huang, Zhuojie
In Proc. of WWW 2015

概要

あるユーザの行動ログとして(時刻、緯度、経度)の三つ組が与えられたときに、そのユーザがその場所を訪れた理由の推定を目的とした論文。時刻と場所が近いツイートを集めて、その時間と場所に特有の語集合(ランドマークやイベント)を求めることで訪問理由を推定する。これによって、ユーザの移動履歴を集めれば、ユーザの興味のプロファイリングが可能になる。

先行研究との違い

位置情報をランドマークなどの静的な情報と紐付けることを目的とした研究は行われてきた。しかし、「東京ドーム」というランドマークであっても、時間によっては「野球」や「コンサート」などの異なるイベントが行われており、この研究ではそのような動的な情報の抽出も行う点が異なる。

手法

(時刻、緯度、経度)の三つ組が与えられると、その時刻の前後τ時間の間に投稿されたツイートを収集する。全ツイート集合に含まれる各単語に対して、与えられた三つ組との関連度を求める。関連度の高い順に単語をランキングすることで、その時刻にその場所を訪れた理由がわかる。

カーネル密度推定を利用することで、三つ組の場所とより近い場所で投稿されたツイートに含まれる単語が高いスコアを持つようにするというのが基本的な手法。カーネル関数にはガウシアンカーネルを使用している。

評価方法

ニューヨーク、シカゴ、ロサンゼルスの位置情報付きツイートを使用。

正解データを作成するために、Foursquareのチェックイン情報を含むツイートを収集。Foursquareのツイートには、ランドマークやイベント名が含まれるので、それらを人手で抽出してツイートごとに正解の単語集合を求める。ツイートからテキスト情報を除いた(時刻、緯度、経度)の三つ組を与えたときに求められる単語のリストに対して、precision、recallを求める。

実験の結果、単純な単語出現頻度を用いた手法や、GMMを用いた手法よりもカーネル密度推定を用いた手法の方が優れていることを示した。また、単語ごとに動的にバンド幅を決めるよりも、ヒューリスティックに決めた全単語で共通のバンド幅の方が優れていることを示した。定性的な評価にもかなりのスペースを割き、ユーザごとのプロファイルが可能になることを示した。

関連研究

  • カーネル密度推定では、カーネル関数の決め方よりもバンド幅の決め方の方が影響が大きい。
  • K. Dehnad. Density estimation for statistics and data analysis. Technometrics, 29(4):495-495, 1987.


-WWW, 論文紹介

関連記事

Adaptive Query Suggestion for Difficult Queries

Liu, Yang Song, Ruihua Chen, Yu Nie, Jian-Yun Wen, Ji-Rong In Proc. of SIGIR 2012 http://dl.acm.org/ …

Mobile App Retrieval for Social Media Users via Inference of Implicit Intent in Social Media Text

Park, Dae Hoon and Fang, Yi and Liu, Mengwen and Zhai, ChengXiang In Proc. of CIKM 2016 概要 ツイートに含まれる …

What are you looking for? An eye-tracking study of information usage in Web search

Cutrell, Edward Guan, Zhiwei In Proc. of CHI2007 http://dl.acm.org/citation.cfm?id=1240690 概要 デスクトップ …

Crowdsourcing for relevance evaluation

Alonso, Omar Rose, Daniel E. Stewart, Benjamin In SIGIR Forum, Vol.42, Num.2 http://dl.acm.org/citat …

A Study of Mobile Search Queries in Japan

Ricardo Baeza-yates Georges Dupret Javier Velasco In Proc. of WWW2007 概要 デスクトップ検索とモバイル検索の日本語のクエリログに着 …