投稿日: CIKM 論文紹介

Spatial influence vs. community influence: modeling the global spread of social media

Kamath, Krishna Y.
Caverlee, James
Cheng, Zhiyuan
Sui, Daniel Z.
In Proc. of CIKM 2012
http://dl.acm.org/citation.cfm?id=2396883

概要

ツイッターのハッシュタグの広がり方をモデル化することを目的とした論文.2つの観点からモデルを作成している.1つは地理空間上の距離が近いほど広がりやすいというもので,もう1つは似たコミュニティの間ほど広がりやすいというもの.

データ分析

ツイッターにおける地理空間上の距離の影響を調べるためにデータ分析を行った.データ分析を行うために,2011年1月から11月までのジオタグ付きのツイートを約7億5500万個集めた.ハッシュタグのユニーク数は1000万個.地理空間は緯度0.0001度×経度0.001度が1つのエリアになるように地球の表面を分割.
まず,任意の2エリア間でハッシュタグの共起度を調べたところ,距離が近いほど共起度が高く,-0.8という強い相関が見られた.次に,2エリア間で共通に出現するタグの各エリアでの初出のタイムラグの平均値を調べたところ,距離が近いほどタイムラグは小さく,0.86という強い相関が見られた.最後に,ハッシュタグの出現エリアの散らばり具合を,ハッシュタグが出現してa分後と2011年11月の最後の時点で比較したところ,多くのハッシュタグは最終的な散らばり具合と大きな差がなかった.つまり,最初のa分のハッシュタグの散らばり具合を見れば最終的な散らばり具合もある程度予想できることを示している.aを5分,15分,30分としたところ,時間が長いほど差は小さかった.

問題定義

入力としてハッシュタグm,エリア数k,日時tを与え,t以降でmの出現数が多い上位kエリアを出力する問題.

モデル

提案モデルは,spatial influence modelと呼ばれる,エリア間の距離を考慮したモデルと,community affinity influence modelと呼ばれる,エリア間のコミュニティとしての類似度を考慮したモデルの2つから成る.それらの共通もでるとして,spread modelと呼ばれる以下のモデルを用いる.
 M_{Spread}(m,L)=argmax \sum_{l \in S} \left( P^{m}_{l} + \sum_{l_{i} \in L-l} P^{m}_{l_{i}} \cdot T^{l_{i}\rightarrow l} \right)
argmaxの下は{ S \subseteqq L | |S|=k }.Lは全エリア集合.P^{m}_{l}は全エリアの全時間帯でのハッシュタグmの出現数のうちエリアlの全時間帯での出現数.T^{l_{i}\rightarrow l}はハッシュタグのエリアl_{i}からlへの伝わりやすさで,これが上記の2つのモデルで異なる.

  • spatial influence model
  • このモデルでは,T^{l_{i}\rightarrow l}は以下のように定義される.
     T^{l_{i}\rightarrow l}_{Spatial} = \frac{\alpha^{-H(l_{i},l)}}{\sum_{l_{i} \in L} \alpha^{-H(l_{i},l)}}
    αはパラメータであり,Hは2エリア間の距離を返す.つまり,l_{i}lの距離が近いほどT^{l_{i}\rightarrow l}_{Spatial}の値が大きく,ハッシュタグが伝わりやすいとしている.

  • community affinity influence model
  • このモデルでは2つの異なる手法が提案されている.
    1つ目はtransmittingと呼ばれるもので,エリアl_{i}からl_{j}へのハッシュタグの伝わりやすさとして,l_{i}l_{j}に共通して現れるハッシュタグのうち,初出の日時がl_{j}よりl_{i}の方が早いハッシュタグの割合が多いほど伝わりやすいとするものである.
    2つ目はsharingと呼ばれるもので,エリアl_{i}からl_{j}へのハッシュタグの伝わりやすさとして,l_{i}に出現するハッシュタグのうち,l_{i}l_{j}に共通して現れるハッシュタグの割合が多いほど伝わりやすいとするものである.

  • 2つのモデルの混合
  • 2つのモデルを混合する際は,以下のように線形和を用いる.
     M_{Spread}(m,L)=
     argmax \sum_{l \in S} \left( P^{m}_{l} + \sum_{l_{i} \in L-l} P^{m}_{l_{i}} \cdot \left( \beta \cdot T^{l_{i}\rightarrow l}_{Spatial} + (1-\beta )\cdot T^{l_{i} \rightarrow l}_{Transmit} \right) \right)
     M_{Spread}(m,L)=
     argmax \sum_{l \in S} \left( P^{m}_{l} + \sum_{l_{i} \in L-l} P^{m}_{l_{i}} \cdot \left( \beta \cdot T^{l_{i}\rightarrow l}_{Spatial} + (1-\beta )\cdot T^{l_{i} \rightarrow l}_{Share} \right) \right)


-CIKM, 論文紹介
-

関連記事

【論文紹介】Cats and Captions vs. User Characteristics and the Clock: A Time-Controlled Analysis of Multimodal Content

Hessel, Jack and Lee, Lillian and Mimno David In Proc. of WWW 2017 概要 Redditと呼ばれるソーシャルニュースサイトに投稿された画 …

Deciphering Mobile Search Patterns: A Study of Yahoo! Mobile Search Queries

Yi, Jeonghee Maghoul, Farzin Pedersen, Jan In Proc. of WWW2008 http://dl.acm.org/citation.cfm?id=136 …

Web Object Retrieval

Nie, Zaiqing Ma, Yunxiao Shi, Shuming Wen, Ji-Rong Ma, Wei-Ying In Proc. of WWW 2007 http://dl.acm.o …

Computers and iPhones and Mobile Phones, oh my! A logs-based comparison of search users on different devices.

Kamvar, Maryam Kellar, Melanie Patel, Rajan Xu, Ya In Proc. of WWW2009 http://dl.acm.org/citation.cf …

Modeling User Posting Behavior on Social Media

Xu, Zhiheng Zhang, Yang Wu, Yao Yang, Qing In Proc. of SIGIR 2012 http://dl.acm.org/citation.cfm?id= …