投稿日: SIGIR 論文紹介

Predicting the popularity of web 2.0 items based on user comments

He, Xiangnan and Gao, Ming and Kan, Min-Yen and Liu, Yiqun and Sugiyama, Kazunari
In Proc. of SIGIR 2014

概要

どのコンテンツに誰がいつコメントを投稿したか、という情報を利用することで、コンテンツの将来のview countの予測を目的とした論文。YouTubeの動画、Flickrの画像、Last.fmの音楽を対象として実験を行った。

先行研究との違い

コンテンツの視聴数の推移情報を利用することで、未来の視聴数を予測する研究は行われてきた。しかしこのアプローチには、過去の視聴数の推移は必ずしも取得できないという問題と、あらゆるコンテンツの日々の視聴数データをクロールし続けるのはコストがかかるという問題がある。そこでこの研究では、コンテンツに投稿されたコメントを利用することでこれらの問題を解決する。コメントを利用すれば、予測したいタイミンでコンテンツに投稿されているコメントをまとめて一度だけ収集すればよく、コストが低く抑えられる。

手法の概要

手法を提案するにあたって、以下の3つの仮説を提唱。

  • Temporal Factor:直近に多くのコメントが投稿されているコンテンツは、この先よく視聴される。
  • Social Influence Factor:影響力のあるユーザにコメントが投稿されたコンテンツは、この先よく視聴される。
  • Current Popularity Factor:既に多くの人に視聴されているコンテンツは、この先もよく視聴される(rich-get-richer効果)。

以上を基に、ユーザとコンテンツをノードとする二部グラフを作成。ユーザがコンテンツにコメントを投稿した場合のみ両者間に枝が存在する。上記のすべての仮説を満たすようなregularization functionを提案。

評価方法

YouTube、Flickr、Last.fmのデータを使用。YouTubeとFlickrでは、YouTubeでの出現頻度の高い10個のタグで検索してデータ収集。Last.fmでは音楽のジャンルを表す10個のタグで検索してデータ収集。
ある日tとその3日後にデータを収集し、3日後の各コンテンツの視聴数を正解データとし、tの時点で利用できる情報からいかに精度高く3日後の視聴数を予測できるかを評価する。
評価には再生数の順位に基づくSpearmanの相関係数と、nDCGを使用。nDCGでは、正解データ内で視聴数の多いコンテンツほど高適合度になるように自動的にスコアリングすることで、より再生数の多いコンテンツを提案手法でより上位にランキングできていたかを評価。
実験の結果、tの時点での視聴数や、tの直前3日間のコメント数、tの直後3日間のコメント数などでランキングするよりも提案手法が高い精度を記録。


-SIGIR, 論文紹介

関連記事

Improving relevance judgment of web search results with image excerpts

Li, Zhiwei Shi, Shuming Zhang, Lei In Proc. of WWW2008 http://dl.acm.org/citation.cfm?id=1367497.136 …

Unexpected Relevance: An Empirical Study of Serendipity in Retweets

Tao Sun Ming Zhang Qiaozhu Mei In Proc. of ICWSM 2013 概要 Serendipityな情報とはどのようなものかを定義した論文.また,その定義に基づい …

Measuring Pair-Wise Social Influence in Microblog

Zibin Yin Ya Zhang In Proc. of SocialCom 2012 概要 Weibo上でのリツイートのモデル化を提案。提案モデルを使うことで、ユーザAのツイートがフォロワーのユ …

【論文紹介】How Much Novelty is Relevant?: It Depends on Your Curiosity

Zhao, Pengfei and Lee, Dik Lun In Proc. of SIGIR 2016 概要 心理学の分野では、対象物の刺激が強すぎても弱すぎても人は惹き付けられず、中程度のとき最 …

Learning from the Past: Answering New Questions with Past Answers

A. Shtok, G. Dror, Y. Maarek, and I. Szpektor In Proc. of WWW 2012 http://dl.acm.org/citation.cfm?id …