投稿日:2017/03/19 更新日: WWW 論文紹介

【論文紹介】What Makes a Link Successful on Wikipedia?

Dimitrov, Dimitar and Singer, Philipp and Lemmerich, Florian and Strohmaier, Markus
WWW 2017
ACM, PDF

概要

Wikipediaでよくクリックされるリンクと、あまりクリックされないリンクの違いは何によって生じるのかを調べた論文。さらにそこで得られた知見を元に、PageRankの改善に取り組んでいる。

リンクのクリックの多寡に影響を及ぼす要因の調査

英語のWikipediaのデータセットを使用。ページ数は480万、リンク数は3400万。クリックデータは2015年2月のものを使用。10回以上クリックされたリンクのみ使用しており、そのようなリンクは全リンクの4%。

リンクがクリックされた回数を目的関数として回帰を行った。使用した特徴量は大きく分けて以下の3カテゴリ。

  • ネットワーク特徴量:リンク元、リンク先それぞれのページの入次数と出次数やPageRankの値など。
  • ページ類似度:リンク元とリンク先のページの類似度をtf-idfベースとWikipediaのカテゴリ情報ベースで求めたもの。
  • 視覚的特徴量:リンクがページ内のどこに位置しているか。ページ内の最初のセクションやインフォボックスなど6箇所のカテゴリを用意。ページ内のxy座標も使用。

回帰の結果、ネットワーク特徴量については、ネットワークの中心よりも端にあるページがクリックされやすいことがわかった。ネットワークの端にあるページはより具体的な内容のページであり、ユーザはページの内容を狭める方向のページに遷移しやすいことを表している。ページ類似度については、類似度が高いページに遷移しやすいことがわかった。視覚的特徴量については、ページの上部と左側にあるリンクがクリックされやすいことがわかった。

PageRankの拡張

通常のPageRankでは、ページ内の全リンクを等確率でクリックすることを想定している。この論文では、先程の分析で得られた知見をもとに、リンク先のページがネットワークの端にあるほど、リンク先のページ類似度が高いほど、リンクの位置が上部または左側にあるほど、高確率で遷移するようにPageRankを拡張した。各ページの閲覧数とPageRank値の相関を評価。

従来のPageRankに比べて、ネットワーク特徴量と視覚的特徴量をそれぞれ単独で使用した場合の相関は高くなったが、ページ類似度を使用した場合の相関は低くなった。ページ類似度を使用したときに相関が悪化した原因として、他の特徴量と比べて、ユーザが類似したページのリンクをクリックするのは限られたシチュエーションであるため、と述べている。ネットワーク特徴量と視覚的特徴量を組み合わせた場合が最も相関が高くなった。


-WWW, 論文紹介
-,

関連記事

Where you Instagram?: Associating Your Instagram Photos with Points of Interest

Li, Xutao and Pham, Tuan-Anh Nguyen and Cong, Gao and Yuan, Quan and Li, Xiao-Li and Krishnaswamy, S …

【論文紹介】Bartering Books to Beers: A Recommender System for Exchange Platforms

Rappaz, Jérémie and Vladarean, Maria-Luiza and McAuley, Julian and Catasta, Michele WSDM 2017 ACM, P …

Sentiment-Based Topic Suggestion for Micro-Reviews

Ziyu Lu, Nikos Mamoulis, Evaggelia Pitoura, Panayiotis Tsaparas In Proc. of ICWSM 2016 概要 Foursquare …

Displaying relevance scores for search results

Shani, Guy Tractinsky, Noam In Proc. of SIGIR 2013 http://dl.acm.org/citation.cfm?id=2484112 概要 Web検 …

Predicting the popularity of web 2.0 items based on user comments

He, Xiangnan and Gao, Ming and Kan, Min-Yen and Liu, Yiqun and Sugiyama, Kazunari In Proc. of SIGIR …