投稿日:2017/03/19 更新日: WWW 論文紹介

【論文紹介】What Makes a Link Successful on Wikipedia?

Dimitrov, Dimitar and Singer, Philipp and Lemmerich, Florian and Strohmaier, Markus
WWW 2017
ACM, PDF

概要

Wikipediaでよくクリックされるリンクと、あまりクリックされないリンクの違いは何によって生じるのかを調べた論文。さらにそこで得られた知見を元に、PageRankの改善に取り組んでいる。

リンクのクリックの多寡に影響を及ぼす要因の調査

英語のWikipediaのデータセットを使用。ページ数は480万、リンク数は3400万。クリックデータは2015年2月のものを使用。10回以上クリックされたリンクのみ使用しており、そのようなリンクは全リンクの4%。

リンクがクリックされた回数を目的関数として回帰を行った。使用した特徴量は大きく分けて以下の3カテゴリ。

  • ネットワーク特徴量:リンク元、リンク先それぞれのページの入次数と出次数やPageRankの値など。
  • ページ類似度:リンク元とリンク先のページの類似度をtf-idfベースとWikipediaのカテゴリ情報ベースで求めたもの。
  • 視覚的特徴量:リンクがページ内のどこに位置しているか。ページ内の最初のセクションやインフォボックスなど6箇所のカテゴリを用意。ページ内のxy座標も使用。

回帰の結果、ネットワーク特徴量については、ネットワークの中心よりも端にあるページがクリックされやすいことがわかった。ネットワークの端にあるページはより具体的な内容のページであり、ユーザはページの内容を狭める方向のページに遷移しやすいことを表している。ページ類似度については、類似度が高いページに遷移しやすいことがわかった。視覚的特徴量については、ページの上部と左側にあるリンクがクリックされやすいことがわかった。

PageRankの拡張

通常のPageRankでは、ページ内の全リンクを等確率でクリックすることを想定している。この論文では、先程の分析で得られた知見をもとに、リンク先のページがネットワークの端にあるほど、リンク先のページ類似度が高いほど、リンクの位置が上部または左側にあるほど、高確率で遷移するようにPageRankを拡張した。各ページの閲覧数とPageRank値の相関を評価。

従来のPageRankに比べて、ネットワーク特徴量と視覚的特徴量をそれぞれ単独で使用した場合の相関は高くなったが、ページ類似度を使用した場合の相関は低くなった。ページ類似度を使用したときに相関が悪化した原因として、他の特徴量と比べて、ユーザが類似したページのリンクをクリックするのは限られたシチュエーションであるため、と述べている。ネットワーク特徴量と視覚的特徴量を組み合わせた場合が最も相関が高くなった。


-WWW, 論文紹介
-,

関連記事

Displaying relevance scores for search results

Shani, Guy Tractinsky, Noam In Proc. of SIGIR 2013 http://dl.acm.org/citation.cfm?id=2484112 概要 Web検 …

Your neighbors affect your ratings: on geographical neighborhood influence to rating prediction

Hu, Longke and Sun, Aixin and Liu, Yong In Proc. of SIGIR 2014 概要 店sの周辺の店の情報を利用することで、ユーザuのsに対するレーティン …

【論文紹介】Personalised Rating Prediction for New Users Using Latent Factor Models

Seroussi, Yanir and Bohnert, Fabian and Zukerman, Ingrid In Proc. of HT 2011 概要 映画や書籍に対するユーザのレーティングを …

What are you looking for? An eye-tracking study of information usage in Web search

Cutrell, Edward Guan, Zhiwei In Proc. of CHI2007 http://dl.acm.org/citation.cfm?id=1240690 概要 デスクトップ …

AutoWeb: automatic classification of mobile web pages for revisitation

Liu, Jie Xu, Wenchang Shi, Yuanchun In Proc. of MobileHCI 2012 http://dl.acm.org/citation.cfm?id=237 …