投稿日:2017/03/19 更新日: WWW 論文紹介

【論文紹介】What Makes a Link Successful on Wikipedia?

Dimitrov, Dimitar and Singer, Philipp and Lemmerich, Florian and Strohmaier, Markus
WWW 2017
ACM, PDF

概要

Wikipediaでよくクリックされるリンクと、あまりクリックされないリンクの違いは何によって生じるのかを調べた論文。さらにそこで得られた知見を元に、PageRankの改善に取り組んでいる。

リンクのクリックの多寡に影響を及ぼす要因の調査

英語のWikipediaのデータセットを使用。ページ数は480万、リンク数は3400万。クリックデータは2015年2月のものを使用。10回以上クリックされたリンクのみ使用しており、そのようなリンクは全リンクの4%。

リンクがクリックされた回数を目的関数として回帰を行った。使用した特徴量は大きく分けて以下の3カテゴリ。

  • ネットワーク特徴量:リンク元、リンク先それぞれのページの入次数と出次数やPageRankの値など。
  • ページ類似度:リンク元とリンク先のページの類似度をtf-idfベースとWikipediaのカテゴリ情報ベースで求めたもの。
  • 視覚的特徴量:リンクがページ内のどこに位置しているか。ページ内の最初のセクションやインフォボックスなど6箇所のカテゴリを用意。ページ内のxy座標も使用。

回帰の結果、ネットワーク特徴量については、ネットワークの中心よりも端にあるページがクリックされやすいことがわかった。ネットワークの端にあるページはより具体的な内容のページであり、ユーザはページの内容を狭める方向のページに遷移しやすいことを表している。ページ類似度については、類似度が高いページに遷移しやすいことがわかった。視覚的特徴量については、ページの上部と左側にあるリンクがクリックされやすいことがわかった。

PageRankの拡張

通常のPageRankでは、ページ内の全リンクを等確率でクリックすることを想定している。この論文では、先程の分析で得られた知見をもとに、リンク先のページがネットワークの端にあるほど、リンク先のページ類似度が高いほど、リンクの位置が上部または左側にあるほど、高確率で遷移するようにPageRankを拡張した。各ページの閲覧数とPageRank値の相関を評価。

従来のPageRankに比べて、ネットワーク特徴量と視覚的特徴量をそれぞれ単独で使用した場合の相関は高くなったが、ページ類似度を使用した場合の相関は低くなった。ページ類似度を使用したときに相関が悪化した原因として、他の特徴量と比べて、ユーザが類似したページのリンクをクリックするのは限られたシチュエーションであるため、と述べている。ネットワーク特徴量と視覚的特徴量を組み合わせた場合が最も相関が高くなった。


-WWW, 論文紹介
-,

関連記事

Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! using word lengthening to detect sentiment in microblogs

Brody, Samuel Diakopoulos, Nicholas In Proc. of EMNLP2011 http://dl.acm.org/citation.cfm?id=2145498 …

Placing Videos on a Semantic Hierarchy for Search Result Navigation

Tan, Song Jiang, Yu-Gang Ngo, Chong-Wah ACM TOMM 2014 http://dl.acm.org/citation.cfm?id=2578394 概要 「 …

Identifying task-based sessions in search engine query logs

Lucchese, Claudio Orlando, Salvatore Perego, Raffaele Silvestri, Fabrizio Tolomei, Gabriele In Proc. …

Modeling documents as mixtures of persons for expert finding

Serdyukov, Pavel Hiemstra, Djoerd In Proc. of ECIR2008 http://dl.acm.org/citation.cfm?id=1793313 概要 …

Spatio-temporal Dynamics of Online Memes: A Study of Geo-tagged Tweets

Kamath, Krishna Y. Caverlee, James Lee, Kyumin Cheng, Zhiyuan In Proc. of WWW 2013 http://dl.acm.org …