投稿日: WSDM 論文紹介

The Last Click: Why Users Give up Information Network Navigation

Aju Thalappillil Scaria
Rose Marie Philip
Robert West
Jure Leskovec
In Proc. of WSDM 2014

概要

リンクをたどってあるページから目的のページに行きたいときに,必ずしも到達できるとは限らず,途中で諦めてしまうこともある.この研究では,Wikispeediaと呼ばれる,wikipediaのあるページを始点,あるページを終点として,始点から終点にwikipedia内のリンクをたどって到達できるかを競うゲームの結果を用いて,到達できた人と,途中で諦めて到達できなかった人の振る舞いの違いの分析や,ユーザが終点に到達できるかの予測を行っている.

到達できた場合とできなかった場合の差異

  • 始点と終点の違い
  • 始点と終点のページを比較したときに,到達できた場合は到達できない場合に比べて2ページ間の類似度が高い.つまり,始点と終点のページがより似た関係にあるほど,到達しやすい.また,到達できた場合の方が終点ページのインリンク数が多い,終点ページのPageRank値が高いといった特徴がある.

  • 途中のページの違い
  • 終点に到達できた場合は,リンクを1つたどるごとに終点への最短パスや終点と現在いるページの類似度が高くなっていく.到達できない場合も最初の何クリックかは同じ傾向だが,最短パス,類似度ともにすぐに横ばいになり,ユーザが適切なパスを発見できなくなっていることを表している.

到達可能性とリンクを遡る行為との関係

Wikipediaのページをp1→p2→p3とたどって行って,このままでは終点に到達できそうにないと判断したらp3→p2→p1と元のページに戻る行為(バッククリック)が,到達可能性とどのように関係があるかを分析した.
到達できた場合,遡る行為があるのは全体の16.4%だったが,到達できなかった場合はその割合は20.3%と高い.
到達できた場合は,終点への最短距離が近づいたり,終点と現在のページの類似度が高くなると,遡ることは少ない.つまり,終点に到達できたユーザは終点に近づいていることや,終点との関連が高くなっていることを適切に判断できている.一方で到達できなかったユーザはそういった判断が正しくできておらず,終点への距離が近づいたり関連が高くなったりしているにも関わらず,リンクを遡っていくことが多い.

さらに,アウトリンク数の多いページほどそのページに戻ってくることが多く,そのページを中心に放射線状に様々なページにアクセスすることが多い.この傾向は成功者,失敗者ともに同じ傾向が見られた.

成功・失敗とバッククリックの予測

以下の3つの項目を,ユーザの最初の数クリックから予測することを目的としている.

  1. ユーザは途中で終点に到達するのを諦めるか.
  2. ユーザの次のクリックはバッククリックか.
  3. ユーザはこれ以上クリックすることなく諦めるか.

これらの項目を以下の素性を用いて重回帰分析により予測する.

  • 始点と終点の特徴
  • 始点から終点への最短パス長や始点と終点の類似度など.

  • それまでクリックしてきたページ間の特徴
  • ページ間の類似度など.

  • それまでクリックしてきたページの特徴
  • 終点への最短パス長や終点との類似度など.

実験の結果,ユーザが今いるページから終点への最短パス長,直近2ページと終点との類似度,終点のインリンク数,それまでクリックしてきたページ間の類似度,終点への最短パス長が短くなったにも関わらずバッククリックをしたか,などの素性が有効であった.


-WSDM, 論文紹介

関連記事

What’s in a hashtag?: content based prediction of the spread of ideas in microblogging communities

sur, Oren Rappoport, Ari In Proc. of WSDM 2012 http://dl.acm.org/citation.cfm?id=2124320 概要 ツイッター上で、 …

Who uses web search for what: and how

Weber, Ingmar Jaimes, Alejandro In Proc. of WSDM 2011 http://dl.acm.org/citation.cfm?id=1935839 概要 Y …

Time-sensitive query auto-completion

Shokouhi, Milad Radinsky, Kira In Proc. of SIGIR 2012 http://dl.acm.org/citation.cfm?id=2348364 概要 従 …

Analyzing and evaluating query reformulation strategies in web search logs

Huang, Jeff Efthimiadis, Efthimis N. In Proc. of CIKM2009 http://dl.acm.org/citation.cfm?id=1645966 …

Identifying task-based sessions in search engine query logs

Lucchese, Claudio Orlando, Salvatore Perego, Raffaele Silvestri, Fabrizio Tolomei, Gabriele In Proc. …