投稿日: WSDM 論文紹介

Who uses web search for what: and how

Weber, Ingmar
Jaimes, Alejandro
In Proc. of WSDM 2011
http://dl.acm.org/citation.cfm?id=1935839

概要

Yahooのクエリログを分析して,どういった人がどういったトピックをどのように検索しているかを分析した論文.誰が,何を,どのように,という3つの観点を絡めて分析を行ったことを売りにしている.

データ

クエリログはYahooに2008年と2009年に入力されたものを使用.性別,生年,国,ZIPコードを登録しているユーザが入力したクエリかつ,国をアメリカとして登録しているユーザが入力したクエリのみを使用.
誰が,何を,どのように検索したかというデータをそれぞれ以下のように収集した.

  • 誰が
    各ユーザの性別,生年に加えて,ZIPコードに応じたその場所の住民の平均年収や教育レベル,人種といったデータを用いてユーザの属性情報を決める.
  • 何を
    30回以上入力されたクエリのみを対象として,各クエリをY!Directory(http://dir.yahoo.com/)に登録されている71のトピックに分類した.分類の際は,各クエリの検索結果上位10件それぞれを分類器を用いて71のトピックのいずれかに分類し,最も分類先の多いトピックをそのクエリのトピックとしている.
  • どのように
    30分を1つのセッションとして,調査期間中のセッション数や,セッション中のクエリの発行回数などを調べている.また,クエリごとにクリックされたURLの分布からエントロピーをもとめ,informationalなクエリとnavigationalなクエリの割合を求めている.

ユーザの分類

各ユーザが発行したクエリに関する71のトピックの分布を元に,ユーザをk-meansによりクラスタリングした.つまり,「何を」調べているか,という観点から分類したことになる.分類の結果,各クラスタの中心付近にいるユーザは次の3種類に分類することができた.

  • Informationalなクエリを発行しやすいユーザ
    「何を」という観点では,このグループのユーザは様々なトピックを調べる傾向にある.
    「どのように」という観点では,このグループのユーザは1つのセッションで複数のURLをクリックし,クエリ推薦を使いやすい傾向にある.
    「誰が」という観点では,教育レベルが高く収入が平均以上のユーザが多かった.
  • Navigationalなクエリを発行しやすいユーザ
    「何を」という観点では,FacebookやYoutubeのようなNews&Mediaに属するページ,Yahoo MailやGmailのようなComputers&Internetに属するページ,その他Entertainment/MusicとRecreation/Sportsに属するページを調べる傾向にある.
    「どのように」という観点では,1つのセッション中に1つのURLだけクリックし,クエリ推薦は使わない傾向にある.
    「誰が」という観点では,どの指標も平均値に近かった.
  • Transactionalなクエリを発行しやすいユーザ
    「何を」という観点では,買い物,アダルト,ゲームのトピックに関する検索をしていることが多い.
    「どのように」という観点では,1つのセッション中でのインタラクションの頻度はinformationalよりも低めであり,クリックのエントロピーは高い.
    「誰が」という観点では,トピックによって異なり,Society&Culture/Sexualityでは男性が多く,Business&Economy/Shoppingでは女性が多かった.Recreation/Gamesでは収入や教育レベルが平均以下のユーザが多かった.

さらに,各クラスタのユーザの振る舞いを詳細に調べると以下のような特徴があった.各クラスタ名は著者がつけたもの.

  • Baby Boomersクラスタ
    50歳以上のユーザが多く属する.検索されるおもなトピックは金融関係で,オンラインバンクに関連したnavigationalなクエリが多い.
  • Adult Content Seekersクラスタ
    年齢層はやや高く,1つのセッション中に1度のクリックで満足する傾向がある.
  • Liberal Femalesクラスタ
    2008年の選挙で民主党に投票した女性が多かった.買い物のトピックが多く,セッションは長い傾向にある.
  • White Conservativesクラスタ
    2008年の選挙で共和党に投票した男性が多かった.自動車や仕事,家や庭に関するトピックを多く調べる傾向にある.
  • Challenge Youthクラスタ
    平均年令が34歳と若い人が多い.収入は低めで教育レベルも低い傾向にある.音楽に関するnavigationalなクエリが多い.

観点間の関係

「誰が」,「何を」,「どのように」の3つの観点のうち2つの観点間の関係に着目して分析を行うと以下のようになる.

  • 「誰が」と「何を」の関係
    ユーザを男性と女性という観点から捉えると,男性はSexualityやSportsに関することを調べ,女性はReproductive Health,Arts/Crafts,Familiesに関することを調べる傾向がある.
    また,ユーザを年代という観点から捉えると,年配のユーザはHealth/Disease&ConditionsやGambling,Travelを調べ,20代後半のユーザはHealth/FitnessやReproductive/Healthを調べ,最も若い層のユーザはGamesやEducation/Generalを調べていた.
  • 「何を」と「どのように」の関係
    1つのセッションで複数のURLをクリックするユーザやクエリ推薦をよく使うユーザは健康,科学,芸術に関するinformationalなトピックに興味を持ち,navigationalなトピックには興味をあまり持たない.
  • 「誰が」と「どのように」の関係
    教育レベルの高い人はセッションが短い.さらに,ニッチなクエリをよく入力するためクエリ推薦を使わない傾向にある.
    年代別に見ると,若い人はinformationalなクエリを,年配の人はnavigationalなクエリを多く入力する傾向にある.

-WSDM, 論文紹介
-,

関連記事

User see, user point: gaze and cursor alignment in web search

Huang, Jeff White, Ryen Buscher, Georg In Proc. of CHI 2012 http://dl.acm.org/citation.cfm?id=220859 …

Happy, Nervous or Surprised? Classification of Human Affective States in Social Media

Munmun De Choudhury Michael Gamon Scott Counts In Proc. of ICWSM 2012 概要 ツイートを11種類の感情に分類することを目的とした論文 …

On a Topic Model for Sentences

Balikas, Georgios and Amini, Massih-Reza and Clausel, Marianne In Proc. of SIGIR 2016 概要 通常のLDAでは文書ご …

How smart does your profile image look? Estimating intelligence from social network profile images

Wei, Xingjie and Stillwell, David In Proc. of WSDM 2017 概要 Facebookの1,122ユーザを対象にして、(1)ユーザのIQ、(2)ユーザの …

A comparison of visual and textual page previews in judging the helpfulness of web pages

Aula, Anne Khan, Rehan M. Guan, Zhiwei Fontes, Paul Hong, Peter In Proc. of WWW2010 http://dl.acm.or …