投稿日: WSDM 論文紹介

Characterizing the influence of domain expertise on web search behavior

White, Ryen W.
Dumais, Susan T.
Teevan, Jaime
In Proc. of WSDM 2009
http://dl.acm.org/citation.cfm?id=1498819

概要

Web検索を行う際に,検索を行うドメインに対するユーザの専門度の違いによる検索時の振る舞いの違いを分析する研究はこれまでにも行われてきた.これまでの研究では,コントロールされた環境下でユーザに検索をしてもらい,小規模な検索ログを用いて分析をしていたが,この研究ではコントロールされていない商用検索エンジンの大規模ログを用いて分析を行う.さらに,検索時の行動から,ユーザが検索ドメインに対して専門家かどうかを推定することも試みている.

データ分析

約9,000万の検索セッションから成る検索ログを使用.まずはこのログからODPのデータを用いてMedicine,Finance,Legal,Computer Scienceの4分野に関する検索を行っているユーザを抽出する.その後,例えばComputer Scienceの分野に関する検索を行っているユーザの中で,ACM Digital Libraryを閲覧しているユーザはexpert,それ以外はnon-expert,のように特定のサイトを閲覧しているかどうかで各分野のユーザをexpertとnon-expertの2グループに分類.

expertとnon-expertの検索時の行動の違いを分析したところ,expertは専門用語を含むクエリを入力することが多く,クエリが長い傾向があった.また,expertの方が1セッションあたりに入力するクエリが多い,セッションの長さが長い,閲覧するページ数が多い,という特徴があった.
各分野でexpertの訪問数が多い150ページとnon-expertの訪問数が多い150ページをそれぞれ抽出し,各ページが専門的か専門的でないかを人手でラベル付けした結果,いずれの分野でもexpertの方が専門的なページが多かった.
さらに,各セッションにおいて,ページを閲覧して終えたセッションはユーザが満足したセッション,クエリを入力していずれの検索結果も閲覧せずに終えたセッションはユーザが満足しなかったセッションとしたところ,expertの方が満足なセッションの割合が高かった.

ユーザの専門度推定

分析時に用いた検索中の振る舞いを素性としてユーザの専門度推定を行った.

まずは,セッション内の行動から,そのセッションを実行しているユーザがexpertかnon-expertかを推定.その際,行動数による分類精度を求めている.行動数が1の場合(最初のクエリを入力),分類精度は全分野平均で0.616であり,行動数が5の場合(たとえば「クエリ入力→ページクリック→ページクリック→クエリ入力→ページクリック」),精度は0.66.

続いて,ユーザのセッション履歴を用いてそのユーザの専門度を推定.その際,セッション数による分類精度を求めている.セッション数が1の場合,たとえばCS分野の分類精度は0.6程度であり,セッション数が5の場合精度は0.8程度であった.


-WSDM, 論文紹介
-

関連記事

Who uses web search for what: and how

Weber, Ingmar Jaimes, Alejandro In Proc. of WSDM 2011 http://dl.acm.org/citation.cfm?id=1935839 概要 Y …

Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! using word lengthening to detect sentiment in microblogs

Brody, Samuel Diakopoulos, Nicholas In Proc. of EMNLP2011 http://dl.acm.org/citation.cfm?id=2145498 …

Enhancing collaborative filtering systems with personality information

Hu, Rong and Pu, Pearl In Proc. of RecSys 2011 概要 協調フィルタリングを用いてあるユーザに推薦するアイテムを決める際、通常はそのユーザの過去のアイテムの …

Modeling documents as mixtures of persons for expert finding

Serdyukov, Pavel Hiemstra, Djoerd In Proc. of ECIR2008 http://dl.acm.org/citation.cfm?id=1793313 概要 …

Unexpected Relevance: An Empirical Study of Serendipity in Retweets

Tao Sun Ming Zhang Qiaozhu Mei In Proc. of ICWSM 2013 概要 Serendipityな情報とはどのようなものかを定義した論文.また,その定義に基づい …