投稿日: その他 論文紹介

Enhancing collaborative filtering systems with personality information

Hu, Rong and Pu, Pearl
In Proc. of RecSys 2011

概要

協調フィルタリングを用いてあるユーザに推薦するアイテムを決める際、通常はそのユーザの過去のアイテムのレーティングから類似ユーザを発見し、類似ユーザの対象アイテムに対するレーティングから、そのユーザのレーティングを予測する。この方法では、レーティングがスパースな場合の精度の低下や、新規ユーザの場合のコールドスタート問題などが課題になる。この研究では、ユーザの性格(パーソナリティ)が類似するユーザのレーティング情報を利用してこの課題を解決することを目的としている。

手法

ユーザのパーソナリティを測るために、Big Fiveと呼ばれるモデルを用いる。このモデルでは、ユーザにいくつかの質問に答えさせることで、その人の情緒不安定性(Neuroticism)、外向性(Extraversion)、開放性(Openness)、調和性(Agreeableness)、誠実性(Conscientiousness)を測り、各ユーザを5次元のベクトルで表す。これを元に、実験では以下の4手法を比較。

  • Rating-based CF(RB)
  • 一般的な協調フィルタリング。ユーザ同士のアイテムに対するレーティングの相関から類似ユーザを発見し、類似ユーザのアイテムに対するスコアから、推薦対象のアイテムに対する推薦対象のユーザのレーティングを予測する。

  • Personality-based CF(PB)
  • ユーザ同士のパーソナリティベクトルの相関から類似ユーザを発見する。その後のスコアの予測はRBと同じ。

  • Linear hybrid CF(RPBL)
  • RBで求めたユーザの類似度とPBで求めたユーザの類似度の線形和を使って最終的なユーザ間類似度を求める。その後のスコアの予測はRBと同じ。

  • Cascade Hybrid CF(RPBC)
  • ユーザが評価していない全アイテムのレーティングをPBによって予め求め、これを擬似的な評価値とする。これにより得られる密なユーザ-アイテム行列を使ってRBによりレーティングを予測する。

実験

著者らが用意した、楽曲に対するレーティングと各ユーザのパーソナリティがセットになったデータセットを使用。さらに、データセットの規模を増やすために、Last.fmからユーザのレーティング情報を取得(Last.fmのユーザは著者のデータセットのユーザとは無関係)。Last.fmのデータセットはトレーニングデータとしてのみ使用。つまり通常の協調フィルタリングの精度向上のためだけに使用される。
評価指標には、レーティングの値の予測精度を測るMAEと、ユーザが5段階で3.5以上のスコアを付けたアイテムを適合アイテムとしたときの適合アイテムの特定精度を測るROC sensitivityを使用。

スパース性と精度の関係を調べるため、トレーニングデータの使用率を100%、75%、50%としたときの各手法の精度を比較。いずれの場合も、RPBCがMAE、ROC sensitivityともに最も高い精度であった。特に50%のときが、RBに対する改善精度が最も高く、スパースなデータに対してパーソナリティを考慮することの有用性が示せた。RBとRPBLの精度はほぼ同じ。

新規ユーザと精度の関係を調べるため、推薦対象ユーザのレーティング済みのアイテム数を2個、5個、10個としたときの各手法の精度を比較。こちらも、いずれの場合もRPBCが最も高い精度であった。また、2個の場合はRBに対する改善精度が最も高く、新規ユーザに対してパーソナリティを考慮することの有用性が示せた。

パーソナリティを利用した既存の推薦サービス

論文中では以下のサービスが紹介されている。

  • Whattorent.com:映画推薦システム。20の質問に答えることでパーソナリティを形成。
  • Yobo.com:中国の音楽推薦サイト。
  • Gifts.com:贈り物を購入するためのサイト。

-その他, 論文紹介

関連記事

What are you looking for? An eye-tracking study of information usage in Web search

Cutrell, Edward Guan, Zhiwei In Proc. of CHI2007 http://dl.acm.org/citation.cfm?id=1240690 概要 デスクトップ …

Bad News Travel Fast: A Content-based Analysis of Interestingness on Twitter

Nasir Naveed Thomas Gottron Jérôme Kunegis Arifah Che Alhadi In Proc. of WebSci 2011 http://dl.acm.o …

Identifying topical authorities in microblogs

Pal, Aditya Counts, Scott In Proc. of WSDM2011 http://dl.acm.org/citation.cfm?id=1935843 概要 あるキーワードに …

Personalized Models of Search Satisfaction

Ahmed Hassan Ryen W. White In Proc. of CIKM 2013 概要 ユーザが検索セッションに対して満足したか,不満足だったかを知ることは検索エンジンの質を高めるうえ …

Characterizing the influence of domain expertise on web search behavior

White, Ryen W. Dumais, Susan T. Teevan, Jaime In Proc. of WSDM 2009 http://dl.acm.org/citation.cfm?i …