投稿日: その他 論文紹介

【論文紹介】Personalised Rating Prediction for New Users Using Latent Factor Models

Seroussi, Yanir and Bohnert, Fabian and Zukerman, Ingrid
In Proc. of HT 2011

概要

映画や書籍に対するユーザのレーティングを予測する際に、通常のMatrix Factorisation(MF)ではレーティング数の少ないユーザに対する予測精度が悪いという問題点がある。この論文では、ユーザに固有の属性情報を用いることで、その問題を解決する。ユーザ固有の情報としては、年齢や性別、職業などのユーザによって明示的に与えられる属性値と、ユーザの書いたレビュー等のテキスト情報の2種類を用いる。

手法

通常のMFでは圧縮したユーザ用行列と圧縮したアイテム用行列を基にユーザのアイテムに対するレーティングを予測する。それに対して、提案モデルでは圧縮したユーザ用行列と圧縮した属性情報用行列を基に予測する。

性別や職業等の明示的に与えられる情報を使うときは、たとえば男性で会社員のユーザであれば、属性情報用行列の中で男性という属性値に対応する列ベクトルおよび、会社員という属性値に対応する列ベクトルと、ユーザ用行列の中でそのユーザに対応するの列ベクトルの類似度を見ながらレーティングスコアを求める。

レビュー等のテキスト情報を使うときは、ユーザの書いたレビューを一纏めにしてひとつの文書とみなしてLDAを適用する。ユーザの各トピックの生起確率を重みとして使いながらレーティングスコアを決める。

評価実験

データセットはMovieLens100KとIMDbを使用。いずれも映画に対するレーティングのデータ。前者は年齢、性別、職業、郵便番号の情報があるがテキスト情報はなく、後者はテキスト情報はあるが個人情報はない。

前者のデータセットに対してはユーザによって明示的に与えられる属性値を基にMFを拡張した結果のNRMSEを求め、後者に対してはテキスト情報を基にMFを拡張した結果のNRMSEを求める。その結果、テキスト情報を用いた方が改善精度が大きいことを明らかにした。

関連研究

  • NRMSEの改善精度は小さい場合でも、top-N recommendationの精度は大幅に改善される。
    Yehuda Koren, Factorization meets the neighborhood: a multifaceted collaborative filtering model, In KDD, pages 24-27, 2008.

-その他, 論文紹介

関連記事

Mining Query Subtopics from Search Log Data

Hu, Yunhua Qian, Yanan Li, Hang Jiang, Daxin Pei, Jian Zheng, Qinghua In Proc. of SIGIR 2012 http:// …

Towards Better Measurement of Attention and Satisfaction in Mobile Search

Lagun, Dmitry Hsieh, Chih-Hung Webster, Dale Navalpakkam, Vidhya In Proc. of SIGIR2014 http://dl.acm …

Understanding the importance of location, time, and people in mobile local search behavior

Teevan, Jaime Karlson, Amy Amini, Shahriyar Brush, A. J. Bernheim Krumm, John In Proc. of MobileHCI …

Answering relationship queries on the web

Luo, Gang Tang, Chunqiang Tian, Ying-li In Proc. of WWW 2007 http://dl.acm.org/citation.cfm?id=12426 …

Efficient multiple-click models in web search

Guo, Fan Liu, Chao Wang, Yi Min In Proc. of WSDM2009 概要 クリックモデルに関するこれまでの研究では、ユーザはクエリを入力して1度検索結果をクリック …