投稿日: その他 論文紹介

【論文紹介】Personalised Rating Prediction for New Users Using Latent Factor Models

Seroussi, Yanir and Bohnert, Fabian and Zukerman, Ingrid
In Proc. of HT 2011

概要

映画や書籍に対するユーザのレーティングを予測する際に、通常のMatrix Factorisation(MF)ではレーティング数の少ないユーザに対する予測精度が悪いという問題点がある。この論文では、ユーザに固有の属性情報を用いることで、その問題を解決する。ユーザ固有の情報としては、年齢や性別、職業などのユーザによって明示的に与えられる属性値と、ユーザの書いたレビュー等のテキスト情報の2種類を用いる。

手法

通常のMFでは圧縮したユーザ用行列と圧縮したアイテム用行列を基にユーザのアイテムに対するレーティングを予測する。それに対して、提案モデルでは圧縮したユーザ用行列と圧縮した属性情報用行列を基に予測する。

性別や職業等の明示的に与えられる情報を使うときは、たとえば男性で会社員のユーザであれば、属性情報用行列の中で男性という属性値に対応する列ベクトルおよび、会社員という属性値に対応する列ベクトルと、ユーザ用行列の中でそのユーザに対応するの列ベクトルの類似度を見ながらレーティングスコアを求める。

レビュー等のテキスト情報を使うときは、ユーザの書いたレビューを一纏めにしてひとつの文書とみなしてLDAを適用する。ユーザの各トピックの生起確率を重みとして使いながらレーティングスコアを決める。

評価実験

データセットはMovieLens100KとIMDbを使用。いずれも映画に対するレーティングのデータ。前者は年齢、性別、職業、郵便番号の情報があるがテキスト情報はなく、後者はテキスト情報はあるが個人情報はない。

前者のデータセットに対してはユーザによって明示的に与えられる属性値を基にMFを拡張した結果のNRMSEを求め、後者に対してはテキスト情報を基にMFを拡張した結果のNRMSEを求める。その結果、テキスト情報を用いた方が改善精度が大きいことを明らかにした。

関連研究

  • NRMSEの改善精度は小さい場合でも、top-N recommendationの精度は大幅に改善される。
    Yehuda Koren, Factorization meets the neighborhood: a multifaceted collaborative filtering model, In KDD, pages 24-27, 2008.

-その他, 論文紹介

関連記事

Placing Videos on a Semantic Hierarchy for Search Result Navigation

Tan, Song Jiang, Yu-Gang Ngo, Chong-Wah ACM TOMM 2014 http://dl.acm.org/citation.cfm?id=2578394 概要 「 …

【論文紹介】Will This Paper Increase Your h-index?: Scientific Impact Prediction

Dong, Yuxiao and Johnson, Reid A. and Chawla, Nitesh V. WSDM 2015 ACM, PDF 概要 2007年に発表された論文dは、論文dの中で …

Happy, Nervous or Surprised? Classification of Human Affective States in Social Media

Munmun De Choudhury Michael Gamon Scott Counts In Proc. of ICWSM 2012 概要 ツイートを11種類の感情に分類することを目的とした論文 …

Personalized Models of Search Satisfaction

Ahmed Hassan Ryen W. White In Proc. of CIKM 2013 概要 ユーザが検索セッションに対して満足したか,不満足だったかを知ることは検索エンジンの質を高めるうえ …

Semantic Role Labeling of Emotions in Tweets

Saif M. Mohammad Xiaodan Zhu Joel Martin In Proc. of WASSA 2014 概要 これまでにも、ツイートに含まれる感情を推定する研究は行われてきたが …