投稿日: CIKM 論文紹介

【論文紹介】Exploiting ranking factorization machines for microblog retrieval

Qiang, Runwei and Liang, Feng and Yang, Jianwu
CIKM 2013
ACM, PDF

概要

入力として与えられたクエリに対してランキングされたツイートのリストを返すために、Factorization Machine(FM)の枠組みを取り入れたペアワイズのlearning to rankを適用した論文。

手法

通常のペアワイズのlearning to rankでは、文書に対応する特徴ベクトルの要素の重み付き線形和で文書のスコアを計算し、学習によりその重みを学習する。提案手法では、FMの要領で、文書の特徴ベクトルの要素間の組み合わせに対する重みも学習するように拡張。学習にはstochastic gradient descent (SGD)とAdaptive Regularization (AR)を使った方法を紹介している。

ツイートの素性として以下の3カテゴリを使用。

  • Content:クエリとツイートの単語の重複度やBM25のスコアなど。
  • Semantic:疑似適合フィードバックで拡張したクエリとツイートの単語の重複度など。ツイートにURLが含まれるときは、リンク先ページのtitleタグのテキストとクエリのBM25の値なども用いる。
  • Quality:ツイートのリツイート回数や単語数など。

評価

TRECのマイクロブログタスクのデータを使用。ベースライン手法としては、ペアワイズのlearning to rankで一般的なranking SVM等を使用。評価指標はP@30とMAP。
実験の結果、提案手法がベースライン手法をいずれの指標でも上回った。SGDを使った方がARよりも精度が高かった。素性の中ではクエリ拡張系とQualityカテゴリが精度の向上に貢献していた。SGDにおいてFMの圧縮ベクトルの次元数を変えたときの精度評価もしており、次元数を3としたときがP@30、MAPともに最も高い精度となった。


-CIKM, 論文紹介
-, ,

関連記事

Are Web User Comments Useful for Search?

Wai Gen Yee Andrew Yates Shizhu Liu Ophir Frieder In Proc. of LSDS-IR Workshop 2009 概要 YouTubeの動画を検索 …

【論文紹介】The Influence of Early Respondents: Information Cascade Effects in Online Event Scheduling

Romero, Daniel M. and Reinecke, Katharina and Robert,Jr., Lionel P. WSDM 2017 ACM, PDF 概要 Doodleのような …

Characterizing the influence of domain expertise on web search behavior

White, Ryen W. Dumais, Susan T. Teevan, Jaime In Proc. of WSDM 2009 http://dl.acm.org/citation.cfm?i …

【論文紹介】Will This Paper Increase Your h-index?: Scientific Impact Prediction

Dong, Yuxiao and Johnson, Reid A. and Chawla, Nitesh V. WSDM 2015 ACM, PDF 概要 2007年に発表された論文dは、論文dの中で …

Identifying topical authorities in microblogs

Pal, Aditya Counts, Scott In Proc. of WSDM2011 http://dl.acm.org/citation.cfm?id=1935843 概要 あるキーワードに …