投稿日: WSDM 論文紹介

【論文紹介】Fun Facts: Automatic Trivia Fact Extraction from Wikipedia

Tsurel, David and Pelleg, Dan and Guy, Ido and Shahaf, Dafna
WSDM 2017
ACM, PDF

概要

人物名を対象として、Wikipediaからトリビア情報を発見するための手法を提案した論文。提案手法により「バラク・オバマはグラミー賞受賞者の一人である」のようなトリビアが発見される。トリビアを発見する精度の評価だけでなく、人物名でウェブ検索したユーザに対してGoogleのアドワーズで広告を表示し、トリビアを表示することによる効果を直帰率、滞在時間の観点から評価している。

手法

入力として与えられた人物のWikipediaページに付与されたカテゴリからトリビア情報を発見する。つまり、カテゴリをトリビア度に応じてランキングする問題である。人物AのカテゴリCのトリビア度が高ければ、「A is a member of group C」とユーザに提示する。カテゴリのトリビア度はsurpriseとcohesivenessという2つの観点から求める。

1つ目の観点のsurpriseとは、人物AとカテゴリCの類似度の低さであり、低いほど意外性が高くトリビア度が高くなる。具体的には、カテゴリC内のA以外のページとAの平均類似度の逆数により求める。ページ間類似度を求める際は、各ページからTF-IDFの上位10単語を抽出して分散表現を求め、分散表現が類似した単語がどれだけ多いかという情報を利用する。
「グラミー賞受賞者」というカテゴリにはアーティストのページが多いので、バラク・オバマと「グラミー賞受賞者」カテゴリの類似度は低くなる、つまりsurprise度は高くなる。

2つ目の観点のcohesivenessとは、カテゴリCに含まれる全ページ間の平均類似度の高さであり、高いほど意味のあるカテゴリでありトリビア度は高くなる。例えば、「アメリカ合衆国出身」というカテゴリには様々な人が含まれるのでページ間の平均類似度は低くなり、あまり意味のあるカテゴリとは言えない。一方で「グラミー賞受賞者」というカテゴリにはアーティストが多く含まれるのでページ間の平均類似度は高くなり、トリビアとして提示する意味のあるカテゴリと言える。

人物Aに対するカテゴリCのトリビア度はsurprise度とcohesiveness度の積により求める。

評価

Wikipediaの本文中からトリビア度の高い文を抽出する既存手法があるので、その手法と比較。クラウドソーシングを用いて評価し、提案手法の方が高精度でトリビア情報を提示できることを示した。

また、クエリに使用した人物でGoogle検索すると、Googleのアドワーズに「Read fun trivia facts about Barack Obama!」のように広告を表示し、リンク先では提案手法と比較手法の中のいずれかの手法によって求められたトリビアを上部に表示し、下部にはWikipediaの文章が表示されるように設定した。その結果、トリビアを高精度で表示できる提案手法では、比較手法に比べて直帰率が低く、ページ上の滞在時間も長くなるという結果が得られた。

感想

アドワーズを使った評価が、この研究の最もユニークな点である。冷静に考えると、そこまで必要な評価ではないようにも思うが、読み手にインパクトを与えているのは間違いない。
手法に関しては、カテゴリに限らず、ページ内でリンクが張られている単語でも同様に使えるのでは、と思った。つまり、ある単語Xにリンクを張っているページ集合に対してsurprise度とcohesiveness度を計算すれば良い。そうすることで、より多様なトリビア情報が見つかることが期待できる。


-WSDM, 論文紹介

関連記事

On a Topic Model for Sentences

Balikas, Georgios and Amini, Massih-Reza and Clausel, Marianne In Proc. of SIGIR 2016 概要 通常のLDAでは文書ご …

【論文紹介】Will This Paper Increase Your h-index?: Scientific Impact Prediction

Dong, Yuxiao and Johnson, Reid A. and Chawla, Nitesh V. WSDM 2015 ACM, PDF 概要 2007年に発表された論文dは、論文dの中で …

Explainable User Clustering in Short Text Streams

Zhao, Yukun and Liang, Shangsong and Ren, Zhaochun and Ma, Jun and Yilmaz, Emine and de Rijke, Maart …

Measuring Pair-Wise Social Influence in Microblog

Zibin Yin Ya Zhang In Proc. of SocialCom 2012 概要 Weibo上でのリツイートのモデル化を提案。提案モデルを使うことで、ユーザAのツイートがフォロワーのユ …

The Last Click: Why Users Give up Information Network Navigation

Aju Thalappillil Scaria Rose Marie Philip Robert West Jure Leskovec In Proc. of WSDM 2014 概要 リンクをたどっ …