投稿日:2017/06/11 更新日: WSDM 論文紹介

【論文紹介】Will This Paper Increase Your h-index?: Scientific Impact Prediction

Dong, Yuxiao and Johnson, Reid A. and Chawla, Nitesh V.
WSDM 2015
ACM, PDF

概要

2007年に発表された論文dは、論文dの中で最もh-indexの高い著者のh-indexを2012年までに増加させることができるか、を予想する問題に取り組んだ論文。6カテゴリの素性を使ってロジスティック回帰で予測。Precisionで0.854、Recallで0.711を達成。

素性

以下の6カテゴリの素性を使用。

  • Author:著者数、第一著者の論文数、論文の著者の中の最大h-index/論文の著者のh-indexの和、など。
  • Content:論文の属するトピックの人気度、論文の属するトピックにおける第一著者のauthority度、など。トピックは論文のタイトルとアブストラクトに対してトピック数100でLDA適用。
  • Venue:会議ごとの論文の平均被引用数など。
  • Social:論文の著者の中で、これまでの全共著者数の最大値、これまでの全共著者の平均h-indexの最大値、など。
  • Reference:論文中で引用している論文の平均被引用数など。
  • Temporal:論文の全著者の直近3年間の平均h-index、論文の第一著者の直近3年間のh-index、など。

評価

ArnetMinerと呼ばれるサービスに存在する1960年から2012年までの論文データを使用。2007年に発表された論文を対象にして、各論文の中で最もh-indexの高い著者のh-indexが2012年にその論文の影響でさらに上がっているかを予測するタスクを設定。予測手法にはlogistic regression、random forest、bagged decision treeを使用。

実験の結果、3手法間では大きな差はなし。ランダムに予測した場合よりも予測精度は大幅に上昇した。3手法いずれも、precision、recallともに0.8前後を記録。6カテゴリの中では、ContentとVenueの貢献度合いが高かった。論文の著者の最高h-indexが10以上、20以上、と増加するにつれて、予測精度は低くなる。また、予測結果を出すまでの期間を5年後ではなくより長くすると予測精度は高く、より短くすると低くなる。

この論文自体が、2019年の時点で著者のh-indexの増加に貢献しているかを予測したら、76%の確率でh-indexを増加させる、という結果が出た。

感想

被引用数そのものを推測する研究はあったが、実数値を予測する問題は難しいので、h-indexが増加するかという問題設定にしているのは上手いと思った。論文の著者の中で最大h-indexを持つ著者を対象にするのではなく、第一著者を対象にする方が自然なようにも思ったが、もしかしたらそれだとあまり良い結果が出なかったのかもしれない(あるいは、精度は出たが面白い考察ができなかった)。この論文自体も評価対象にしている箇所は、今それを書かれても評価のしようがないので、論文に書くべきことかは微妙だが、1段落でさらっと書いているだけなので、ちょっとした遊び心的な感じでウケは良いと思う。


-WSDM, 論文紹介
-

関連記事

Mining Contentious Documents Using an Unsupervised Topic Model Based Approach

Amine, Trabelsi and Osmar R., Zaiane In Proc. of ICDM 2014 概要 ある話題に関する文書集合が与えられたときに、「賛成」や「反対」などの各観点( …

Improving relevance judgment of web search results with image excerpts

Li, Zhiwei Shi, Shuming Zhang, Lei In Proc. of WWW2008 http://dl.acm.org/citation.cfm?id=1367497.136 …

【論文紹介】Cats and Captions vs. User Characteristics and the Clock: A Time-Controlled Analysis of Multimodal Content

Hessel, Jack and Lee, Lillian and Mimno David In Proc. of WWW 2017 概要 Redditと呼ばれるソーシャルニュースサイトに投稿された画 …

Predicting web searcher satisfaction with existing community-based answers

Liu, Qiaoling Agichtein, Eugene Dror, Gideon Gabrilovich, Evgeniy Maarek, Yoelle Pelleg, Dan Szpekto …

Unexpected Relevance: An Empirical Study of Serendipity in Retweets

Tao Sun Ming Zhang Qiaozhu Mei In Proc. of ICWSM 2013 概要 Serendipityな情報とはどのようなものかを定義した論文.また,その定義に基づい …