投稿日:2017/06/11 更新日: WSDM 論文紹介

【論文紹介】Will This Paper Increase Your h-index?: Scientific Impact Prediction

Dong, Yuxiao and Johnson, Reid A. and Chawla, Nitesh V.
WSDM 2015
ACM, PDF

概要

2007年に発表された論文dは、論文dの中で最もh-indexの高い著者のh-indexを2012年までに増加させることができるか、を予想する問題に取り組んだ論文。6カテゴリの素性を使ってロジスティック回帰で予測。Precisionで0.854、Recallで0.711を達成。

素性

以下の6カテゴリの素性を使用。

  • Author:著者数、第一著者の論文数、論文の著者の中の最大h-index/論文の著者のh-indexの和、など。
  • Content:論文の属するトピックの人気度、論文の属するトピックにおける第一著者のauthority度、など。トピックは論文のタイトルとアブストラクトに対してトピック数100でLDA適用。
  • Venue:会議ごとの論文の平均被引用数など。
  • Social:論文の著者の中で、これまでの全共著者数の最大値、これまでの全共著者の平均h-indexの最大値、など。
  • Reference:論文中で引用している論文の平均被引用数など。
  • Temporal:論文の全著者の直近3年間の平均h-index、論文の第一著者の直近3年間のh-index、など。

評価

ArnetMinerと呼ばれるサービスに存在する1960年から2012年までの論文データを使用。2007年に発表された論文を対象にして、各論文の中で最もh-indexの高い著者のh-indexが2012年にその論文の影響でさらに上がっているかを予測するタスクを設定。予測手法にはlogistic regression、random forest、bagged decision treeを使用。

実験の結果、3手法間では大きな差はなし。ランダムに予測した場合よりも予測精度は大幅に上昇した。3手法いずれも、precision、recallともに0.8前後を記録。6カテゴリの中では、ContentとVenueの貢献度合いが高かった。論文の著者の最高h-indexが10以上、20以上、と増加するにつれて、予測精度は低くなる。また、予測結果を出すまでの期間を5年後ではなくより長くすると予測精度は高く、より短くすると低くなる。

この論文自体が、2019年の時点で著者のh-indexの増加に貢献しているかを予測したら、76%の確率でh-indexを増加させる、という結果が出た。

感想

被引用数そのものを推測する研究はあったが、実数値を予測する問題は難しいので、h-indexが増加するかという問題設定にしているのは上手いと思った。論文の著者の中で最大h-indexを持つ著者を対象にするのではなく、第一著者を対象にする方が自然なようにも思ったが、もしかしたらそれだとあまり良い結果が出なかったのかもしれない(あるいは、精度は出たが面白い考察ができなかった)。この論文自体も評価対象にしている箇所は、今それを書かれても評価のしようがないので、論文に書くべきことかは微妙だが、1段落でさらっと書いているだけなので、ちょっとした遊び心的な感じでウケは良いと思う。


-WSDM, 論文紹介
-

関連記事

Explainable User Clustering in Short Text Streams

Zhao, Yukun and Liang, Shangsong and Ren, Zhaochun and Ma, Jun and Yilmaz, Emine and de Rijke, Maart …

Semantic Role Labeling of Emotions in Tweets

Saif M. Mohammad Xiaodan Zhu Joel Martin In Proc. of WASSA 2014 概要 これまでにも、ツイートに含まれる感情を推定する研究は行われてきたが …

Answering relationship queries on the web

Luo, Gang Tang, Chunqiang Tian, Ying-li In Proc. of WWW 2007 http://dl.acm.org/citation.cfm?id=12426 …

From x-rays to silly putty via Uranus: serendipity and its role in web search

Paul André Jaime Teevan Susan T. Dumais In Proc. of CHI 2009 http://dl.acm.org/citation.cfm?id=15187 …

Finding Dimensions for Queries

Z. Dou, S. Hu, Y. Luo, R. Song, and JR. Wen In Proc. of CIKM2011 http://dl.acm.org/citation.cfm?id=2 …