読者です 読者をやめる 読者になる 読者になる

StatsBeginner: 初学者の統計学習ノート

初学者が統計学、機械学習、R、Pythonの勉強の過程をメモっていくノート。

「学術論文の元データって、どれぐらい残っているものなのか?」を調べた論文

 今日、知り合いのFacebookで、以下の記事がシェアされていました。


「生データの保存大切」 山中教授、STAP問題で指摘(1/2ページ) - 産経ニュース


 内容はタイトルのまんまで、特に思うこともないんですが、これ読んで、ある研究を思い出しました。


 Vines, T. H., et al. (2014). The availability of research data declines rapidly with article age. Current Biology, 24(1), pp.94-97. 
 http://www.cell.com/current-biology/abstract/S0960-9822(13)01400-0


 ↑のリンクから手に入る(たぶん有料。私は大学のアカウントがあるのでタダみれる。)論文なんですが、簡単にいうと「他人が書いた学術論文の元データって、どれぐらい入手可能なの?」ってのを調べたらしいです。


 22年前から2年前(2013年の調査なので1991年から2011年)までに発表された516本の生物学論文(植物や動物の形態にかんするデータを用いて判別分析を行っているもの)について、生データが入手可能かどうかを調査したとのこと。
 方法としては、著者のメアドを調べて(論文に書いてあるかもしくは検索して調べた)、メールで「データある?」「それもらえる?」と訊いたらしいです。
 以下、この調査の概要。

  • 少なくとも1つのメールアドレスが有効かどうか、メアドが有効な場合に返事がもらえるかどうか、返事があったときにデータがどうなってるか教えてもらえるかどうか、データの状態がわかる場合にデータが生きてる(提供可能か、もしくは提供は不可だがデータは残ってる)かどうかを集計した。
  • また、論文の「年齢」とデータの入手可能性の関係についてロジスティック回帰分析を行った。
  • オッズ比をみると、論文に使われた元データの生存率(オッズ)は、毎年17%の勢いで低下していくことがわかった。(1年後にオッズが0.83倍になるということ。)
  • メアドの生存率(オッズ)は、毎年7%ずつ下がっていく。
  • データが入手不可能になる主な原因は、著者のメールアドレスが変わってしまうことと、記録媒体が古くなって使えなくなること。フロッピーディスクにしか入ってなかったりとか。
  • 20年以上経つと、元データが入手可能な論文は1割もない。
  • 生データをアーカイブする規則を作らないとヤバイと思われる。
  • すでに、データの提出を求めてアーカイブするルールにしているジャーナルもいくつかある。
  • 数字のまとめ(1991年〜2011年の研究について2013年に調査した時点での数字)
    • メールアドレスが不明または無効・・・25%
    • メールに返事がない・・・38%
    • 返事はあったがデータがどうなったかは不明・・・6%
    • データが無くなったと言ってる・・・7%
    • データはあるが提供できない・・・4%
    • データを提供してもらえた・・・19%
    • 上記2つを合わせると、データが利用可能な論文は23%


 どうでもいいですが、メールの一斉送信のスクリプトもRで書いたらしいです。


 調査内容をサマった紹介記事は↓こちら。


The Vast Majority of Raw Data From Old Scientific Studies May Now Be Missing | Science | Smithsonian


Vines, T., Albert, A., Andrew, R., Débarre, F., Bock, D., Franklin, M., Gilbert, K., Moore, J., Renaut, S., & Rennison, D. (2014). The Availability of Research Data Declines Rapidly with Article Age Current Biology, 24 (1), 94-97 DOI: 10.1016/j.cub.2013.11.014