生物物理計算化学者の雛

主に科学に関する諸々を書き留めています。

少なくとも自分の専門分野ではケタがおかしな数字に気付けるようになろう

こんな記事が上がっていました。

今日生産される研究論文の膨大な量は個人が正しく選別すること不可能, そこでSciencescapeがお助けに

内容としては近年膨大な数の論文が発表されるようになりまともに全部チェックすることは不可能になりつつあるので、多数の論文情報をうまく集約する一種のキュレーションサービスを始めようとしている、という内容です。


この新サービスの内容自体も興味深いですが、ここでは当初この記事中にあった「最近では1年に発表される研究論文の量が22億篇に達する。」という明らかに間違った表現に着目して話を進めます。

(なお現時点ではこの「22億」という間違った数字は元の英文の 22 billion = 220億 という数字に修正されており、さらに元の英文の執筆者の修正コメント「22 billionは間違いで 22 million = 2200万 が正しい」という注釈がつけられています)

明らかにケタがおかしな「1年間に発表される論文数は22億」

修正前の記事にあった「1年間に発表される論文数は22億」は明らかに過大な数字であることは少し考えれば分かります。

一時期よく話題になったフェルミ推定的に考えてみますと以下のようになります。

・世界人口約60億人に対し1万人に1人が論文を書く仕事をしているとすると、論文を書く人間は世界中で60万人
1人で1年間に書ける論文数の平均はどんなに多く見積もっても10報以下(分野によりますが、1人で年間10報も書ける人はほとんどいないでしょう)
・よって1年間に発表される論文数はせいぜい 60万人×10報/人 = 600万報 程度であろう

地頭力を鍛える 問題解決に活かす「フェルミ推定」

地頭力を鍛える 問題解決に活かす「フェルミ推定」

このようなざっくりとしたフェルミ推定から、年間100万〜1000万報程度が実際に出版される論文数だろうな、と考えました。
どう考えても 22億 という数字はでてこないのです。
(世界人口比で考えて3人に1人が毎年論文を書いている計算になってしまいますし)

実際の論文数は「1800年代からの累計で2200万報」

先ほどの日本語記事は翻訳記事なので、「22億」という数字はおそらく 2.2 million (220万)を 2.2 billion (22億)と間違えて訳したんだろうな、と想像して元の英語記事にあたってみました。

ところがこの元記事でも該当する部分の英文は

The total volume of papers published each year has reached a staggering 22 billion ...

http://techcrunch.com/2013/06/16/sciencescape-wants-to-solve-academic-research-discoverability-deal-with-the-noise-problem/

であり、直訳すると「毎年公表される論文の数は驚くべき数字である220億に達している」となります。

この元英文ではさらに桁が増えていて明らかにおかしいので、さらに情報元である sciencescape 社のホームページに対応する数字が無いかを探したところ、以下の正しそうな数字が見つかりました。

With over 22 million papers

http://sciencescape.org/under-the-hood

2200万の論文という表現がでてきましたので、これが正しい数字なのでしょう。


なお、元英文記事のコメント欄には

Presumably the 22 million figure is an all-time figure. Each year around 2 million papers are published in total across all fields.

http://techcrunch.com/2013/06/16/sciencescape-wants-to-solve-academic-research-discoverability-deal-with-the-noise-problem/

直訳すると「おそらく2200万という数字はこれまでの累計だと思う。全分野で1年間に発表される論文の数はだいたい200万くらい」となり、私のフェルミ推計とも整合しているので、このコメントは信頼できそうに感じます。

自分の専門分野ではケタがおかしな数字に気付けるようになろう

「1年間に22億の論文」という明らかにおかしなケタの数字に気付けるようになることは、研究者として必要な資質の1つであると思います。

例えば仮に論文を読んでいて「常圧下、温度 3000 K の水溶液中で反応を行った」という表現があれば、水の沸点は 100℃(373 K)であるから3000 K の水溶液というのはあり得ず、おそらく 300 K のタイポであろうと判断できなければいけません。

あるいは水溶液内の溶質分子の拡散係数を測定する実験を行っている場合、測定結果から算出された拡散係数が 10^-1 cm^2/sec という結果が出た場合、「水の拡散係数が 10^-5 cm^2/sec のオーダーなのに、溶質の拡散係数がそれよりも1万倍速いのは明らかにおかしい」と判断し、実験条件・結果を再度点検する必要があると判断できなければいけません。

このような明らかにケタがおかしな結果を即座に見抜けるようになるためには、その分野での典型的な数字を把握し(例えば水の沸点は100℃(373 K)、水の拡散係数は 10^-5 cm^2/sec といった具合に)、出てきた数字をその典型的な数値と比較するということを常に行うよう意識するのが良いと思います。