読者です 読者をやめる 読者になる 読者になる

生物物理計算化学者の雛

主に科学に関する諸々を書き留めています。

100万円でどれだけのマシンを調達できるのか

Hadoop 計算機ハード

科研費申請の季節です。
多くの大学の教員は科研費締切に向けて研究計画書作成に大忙しです。
研究計画では予算が当たったら何に使うのかを記述する必要があります。
そこで今日は100万円をマシン購入に振り向けたとして、どれだけの計算機資源を確保できるのかを計算してみました。

ワークステーションを買う場合

100万円でワークステーションを購入するとして分子シミュレーション分野で良く見かけるいくつかのメーカーを比較してみました。

HPCシステムズ社だと Xeon E5-2690 (8 core 2.9HGz)×2、メモリ128GB搭載の16コアマシンを1台買えます。
http://www.hpc.co.jp/HPC5000-XS216R2S_price.html

リアルコンピューティング社だとXeon E5-2650(8 core 2.0 GHz)×2、メモリ32GB搭載マシンを2台(1U2ノード筐体を1台)買えます。
http://www.realcomputing.jp/wordpress2.9/wp-content/uploads/2012/10/au121010.pdf

HPCテクノロジーズ社DELLのサーバを販売しており、Xeon E5-2660 (8 core 2.2GHz)×2、メモリ32GB搭載の16コアマシンを1台買えます。
http://www.hpc-technologies.co.jp/products-5/dpe-R620-price.html

実際に購入する際には価格交渉の余地もありますし、メーカー毎にサポートの充実度も異なっていることから単純に表記の定価だけでどこが良い悪いとは言えませんが、ワークステーションとしてはXeon E5の16コア搭載マシンを1〜2台購入でき、16または32CPUコアを確保できることが分かります。

パソコン(PC)を大量に買う場合

とにかく安く買えるPCを大量に買うとすればどの程度のマシンを確保できるでしょうか。
ドスパラのPCを買えるだけ購入すると考えてみました。
また数が多いと置き場所にも馬鹿にならないので、コンパクトサイズのPCとして以下の小型筐体のもので計算してみました。
http://www.dospara.co.jp/5goods_pc/pc_bto.php?h=d&f=d&m=pc&mc=2975&sn=991&vn=1&lf=0

スペックは初期設定から
 OS Windows7 -> なし (自分でをLinuxインストール)
 CPU  Core i5 3470 -> Core i5 3570
 HDD 500 GB -> 2 TB
 光学ドライブ DVD -> なし
の変更を行い、Core i5 3570 (4 core 3.4GHz)、メモリ8GBのスペックで52,080円となりました。
100万円あれば19台購入でき、3.4GHz という比較的高速のCPUコアを 4×19 = 76コア確保することができます。

ワークステーションとPCの利点・弱点

ワークステーションの利点

OpenMP等の並列計算では、多数コアを利用して速い計算が可能
・ラックマウント型筐体であれば、一度ラックを買えば数十台のマシンを1カ所に効率良く設置できる
ECCメモリ搭載なので、メモリエラーによる計算停止が起こりにくい(特に数週間・数か月といった長時間の計算時には重要)
・PCグレードよりも故障しにくい部品(マザーボード、HDD等)を使用しており故障しにくい
・一般的に障害発生時のサポートが充実している

ワークステーションの弱点

・PCよりも単価が高い
intelのCPU世代更新がPC向けよりも1世代遅い(個人的にはこれが一番痛い)
・多数コア搭載XeonはCPU周波数が低いため、シングルコア性能が低い

PCの利点

・とにかく単価が安く大量の台数を買える
intelの最新世代のCPUを使用できる
・CPU周波数が高く、シングルコア性能が高い

PCの欠点

・並列計算でコア数が少ないために並列数を上げることによる計算速度向上が限られる
ワークステーションよりも故障しやすい
・ECCメモリでないためメモリエラーのリスクが高く、長時間計算を実行するにはリスクがある
・タワー型筐体は数が多いと置き場所に困る、管理も大変

どっちが良いかは使い方次第

個人的にはHadoopによる並列分散処理を行っているので、16 or 32 コア vs 76 コア であれば安いPCを大量に購入したいところです。
19台のマシンの2TB HDDで 38TB のHDFSも構成できますし。
ただし、一般的な分子シミュレーション等のシミュレーション業界では、大きな系を多数CPUコアの並列計算で速く実行するという需要が大きいため、ワークステーションを導入することが大半です。

またいくらHadoopがマシン故障に対する耐性があるとは言っても、安いPCグレードのマシンは頻繁に起こる故障への対応の手間がかかることを考えると避けた方がよいとオライリー本にも書いてあった記憶があります。
もっとも、これだけ購入できる台数に差があるならば、故障したマシンは修理せずにそのまま捨てる使い捨て方式でも十分やっていけそうな気もしますね。

Hadoop 第2版

Hadoop 第2版