全データノード再起動時は３台以上の同時故障が起こりやすく、Hadoop HDFSデータは要注意

先日設備点検に伴う停電があったのですが、その際の全Hadoop HDFSノードのシャットダウン・再起動により危うくデータを失うところでした。

レプリケーション３ならば２ノードまでの障害は大丈夫

HDFSはデフォルトでレプリケーション数が３であり、３台のデータノードが同一データのレプリカを保有しているために２つまでのデータノードが同時に故障してもデータを失うことはありません。このおかげで通常運用時にデータを失うことはほぼ起こりません。（先日書いたようにNamenodeのメタデータを失うことは起こりえますが）
実際に運用中にデータノードが故障することはよく起こりますが、故障データノードのデータはすぐに別のデータノードにコピーされ、レプリケーション数３は常に保たれます。

全データノードシャットダウン・再起動時は故障多発＝３つ以上故障する確率大

24時間稼働し続けるサーバでは、シャットダウン・再起動時に障害が発生することが多いです。
現在50台弱のデータノードにおいて250TB程度のHDFSを構築しているのですが、設備点検に伴う停電があり全マシンのシャットダウンを行いました。シャットダウン前は全データノードは稼働していたのですが、電気供給復帰後に再起動を行ったところ、データノード２台でHDD故障が、１台でマザーボード故障が生じ同時に３台のデータノードが故障する事態となってしまいました。
そのため、HDFSの一部データが失われた状態となってしまいました。
幸いHDD故障は２台のみであったため、マザーボード故障ノードのマザーボード交換後には全データへのアクセスが可能となり復旧することができましたが、交換用マザーボードが届くまで１週間程度HDFSを利用できない状態となってしまいました。