生物物理計算化学者の雛

主に科学に関する諸々を書き留めています。

マシントラブル

Linux起動時のドライブマウント失敗エラーに対処する

Linuxマシン起動時にドライブ故障やNFS設定ミス等のため、/etc/fstabに記述されているドライブのマウントに失敗して起動しない場合があります。 システムドライブが故障した場合は物理的にドライブ交換をするしかありませんが、それ以外のドライブであれ…

全データノード再起動時は3台以上の同時故障が起こりやすく、Hadoop HDFSデータは要注意

先日設備点検に伴う停電があったのですが、その際の全Hadoop HDFSノードのシャットダウン・再起動により危うくデータを失うところでした。 レプリケーション3ならば2ノードまでの障害は大丈夫 HDFSはデフォルトでレプリケーション数が3であり、3台のデー…

ネットワークトラブル時にはハブのLANケーブル接続部位を変えてみよう

複数コアによる並列MDシミュレーションを実行していた際に、特定のマシンでのみCPU使用率が100%に貼りつかず、計算速度が100%使用時の半分程度まで落ちてしまう現象に遭遇しました。最終的にスイッチングハブのLANケーブル接続ポートを変更…

うるう秒によるjava障害と連動して生じたHDFSメタデータ破損からの復帰手順

※本記事ではうるう秒によるjavaの異常と、それに伴って生じたHadoop 0.21.0 HDFSのメタデータ破損からの復旧手順を説明します。なお、本復旧手順は私の環境で上手くいっただけであり、他の環境で同様の手順を行ったとしても復旧できる保証はありませんので、…