バスタブ曲線とは ”ハードウェア故障率の推移グラフ” のこと…SEは4年後を想像せよ!
こんにちは!かるび修行部屋の ゆずぱ です。
新型コロナの影響で在宅ワークが進むIT業界ですが、SEにとって怖いのはやはりシステム障害でしょう。どんなシステムでも圧倒的な割合を占めるのはハードウェア故障です。今回はハードウェア故障に関する”バスタブ曲線”について解説しますd(^_^o)
バスタブ曲線とは…
ハードウェア故障率の推移グラフのこと
ハードウェアの故障率を縦軸にとると、そのグラフの曲線がバスタブ(お風呂のことです…)に似ていることからそう名付けられたようです ∑(゚Д゚) このバスタブ曲線…エンジニアにとっては見逃すことのできない大事な感覚 なんです。
バスタブ曲線の概要とSEとしてこの曲線をどうとらえるべきかについて解説しますo(^-^)o
バスタブ曲線とは…モノが壊れるパターン
モノの壊れ方は…だいたい同じパターン
世の中に壊れないものなどありません。形あるものは必ず終わりをむかえ壊れてしまいます…(-_-;) そして 何千台 何万台と統計をとるとその壊れ方にもパターンがあることが分かります。ザックリいうと3つのフェーズで壊れます d(^_^o)
初期故障期… 部品の初期不良で やたら壊れる
偶発故障期… システムは概ね安定、あまり壊れない
摩耗故障期… いわゆる”寿命” ガンガン壊れます
グラフにするとこんな感じ…ほら お風呂っぽい(^_^;)
初期故障期…最初2週間は欠陥品に気をつけろ!
システム構築後、最初の2週間は欠陥品による故障にSEは悩まされることになります。私の経験だと、この故障率はベンダによって月とスッポンです。まともなメーカであればそんなに気にする必要はありません。が…
やたら安い製品は要注意です(-_-;)
まともなメーカは、製品の価格もそれなりに高いですが 製品を出荷する前に綿密な出荷検査を行なっているので、初期不良はほとんどありませんd(^_^o) 予算が許す限りは、出荷検査をキチンとやっているメーカの製品を選ぶべきでしょう。
偶発故障期…安定しているがやっぱり壊れる
ハードウェアの故障がほとんど発生しない安定した時期です。ただやはり定期的に故障は発生します。例えば…100台のサーバを入れたシステムだと月2~3件くらいの故障が発生 するといった具合です。偶発的な故障という位置づけになっていますね。
※ ただハードウェアの故障とは無関係に、ソフトウェアの不具合は容赦無く襲ってきます(-_-;)
摩耗故障期…ガンガン壊れる恐怖の期間
システムが稼働し始めてから4年程度が経過すると、やたらハードウェア故障が多くなる時期がやってきます。これが恐怖の摩耗故障期間というヤツです。いわゆる ”装置の寿命” がくる時期。特に駆動部品…ハードディスクが壊れます∑(゚Д゚)
この時期で 最も恐ろしいのは多重故障 です。システムを二重や三重に冗長化していても、同時に壊れてしまうことです。これはシステムが完全に止まることを意味します。摩耗故障期に差し掛かるまでシステムに何も手を入れないのは非常に危険ですね(>_<)
参考リンク:冗長化とは?止めてはいけないシステムの考え方を分かりやすく!
エンジニアが出来る ”3つのこと”
出来ること① 摩耗故障期を後ろにずらす!
バスタブ曲線の終盤の故障は “摩耗故障期” と呼ばれています。何が摩耗するのでしょうか? 摩耗するのはいわゆる駆動部品というものです。電子部品は一般的に摩耗しませんが、ハードディスクのグルグル回るディスクの軸の部分や、データを読み取る磁気ヘッドの部分は駆動部品です。
つまり…システムにハードディスクが有るのと無いのとでは、バスタブ曲線の形にけっこう差がでます∑(゚Д゚)
ハードディスクを搭載した装置は、バスタブ曲線の終盤の故障率上昇は3年から4年程度でやってきます。ハードディスクの寿命がそれくらいだからです。一方、ハードディスクの代わりにSSDなどの電子部品のストレージを使うとバスタブ曲線の摩耗故障期を後ろにずらすことができます。
ハードディスクを採用する場合は注意しましょうd(^_^o)
出来ること② ハードディスクを有寿命品として定義
さて、駆動部品が一斉に壊れ始める4年後を想像してください。保守フェーズでバタバタしないためにも、可能であれば要件定義の段階でハードディスクを搭載した機器を “有寿命品” として定義しましょうd(^_^o) これを明記するとしないとでは大きな差がでます。
またこの仕様をしっかり書いてクライアント様とサラッと合意できるエンジニアは優秀ですねd(^_^o)
出来ること③ 3年後にオーバーホール提案!
サービスが開始されて3年ほど経過したあたりで、オーバーホール提案をするのが ”できるエンジニア” です。オーバーホールとは装置の老朽化した部品をすべて取り替えて新品同様に復活させるサービス。いくら冗長を組んでいてもバスタブ曲線の摩耗故障期には多重故障が発生する可能性が高くなることに言及するのです。
このような提案をできれば…多重故障にビクビクする日々もなくなることでしょうd(^_^o)
ハードウェアの故障に関するトピックス
ハードディスクの故障は予測可能?
さて、バスタブ曲線の摩耗故障期には装置が故障しやすくなることは分かりました。オーバーホールなどで事前に装置をリフレッシュするのも良いでしょう。でもすべて取り替えるというのはスマートでは無いですよね。壊れそうな装置を予測して壊れる前に交換することはできるのでしょうか?
実は装置のデータを取り続けて統計をとると何となく故障しそうな装置は事前に分かってしまいます。有名なのはサーバに保存されているSMART情報 というもの。その装置の電源が入ってからずーっとログを蓄積されています。どんな情報が入っているかというと…例えばハードディスクの再書き込み回数などです。
何らかの理由で、データの書き込みに失敗して、もう一度書き込んでうまくいった回数が記録されてるんです∑(゚Д゚) このデータの推移を見れば何となく故障が近い装置が分かりそうですよね? まさにそのとおりで実際にデータを取ってみると壊れる直前の装置は、再書き込み回数が急に増えたりしているんです_φ(・_・
宇宙からの中性子線…謎の1ビットエラー故障
通常の故障と違い、すぐに直ってしまう故障があります。間欠故障というヤツです。この故障は バスタブ曲線とは関係なく突如発生します。有名なのは 1ビットエラーなどです。コンピュータは通常1と0で情報を記録していますが、突然、1と0が反転したりするんです∑(゚Д゚)
いろいろな原因が考えられますが、原因のひとつが宇宙から地球に降り注ぐ中性子線 です。この中性子線がたまたまメモリなどの記録素子に直撃すると、1と0がひっくり返ってしまったりします。当然ですが、バスタブ曲線に関係なく発生しますので、運以外のナニモノでもありません (-_-;)
公開MTBFは ”かなり” 安全をみた数字
バスタブ曲線の 摩耗故障期がいつやってくるのか、SEとしては気になるところですよね? 実はメーカによってはMTBFという値を公表しています。これは平均故障間隔という指標で、ざっくりいうと ”だいたいコレくらい使ったら壊れるよ” という数字 です。サーバなんかだと4年くらいに設定されています。
でもこの数字…メーカとしても出すのは怖い数字ですよね?なのでかなり安全を見た数字になっています。例えば、さきほどからお伝えしている “ハードディスクは4年が寿命”というものも、かなり安全を見た数字。実際に4年経過したサーバをみてもピンピン元気に動いていることもよくある ことです(・_・;
まとめ
今回はシステムエンジニアにとって厄介者であるにも関わらず、避けることができないハードウェア故障にフォーカスし、バスタブ曲線について解説いたしました。どうしようもないハードウェア故障ですが、エンジニアの力でバスタブ曲線を多少はコントロールできることは間違いありません d(^_^o)
コメント