障害発生から事後作業までの11ステップ


まずは深呼吸

あなたが慌てているようではトラブルシューティングは一向に進みません。
あなたが落ち着くことがとっても大事。

動揺しながら、障害対応していると二次災害を引き起こすことにもなりません。

もし、少しでも動揺しているようなら、まず深呼吸。

「スーハー、スーハー…」


発生しているトラブルについて正確に把握する

続いて、実際に発生している障害について、
正確に現象を把握することから始めましょう。

ネットワークの構成図を障害状況が書き込めるように、
コピー or 印刷しておくとよいですね。

実際にどのようにトラブルを把握していくかは、
障害の内容や状況によって変わってきますが、
基本的な把握方法には以下のようなものがあります。

  • もしネットワークを監視しているツールがあるのなら、
    どのようなアラームが発生しているのか?
  • サービスが停止しているのか、停止していないのか
  • スイッチやルータのログにメッセージが残っていないか
  • スイッチやルータのインタフェース状態は?
  • Pingは?
  • TraceRouteはどこまで届くか?
  • 機器を見ることができるのなら、機器を設置している
    場所に行って直接見る
    (単純に電源が落ちているだけかもしれない…)
  • 障害の申告者がいるのなら、どのように通信できないのか詳しく聞く
  • 障害発生時にネットワークの設定作業等していたか
    (もししていたなら、まずソコを疑いましょう)

もしサービスが停止しているのなら、
出来るだけ速く現象を掴むことが大事です。


機器のログを取得する

状況を把握した後は、機器のログを取得しておきましょう。
メーカに解析してもらう場合、障害時のログがあれば
原因が特定できる確立が上がります。

cisco機器であれば、「show tech」はデフォルトで取得。

ログを取得する機器は、原因はこの辺かもと「アタリ」を付けた
機器はもちろん、その周辺の機器も取得しておくと吉。
(実は隣接の機器に原因があったなんてことも多いです)


関係者に「ホウレンソウ」

関係者への報告・連絡・相談は出来るだけ早いうちに。

すぐに直せばバレないだろうなんて連絡を怠ると、
バレたときに自分の身が危うくなります。
障害が発生したのはあなたが原因ではありません
(あなたに身に覚えがなければ…)

 ※仮にあなたの設定ミスで障害が発生してしまった場合でも、
隠そうとしてはいけません。
人間は嘘つきでも機械は正直ですので、すぐバレますよ

関係者にはさっさと連絡しときましょう。

また、この時にネットワークに詳しい先輩にも
連絡しておくのも良いでしょう。

自分で何とか出来るのならそれが一番良いのですが、
経験が浅く自分の手には負えないと感じたら、
素直に泣きつくことも大事なスキルです。

 

サービス復旧!!

冗長構成を組んでいてサービスが停止していないのなら、
ここからは比較的時間に余裕がありますので、
腰を据えて障害対応に当たることができます。

しかし、サービスが停止していた場合は、出来るだけ早く
サービスを復旧させなければいけません。

 ※あなたのミスで障害を引き起こしてしまった場合は、
急いで設定を戻しましょう。

応急処置レベルでもよいので、とにかくサービスを復旧させます。

  • スイッチのポート障害の疑いがあれば、
    別の空きポートに接続してみる
  • ケーブルの断線の疑いがあれば、別のケーブルに張り替える
  • 原因がよく分からないのなら、とりあえず機器を再起動!!
  • ハード障害であれば、予備機があるなら交換してみる

一人では手に負えないのなら、有識者に連絡しながら復旧作業を行います。

また、過去にも同様の障害が発生しているかも知れません。
事前に過去の障害事例をまとめているのであれば調べてみましょう。

ネット上にも同様の障害事例を経験している人が
情報を公開しているかも知れません。
インターネットで検索してみるとヒントが見つかるかも。


復旧後にも「ホウレンソウ」

障害が復旧した暁には、まず関係者に連絡が基本。

被害を被った方々には、謝罪を入れつつ丁重にご報告。
場合によっては障害内容や復旧方法を添えつつ。

また、メーカやSierと保守契約しているのなら、
障害状況とログを送って解析してもらいましょう。


対応策が必要なら…

単純なハード障害であれば、交換すればよいわけですが、
深刻な障害だった場合は、その後の対応策を検討して
いかなければいけません。

例えば、

  • ネットワーク機器のバグだった
  • 過去に何度も壊れていて、実は潜在的に壊れやすい
    機器を使用していた、
  • 設定ミスが原因だった…

なんてことが発覚した場合は何かしらの対策が必要になります。

対応策については、コストや作業負荷、時間等を含めて
最も効率的な対策を検討していきます。

  • ソフトウエアのバージョンアップが本当に必要なのか?
  • 設定変更のみで回避できないか?
  • 予備機を事前に準備しておくべきか?
  • それとも冗長構成に変更する必要があるかも…
  • マニュアルや手順書の作成・見直し

などなど。

もちろん、リスクとコストのトレードオフであえて
何もしないという対策もあるかもしれません。


障害報告書

障害内容と原因、そして今後の対応策について報告書を作成し、
関係者に報告します。
対応策に大きなコストをかける必要があるのなら、報告は尚更大事です。


対応策を実施

対応策が必要な障害であれば、同じ障害が発生する前に
出来るだけ早く対応策を実施します。

もちろん対策後には関係者に「無事対応策を実施しましたよ」連絡を
送っておけば親切ですね。


対応後の効果は?

対応策を実施したあとは、対応策の効果を
フォローすることも大事なことです。

また、対策後に新たな障害が起きていないかをもチェックしましょう。

今回の対応策が、別の障害を引き起こす結果に繋がった
なんてこともあるかもしれませんよ。


障害事例をまとめる

発生した障害について、障害内容や対処方法は必ずまとめておきましょう。
可能なものはできるだけ共有することが大事。
何事も「見える化」です。

データベース化するなど、後になって探しやすい状態でまとめておけば、
いざ障害が発生したときに助かります。

ローカルでWEBサーバを立ち上げて、Wikiで管理しておけば
「みんなが見れて、みんなが書き込む」ことができますので、
個人的にオススメ。

 ※もちろん人的ミスの場合は、同じミスを起こさないためにも、
手順書やマニュアルへの反映は必ず行いましょう。

以上、大まかな流れを書いてみましたがいかがでしょうか?

読者様の参考となれば幸いです。

関連記事

メールマガジン

ネットワ-ク初心者のみなさま。
ネットワークの基礎知識を疎かにすることは
大変危険です!!

「初心者にも理解できるネットワーク技術」

これを読めばネットワークの基礎が分かる!!
ネットワーク関連の仕事に就きたいとお考えの学生の方や、ネットワークに興味があって転職を考えている社会人の方、まずは登録してみてください。

もちろん無料です!!

↓メールマガジン購読はこちら↓

メールアドレス: