Microsoft 365の障害はWANルータのIPアドレス変更が原因

1/25に発生した世界的なMicrosoft 365の障害の原因は、WANルータのIPアドレス変更だったようです。
Microsoft 365は、メール、オンラインストレージ、その他のツールを含むサービスで、日本はもちろん世界的に利用されているサービスです。

Microsoftによると、この問題はWANルータの変更が原因だという。ルーターのIPアドレスを更新作業を行う際に、実行すべきコマンドに問題があったようです。その結果、WAN内の他のすべてのルーターにメッセージを送り、パケットを正しく転送できないようになり、Microsoft 365のサービスが世界的に停止してしまったとのこと。

https://www.theregister.com/2023/01/30/wan_router_ip_address_change

Microsoftからの障害後の報告によると、WANルーターに投入したコマンドが十分に検討されていなかったことが判明。今後は以下の対策を実施するとのこと。

  • 影響の大きいコマンドを端末で実行できないようにする仕組みを導入
  • デバイス上でのコマンド実行はすべて安全なガイドラインに従うように整備

最終的な報告は、障害から2週間後に発表される予定です。

記事に以下のような記載があります。

「この問題を引き起こしたコマンドは、ネットワーク機器によって動作が異なり、そのコマンドが実行されたルーターでは、当社の完全な認証プロセスによって検証されていませんでした。」

このことから、おそらくプライマリのloopback IPを変更したのではないでしょうか。プライマリのloopback IPアドレスはデフォルトでは、ルーティングプロトコルの「ルータID」となるため、変更した場合にネットワーク全体で再計算が行われます。もちろん、デフォルトのルーターIDをloopback 0から変更することも可能ですので、あくまでも仮説ですが。

ネットワーク運用の世界は、現用の環境と同じ検証環境があれば別ですが、基本的に事前に動作確認を行うことが難しいにも関わらず、作業ミスや検討漏れの影響が甚大になることが大きいため常に細部にまで気を使うことが要求されます。
それでもバグによって障害が発生することも少なくありません。

そう言う意味でもネットワーク運用は地味な仕事ですが、IT業界の他の仕事よりもストレスが溜まる仕事なのは間違いなく、このような障害のニュースを見るたびに当事者の苦労に想いをはせてしまいます。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください