なぜ大規模IT障害はくりかえし起きるのか

ASCII.jp / 2024年7月24日 7時0分

　大手ネットサービスが一斉にストップする大規模障害が繰り返し起きています。上流にあるクラウド・IT基盤そのものの障害によるものです。これらクラウド障害の事例・影響と対策を紹介します。

クラウド・IT基盤が社会を支えている

　私たちの生活・仕事から企業・政府・自治体業務まで、ほとんどの営みはネットを経由、もしくはネット上で行なわれています。今やネットなしでは社会は成り立ちません。

　それを支えるのがクラウドとIT基盤です。クラウドとはネット経由で様々な機能・サービスを提供すること。同様の言葉として「IT基盤」と表現することもあります。IT基盤はITサービスの裏側で動いている基礎、インフラだと言っていいでしょう。次の表はクラウド・IT基盤の主な種類をまとめたものです。

　まずクラウドと言えば、企業やネットサービスが使うAmazon Web Services（AWS）やマイクロソフトのAzureなどがあげられます。これらは様々なサービスを利用できる総合型で、この表の下にある機能を含んでいるとも言えます。それに対してワードやエクセルをネット経由で利用できる「Microsoft365（旧Office365）」は、アプリケーションをネット上で提供するタイプのサービス。私たちにもっとも身近なクラウド利用だと言えそうです。

　「自治体向けクラウド」は税・住民管理・健康保険などの自治体業務のアプリケーションをネット上で使えるもの。多くの自治体はすでにクラウド上で業務をしているわけです。CDN（コンテンツデリバリーネットワーク）は、動画などのコンテンツを本来のサイトとは別の場所から配信して高速化・負担軽減をはかるものです。その他に企業ではビジネスチャットやテレビ会議をクラウドサービスで使っている他、私たち個人もネット上でファイル置き場であるデータストレージを使っています。

　このように、クラウド・IT基盤は今や社会のあらゆるシーンで利用されている公共インフラと言えるでしょう。

頻発するクラウドの障害

　社会を支えるクラウド・IT基盤ですが、何らかの障害・トラブルにより、サービスが停止することがあります。毎月のようにクラウド・IT基盤で障害が起きており、そのたびに利用者は仕事やサービスがストップしています。次の表に、最近起きた大規模な障害とその影響をまとめました。

　総合クラウドでの障害でもっとも日本国内で大きな影響が出たのは、表の①、2019年8月に発生したAmazon Web Services（AWS）東京での障害でしょう。サーバーの冷却トラブルにより障害は9時間続き、日本国内の大手サービスが多数止まりました。

　たとえばスマホ決済の「PayPay」や「ファミペイ」、暗号資産交換所の「Zaif」や「GMOコイン」、ECではユニクロや「ストアーズ JP」、ゲームでは「パズル＆ドラゴンズ」や「メイプルストーリー」など多数、その他にも大手の公式サイトなどが一斉に止まる深刻な状態でした。

　同様の障害は表の⑤、2021年4月のAWS東京でも起きています。一部のサーバーが止まった影響で気象庁のウェブサイト、大手スマホゲーム、暗号資産の「コインチェック」などのサービスが停止しています。また④、2021年2月に発生したマイクロソフトのAzureのトラブルではJR東日本のアプリなどが停止しています。

　これらは総合クラウドの障害であり、総合クラウドを利用している多数のサービスに広範な影響が出ています。特定の企業やサービスではなく、ネットサービス全般がストップしてしまうため影響が大きくなっています。

ネットサービスに大きな影響

　またCDN（コンテンツデリバリーネットワーク）の障害でも、多数のサイト・サービスに影響が広がります。直近でもっとも大きいCDN障害は⑥、021年6月の「fastly」の障害です。時間は1時間と短かったものの、ほぼ全世界で障害が起きました。日本ではYahoo！、読売新聞、Abema、TVer、環境省などの大手事業者がストップ。さらにアマゾンやXも影響を受けています。

　CDNは負荷分散や高速化が目的であるため、主に大手のネットサービスが利用しています。そのため、CDNが止まってしまうとSNSやECの大手サービスも止まります。

　私たちの仕事に影響が出ることもあります。例えば②のOffice365障害（2019年11月）では、ワードやエクセル、SkypeやTeamsがストップして業務ができない状態となりました。

　クラウド系の障害の中で、もっとも大きな問題に発展したのは、③の自治体向けクラウド「Jip-Base」での障害です。自治体が使う共同利用型IT基盤での障害で、ストレージに異常が発生して全国53の自治体・団体に影響が出ました。サービスが止まるだけでなくデータが飛んでしまうという深刻なトラブルとなりました。

　その後の復旧作業でデータはバックアップなどから戻したものの、1ヵ月後の発表でも「バックアップデータが特定できないためIaaSサービスとして自社のみでの復旧が困難なもの」が0.5％残ると発表されています。自治体のデータが復旧できないとしたら私たちの暮らしに直結する深刻な事態です。

クラウドかオンプレミスか

　障害の原因はどこにあるのでしょうか。サーバーの冷却でのトラブル（①、⑤）、ソフトウェアのアップデートでのトラブル（②、③、⑥）、機器の設定ミス（⑦、⑧）、アクセス集中や負荷分散のトラブル（④）などの原因があります。

　原因はソフトウェアのバグからハードウェアの故障、人為的ミスなど様々なものがあり、これらのトラブルをゼロにするのは難しいでしょう。つまりクラウドやIT基盤を使う上で、障害をゼロにするのは不可能なのです。

　だったら自社でサーバーなどを運用する「オンプレミス」のほうが安全なのでは？と思うかもしれません。しかし、オンプレミスでは自社でサイバー攻撃に備える必要がありますし、アップデート・保守点検・常時監視などの手間とコストがかかります。

　それに対してクラウドやIT基盤では、セキュリティ・保守点検が24 時間体制で行われているため、サイバー攻撃や障害対応が素早く行えます。実際にここで紹介しているクラウドの大規模障害も、ほとんどは半日以下、場合によっては1時間程度で復旧できています。

障害を許容しバックアップ準備を

　今後も、クラウドやIT基盤の障害は起きるでしょう。クラウドやIT基盤は、多数の企業・サイト・ネットサービスが利用しているだけに、一度障害が起きると社会活動がストップするような大事件になるかもしれません。特にIoTなどの普及により、スマートホーム、自動運転車などが一般的になれば、社会全体がストップする事態も考えられます。

　しかしながら一企業や自治体が自ら設備を持つオンプレミスより、クラウドやIT基盤を利用するほうがずっとリスクが低く、復旧も早くできる可能性が高く、コストも抑えられます。そのためクラウド利用は今後も増えるでしょう。

　つまり私たち個人や企業・自治体は「クラウドやIT基盤がストップすること」を許容、もしくは覚悟して使う必要があるのです。障害によって、一定時間使えなくなることを予期して準備する必要があります。

　もしどうしても止められない業務があるのなら、クラウドが止まっても別の手段に切り替えて運用できる体制を準備しなくてはなりません。大きなコストがかかりますが、銀行や政府のガバメントクラウドなどは対応する必要がありそうです。

　個人や企業であれば一定時間止まることは覚悟した上で、最悪の事態である「データが消失する」ことに備える必要があります。つまりバックアップが重要です。クラウドやIT基盤とは関係のないバックアップ、たとえば切り離しできる記憶媒体などにバックアップを定期的に取っておきましょう。サイバー攻撃のランサムウェア対策としても重要ですから、バックアップを取ることが至上命令と言えます。