PaPoo
cover
technews
Author
technews
世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

AWSの障害でFanDuelやCoinbaseに影響、復旧には数時間かかる見通し

キーポイント

何が起きたのか

今回のニュースをひと言でいうと、​AWSのデータセンターで起きた障害が、FanDuelやCoinbaseといった大手サービスに波及したという話です。

image_0001.jpeg

AWSは、木曜夜の時点で運用上の問題を報告し始めました。原因は、バージニア州北部にある施設で起きたthermal issue、つまり簡単にいえば機器が熱を持ちすぎたことによるトラブルです。データセンターは大量のサーバーを24時間動かしているので、冷却が命です。ここが崩れると、思った以上にあっさり止まります。正直、クラウドって見えないぶん万能に見えがちですが、裏側はかなり物理的なんですよね。

AWSによると、問題はUS-East-1という主要リージョンの中でも、​単一のAvailability Zoneに集中していました。Availability Zoneというのは、同じ地域内に分散された個別の設備群のことです。要するに「リージョン全体が全滅したわけではないけれど、その中の一部がやられた」というイメージです。それでも影響は十分に大きい。クラウドの冗長化があっても、依存の仕方次第では普通に止まる、というのが今回の教訓だと思います。

FanDuelとCoinbaseにどう影響したのか

影響を受けたサービスのひとつが、スポーツベッティングアプリのFanDuelです。FanDuelは木曜夜、Xで「ユーザーがプラットフォームにアクセスできない技術的な問題を認識し、調査している」と投稿しました。その後、問題はAWS全体の障害に起因すると説明しています。

image_0002.svg

記事によると、利用者の中には、​ベットの清算やキャッシュアウトができないことに不満を訴える人もいました。これはかなり痛いですよね。単なる「アプリが開かない」ではなく、​お金が絡むリアルタイムの操作ができないわけですから、ユーザーのストレスは相当大きいはずです。

もうひとつの影響先が、暗号資産取引所のCoinbaseです。Coinbaseは金曜にXで、​複数のAWSゾーンでの障害が、主要な取引サービスの長引く停止を引き起こしたと投稿しました。ただし、投稿では主要な問題は完全に解決済みとしています。

ここが面白いのは、どちらも「クラウド上で動いているサービス」だからこそ、​自社の中だけで完結しないという点です。昔なら障害は「自社サーバーの問題」で済んだかもしれませんが、今はAWS、Google Cloud、Microsoft Azureみたいな巨大インフラに乗る時代です。便利さの裏返しとして、​インフラ側のトラブルが一気に広範囲へ伝播する。この構造は、やっぱりかなり現代的だなと思います。

image_0003.svg

AWSはどう説明しているのか

AWSは最新の更新で、​完全復旧までまだ数時間かかる見込みだと説明しました。さらに、「以前に想定していたよりも復旧作業が遅れている」とも述べています。

また、AWSは追加の冷却能力をオンラインにする作業を進めていると説明しました。これは、熱を下げるための設備を増やし、影響を受けたハードウェアを回復させるための対応です。つまり、ソフトウェアだけの問題ではなく、​熱という物理現象がボトルネックになっていたわけです。

AWSの障害管理ページでは、木曜午後8時25分の時点で「instance impairments」を調査していると表示されていました。ここでいうinstanceは、ざっくり言えば仮想サーバーのことです。クラウドサービスでは、この仮想サーバーがいろいろなアプリの土台になっています。だから、ここが不調になると、見た目には関係なさそうなサービスまでまとめて巻き込まれます。

image_0004.svg

なぜそんなに大きな話になるのか

AWSは、クラウドインフラ市場のおよそ3分の1を占めるとされています。つまり、世の中のかなり多くのサービスがAWS上で動いているということです。

この構図の怖さは、​一社の障害が“連鎖障害”になりやすいことです。しかも、ユーザーから見ると「FanDuelが悪いのか」「Coinbaseが悪いのか」より先に、「なんで使えないの?」となる。これは運営側にとってかなり厳しい。自分たちのコードに問題がなくても、土台が落ちれば一緒に止まるからです。

image_0007.svg

個人的には、こういうニュースを見るたびに、​クラウドは便利だけど、信頼しきるのは危ないと改めて思います。もちろん冗長化やバックアップはあるのですが、現実には“想定外”がどこかで起きる。今回のような過熱問題は、その典型例ではないでしょうか。

まとめ

今回のAWS障害は、単なる「クラウドが止まった」ではなく、​巨大な基盤サービスのトラブルが、金融やギャンブルのような即時性の高いサービスに直撃したという点が重要です。

特に、

image_0008.svg

この3つは、クラウド障害の影響をもろに受けやすいと感じます。

AWSは復旧作業を続けており、完全復旧にはなお数時間かかる見通しです。クラウドは見えないインフラですが、こういうときだけは「地面の下で何が起きているか」を強く意識させられます。便利さと脆さが同居している、なかなか象徴的な出来事だと思います。


参考: AWS data center outage hits trading on FanDuel, Coinbase — recovery to take hours

同じ著者の記事