現代のビジネスインフラは、少数の巨大なクラウドプロバイダーの上に成り立っています。その脆弱性が、2025年10月20日のAWS大規模障害によって明らかになりました。
2025年10月20日、Amazon Web Services(AWS)が15時間にわたる大規模障害を経験しました。障害追跡サイトDowndetectorには1,100万件以上のユーザーレポートが寄せられ、2,500社以上の企業が直接的な影響を受けました。経済的影響の総額は数千億ドルに達する可能性があると専門家は指摘しています。
クラウド市場の集中化とAWSの位置づけ
AWS、Microsoft、Googleの3社は、世界のクラウド市場の66%以上を支配しています。AWSだけでも、市場の30%から41%以上を占めています。この市場構造が、今回の障害の影響を拡大させる要因となりました。
AWSのUS-EAST-1(バージニア北部)リージョンは、2006年に開設された最も古く最大のリージョンです。多くの基盤機能がこのリージョンに構築されてきました。
決定的に重要なのは、AWS自身の公式ドキュメントが、多くのグローバルサービスのコントロールプレーンがUS-EAST-1に排他的にホストされていることを認めている点です。これには、IAM、Route 53、CloudFrontといったサービスが含まれます。
顧客が自身のワークロードを地理的に離れたリージョンで実行していても、コントロールプレーンを操作する際にはUS-EAST-1への依存関係が生じます。今回の障害は、この「隠れた依存関係」を現実のものとして証明しました。
障害の発生と拡大
障害は米国東部時間3時11分に発生しました。直接的な原因は、ネットワークロードバランサーの健全性を監視する内部サブシステムの機能不全でした。この初期障害が連鎖反応を引き起こし、DynamoDBのAPIエンドポイントに対するDNS解決の失敗という形で現れました。
DynamoDBは無数のアプリケーションだけでなく、他の多くのAWSサービス自体の基盤ともなっています。そのアクセス不能状態が、広範なアプリケーションレベルの障害を引き起こしました。公式には少なくとも64から108の内部AWSサービスが影響を受けたと報告されています。
重要な点は、データ自体は安全で失われることはなかったことです。しかし、そのデータを見つけ、認証し、アクセスするためのメカニズムが完全に機能不全に陥りました。これは、単純なデータの損失よりも検知しにくいタイプの障害です。
多岐にわたる影響
影響を受けたサービスは多岐にわたります。Snapchat、Reddit、Fortnite、Robloxといったソーシャルメディアやゲームプラットフォームが機能不全に陥りました。CoinbaseやRobinhoodなどの金融サービス、NetflixやDisney+といったストリーミングサービスも停止しました。
特に深刻だったのは、公共サービスへの影響です。学習管理プラットフォームのCanvasが停止し、米国の多くの大学で学生が教材にアクセスできなくなりました。英国の歳入関税庁(HMRC)のウェブサイトも利用不能となり、納税手続きに支障が出ました。
より具体的な分析では、Amazon自身が1時間あたり約7,200万ドル、Snapchatが約61万2,000ドル、Zoomが約53万2,000ドルを失ったと推定されています。インターネットパフォーマンス監視企業CatchpointのCEOは、数百万人の労働者の生産性損失と事業活動の停止を考慮すると、経済的影響の総額は「容易に数千億ドルに達する」可能性があると指摘しました。
一方、障害発生中のAmazonの株価は一時的に0.8%下落しましたが、その後回復しました。これは、投資家が迅速な解決を期待し、同社の市場における圧倒的な地位に対する信頼が揺らいでいないことを示唆しています。
マルチクラウド戦略の再評価
今回の障害を受けて、多くの専門家がマルチクラウド戦略を求めました。単一プロバイダーの障害領域に閉じ込められるのを避けるべきだという主張です。
しかし、Gartnerのアナリストはより慎重な見方を示しています。ほとんどの組織にとって、不十分に実行されたマルチクラウド戦略は、解決する問題よりも多くのコストと複雑さをもたらすと主張します。まず、主要なクラウドプロバイダー内でレジリエンスを習得することに集中すべきだというのがGartnerの提言です。
マルチクラウド戦略には、人材コストの増大、運用コストの増大、管理の複雑化という課題があります。各クラウドの専門家確保と複数倍の研修費用、データ転送費用とセキュリティ設定の重複投資、複数プラットフォームの統一管理とガバナンスの困難さが現実的な問題となります。
実際、AWSからのデータ転送料金は1GBあたり0.09ドルです。真のマルチクラウド戦略を多くの企業にとって法外に困難かつ高価なものにしています。実際にマルチクラウドを実装している企業は、わずか15%程度に過ぎません。
グローバルクラウドベンダーは内部にエコシステムを持ち、その利便性を享受することが有益です。信頼度の高い単一のクラウドプロバイダーを選択し、その中でのレジリエンスを最大化することが、多くの企業にとってより現実的なアプローチとなります。
堅牢なマルチリージョン・アクティブ/アクティブ構成を実現した後に、マルチクラウドの運用負荷を引き受けるという段階的なアプローチが推奨されます。詳しいクラウド選定戦略については、企業のクラウド選定戦略 マルチクラウドではなく、シングル・プライマリ戦略の推奨で解説しています。
企業への提言
今回の障害から得られる教訓は明確です。
まず、自社システムが依存するすべてのAWSサービス、特にUS-EAST-1のコントロールプレーンに対する「隠れた依存関係」を特定する徹底的な監査が必要です。
アーキテクチャの考え方を、障害を防ぐことから、障害は必ず起こるという前提に立つことへと転換する必要があります。単一リージョン全体の喪失に耐えうるシステムを構築することが求められます。
理論上の計画に留まらず、リージョン間のフェイルオーバー手順が実際に機能することを確認するため、定期的な実践的訓練を実施すべきです。
また、SLAの限界を理解することも重要です。AWSのSLAは通常、ダウンタイムに対する補償として、顧客の月額料金の10%から25%に相当するサービスクレジットを提供します。しかし、これは実際のビジネス損失を補填するものではありません。月に1万ドルをAWSに支払っている企業が今回の障害で50万ドルの収益を失った場合、SLAに基づいて受け取れる補償は、わずか1万ドルのクレジット、つまり実際の損失の2%に過ぎません。
今回の障害は、クラウドコンピューティングが現代社会の基盤インフラであることを改めて証明しました。その安定性と信頼性を確保することは、個々の企業の事業継続性だけでなく、社会全体の機能性を維持するための重要な課題となっています。障害は「起こるかもしれない」ものではなく、「いつか必ず起こる」ものという前提に立ち、適切な対応策を準備することが不可欠です。
参考記事リンク
- Massive Amazon cloud outage has been resolved after disrupting internet use worldwide – AP News
- Monday’s Massive AWS Outage Explained: Looks Like It’s Finally Over – CNET
- AWS outage cause: It’s always DNS, but sometimes it’s… – The Stack
- Don’t Let the AWS Outage Erode Your Trust in the Cloud – Gartner
- Global services – AWS Fault Isolation Boundaries