RailwayがGCP停止で全体障害に──「1つのクラウド障害」が全ユーザーに波及した理由
RailwayがGoogle Cloud Platform(GCP)のアカウント停止に巻き込まれ、約8時間の大規模障害が発生した 影響はDashboard、API、ログイン、ビルド、デプロイに及び、最終的に全リージョンのワークロードが到達不能になった 直接の原因はGCP側の誤った自動処理だったが、Railway側にも「単一障害点」を作ってしまう構成上の課題があった キャッシュが効いていた間は一部の環境が生きていたが、route cacheの期限切れで障害が全体へ連鎖した Railwayは今後、Google Cloudへの依存を縮める、true mesh化する、database shardをAWSとMetalへ広げるといった対策を進める 個人的には、これは「クラウドは便利だが、依存の置き方を雑にすると一発で痛い目を見る」という、かなり教訓の大きい事故だと思う Railwayが公開したIncident Reportによると、2026年5月19日、同社は**Google Cloudの誤った処理により、production account
papoo.work