2026年5月29日(UTC 09:39〜17:05)、Azure OpenAI Serviceが約7.5時間にわたる大規模障害を発生させた。原因は雷雨による電源・熱障害であり、複数のリージョンが影響を受け、AIワークロードに依存する多くのシステムが機能不全に陥った。

何が起きたのか

マイクロソフトが公開したPost Incident Review(PIR)によると、障害の根本原因は雷雨による電源サージおよびデータセンター内の熱管理システムへの連鎖的な影響だ。

UTC 09:39に最初の障害が検出され、複数リージョンでAzure OpenAI Serviceへのリクエストが失敗し始めた。影響を受けたリージョンでは、APIリクエストのエラーレートが急上昇し、モデル推論が事実上停止。UTC 17:05に完全復旧が確認されるまでの約7時間26分、AIワークロードが多くの現場で止まった。

影響範囲はAzure OpenAI Serviceにとどまらず、Azure AI ServicesやAzure Machine Learningの一部機能にも波及した可能性がある。

シングルリージョン依存が露わにしたリスク

今回の障害が改めて浮き彫りにしたのは、大規模AIサービスにおけるシングルリージョン設計の危うさだ。

従来のWebアプリやデータベースであれば、複数リージョンへのフェールオーバー設計はすでに常識だ。しかしAzure OpenAI Serviceのような大規模言語モデル(LLM)APIは、マルチリージョン化が難しい現実がある。

  • モデルのデプロイ先が限定的: GPT-4oやo1シリーズなどのモデルは、すべてのリージョンで等しく利用できるわけではない
  • エンドポイントのリージョン固定: デフォルトのAzure OpenAI Serviceエンドポイントはリージョン固有のURLを使用する
  • コスト: 複数リージョンにプロビジョニング容量(PTU)を確保するのは費用負担が大きい

実務への影響と今すぐできる対策

1. マルチリージョンフェールオーバーを設計する

Azure API Management(APIM)やAzure Front Doorと組み合わせることで、マルチリージョンフェールオーバーを実現できる。プライマリリージョン(例:Japan East)とセカンダリリージョン(例:East US 2)の両方にAzure OpenAI Serviceをデプロイし、APIMのバックエンドプールで健全性プローブと自動フェールオーバーを設定するのが王道の構成だ。

2. リトライとサーキットブレーカーをアプリ層に実装する

Azure OpenAI Serviceの一時的な障害に対して、指数バックオフ付きのリトライ処理とサーキットブレーカーパターンを実装する。Semantic KernelやPromptFlowを使っている場合は、組み込みのリトライ設定を確認しておくこと。

3. Azure Service Healthのアラートを設定する

Azure Service HealthでAzure OpenAI Serviceのサービス正常性アラートを設定し、障害発生時に即座に通知を受け取れるようにしておく。早期に代替手段へ切り替える判断ができるかどうかが、復旧速度を大きく左右する。

4. AIワークロードのSLA設計を根本から見直す

Azure OpenAI Serviceの標準SLAは99.9%だが、これは月間約44分のダウンタイムを許容する数字だ。今回の7.5時間はその10倍以上にあたる。ビジネスクリティカルなAIワークロードには、それに見合った冗長設計を要求すること。

筆者の見解

今回の障害で最も気になったのは、技術的な問題そのものではなく、多くの企業がAzure OpenAI Serviceをシングルリージョンで本番稼働させているという現実だ。

マイクロソフトのデータセンターインフラは世界トップクラスだが、雷雨のような自然現象には完全には勝てない。それ自体は仕方のないことだ。問題は、AIを組み込んだワークフローが「AIが止まれば業務全体が止まる」という設計になってしまいやすい点にある。これはAIそのものの問題ではなく、設計の問題だ。

従来のERPやCRMであれば、担当者なら誰でもバックアップ手順を持っているはずだ。AIを使ったシステムにも同じ品質基準が求められる時代になっている。Azureのプラットフォームとしての信頼性はこれからも揺るぎないと思っているからこそ、その上で動かすAIワークロードの設計もプラットフォームに恥じないレベルにしてほしい。

マルチリージョン対応は「やれたらやる」ではなく、本番AIシステムの必須要件として位置づけるべき時期にきている。


出典: この記事は Azure OpenAI service outage on May 29, 2026 – Impact and recovery の内容をもとに、筆者の見解を加えて独自に執筆したものです。