Microsoft は Build 2026 で、Azure AI Foundry のトレーシング・評価機能を正式提供(GA)へ引き上げ、LangChain・LangGraph・OpenAI SDK など主要エージェントフレームワークとの相互運用に対応した本番グレードの AI エージェント監視基盤を発表した。

AIエージェントの本番運用はなぜ難しいのか

従来のソフトウェアは決定論的だ。同じ入力には同じ出力が返る。しかし AI エージェントは違う。同じプロンプトでも今日と明日でツールの呼び出し経路が変わるし、モデルが更新されれば動作が静かにドリフトする。従来の「ログ・メトリクス・エラーレート」だけでは不十分で、エージェントが「何を判断したか」「その判断は正しかったか」「品質は改善しているか」を継続的に把握する仕組みが必要だ。

これが今回 GA になった Foundry の観測基盤が解決しようとしている問題の核心である。

Azure AI Foundry 観測基盤の4つの柱

Foundry の観測機能は 4 つのレイヤーで構成される。

Trace(トレース): プロンプト・モデル呼び出し・ツール呼び出し・サブエージェントへの橋渡しを含む、エンド・ツー・エンドのテレメトリ。エージェントが何をしたかを一本の流れで追える。

Evaluate(評価): 品質・安全性・タスク完了度を、1 ターン単位でも複数ターンのマルチターン粒度でも採点できる。今回からルーブリック(評価基準)をコンテキストごとに定義できる機能が追加され、業務ドメインに合わせた基準で評価できるようになった。

Monitor(モニタリング): Azure Monitor と連携したリアルタイム異常検知とアラート。本番稼働中のエージェントが静かに劣化するのをキャッチする。

Optimize(最適化): 本番環境のシグナルを証拠ベースの改善案に変換する。「何を直せばいいか」を推論してくれる。

OpenTelemetryで既存フレームワークとシームレスに統合

今回の発表で実務的に特に重要なのが、LangChain・LangGraph・OpenAI SDK・Microsoft Agent Framework および任意のカスタムフレームワークへの対応だ(パブリックプレビュー)。

接続手段は OpenTelemetry(OTel)。すでに OTel スパンを出力しているエージェントであれば、OTel エクスポーターを Foundry に向けるだけで、フレームワーク横断のトレースと評価が機能し始める。単一の本番システムが複数フレームワークを組み合わせていても、全ての tool call・LLM 呼び出し・ハンドオフが一つのトレースビューに統合される。

ROI可視化とAgent DevOpsループの完成

今回のもう一つの柱が ROI ダッシュボード だ。AI エージェントは技術的な指標だけでなく、ビジネス価値の観点からも評価されなければならない。「このエージェントはどれだけのコストを削減したか」「どの処理を自動化できているか」を可視化し、CFO や経営陣に示せるレポーティング機能が追加された。

評価からモニタリング、最適化、そして ROI 報告まで、開発サイクルの全フェーズをカバーする Agent DevOps ループが一つのプラットフォームに統合された形だ。

実務への影響

今すぐ確認すべきこと:

既存の OTel 実装を活かす: LangChain 等を使って開発中のエージェントがあれば、OTel エクスポーターの向き先を Azure AI Foundry に変えるだけで監視機能が利用できる可能性がある。導入コストは低い。

マルチターン評価を設計に組み込む: 単発の回答精度を見るだけでなく、会話を通じた品質劣化を検知する仕組みを今から考えておく。プロンプト変更のたびに評価ループを回す習慣をチームに根付かせたい。

ROI指標を先に定義する: ダッシュボードはあっても、何を ROI として測るかを定義しておかないと数字が出ても意味をなさない。「どのタスクを何件自動化できたか」「ハンドリング時間が何分短縮されたか」等、ビジネス側と合意できる指標を先に設計する。

筆者の見解

AI エージェントを本番で動かし始めると、すぐに直面するのが「品質の静かな劣化」だ。デモでは動いていたのに、モデルのアップデートや入力パターンの変化でじわじわと精度が下がる。これを早期に発見する観測基盤は、本番運用に真剣に取り組むチームには不可欠で、その意味で今回の Azure AI Foundry GA は正しい方向を向いている。

とくに OpenTelemetry を軸にした「どのフレームワークでも使える」という設計は現実的だ。企業の現場では単一フレームワークで全てを作れるケースは少なく、既存の OTel 資産を活かせる設計は導入障壁を大きく下げる。

ROI 可視化についても、AI 活用の業務価値を測る取り組み自体は筋がいい。大事なのは指標の設計だ。「トークン消費量」のような技術的な数字だけを追うのではなく、実際のビジネス成果と連動した測定ができるかどうかが肝になる。ツールは揃った。あとはどんな指標を定義するかが問われる。

Microsoft がエージェント基盤をこのレベルで整備してきたことで、Azure 上でのエージェント本番運用のハードルは確実に下がる。エージェントが自律的に判断・実行・検証を繰り返すループを本番で安全に回せる基盤として、この方向でしっかり磨き続けてほしい。


出典: この記事は Build 2026: From observability to ROI for AI agents on any framework | Microsoft Foundry Blog の内容をもとに、筆者の見解を加えて独自に執筆したものです。