Microsoft Agent Framework 1.2.2：AIエージェントがマルチモーダル文書を自動解析、Durable Workflowも本格強化

AIエージェントが「添付ファイルを読んで理解する」能力を得た。2026年4月29日、Microsoftは Microsoft Agent Framework v1.2.2 をリリースし、ファイル添付の自動解析機能とDurable Workflowの大幅強化を届けた。エンタープライズ現場でのエージェント活用が本格化する中、このリリースは実運用に直結する内容を多く含んでいる。

Azure AI Content Understanding：マルチモーダル解析の民主化

最大の目玉は、新アルファパッケージ agent-framework-azure-contentunderstanding だ。

これは Azure AI Content Understanding との統合を提供するコンテキストプロバイダーで、エージェントに渡されたファイル添付を自動解析し、構造化された結果をLLMのコンテキストに注入する。対応フォーマットは幅広く、ドキュメント・画像・音声・動画をカバーする。

実装面での特徴も実用的だ：

マルチドキュメントセッション管理：複数ファイルにわたる解析状態を保持し、「先ほどの3つのファイルを比較して」といった会話が成立する
AnalysisSection によるフィルタリング：必要な解析結果だけを取り込む粒度制御
自動登録ツール：list_documents / get_analyzed_document がフレームワーク側で自動登録される

これまでは「ファイルをエージェントに渡す → エージェントが読む」という処理をアプリ側でゼロから実装する必要があったが、このパッケージによって コンテキスト注入の重労働がフレームワーク側に吸収される。開発チームが本来の業務ロジックに集中できる。

Durable Workflow：会話履歴が途切れなくなった

agent-framework-foundry-hosting では、ホスト型 Durable Workflow への完全な会話履歴伝播が追加された。

具体的には Workflow.as_agent() のエンドツーエンド配線が実現し、マルチターンの WorkflowAgent 呼び出しで 共有状態が呼び出しをまたいで保持される ようになった。list[Message] 入力をDeclarativeなstart executorで受け付け、Enum 値のPowerFxシンボルシリアライズも修正されている。

エンタープライズ用途では、長時間にわたるプロセスを複数ステップに分割して実行するシナリオが多い。ワークフローの途中でコンテキストが失われるのは致命的で、これまではアプリ側での状態管理が必要だった。今回の強化により、その煩雑さが大幅に軽減される。

見逃せない破壊的変更

v1.2.2 には破壊的変更（BREAKING CHANGE）が1件含まれている。

agent-framework-orchestrations において、オーケストレーションの終端出力が AgentResponse に標準化された。Workflow.as_agent() は最終回答のみを返すようになり、逐次承認フロー（with_request_info）と並行実行フロー（intermediate_outputs=True）が同一の出力コントラクトに揃えられた。

既存コードでオーケストレーション出力を直接パースしている実装は修正が必要になる。アップグレード前に必ず python-1.2.1...python-1.2.2 の差分を確認してほしい。

その他の修正

OpenTelemetry ストリーミング可観測性の修正：ストリーミング使用時にスパンが正しくネストされない問題を解消（#5552）
file_search 引用の修正：アシスタントメッセージ履歴のラウンドトリップを壊していた問題を解消。Responses APIが input_file を拒否する現象がなくなる（#5557）

実務への影響

AIエージェント開発者・アーキテクト向け

Azure Foundry 経由でエージェントを構築しているチームには直接的な恩恵がある。特に Content Understanding の統合は、非構造化データ（PDF・画像・動画）を扱うエージェントの開発コストを大幅に下げる。

日本企業では契約書・マニュアル・会議録・現場の写真など大量の非構造化データが社内に眠っている。これらをエージェントが自律的に解析・参照できる仕組みが整備されつつある今、PoC（概念実証）を仕込む絶好のタイミングだ。

運用・インフラ担当者向け

OpenTelemetryのストリーミングスパン修正は、エージェントを本番稼働させているチームにとって重要だ。ストリーミングレスポンスを使いながら可観測性が壊れていた状況が解消される。エージェントの動作を正しくトレースできることは、本番運用の信頼性に直結する。Azure Monitorとの連携も含め、可観測性まわりを整えておきたい。

既存実装のマイグレーション

破壊的変更への対応が必要だ。v1.2.1以前から移行する際は、オーケストレーション出力を処理する箇所を AgentResponse 型に合わせて修正すること。テストカバレッジがある実装なら影響範囲は把握しやすいはずだが、テストが薄い場合は先に統合テストを書いてから移行することを強く勧める。

筆者の見解

Microsoft Agent Framework の進化の方向性は一貫している。「プラットフォームとしての完成度を上げる」——エージェントを動かす基盤の信頼性・再現性・可観測性を高め続けている。

Azure AI Content Understanding との統合は、マルチモーダルAIを「使える状態で提供する」という姿勢の表れだ。個々のモデル能力の競争から一歩引いて、「どのAIであれ安全かつ効率的に動かせる環境を整える」という方向性は、エンタープライズ向けとして正しいアプローチだと思う。エージェントの実行基盤としてのAzure Foundry、認証・認可の管制塔としてのMicrosoft Entra ID——この組み合わせは、長期的に企業のAI戦略の中核になり得る。その方向で着実に積み上げている点は、素直に評価したい。

ただ、こうした技術アップデートがビジネス側になかなか届かない現実もある。フレームワークが成熟しても、「AIエージェントをどう業務フローに組み込むか」の設計力が組織側に育っていなければ、せっかくの機能は活かされない。非構造化データの自動解析ができるようになった今こそ、「うちの現場で眠っているデータに何ができるか」を問い直す機会にしてほしい。ツールの成熟と、使う側の思考のアップデート——その両輪を回すことが、次のステージへの鍵だ。

出典: この記事は Microsoft Agent Framework 1.2.2: Azure AI Content Understanding & Durable Workflow の内容をもとに、筆者の見解を加えて独自に執筆したものです。

Azure AI Content Understanding：マルチモーダル解析の民主化#

Durable Workflow：会話履歴が途切れなくなった#

見逃せない破壊的変更#

その他の修正#

実務への影響#

筆者の見解#