Azure AI Foundry、強化学習ファインチューニング（RFT）を大幅強化——o4-miniが12リージョン超で低単価提供、GPT-4.1グレーダーも追加

Azure AI Foundryが2026年4月、強化学習ファインチューニング（RFT: Reinforcement Fine-Tuning）に関する3つの重要なアップデートを発表した。o4-miniのグローバルトレーニング対応、GPT-4.1を活用した新しいグレーダー機能、そしてRFTベストプラクティスガイドの整備——企業が独自の専門モデルをより低コスト・高品質で開発できる環境が着実に整いつつある。

強化学習ファインチューニング（RFT）とは何か

RFTは、従来の教師あり学習（SFT）とは異なる手法でモデルを特化させる技術だ。正解データのペアを大量に用意するのではなく、モデルの出力に「報酬シグナル」を与えて強化学習で最適化する。コーディング、数学的推論、法律文書のレビューなど、「答えの質を自動評価できる」タスクに特に威力を発揮する。

企業が自社業務に特化したモデルを作る際、教師データの収集・ラベリングコストがボトルネックになることが多い。RFTはそのコストを大幅に削減できるため、エンタープライズAI活用における重要な技術として注目度が高まっている。

3つのアップデートの内容

1. o4-miniのグローバルトレーニング——12リージョン以上で低単価提供

o4-miniのRFTトレーニングが、世界12リージョン以上で利用可能になった。より低いトークン単価での提供が特徴で、本番運用規模のトレーニングをコスト効率よく実行できる。アジアパシフィックリージョンでの提供が広がることは、データレジデンシーや遅延要件を持つ日本企業にとって実用上の大きな意味を持つ。

2. GPT-4.1グレーダーによる報酬シグナルの強化

RFTの要となる「報酬モデル（グレーダー）」にGPT-4.1が利用できるようになった。グレーダーはモデルの出力を評価して報酬シグナルを生成する役割を担う。GPT-4.1はコンテキスト長と指示追従性能が向上しているため、長文の品質評価や構造化出力の正確性チェックなど、複雑な評価基準を持つ業務タスクにおいてより精細な評価が可能になる。

3. RFTベストプラクティスガイドの整備

「どうやって使えばいいかわからない」という声に応える形で、包括的なベストプラクティスガイドが追加された。専門モデルをより速くリリースするための知見が整理されており、RFTを初めて試す開発者の入門ハードルが下がった。

Foundryエコシステムの急速な充実

RFTと並行して、Foundry全体のエコシステムも急速に整備されている。注目すべき動きをいくつか挙げる。

Toolbox（パブリックプレビュー）: エージェントが使うツールを一元管理し、異なるフレームワーク・ランタイム間での重複実装と認証情報の散乱を排除
Microsoft Agent Framework v1.0: 本番グレードのエージェント開発フレームワークの正式版がリリース
Foundry Agent Serviceのホスト型エージェント: セキュアかつスケーラブルなエージェント実行環境がプレビューで提供
Foundry Local GA: オンデバイス推論が正式公開。ネット接続なし・トークン課金なしで推論を実行可能

実務への影響

エンジニアへ: RFTの実用化を検討する際、まず「報酬関数を定義できるか」から考えるとよい。「この出力は良い/悪い」を自動評価できるタスクかどうかがRFT活用の条件だ。コード生成（テストが通るか）、構造化データ抽出（スキーマへの準拠率）、数値計算（答えの正誤）などが典型的なユースケースになる。

IT管理者へ: Toolboxの一元管理機能は、複数のエージェントを運用している組織に特に刺さる。「認証情報をエージェントごとに埋め込んで管理が散乱している」という状況を解消するための正しいアーキテクチャが、プラットフォーム側から提供された形だ。また、Foundry Agent Serviceのプライベートネットワーキング対応により、Azure VNet内にエージェントのトラフィックを閉じ込めたい組織がエンタープライズセキュリティポリシーと整合しながら本番投入できる選択肢が増えた。

筆者の見解

Microsoft Foundryは、AIプラットフォームとして確実に実用レベルに近づいていると感じる。RFTの低コスト化、ツール管理の一元化、本番向けエージェント実行環境の整備——これらは「なんとなく試してみる」フェーズを超えて、業務に組み込むための基盤が整ってきたことを示している。

Foundryの本質的な強みは、AIモデルそのものの最前線を争うことではなく、「AIを組織の中で安全に動かし続けるプラットフォーム」を提供することにある。Microsoft Entra IDとの認証統合、Azureプライベートネットワーキング、組織のガバナンスポリシーとの整合——これらはMicrosoftが長年培ってきた強みであり、他が簡単に追随できる領域ではない。

筆者が特に注目しているのはToolboxだ。エージェントが組織内で増殖するにつれて、ツールの認証・認可をどう管理するかが実務上の最大の頭痛の種になる。Non-Human Identities（NHI）管理と直結するこの課題に、プラットフォームとして正面から答えを出してきたことは評価したい。エージェントを「作れる」だけでなく「安全に運用できる」仕組みを整えているかどうかが、企業導入の成否を分ける。

RFT自体はまだ玄人向けの技術ではあるが、ベストプラクティスガイドの整備は現場エンジニアが実践できる土台を着実に広げていく取り組みだ。今すぐ全社展開するのではなく、「報酬関数を定義しやすいタスク」からパイロット的に試してみる価値はある。Foundryが真に評価されるのは、個々のモデルの性能よりも、組織全体でAIを安全・効率的に動かし続けられる仕組みを提供できるかどうかだ——その方向性は、間違っていないと思っている。

出典: この記事は Microsoft Foundry Blog — Reinforcement Fine-Tuning Updates の内容をもとに、筆者の見解を加えて独自に執筆したものです。

強化学習ファインチューニング（RFT）とは何か#

3つのアップデートの内容#

1. o4-miniのグローバルトレーニング——12リージョン以上で低単価提供#

2. GPT-4.1グレーダーによる報酬シグナルの強化#

3. RFTベストプラクティスガイドの整備#

Foundryエコシステムの急速な充実#

実務への影響#

筆者の見解#