Azure AI FoundryでGPTリアルタイム音声モデルがGA——音声エージェント開発はいよいよ実用フェーズへ

Microsoft Azure AI Foundry（旧称Foundry Classic）で、gpt-realtime-1.5とgpt-audio-1.5が一般提供（GA）に移行した。昨年プレビューとして登場したリアルタイム音声モデルが正式版となり、エンタープライズ用途での利用が現実的な選択肢になってきた。あわせてPreview APIは2026年4月30日に廃止される予定で、既存の実装を持つ開発者は早急な対応が必要だ。

何が新しくなったか

今回GAになったgpt-realtime-1.5とgpt-audio-1.5は、前世代モデルに対して主に3点が強化されている。

インストラクション追従性の向上: プロンプトで指示した挙動を音声応答でも守りやすくなった
多言語サポートの強化: 日本語を含む複数言語での精度・自然さが改善
ツール呼び出し（Function Calling）対応: 音声会話中に外部APIやシステムを呼び出すエージェント的なユースケースが実装しやすくなった

これらすべてを維持しながら低レイテンシーも確保しているのがポイントで、「デモでは動くがビジネス要件を満たせない」という従来の課題をかなり解消してきた印象だ。

同時期に強化された音声関連モデル群

GAと合わせて、音声処理パイプライン全体のモデルも大幅に更新されている。

音声認識（ASR）: gpt-4o-mini-transcribe-2025-12-15は英語ベンチマークで前世代比約50%の誤り率削減を達成。無音時のハルシネーション（誤検知）も最大4分の1に削減され、雑音環境での実用性が大きく向上した。日本語・インド系言語などの多言語精度も改善されている点は、日本語ユーザーにとって朗報だ。

話者分離（Diarization）: gpt-4o-transcribe-diarizeは「誰がいつ発言したか」をリアルタイムで識別できる。会議の議事録自動生成やコールセンター通話分析など、日本の企業現場で即座に活用イメージが湧くユースケースだ。

テキスト読み上げ（TTS）: gpt-4o-mini-tts-2025-12-15は多言語合成の新ベンチマークとなっており、より自然でアーティファクトの少ない音声出力を実現している。

SIP接続サポート: Realtime APIが電話システムの標準プロトコルSIPに対応したことで、既存のPBXやコールセンターシステムとの統合が格段にやりやすくなった。

実務への影響——日本のエンジニア・IT管理者に伝えたいこと

まず確認: Preview APIの廃止期限 既存環境でRealtime/Audio系のPreview APIを使っている場合、2026年4月30日が移行期限となる。本番で稼働しているシステムがあれば、今すぐ確認・移行計画を立てること。

音声インターフェース開発の現実的な入口として 「音声AIは面白そうだが、まだ実験フェーズ」と思っているなら、GAへの移行はその認識を改めるタイミングだ。特に以下のユースケースは技術的ハードルが現実的な範囲に入ってきた。

社内ヘルプデスクの音声エージェント: FAQへの回答や社内システム検索をFunction Callingと組み合わせて音声で完結させる
会議・商談の自動議事録: 話者分離付き文字起こしで「誰が何を言ったか」まで記録
コールセンターのリアルタイム支援: オペレーターの会話を並行解析してナレッジを即提示

Microsoft Foundryのエコシステム上で構築することで、Entra IDによる認証・認可管理やAzure Monitorでの監視も既存の運用フローに乗せられる。これが単体APIサービスとの最大の違いだ。

API利用の実装ポイント gpt-realtime-1.5は既存のChat Completion APIを通じて利用できる設計になっており、移行コストは比較的低い。既にAzure OpenAI Serviceを使っているプロジェクトなら、エンドポイントの切り替え+モデル名の変更で試せる範囲に入ってきた。

筆者の見解

MicrosoftがAzure AI Foundryを中心にモデル群を整理・強化し続けているのは、単純にモデル単体の競争ではなく「AIが安全に動作するプラットフォームの競争」に軸足を置いているからだと私は見ている。その戦略は長期的には正しいと思う。

音声AIは「楽しいデモ」から「実業務の基盤」へと変わるフェーズにある。Realtime APIがSIPに対応したことは地味に見えるが、これは日本に無数に存在するレガシー電話システムとの接続口が開いたことを意味する。「AIが使えるのは最新システムだけ」ではなく、既存インフラを活かしながら段階的に導入できる設計思想は、日本の大企業・自治体・医療機関のIT部門にとって非常に重要なポイントだ。

一方で、これだけの機能が揃ってきたにもかかわらず、日本の現場での音声AIへの取り組みはまだ周回遅れの印象がある。「うちはまだ早い」と言っているあいだに、競合が顧客接点を音声AIで刷新してしまうリスクは現実のものとして考えておくべきだろう。GAになった今が、実験を業務試行に格上げするちょうどいいタイミングだ。

出典: この記事は GPT Realtime Audio models now generally available in Microsoft Foundry の内容をもとに、筆者の見解を加えて独自に執筆したものです。

何が新しくなったか#

同時期に強化された音声関連モデル群#

実務への影響——日本のエンジニア・IT管理者に伝えたいこと#

筆者の見解#

何が新しくなったか

同時期に強化された音声関連モデル群

実務への影響——日本のエンジニア・IT管理者に伝えたいこと

筆者の見解