Azure AI Foundryでリアルタイム音声AIがついに「本番品質」に到達した。2026年2月、OpenAIのgpt-realtime-1.5とgpt-audio-1.5がAzure AI Foundry Direct Modelsとして正式GA(一般提供)に移行した。前世代から引き継いだ低遅延特性を維持しつつ、現場導入を阻んでいた三つの課題——命令追従精度・多言語対応・ツール呼び出し——に正面から取り組んだアップデートだ。
何が変わったか:三点の重点強化
① 命令追従精度の向上
音声AIはテキストAIよりもプロンプトが伝わりにくい。話し言葉の曖昧さや言い淀みを超えて指示を正確に実行できるかは、業務適用の第一関門だ。コールセンターや社内ヘルプデスクの自動応答では、ユーザーが崩れた言葉で問い合わせることも多い。この精度向上は直接、自動化の完成度に直結する。
② 多言語対応の強化
前世代でも「多言語対応」を謳ってはいたが、日本語やインド系言語での精度は英語に比べて見劣りする場面があった。「英語なら動く、日本語は怪しい」では国内導入は進まない。今回の改善は、日本語音声業務への採用を現実的な選択肢に引き上げる。ASRモデル(gpt-4o-mini-transcribe)の改良も同時に進んでおり、日本語の文字起こし精度も着実に向上している。
③ ツール呼び出し(Function Calling)の改善
音声入力を受け取りながらリアルタイムでAPIを叩いてデータ取得・処理を行う、いわゆる「音声エージェント」の実現に不可欠な機能だ。これが安定して動くようになると、「しゃべるだけで社内システムを操作できる」インターフェースの開発が一気に現実味を帯びる。
接続方式の柔軟性:SIP対応がゲームチェンジャー
WebRTC・WebSocket・SIPの三方式に対応している点も重要だ。2025年10月に追加されたSIP対応は特に大きい。既存の電話インフラ(IP-PBX、コールセンターCTIシステム等)との統合が、新規のシステム置き換えなしに実現できる。電話番号はそのままに、受話後の処理だけをAIに置き換えるというアプローチが可能になる。
実務への影響
日本企業が今すぐ検討すべきシナリオを整理する。
ユースケース ポイント
コールセンター一次対応の自動化 SIP対応でCTI連携が容易。既存番号を活かしたまま投入可能
社内ヘルプデスク音声ボット Teams Phoneとの統合でユーザーが内線感覚で問い合わせ可能
音声インターフェース付きエージェント Function Calling改善でリアルタイムデータ取得が安定動作
会議・商談リアルタイム文字起こし 話者分離対応のgpt-4o-transcribe-diarizeと組み合わせると威力倍増
エンジニア向け実装ヒント:
- Chat Completion APIと同じ感覚で呼べる設計のため、テキストAI開発の経験があれば移行コストは低い
- Azure AI Foundryポータルで即座に試せる。まず動かして感覚を掴むのが最速
- 用途によってはSpeech-to-Textのみの軽量構成(gpt-4o-mini-transcribe)も有効。フル音声応答が不要なシナリオでコストを最適化できる
筆者の見解
音声AIの「本番品質」への到達は、テキストAIよりも数年遅れていた。命令追従が不安定、日本語が怪しい、Function Callingが動かない——そのどれか一つが欠けると業務導入は止まる。今回のGA発表は、その三つの穴を塞いできたという意味で素直に評価したい。
Azure AI Foundryを通じてこれらのモデルが使えるという点も、IT管理者の視点では重要だ。AzureのセキュリティポリシーやMicrosoft Entra IDによるアクセス制御をそのまま活用しながら最新の音声AIを本番投入できる。「AIを使いたいが、セキュリティ統制が追いつかない」という悩みを抱える日本の大企業にとって、Azure AI Foundry経由というのは最も「道の真ん中」にある選択肢だ。
コールセンターや音声窓口の自動化は、もはや「近未来の話」ではない。SIP対応で既存インフラへの統合ハードルが下がり、多言語対応が改善され、Function Callingが安定した——今期の検討テーブルに載せるべき条件が揃ってきた。
音声AIの精度競争はまだ続く。だが「試す価値がある」から「本番投入できる」への閾値を越えた今、動き出すタイミングを逃す理由はなくなりつつある。
出典: この記事は GPT RealTime 1.5 and GPT Audio 1.5 now Generally Available on Azure AI Foundry の内容をもとに、筆者の見解を加えて独自に執筆したものです。