OpenAIは2026年5月11日、リアルタイム音声APIに新たな3つのモデルを追加した。GPT-Realtime-2(GPT-5クラスの推論対応)、GPT-Realtime-Translate(70言語以上のリアルタイム翻訳)、GPT-Realtime-Whisper(ストリーミング音声文字起こし)の3本立てで、音声AIエージェントの実用化に向けた大きな前進となる。

GPT-Realtime-2:音声と推論の融合

今回の目玉はGPT-Realtime-2だ。OpenAI初の「推論能力を持つライブ音声モデル」であり、GPT-5相当の処理能力を音声インタラクション中に発揮できる。

前モデル(GPT-Realtime-1.5)からの主な強化点は以下の通り。

  • コンテキストウィンドウ: 32,000トークンから128,000トークンに拡張(4倍)
  • 推論量の調整: minimal / low(デフォルト)/ medium / high / very high の5段階
  • 並行ツール呼び出し: 「カレンダーを確認中です」「今調べています」のような音声ステータス通知付きで複数ツールを同時実行
  • 会話割り込みへの対応: 進行中の会話を中断・再開しながら処理を継続
  • ドメイン特化語彙の理解: 固有名詞や医療用語への対応強化
  • プリアンブル対応: 「少し確認しますね」のような短いフレーズを処理前に発話可能

コンテキストウィンドウの128K拡張は特に重要で、長い会話セッション全体を保持したまま処理できる。1時間超の商談や複雑なサポート対話にも耐えられるキャパシティだ。

GPT-Realtime-Translate:70言語超のリアルタイム翻訳

GPT-Realtime-Translateは70以上の入力言語から13の出力言語へのリアルタイム翻訳に対応する。話者のペースに追従しながら翻訳するため、国際的なカスタマーサポート、ライブイベント、教育プラットフォーム、グローバル向けクリエイターツールでの活用が想定されている。

Deutsche TelekomはすでにAPIを多言語カスタマーサポートで試験運用中。Vimeoは動画再生中のリアルタイム翻訳のPoCを進めており、商用利用に向けた評価が着々と進んでいる。

GPT-Realtime-Whisper:低遅延ストリーミング文字起こし

GPT-Realtime-Whisperは発話と同時に文字起こしを行う低遅延ストリーミングモデル。ライブ字幕、会議中のリアルタイムメモ更新、音声アシスタントのバックエンド処理、カスタマーサポート・医療・営業分野の事後ワークフローなど、幅広い用途に対応する。

価格・安全性・コンプライアンス

モデル 料金

GPT-Realtime-2(音声入力) $32 / 100万トークン

GPT-Realtime-2(キャッシュ済み入力) $0.40 / 100万トークン

GPT-Realtime-2(音声出力) $64 / 100万トークン

GPT-Realtime-Translate $0.034 / 分

GPT-Realtime-Whisper $0.017 / 分

セーフティ面では、コンテンツポリシー違反の会話をリアルタイムで検出・停止するアクティブ分類器を内蔵。Agents SDKを使った追加ガードレールの実装も可能だ。EUデータレジデンシーにも対応しており、欧州拠点のアプリケーションでも企業プライバシー基準を満たせる。なお、利用ポリシー上、開発者はユーザーに対してAIと対話していることを通知する義務がある(文脈上明らかな場合を除く)。

実務への影響

日本のエンジニア・IT管理者にとっての意味を整理しよう。

コールセンター・カスタマーサポート領域: GPT-Realtime-2とGPT-Realtime-Translateを組み合わせると、多言語対応の音声AIエージェントが現実的なコストで構築できる。インバウンド対応が多い観光・EC・グローバルサポート業界は特に検討価値が高い。

会議・議事録ツール: GPT-Realtime-WhisperはAPIとして提供されるため、既存システムへの組み込みが容易。Microsoft TeamsやZoom連携アドオンの形で活用できる場面も多いはずだ。

音声AIエージェントの設計: 128Kのコンテキストウィンドウは、エージェントが長期セッションをリフレッシュなしに保持できることを意味する。自律ループを前提としたエージェント設計が、音声UIでも現実的になってきた。

コスト管理の注意点: GPT-Realtime-2の音声出力が$64/100万トークンと高めなため、大量処理を前提とするシステムではキャッシュ活用($0.40/100万トークン)の設計が必須。WhisperやTranslateはタイムベース課金なのでコスト予測が立てやすく、まずこちらからPoC開始するのが現実的だ。

筆者の見解

AIが「聴きながら話す」時代が、いよいよAPIレベルで実用段階に入ってきた。

今回のリリースで特に注目しているのは、GPT-Realtime-2が「推論」と「音声」を統合した点だ。従来の音声AIは「聞いて返す」という単純な往復通信だったが、ここに推論ループが組み込まれることで、エージェントが自律的に判断・ツール実行・確認を繰り返すハーネスループの設計が音声UIでも可能になる。単発の指示→応答ではなく、会話しながら自律的に動く——この変化は見た目以上に大きい。

翻訳モデルのGPT-Realtime-Translateも、国際カンファレンスや多言語サポートの場面で実用性が高そうだ。70言語入力対応かつリアルタイムというスペックは、既存の商用翻訳サービスと十分に競合できる水準に見える。

一方でコストの現実も直視する必要がある。GPT-Realtime-2の音声出力が$64/100万トークンというのは、テキストモデルと比べると依然として高い。量産システムに組み込む際には、キャッシュ設計とWhisperとの使い分けを丁寧に設計しないと、想定外の請求が来るリスクがある。

日本のIT現場での普及を考えると、まずはGPT-Realtime-WhisperとTranslateから試すのが現実的だろう。文字起こし・翻訳は明確なROIが計算しやすく、既存ワークフローへの組み込みもイメージしやすい。GPT-Realtime-2の推論機能は、設計と実験に時間をかけた分だけ真価が出る。ハーネスループを前提とした音声エージェントを作りたい開発者には、今がプロトタイピングを始めるタイミングだと思う。


出典: この記事は OpenAI Releases Three New Realtime Voice Models for the API With GPT-5-Class Reasoning の内容をもとに、筆者の見解を加えて独自に執筆したものです。