OpenAI、リアルタイム音声APIに3モデル追加——GPT-5クラス推論・70言語同時通訳・低遅延書き起こしが揃う

OpenAIが2026年6月、リアルタイム音声API向けに3つの新モデルを発表した。GPT-5クラスの推論能力を持つ「GPT-Realtime-2」、70言語以上から13言語へのリアルタイム同時通訳を実現する「GPT-Realtime-Translate」、低遅延に特化した書き起こしモデル「GPT-Realtime-Whisper」の3本立てで、Deutsche TelekomがすでにGPT-Realtime-Translateを欧州多言語カスタマーサポートに本番導入している。

3モデルの特徴と位置づけ

GPT-Realtime-2：推論能力を音声に持ち込む

最上位に位置するモデルで、従来のリアルタイム音声モデルにGPT-5クラスの推論能力を統合した。単純な音声認識・応答の高速化にとどまらず、複雑な問い合わせへの論理的な応答や、文脈を長く保持した会話セッションへの対応が強化されている。コールセンターのエスカレーション対応や技術サポートなど、従来の音声AIでは対処できなかった高度なユーザー対応シナリオでの活用が見込まれる。

GPT-Realtime-Translate：リアルタイム同時通訳

リアルタイム同時通訳に特化したモデル。70言語以上の音声入力を受け付け、13言語にリアルタイムで翻訳・出力する。Deutsche Telekomは欧州のカスタマーサポート部門にこのモデルを本番導入済みで、多言語対応スタッフの配置コストを抑えながら顧客対応品質の維持を図っている。

GPT-Realtime-Whisper：低遅延書き起こし

Whisperの強みである多言語対応・高精度を維持しながら、リアルタイムAPIのレイテンシ要件に最適化した書き起こし専用モデル。ライブ字幕の生成、会議の議事録自動化、音声コマンドインターフェースといったユースケースで真価を発揮する。

なぜこれが重要か

音声AIの実用化における長年のボトルネックは「遅延と精度のトレードオフ」だった。今回OpenAIが採った回答はモデルの専用化だ。遅延を優先するならGPT-Realtime-Whisper、推論精度を優先するならGPT-Realtime-2、多言語通訳ならGPT-Realtime-Translate——用途別に最適なモデルを選択できる構成になった。

日本市場で特にインパクトが大きいのは多言語サポートの自動化だ。インバウンド観光客への対応、グローバル企業の多言語会議サポート、海外顧客向けヘルプデスクなど、これまで人的リソースに依存してきた領域での自動化が現実的な選択肢になる。

実務での活用ポイント

カスタマーサポートの多言語化 Deutsche Telekomの事例が示すように、GPT-Realtime-Translateは多言語対応コールセンターの構成を変える可能性を持つ。日本国内でも訪日外国人対応や海外顧客サポートを担う企業は、まずAPIベースの試験導入から検討するのが現実的な入口だろう。

会議・議事録の自動字幕化 GPT-Realtime-WhisperはTeamsやZoomと組み合わせることで、リアルタイム字幕や会議議事録の自動生成に活用できる。既存の書き起こしツールと比較した際の遅延改善幅を実際に計測することが導入判断の鍵になる。

音声エージェントの構築 GPT-Realtime-2は、複雑なフローを持つ音声エージェント（予約受付、技術サポートボット、社内FAQ対応など）のバックエンドとして適している。RealtimeAPIはWebSocket接続を使ったリアルタイム双方向通信モデルを採用しており、実装コストを含めた評価が必要だ。

筆者の見解

音声インターフェースは「次の入力デバイス」として長らく語られてきたが、遅延と精度の壁から実用化は限定的だった。今回のモデル専用化というアプローチは、その壁に対する技術的に筋のよい回答だと思う。

Deutsche Telekomという大手通信企業が本番導入済みというのは、デモや実証実験の段階ではない。実際のカスタマーサポート現場で動いているという事実は、技術の成熟度を示すシグナルとして重く受け止めるべきだ。

日本でのキャッチアップは英語圏より遅れる傾向があるが、まず手を付けやすいのは議事録・字幕系のユースケースだろう。Whisperベースである点から日本語対応の精度には期待できる。情報を追い続けるよりも、自社の具体的なユースケースで実際に触ってみることの方が、今この時点では価値につながる。

API提供であることの意味も見落とせない。既製のSaaSとして受け取るのではなく、自社サービスやワークフローに組み込める点が最大の特徴だ。RealtimeAPIのWebSocketプロトコルや料金モデルを把握しておくことが、今エンジニアとしてやっておくべき準備になる。

出典: この記事は Advancing voice intelligence with new models in the API の内容をもとに、筆者の見解を加えて独自に執筆したものです。

3モデルの特徴と位置づけ#

GPT-Realtime-2：推論能力を音声に持ち込む#

GPT-Realtime-Translate：リアルタイム同時通訳#

GPT-Realtime-Whisper：低遅延書き起こし#

なぜこれが重要か#

実務での活用ポイント#

筆者の見解#