Googleが「Gemini 3.1 Flash Live」を公開——会話速度で動くAIエージェント構築が可能に

Googleは2026年3月26日、新しい音声特化モデル「Gemini 3.1 Flash Live」をGemini Live API経由でGoogle AI Studioにて提供開始した。開発者は本日より、低遅延かつリアルタイムで動作する音声・視覚エージェントをプレビュー版として試すことができる。

遅延・信頼性・対話品質の大幅改善

リアルタイム会話においてはミリ秒単位の遅延が自然なやり取りを損なう。Gemini 3.1 Flash Liveはこの課題に正面から取り組み、以下の点で前世代モデル「2.5 Flash Native Audio」を大きく上回る性能を実現している。

ノイズ環境での動作精度向上 交通騒音やテレビ音声など現実の環境音から関連する発話を正確に識別し、外部ツールの呼び出しや情報提供をより確実に実行できるようになった。

複雑な指示への追従精度向上 システムプロンプトで設定した動作ガイドラインを、会話が予想外の展開をたどっても維持できるよう強化されている。エージェント開発において安定した挙動が求められる場面で威力を発揮する。

より自然で低遅延な対話 ピッチやペースといった音響的なニュアンスの認識精度が向上し、応答のタイミングもより自然になった。ユーザーが「AIと話している」という違和感を感じにくい会話体験を実現する。

90以上の言語をサポート リアルタイムのマルチモーダル会話において90超の言語に対応。日本語を含む多言語エージェントの開発も視野に入る。

実用事例——すでに開発者が活用

Gemini Flash Liveモデルを採用した実用アプリケーションもすでに登場している。

  • Stitch: ユーザーが声でデザインを指示できる「ビジュアルデザイン会話」機能を実装。AIがキャンバスや選択中の画面を「見ながら」フィードバックやバリエーション生成を行う。
  • Ato: 高齢者向けAIコンパニオンデバイス。多言語対応を活かし、日常会話を通じてユーザーとのつながりを生み出す。
  • Wit’s End(RPG): テーブルトップRPGのゲームマスターをAIが担当。Gemini 3.1 Flash Liveの豊かなキャラクター表現と人間らしい発話で没入感を高めている。

本番環境を見据えた設計

Live APIはプロダクション環境での利用を前提に設計されており、ライブ映像ストリームやオンデマンド音声通話など多様な入力形式に対応する。WebRTCのスケーリングやグローバルエッジルーティングが必要なシステムに向けては、パートナー企業との統合ソリューションも提供予定だ。

日本の開発者にとっても、90言語対応のリアルタイム音声AIは、カスタマーサポートボット・教育アプリ・シニア向けサービスなど幅広い応用が期待できる。Google AI StudioおよびGoogle GenAI SDKからすぐに試すことができる。


元記事: Build real-time conversational agents with Gemini 3.1 Flash Live