GoogleがGoogle I/O 2026(2026年5月19日)にGemini 3.5 Flashを発表し、同日に正式リリース(GA)として提供を開始した。Gemini APIとGoogle AI Studio、Android Studio、Vertex AIなど複数のプラットフォームで即日利用可能となり、特筆すべきはFlashティアのモデルがProティアをコーディング・エージェント系ベンチマークで初めて上回ったという歴史的逆転だ。
FlashがProを超えた:ベンチマークの詳細
これまでAIモデルの世界では「Flashは速いが性能は劣る」「本番ユースケースにはProを」という常識があった。Gemini 3.5 Flashはこの常識を覆した。
主要なベンチマーク比較:
ベンチマーク Gemini 3.5 Flash Gemini 3.1 Pro
Terminal-Bench 2.1(コーディング) 76.2% 70.3%
MCP Atlas(ツール使用評価) 83.6% —
GDPval-AA(エージェント作業・Elo) 1656 —
Finance Agent v2 57.9% 43.0%
一方、純粋な抽象的推論(Humanity’s Last Exam: 40.2% vs 44.4%)や長文脈リコール(MRCR v2 128k: 77.3% vs 84.9%)ではGemini 3.1 Proに軍配が上がる。Googleは「知識集約型ユースケース向け」として来月リリース予定のGemini 3.5 Proを位置付けており、Flash/Proの役割分担が明確になりつつある。
技術仕様:1Mコンテキスト・マルチモーダル対応
Gemini 3.5 Flashの主要スペック:
- コンテキストウィンドウ: 入力最大1,048,576トークン(約100万)
- 最大出力: 65,536トークン
- 入力形式: テキスト・画像・音声・動画
- モデルID:
gemini-3.5-flash - 知識カットオフ: 2026年1月
デフォルトで「Dynamic Thinking」が有効化されており、関数呼び出し・構造化出力・検索ツール・コード実行などのツール使用機能を内蔵する。
Managed Agents:シングルAPI呼び出しで自律エージェント展開
今回の発表でもう一つ注目すべきは、Gemini APIのManaged Agentsがパブリックプレビューとして開始されたことだ。
Googleの「Antigravity」ハーネスと組み合わせることで、シングルAPIコールだけでリモートLinuxサンドボックス上に複数のサブエージェントを並列展開し、長時間にわたる多段階ワークフローを自律的に実行できる。コーディングエージェント・データ分析・ドキュメント処理など、人間の介在を最小化した自動化パイプラインの構築が現実的な選択肢になる。
価格競争力:GPT-5.5・Claude Opus 4.7比で大幅割安
モデル 入力(/1Mトークン) 出力(/1Mトークン)
Gemini 3.5 Flash $1.50 $9.00
GPT-5.5(OpenAI標準) $5.00 $15.00
Claude Opus 4.7 $5.00 $25.00
Gemini 3.1 Pro比でも入出力とも約40%安価でありながらコーディング・エージェント系でProを上回るという価格性能比は、コスト感応度の高いエンタープライズ案件では無視できない水準だ。
実務への影響:日本のエンジニア・IT管理者はどう動くか
AIエージェント開発コストの削減
Managed AgentsとAntigravityハーネスを使えば、これまで複数のAPIを組み合わせて手作りしていたマルチエージェントパイプラインを大幅に簡略化できる可能性がある。コーディング・データ処理・ドキュメント生成を組み合わせた業務自動化の文脈では、試す価値がある選択肢だ。
ベンチマークをそのまま信じない
Terminal-Bench 2.1やSWE-Bench Proのスコアは特定のタスクセットにおける性能を示すものに過ぎない。自社の実際のユースケース(特定のコードベース・言語・ドメイン)でのPoC検証を必ず行うこと。ベンチマーク上位が現場で最強とは限らない。
Vertex AI統合でGCP利用企業は即座に選択肢に
Google CloudのVertex AIからも利用可能なため、すでにGCPを使っている企業は既存インフラとの統合コストなしで試せる。特にBigQueryやCloud Storageと組み合わせたデータパイプラインの自動化に応用しやすい。
筆者の見解
Gemini 3.5 FlashがProモデルをコーディング・エージェント系ベンチマークで超えたのは、確かに見逃せない動きだ。「Flashはライトユース向け」という前提が崩れつつあり、モデルティアという概念そのものが揺らいでいることを示している。
特に注目したいのはManaged Agentsの設計思想だ。シングルAPIコールでサブエージェントを並列展開し、ループで自律的に動作する構造は、AIエージェントの本質的価値——人間の認知負荷を削減し、目的を伝えれば自律的にタスクを遂行する——に近づく方向性として評価できる。確認・承認を人間に求め続ける「副操縦士」設計ではなく、自律ループで動き続けるハーネス設計へのシフトは業界全体のトレンドであり、Googleがここに本腰を入れてきたことは注目に値する。
一方で、ベンチマークと実務性能の乖離には慎重でいたい。数字の上での競争力は認めつつも、自社ユースケースでの実地検証を経てから採用判断を下すのが賢明だ。「どのモデルが最強か」という問いより「このユースケースに最適なモデルはどれか」という問い方が、2026年のAI活用における正しい態度だと思う。
価格面での競争優位は本物だ。コスト重視のバッチ処理・大量ドキュメント処理・高速スケールアウトが求められるシナリオでは、Gemini 3.5 Flashは真剣に検討に値する。AIモデルの選択が「1つのモデルをあらゆる用途に」から「用途に応じて最適なモデルを」へと移行しつつある今、選択肢が増えること自体はエンジニアにとって歓迎すべきことだ。
出典: この記事は Google Releases Gemini 3.5 Flash: Frontier-Level Coding and Agentic Performance at 4x Speed の内容をもとに、筆者の見解を加えて独自に執筆したものです。