Vertex AIがGemini 3.1 Flash-LiteとVeo 3.1 Liteを公開——コスト効率重視の新モデル群とRAGエンジン大幅強化で企業AI活用は次のステージへ

Google CloudがVertex AIプラットフォームに大量のアップデートを投入してきた。言語モデル・動画生成・RAGエンジン・音声生成と、複数の領域を同時に進化させる今回のリリース群は、単なる機能追加にとどまらず、企業がAIを「使ってみる」段階から「本番で回し続ける」段階へ移行するための布石として読み解くべきだ。

Gemini 3.1 Flash-Lite：「安く・速く・大量に」を企業向けに

今回の目玉のひとつがGemini 3.1 Flash-Liteのパブリックプレビュー開始だ。位置づけは「低レイテンシ・高ボリューム向け」。つまり、推論精度よりも処理速度とコストを優先したい用途——ログ分析、大量ドキュメントのサマリー生成、リアルタイムチャットボット——に最適化されたモデルだ。

エンタープライズAI導入において、「使いたいが費用対効果が合わない」という声は根強い。GPT-4クラスの高性能モデルをすべてのリクエストに投入すると、従量課金のコストは想定外に膨らむ。ここにFlash-Liteのような「軽量・安価・高速」な選択肢が加わることで、モデルの使い分け戦略——高精度が必要な場面には上位モデル、大量処理はLiteモデル——が現実的に設計できるようになる。

Veo 3.1 Lite：動画生成をコスト現実的に

Veo 3.1 Liteは「Vertex AI上で最もコスト効率の高い動画生成モデル」と位置づけられている。動画生成は計算コストが非常に高く、これまで大規模活用は限られた用途にしか現実的でなかった。Liteモデルの投入は、プロトタイプ製作・マーケティング素材の量産・e-learningコンテンツ生成など、品質よりも量とコストを重視する用途での本格活用を後押しする。

Google Cloudは画像・動画生成の分野において技術的な強みを持つ。その強みをエンタープライズ顧客が実際に使える価格帯で提供しようとする姿勢は、評価に値する方向性だ。

RAG Engine のサーバーレス化：インフラ管理の呪縛からの解放

地味だが実務インパクトが大きいのがVertex AI RAG Engine のサーバーレスモードのパブリックプレビューだ。

これまでのRAG（Retrieval-Augmented Generation）構築では、データベースのプロビジョニングとスケーリング管理が常に課題だった。Spannerモードでは専用インスタンスが必要で、運用コストとインフラ管理の負荷がつきまとう。サーバーレスモードでは、この部分が完全マネージドになり、開発者はRAGのロジックとプロンプト設計に集中できる。

さらにRAGクロスコーパス検索（Cross Corpus Retrieval）も同時にパブリックプレビュー入りした。複数のRAGコーパスを横断して同時に検索・回答生成できるこの機能は、社内ナレッジベースが複数のシステムに分散している大企業での活用シナリオを一気に広げる。

既存ユーザーへの重要警告：Imagen旧エンドポイントの廃止期限

新機能の陰に隠れがちだが、既存ユーザーが必ず確認すべき変更がある。Imagen生成GAエンドポイントの廃止だ。

imagegeneration@002 から imagen-4.0-ultra-generate-001 まで、旧世代の画像生成エンドポイント群が2026年6月30日をもって廃止される。移行先は gemini-2.5-flash-image に一本化される。Vertex AIを使って画像生成APIを呼んでいるシステムがあれば、今すぐ移行計画を立てる必要がある。6月末まで約2ヶ月しかない。見落とすとサービス停止につながる。

実務への影響

エンジニア・開発者向け

Flash-LiteはAPIの呼び出しコストを大幅に削減できる可能性がある。既存ワークロードのモデルをLiteに切り替えてベンチマークを取ることを推奨する
RAG Engine サーバーレスモードは「RAGを試したいが、Spanner管理に工数を割きたくない」チームに即効性がある。プロトタイプの立ち上げ速度が格段に上がる
クロスコーパス検索は複数のSharePoint/Confluence/社内DBを横断検索するシステムへの応用が現実的になった
Imagen旧エンドポイントの移行を今すぐスケジュールに入れること。6月30日期限を絶対に忘れるな

IT管理者・アーキテクト向け

モデルの階層化（高精度 vs コスト重視）はコスト管理の観点から設計必須の視点になった
サーバーレスRAGはインフラ管理工数の削減と、小規模チームでのAI活用加速の両方に効く
Anthropicの Claude Opus 4.7もModel Gardenで利用可能になっており、マルチモデル戦略を検討している場合は選択肢が広がっている

筆者の見解

GoogleのVertex AIへのこのアップデート群を見て感じるのは、「コスト現実主義」へのシフトだ。高性能なモデルを作ること自体はAI各社どこも当然やっている。しかし企業が実際に大規模展開するとき、ネックになるのは性能ではなくコストとオペレーション負荷だ。Flash-LiteやVeo Liteの投入、RAGエンジンのサーバーレス化はすべてこの方向に向いている。

ただ、正直に言えば「発表」と「実際に使える品質」の間にはまだ確認が必要だ。パブリックプレビューはあくまで試験段階。言語モデルの実務品質については、実際にワークロードを流してみなければわからない。特に日本語での精度や、複雑なビジネス文書への対応力は、英語圏と同等には期待しすぎないほうがいい。

AIプラットフォームの競争が本格化している今、Google Cloudが「使いやすさとコスト」の軸を強化してきたのは戦略として理に適っている。Vertex AIを既に使っている組織は、今回のアップデートで設計を見直す価値が十分にある。まだ様子見をしている組織は、RAGのサーバーレス化というエントリーポイントから試し始めるのがもっとも低リスクだろう。

動画生成については、Googleの技術力は本物だ。Veo 3.1 Liteが品質的に実用水準に達しているなら、マーケティングや研修コンテンツへの応用が加速する可能性がある。こちらはプレビュー期間中に積極的に試してみる価値がある。

出典: この記事は Google ships Gemini 3.1 Flash-Lite and Veo 3.1 Lite on Vertex AI in public preview の内容をもとに、筆者の見解を加えて独自に執筆したものです。

Gemini 3.1 Flash-Lite：「安く・速く・大量に」を企業向けに#

Veo 3.1 Lite：動画生成をコスト現実的に#

RAG Engine のサーバーレス化：インフラ管理の呪縛からの解放#

既存ユーザーへの重要警告：Imagen旧エンドポイントの廃止期限#

実務への影響#

筆者の見解#