GoogleがGoogle I/O 2026で発表した新AIモデルファミリー「Gemini Omni」が、AI動画生成・編集プラットフォーム「Flow」にOmni Flashとして提供開始された。テキスト・画像・動画のいずれを入力しても任意の形式に変換できる「anything-to-anything(何でも変換)」モデルを標榜する野心的なリリースだが、実際の使い勝手は「期待と現実の間」を揺れ動く段階だ。
Gemini Omniとは何か
Gemini OmniはGoogleの新しいモデルファミリーで、最終的にはテキスト・写真・動画など、入力も出力も形式を問わない汎用変換AIを目指している。現時点でリリースされたOmni Flashは動画生成に特化しており、Flowプラットフォームから利用できる。従来モデルのVeoも引き続き使用可能だが、Omni Flashは以下の点でVeoを超えることを謳っている。
- 動画+テキストの複合入力対応: 既存の動画ファイルをアップロードし、テキストプロンプトと組み合わせてAI動画の起点にできる
- 実世界知識の強化: より豊富な実世界の知識を生成に組み込み、動画内キャラクターの一貫性を高めた
- テキスト編集指示の改善: 生成後の動画にテキストで修正指示を出せる機能が実用的になった
実際に使ってみると——検証結果の正直なところ
The Vergeのレビュアーが、ぬいぐるみの鹿「Buddy」を題材にOmni Flashを徹底テストした結果は「良くも悪くも驚かされる」というものだ。
改善が見えた点: 5か月前にVeoを検証したときと比べ、キャラクターの一貫性とプロンプトへの忠実度は明確に向上した。「ハチミツを日焼け止めと間違えて塗ってしまう」といった小ネタを自律的に演出するなど、コンテキストを理解した映像表現が見られた。
依然として残る課題: 一方で「AIジャンプスケア」と呼ぶべき不自然な変化も頻発する。スカイダイビング中にキャラクターが突然向きを変える、動画内でオブジェクトの形状・色が次々と変わる、テキスト修正指示で「角を消した」と思ったら次のシーンで復活する——こうした挙動は、完成品としての品質には程遠い。
実務への影響
動画コンテンツを扱うクリエイター・マーケター・エンジニアにとって、Gemini Omniの進化は注目に値する。現時点での現実的な活用シーンは以下の通りだ。
今すぐ試せるユースケース:
- マーケティング用プロトタイプ・絵コンテの映像化
- 社内向けビジュアル素材や勉強会スライドの補完素材
- 既存映像を元にしたバリエーション展開・アイデア出し
商用利用にはまだ慎重さが必要な場面:
- ブランドガイドラインに沿ったキャラクター表現が求められるケース
- 細部の一貫性が重要なプロダクト紹介動画
- 高品質な仕上がりが必要な対外公開コンテンツ
FlowのUIは比較的わかりやすく、テキストだけで動画制作を始められる。「まずAI動画生成を体験したい」という入門段階なら十分に試す価値がある。一方で、本番品質を求めるプロジェクトへの投入はもう少し様子を見るのが賢明だ。
筆者の見解
Googleが「anything-to-anything」を標榜するモデルファミリーを立ち上げたことは、技術的方向性として非常に興味深い。入力も出力も形式を問わないという構想が実現すれば、コンテンツ制作のワークフローを根底から変える可能性を持つ。
ただ、今回の検証レポートを読んで筆者が感じるのは、「面白い技術」と「実務で安心して使える技術」の間にある距離感だ。動画内でオブジェクトが変形し、修正指示をかけると別の問題が生まれる——この手の品質ムラは、企業のコンテンツ制作現場への採用を慎重にさせる。
Googleは映像・画像生成の分野に確かな強みを持つ企業だ。その強みが実務レベルで安定してきたとき、クリエイティブ系の現場に本当の変化が訪れるだろう。Omni Flashはその道のりの途中にある一里塚として捉えるべきで、現段階では「積極的に触れておく」と「本番投入は待つ」を使い分けるのが、日本のIT現場での正しい立ち位置だと思う。
出典: この記事は Google’s new anything-to-anything AI model is wild の内容をもとに、筆者の見解を加えて独自に執筆したものです。