米テクノロジーメディアTom’s GuideのElton Jones氏が2026年5月19日に報じたところによると、Googleは音声・テキスト・画像・動画など多様な入力に対応した新しいマルチモーダルAI動画生成モデル「Gemini Omni Flash」を発表した。Googleがすでに展開しているAI画像生成サービス「Nano Banana」に続く、映像生成領域への本格参入として注目を集めている。
Gemini Omni Flashとは何か
Gemini Omni Flashは、音声・テキスト・画像・既存動画のいずれからでも動画を生成・編集できるマルチモーダルAIモデルだ。主な機能は以下の通り。
- マルチモーダル入力対応: 声で描写するだけでなく、キャラクター画像や手描きのスケッチを参照画像として渡し、スタイルや動きを指定できる
- 物理法則の内部モデル: 重力・運動エネルギー・流体力学の知識を組み込んでおり、より自然でリアルなシーン生成を実現
- 会話型逐次編集: 生成した動画に対して「このキャラクターを変えて」「背景を夜に」といった音声指示を重ねて編集できる
- アバター機能: 自分の声で話すデジタルアバターを生成し、ナレーション動画の作成に活用できる
Googleは本モデルをGeminiアプリ、Google Flow、そしてYouTube Shortsへ順次展開していく方針を示している。
Tom’s Guideが注目した評価ポイント
Tom’s GuideのElton Jones氏は本モデルを「これまで見てきたAI動画生成ツールの中でも最もパワフルなものの一つ」と表現している。
特に評価されている点:
- 音声による直感的な操作体験。キーボード操作やタイムラインの手動編集を必要とせず、会話だけで複雑な編集が完結する
- キャラクターや動物の追加・削除、視覚スタイルの変更、特定シーンの置き換えなど、編集の自由度が高い
- Geminiの言語・画像理解を活かした「解説動画」の自動生成にも対応
留意すべき点:
- 今回の記事はGoogleの発表情報をベースにした内容であり、独立した実機レビューはまだ実施されていない。実際の出力品質については続報を待つ必要がある
日本市場での注目点
日本向けの正式提供スケジュールは現時点で未公表だが、Geminiアプリ経由での提供であれば、他地域と大きく時差なく展開されることが見込まれる。価格帯については未発表だが、Gemini Advancedプランへの組み込み、あるいは段階的な上位プラン展開が予想される。
日本のYouTuberやショート動画クリエイターにとって特に注目すべきはYouTube Shortsとの連携だ。スマートフォンで撮影した動画をそのままGeminiに渡し、日本語の音声指示だけで編集が完結するようになれば、ショート動画制作のフローは大きく変わる可能性がある。
競合として挙げられるのはOpenAIのSora、RunwayやLuma Labsの各ツールだが、すでにYouTubeというプラットフォームを持つGoogleは配布チャネルの面で圧倒的な強みを持つ。「ツール単体の性能」ではなく「エコシステム全体の最適化」という観点で見ると、他社とは土俵が異なる。
筆者の見解
Googleの画像・映像生成における技術力はもともと業界最高水準にある。Gemini Omni Flashが謳う「物理法則の理解に基づくリアルなシーン生成」は技術的に非常に筋のいいアプローチだ。映像の物理的整合性は既存モデルの弱点でもあるため、そこを正面から取り組んでいる点は評価できる。
一方で、今回は発表内容が先行しており、実際の出力品質については独立した評価がまだない。動画生成AIの品質は実際に使い込んでみなければわからない部分が大きく、Tom’s Guideの記事もGoogleの発表ベースの紹介にとどまっている点は念頭に置くべきだろう。
戦略として合理的なのはYouTube Shortsとの統合だ。世界最大の動画プラットフォームにAI動画生成を直接組み込むのは、Googleが持つ数少ない「他社にはできない」構造的優位のひとつ。AIツールはいかに優秀でも、使われなければ意味がない。配布経路の強さはそれ自体が強力な差別化要因になる。
音声で動画を操作するインターフェースは、AIが人間の認知負荷を削減するという方向性として正しい。あとは実際のリリース品質と日本語対応の精度がどこまで伴うか——続報に注目したい。
出典: この記事は Gemini Omni Flash can create and edit videos with your voice and it feels like the future of multimodal AI の内容をもとに、筆者の見解を加えて独自に執筆したものです。