Googleの研究開発部門Google DeepMindは、画像・音声・動画・テキストなど任意の入力を組み合わせて動画を生成できる新しいAIモデル「Gemini Omni」を発表した。第一弾モデル「Gemini Omni Flash」は、Geminiアプリ、動画生成ツール「Google Flow」、YouTube Shortsへの提供がすでに始まっている。

自然言語だけで動画を編集できる

Gemini Omniの最大の特徴は、動画編集を「会話」で完結できる点にある。「彫刻をシャボン玉でできているようにして」「鏡に触れたら鏡面が液体のように波打ち、腕が鏡素材に変化するようにして」といった自然言語の指示を積み重ねるだけで、動画を段階的に変化させられる。しかも指示を重ねるたびに登場人物の見た目や物理法則の一貫性が保たれ、直前までのシーンの文脈も記憶され続ける。ヴァイオリニストの演奏動画を別の環境に転送し、続けてヴァイオリンを透明にし、さらにカメラアングルを肩越しに変える——といった多段階の編集を、動画を撮り直すことなく実現できる点は従来の動画生成AIにはなかった体験だ。

Geminiの知識に裏打ちされた「もっともらしさ」

Gemini Omniは単に絵作りが上手いだけではない。重力・運動エネルギー・流体力学といった物理法則の理解を組み込み、ビー玉が連鎖するピタゴラ装置のような複雑な動きも破綻なく描写できるという。さらにGeminiが持つ歴史・科学・文化的文脈の知識を動画生成に反映できるため、アルファベット26文字それぞれに珍しいモノ(Cはカピバラ、Dはミラーボールなど)を対応させ、手書き風のテロップまで一貫して生成するといった、単なるパターンマッチングを超えた表現も可能になっている。

生成動画には電子透かしSynthIDを付与

生成されたすべての動画にはGoogle独自の電子透かし技術「SynthID」が埋め込まれる。AI生成コンテンツと実写を判別する仕組みを標準搭載した点は、生成AIによるコンテンツの真正性・著作権を巡る議論が世界的に高まる中で重要な設計判断と言える。GoogleはOmniを、昨年発表した画像生成・編集モデル「Nano Banana」の延長線上に位置づけており、今後は画像・音声も出力モダリティとして順次対応させる計画だ。

実務への影響

日本の企業でも、広告クリエイティブやSNS向け動画の試作、YouTube Shorts向けコンテンツの量産といった用途でGemini Omniの活用余地は大きい。特に「対話で編集を積み重ねられる」という体験は、動画編集の専門知識がないマーケティング担当者でも扱える敷居の低さにつながる。一方でIT管理者の視点では、生成AI動画の利用ガイドラインを社内でどう整備するかが課題になる。禁止するのではなく、SynthIDによる透かし確認を含めた「安全に使うためのルール」を用意し、公式に使える環境を提供する方が、結局は現場に浸透しやすい。

筆者の見解

Googleの画像・動画生成領域の実力は、率直に評価すべきだと思う。Nano Banana以来、この会社のクリエイティブ生成系AIは着実に強い。ただしこれは、筆者が普段主戦場にしているエージェント型のコーディング支援とは別の土俵の話だ。次々と発表される生成AIのニュースをすべて追いかけるより、自分の業務に直結する領域で実際に手を動かして成果を出す方が、今の時代は正しい行動だと考えている。動画生成が本業に関わるクリエイターやマーケターであれば触ってみる価値は大いにあるが、そうでない読者は「Googleはこの分野に強いんだな」くらいの温度感で受け止めておけば十分だろう。むしろ注目すべきはSynthIDのような透かし標準化の動きで、著作権・真正性の議論が本格化する中、生成AI各社がどこまでこうした仕組みを当たり前にしていくかを筆者は注視していきたい。


出典: この記事は Introducing Gemini Omni の内容をもとに、筆者の見解を加えて独自に執筆したものです。