テキストで映像を検索——トランスクリプト不要の新アプローチ
GoogleのGemini Embedding 2が持つ「動画のネイティブ埋め込み」機能を活用した映像検索CLIツール「SentrySearch」が、Hacker Newsで大きな注目を集めている(414ポイント、102コメント)。
従来の動画検索では、音声をテキスト化(トランスクリプション)したり、フレームをキャプション付きで解析したりといった中間処理が必要だった。SentrySearchはその工程を完全に省略する。Gemini Embedding 2は生の動画ピクセルをテキストと同じ768次元のベクトル空間に直接投影できるため、「緑の車が割り込んできた」というテキストクエリをそのまま30秒の動画クリップと意味的に比較できる。
仕組みと使い方
SentrySearchはMP4動画を重複ありのチャンク(デフォルト30秒)に分割し、各チャンクをGemini APIで動画ベクトルとしてエンコード。ベクトルはローカルのChromaDB(ベクトルデータベース)に保存される。検索時にはテキストクエリも同じベクトル空間に変換され、類似度の高いチャンクを特定。マッチしたシーンをffmpegで自動トリミングしてクリップとして保存する。
インデックス化のコストは映像1時間あたり約2.5ドル(約380円)。静止フレーム検出機能により、動きのない映像チャンクをスキップするため、防犯カメラやテスラのセントリーモード映像のような長時間・低変化な映像は大幅にコストを抑えられる。
元記事: Show HN: Gemini can now natively embed video, so I built sub-second video search