TwelveLabsは動画を理解・検索・推論できるAIを手がける米国のスタートアップだ。同社は今回、シリーズBラウンドで1億ドルを調達したと発表した。ラウンドはVC大手のNEAと韓国NAVERの投資部門NAVER Venturesが共同でリードし、Amazonも出資に加わった。調達資金は、動画埋め込みモデル「Marengo」と動画言語モデル「Pegasus」を中核とする「Video Cognition System」の拡張に充てられる。あわせて、AWSのカスタムAIチップ「Trainium」を用いた複数年契約も締結しており、大規模な映像処理基盤の整備にも本腰を入れる。

「動画を計算可能にする」という賭け

この5年間、大規模言語モデルは「言葉」をトークン化することで、文書やチャット、コードといったテキスト情報を扱えるデータへと変えてきた。TwelveLabsが賭けているのは、その次の対象が「映像」だという発想だ。

現実の出来事は言葉になる前に、まず形・動き・音・時間的な連なりとして存在する。「ガラスが割れた」という一文の裏には、手が動き、物が落ち、衝突音が響き、周囲が反応するまでの数秒間が存在する。因果関係はその連なりの中にしかない。TwelveLabsは、この「言葉になる前の情報」を直接扱うAIを作ろうとしている。

同社の技術は3つの層で構成される。まず知覚層。動画埋め込みモデルMarengoが、映像・音声・話し言葉・画面内テキストといった信号を一つの検索可能な表現に変換する。次に記憶層。動画は取り込まれた時点で一度理解され、秒単位でアドレス指定できる恒久的なデータとして保持される。アーカイブは「受動的な保存場所」から「機械が読めるメモリ」に変わる。そして推論層。動画言語モデルPegasusが、複数の映像・時系列にまたがる質問に対して、根拠となる映像に基づいた回答を導き出す。

同社はこの知覚・記憶・推論のループを「Video Cognition System」と呼び、その延長線上に「Video Superintelligence」という将来像を掲げている。

実務への影響

日本のIT現場でも、映像データの量はすでに人手で見返せる範囲を超えている。製造業の外観検査映像、防犯・監視カメラの録画、コールセンターの通話録画、放送・メディア業界の膨大なアーカイブなど、「撮ってはいるが活用しきれていない」映像資産は多い。

TwelveLabsのようなアプローチが実用レベルに達すれば、工場ラインの異常兆候を事故発生前の映像パターンから横断的に検索したり、何千時間分もの監視カメラ映像から特定の行動だけを自然言語で抽出したり、放送素材のアーカイブから特定シーンを横断再利用したりといった用途が現実味を帯びる。これまで「人が目で見て探すしかなかった」領域に、テキスト検索と同じ感覚のクエリが使えるようになるインパクトは小さくない。

AWS Trainiumとの複数年提携も見逃せないポイントだ。大規模な動画エンベディング処理は計算コストが非常に高く、専用チップによるコスト最適化は実運用の可否を左右する。AWSを利用している日本企業にとっては、将来的にBedrock等のマネージドサービス経由で類似の機能が提供される可能性もあり、動向を注視する価値がある。

筆者の見解

テキストを扱う大規模言語モデルはこの数年で急速に実務で使えるものになったが、映像はまだその手前の段階にある。TwelveLabsが指摘する通り、事故の予兆や人の意図、現場のニュアンスといった情報の多くは、キャプションに要約された時点で削ぎ落とされてしまう。

AIエージェントが人間の確認を待たずに自律的にタスクをこなす方向へ進化していく以上、次に必要になるのは「テキストだけでなく、物理世界の記録を理解し判断材料にできる知覚能力」だろう。動画理解が基盤モデルとして成熟すれば、防犯・製造・放送といった現場のデータが、初めて本当の意味で「検索・活用できる資産」に変わるはずだ。

日本のIT業界にとっても他人事ではない。監視カメラや検査映像のように「撮ってはいるが使えていない」映像データを抱える企業は非常に多い。情報を追いかけるより先に、自社の映像資産が将来どう検索・活用され得るかを実際に手を動かして試しておく方が、今は正しい行動だと思う。


出典: この記事は TwelveLabs Raises $100M to Build Video Superintelligence の内容をもとに、筆者の見解を加えて独自に執筆したものです。