MetaのSAM Audio：テキスト・映像クリックで任意の音を切り出すマルチモーダル音声分離モデル登場

MetaがSAM Audioを発表した。画像の任意オブジェクトをクリック一つで切り抜く「Segment Anything Model（SAM）」のコンセプトを音声領域に応用した統合型マルチモーダルモデルで、テキスト・視覚・タイムスタンプなど複数の方法で特定の音を複雑な音声混合から分離できる。

SAMの発想を音声に持ち込む

2023年にMetaが発表したSAMは、画像や動画内の任意のオブジェクトをクリック一つで切り抜けるというシンプルさで、コンピュータービジョン分野に大きなインパクトを与えた。「Segment Anything」というコンセプトは汎用性を端的に表しており、SAM 2、SAM 3Dと進化を続けてきた。

SAM Audioはそのコンセプトをそのまま音声領域に持ち込んだものだ。これまでの音声分離ツールは「ボーカルだけを抽出する」「環境音を除去する」のように特定用途向けに設計されたものが多く、ユーザーは目的ごとに異なるツールを使い分ける必要があった。SAM Audioはそれを一つのモデルで統合しようとしている。

3種類のプロンプトで音を操る

SAM Audioの最大の特徴は、音の指定方法が複数あることだ：

テキストプロンプト：「犬の鳴き声を除去して」「バイオリンの音だけ残して」のように自然言語で指定
視覚プロンプト：動画内の楽器や人物をクリックして指定（映像と音声を紐付ける）
スパンプロンプト：タイムラインの特定区間を指定して一括処理

特に視覚プロンプトは実用性が高い。バンドの演奏動画でギターをクリックするだけでそのギターの音のみを抽出できる、という操作感は動画制作現場での編集フローを大幅に変える可能性がある。スパンプロンプトも「ポッドキャスト全編を通して犬の鳴き声を除去」といった一括処理に対応しており、長尺コンテンツへの実用を意識した設計になっている。

技術の核心：Perception Encoder Audiovisual（PE-AV）

SAM Audioの技術基盤はPerception Encoder Audiovisual（PE-AV）だ。Metaが今年公開したオープンソースのPerception Encoderモデルを音声・視覚の両方に対応させたもので、SAMの「脳」に対してPE-AVは「耳」の役割を果たす。

PE-AV単体もオープンソースとして公開されており、研究者や開発者がより高度な音声・映像処理システムを構築するための基盤として活用できる設計になっている。

あわせて公開されたSAM Audio-Benchは「実世界の音声分離ベンチマーク」として初の試みとされており、SAM Audio Judgeはモデルの出力を自動評価する初の専用ジャッジモデルだ。モデル本体だけでなく評価基盤まで整備したことは、この分野の研究底上げに寄与する。

現時点ではSegment Anything Playgroundから無料で試すことができ、自分の音声・動画ファイルをアップロードして実際の性能を確認できる状態にある。

実務への影響

音声分離技術が実用的な形で普及すれば、影響が大きい分野がいくつかある。

動画制作・配信：YouTuberやポッドキャスターが自分でノイズ除去・音源分離できるようになる。現在は専用DAWソフトや有料プラグインが必要なケースも多いが、テキスト指示だけで済む操作性が実現すれば敷居は大きく下がる。

オンライン会議・議事録：会議録音から特定の発言者だけを抽出したり、背景雑音を後処理で除去したりといった用途への応用が考えられる。音声認識の精度向上にも間接的に寄与する。

アクセシビリティ：聴覚補助や字幕生成の精度向上、音声教材のノイズ除去など、福祉・教育領域での活用可能性もある。

なお、PE-AVがオープンソースで公開されていることは重要だ。これにより音声処理系のSaaSやアプリ開発者がこの技術を自社プロダクトに組み込む道が開かれる。

筆者の見解

SAMが画像分野でやったことを音声に応用するというアイデア自体は筋がいい。「クリックで切り抜く」という直感的なUIが普及したことで、音声領域でも同じ体験が求められていたのは確かだ。テキストプロンプトと視覚プロンプトを組み合わせられる設計も、実際のユーザーの作業フローを想定したものになっている。

ただし、研究発表とプロダクトの実用化の間には往々にして距離がある。SAM Audio-BenchやSAM Audio Judgeのような評価基盤を整備したことは研究コミュニティへの貢献として評価できるが、日常的に使えるプロダクトとして定着するかどうかは別の話だ。

音声処理の実務ニーズはすでに存在する。プロ向け音声編集ツールやAI音声除去機能を持つ動画編集ソフトはすでに市場に出ており、競合は少なくない。SAM Audioが「誰でも自然言語で音を操れる」という体験を本当に実現できるなら意味がある。まずはPlaygroundで実際に触れて「デモ映えする技術なのか、本当に使えるのか」を自分で確かめることをお勧めする。技術の評価は発表資料よりも実機に勝るものはない。

出典: この記事は Introducing SAM Audio: The First Unified Multimodal Model for Audio Separation の内容をもとに、筆者の見解を加えて独自に執筆したものです。

SAMの発想を音声に持ち込む#

3種類のプロンプトで音を操る#

技術の核心：Perception Encoder Audiovisual（PE-AV）#

実務への影響#

筆者の見解#

SAMの発想を音声に持ち込む

3種類のプロンプトで音を操る

技術の核心：Perception Encoder Audiovisual（PE-AV）

実務への影響

筆者の見解