MetaがMuse Sparkを発表——ベンチマーク操作の過去を抱えたままAIレースに再挑戦

Metaが新たなAIモデル「Muse Spark」を発表した。同社が昨年設立した「Meta Superintelligence Labs」から生まれた最初のモデルで、OpenAIやGoogle、Anthropicと競合できる性能を主張している。しかし、その発表には手放しで喜べない事情がある。

Muse Sparkとは何か

Muse Sparkはいくつかの点で、これまでのMetaのAIモデルと一線を画す。

初のリーズニングモデル: これまでMetaのモデルは学習データをもとに即時回答を生成する設計だったが、Muse Sparkはステップバイステップで思考を進めるリーズニング型だ。複数のサブエージェントを並列で動かす「コンテンプレーティング（熟考）モード」も備え、Meta曰く「フロンティアモデルの極限推論モードと競合できる」とのこと。

マルチモーダル対応: テキストと画像の入出力に対応し、外部ツールの利用やサブエージェントのオーケストレーションもサポートする。

「小型・高速」設計: 大規模化の前の検証用モデルという位置づけで、「小型で高速、かつ科学・数学・健康領域の複雑な問いを解ける」と説明されている。

公開されたベンチマーク結果では、PhD水準の推論を測るGPQA Diamondで89.5%を記録。競合各社の92〜94%台には届かないものの、医療ベンチマーク「HealthBench Hard」では42.8%でトップを記録している。全方位で最強ではないが、特定領域で強みを発揮する実力はあると見ていいだろう。

「オープンでない」という誤算

MetaのこれまでのAIモデルといえば、Llamaシリーズに代表されるオープンウェイト公開が最大の差別化ポイントだった。誰でも無料でダウンロードし、自由にファインチューニングできる——その開放性が開発者コミュニティから支持を集め、「Meta = オープンAI」のイメージを定着させてきた。

ところがMuse Sparkは、少なくとも現時点では社内向けのプロプライエタリモデルだ。Meta AIアプリやmeta.aiに搭載され、WhatsApp・Instagram・Facebook・Ray-Banスマートグラスへのロールアウトもアナウンスされているが、一般開発者がAPIで触れるのは「選ばれたパートナー向けプライベートプレビュー」に限られる。

Metaは「将来のバージョンはオープンソース化する予定」と述べているが、確約ではない。有料APIを出している競合他社よりもさらに閉じた状態からのスタートは、これまでの「オープン路線」を信頼してきた開発者には戸惑いを与えるだろう。

ベンチマーク操作の前科をどう見るか

今回の発表で最も慎重に受け止めなければならないのが、信頼性の問題だ。

2025年4月にリリースされたLlama 4では、MetaはベンチマークにリリースされていないSpecialized版を使い、スコアを意図的に引き上げていたことを後に認めた。一般公開されたモデルの実力はベンチマーク値を大きく下回っており、業界から強い批判を浴びた。

Muse Sparkのベンチマークがその教訓を踏まえた誠実なものかどうかは、現時点では外部の独立評価を待つしかない。発表元が過去に同種の問題を起こしている以上、この点を棚上げにして評価はできない。

実務への影響

現時点でMuse SparkはMetaのプロダクトエコシステム外では使えないため、日本のエンジニアやIT管理者が直接的に評価・採用するシナリオは限られる。ただ、以下の点は注目に値する。

WhatsApp・Instagramへのロールアウト: 日本での利用者規模は他国より小さいが、グローバルビジネスの文脈でMetaプロダクトを利用している企業には間接的な影響がある
ヘルスケア領域でのベンチマーク: HealthBench Hardでのトップスコアは、医療・ウェルネス関連の用途を検討している企業にとっては注目材料。ただし独立検証は必須
オープンウェイト公開のスケジュール: MetaのLlamaシリーズを自社サービスに組み込んでいる企業は、Muse Sparkの後継がいつオープンになるかを継続的にウォッチする価値がある
AIインフラ投資額の開示: MetaはAIインフラへの2026年投資額を前年比約2倍の1,150〜1,350億ドルと発表した。この規模の投資は中長期的にモデル品質を底上げする可能性がある

筆者の見解

MetaのAI戦略を見ていると、強みと弱みが同じところから来ていると感じる。

強みは、WhatsApp・Instagram・Facebookという世界有数のユーザーベースだ。どれだけ優れたモデルを作っても配布チャネルがなければ意味がない、という現実において、Metaほどの「インフラ」を持つプレイヤーは多くない。Muse Sparkが医療分野で強みを持つなら、WhatsAppの医療情報チャネルに組み込まれた瞬間に世界規模で影響力を持つ。

しかし弱みもそこにある。「配布力」と「技術的信頼」は別物だ。Llama 4のベンチマーク問題は一時的なスキャンダルではなく、開発プロセスそのものへの疑問を生んだ。今回もMuse Sparkのスコアが公正に測定されたものかを検証する外部機関の評価を待たなければ、数字を額面通りには受け取れない。

もう一点気になるのが、オープン路線からの後退だ。Llamaシリーズが開発者コミュニティに支持された最大の理由は、「タダで使えて自由に弄れる」という開放性にあった。その信頼をもとに積み上げてきたエコシステムを、今後のモデルでどう扱うのかは不透明なままだ。

AIエージェントの文脈で言えば、Muse Sparkが持つ「サブエージェントを並列で動かす思考モード」は方向性として正しい。確認を求め続けるだけのアシスタント型ではなく、自律的にタスクを遂行する構造への進化は、業界全体が向かっているフロンティアだ。Metaもその潮流に乗ろうとしている点は素直に評価したい。

ただ、技術的なポテンシャルと市場での信頼は別の話だ。投資規模は本物でも、それだけで信頼を取り戻せるほどAI市場は甘くない。Muse Sparkが「次こそ本物」と証明できるかどうかは、独立した第三者評価と、宣言通りのオープンソース化によってのみ示せる。

今後しばらくは、ベンチマークの数字よりも「実際のユーザー体験はどうか」という現場の声の方がよほど信頼できる指標になるだろう。

出典: この記事は Meta Unveils Muse Spark: First Model from Meta Superintelligence Labs の内容をもとに、筆者の見解を加えて独自に執筆したものです。

Muse Sparkとは何か#

「オープンでない」という誤算#

ベンチマーク操作の前科をどう見るか#

実務への影響#

筆者の見解#

Muse Sparkとは何か

「オープンでない」という誤算

ベンチマーク操作の前科をどう見るか

実務への影響

筆者の見解