MetaがLlama 4シリーズの最初の2モデル、Llama 4 ScoutLlama 4 Maverickを正式に公開した。いずれもテキスト・画像・音声・動画をゼロから統合して扱う「ネイティブマルチモーダル」設計で、しかもオープンウェイトとして提供される。llama.comおよびHugging Faceからダウンロード可能になっており、WhatsApp・Messenger・Instagram DirectなどのMeta製アプリでも利用できる。

Llama 4の3モデル構成

Llama 4 Scout(17Bアクティブパラメータ、16エキスパート)

Int4量子化を行えば単体のNVIDIA H100 GPUで動作する軽量モデル。業界最長クラスの1000万トークン(10M tokens)コンテキストウィンドウを持ち、Gemma 3・Gemini 2.0 Flash-Lite・Mistral 3.1を複数のベンチマークで上回ると主張されている。

Llama 4 Maverick(17Bアクティブパラメータ、128エキスパート)

128のエキスパートを持つMoE(Mixture of Experts)アーキテクチャを採用。GPT-4oやGemini 2.0 Flashを複数のベンチマークで上回るとされ、コスト対性能比でも競争力を主張する。LMArenaでのELOスコアは1417。

Llama 4 Behemoth(2880億アクティブパラメータ、16エキスパート/未リリース)

前2モデルへの蒸留に使われた「教師モデル」。MATH-500やGPQA DiamondなどSTEMベンチマークで主要モデルを上回るとされているが、現時点ではまだ学習中であり一般公開はされていない。

ネイティブマルチモーダルが従来と何が違うか

従来のマルチモーダルモデルの多くは、テキスト基盤のLLMにビジョンモジュールを後付けする設計だった。Llama 4は最初からテキスト・画像・音声・動画すべてを同一アーキテクチャで処理するよう訓練されている。この「ネイティブ」設計の優位性は、モダリティ間の文脈理解が統一されている点にある。画像の内容を参照しながら音声で質問を受け付け、一貫した応答を返すといった処理が、継ぎ接ぎのない形で扱える。

実務への3つの影響

1. オンプレミス・プライベートクラウドでの展開可能性

ScoutがシングルH100で動くという点は実務的に重要だ。データを外部クラウドに送れない業種(医療・金融・製造業)でも、自前のGPUサーバー上にマルチモーダルAIを展開できる選択肢が生まれる。オープンウェイトであるため商用利用の検討もしやすい。

2. 長大コンテキストを要する業務フロー

1000万トークンのコンテキストウィンドウは、長大な契約書・技術仕様書・コードベース全体を一度に渡せる規模感だ。長文処理のワークフローを組む場合のベース候補として、実際に試してみる価値がある。

3. MoEアーキテクチャによるコスト設計

アクティブパラメータを17Bに抑えながらエキスパート数で機能を担保するMoE設計は、推論コストを抑えつつ総合的な性能を引き出す設計思想だ。クラウドAPIコストが課題になっているシステムでは、セルフホスト選択肢のコスト比較に組み込む意義がある。

筆者の見解

Llama 4の公開は、オープンウェイトAIの世界における技術的前進として客観的に評価できる。ネイティブマルチモーダル・MoE・超長コンテキストという設計を同時に実装してリリースしたことは、技術的チャレンジとして注目に値する一手だ。

ただし、ベンチマーク数値の解釈には慎重であるべきだと筆者は思っている。「〇〇を上回る」という主張は各社が互いに競い合って出している状況で、実業務での使い勝手はベンチマーク上の数字と必ずしも一致しない。発表文の威勢の良さに引きずられず、実際のユースケースで何ができて何ができないかを自分の手で確かめるのが正しいアプローチだ。

オープンウェイトという提供形態は、日本のIT現場にとってプライベートAI展開の選択肢を確実に広げてくれる。特に規制産業でのローカル実行ニーズは高く、技術的に追いかける価値のある選択肢が増えたことは素直に歓迎したい。情報を追いかけることよりも、実際に手を動かして自分の業務文脈で試すこと。それが今のAI時代で差をつける最短経路だと筆者は考えている。


出典: この記事は The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation の内容をもとに、筆者の見解を加えて独自に執筆したものです。