ローカルLLMの世界が静かに、しかし確実に変わりつつある。Google が2026年4月に公開した Gemma 4 は、混合エキスパート(MoE)アーキテクチャを採用した新世代のオープンウェイトモデルだ。そして LM Studio 0.4.0 が導入したヘッドレスCLI(lms)との組み合わせにより、クラウドAPIに頼らない本格的なローカル推論環境が、ふつうの開発者のMacBookで成立するようになった。

Gemma 4 ファミリーの構成

Gemma 4 は単一モデルではなく、用途別に設計された4モデルのファミリーとして提供されている。

モデル 特徴

E2B / E4B Per-Layer Embeddingsでオンデバイス最適化。音声入力(認識・翻訳)対応

26B-A4B(MoE) 本稿の主役。総パラメータ26B、前向き計算時の活性化は3.8B相当

31B(Dense) 最高精度。MMLU Pro 85.2% / AIME 2026 89.2%。全パラメータを毎回使用

注目すべきは 26B-A4B のベンチマーク結果だ。MMLU Pro 82.6%、AIME 2026 88.3% と、Dense版の31Bにほぼ肉薄しながら、メモリ消費とトークン生成速度は大幅に優れる。

MoEアーキテクチャが「ローカル推論の壁」を崩す

Mixture of Experts(混合エキスパート)の仕組みを簡単に説明しよう。

Denseモデルは推論のたびに全パラメータを使う。26Bのモデルなら毎回26Bぶん計算する。対してMoEは「128人のエキスパート専門家」を持ちつつ、トークンごとに「最適な8人だけを呼ぶ」設計になっている。Gemma 4 26B-A4Bでは、実際の計算量は約3.8B相当で済む。

経験則として、MoEの実効品質は √(総パラメータ × 活性パラメータ) で近似できると言われる。このモデルなら √(26B × 3.8B) ≈ 10B 相当の実力を持つ、ということだ。実際、記事著者の検証では M4 Pro(48GB統合メモリ)のMacBook Proで 51トークン/秒 を達成している。

Eloscoreと総パラメータ数の比較では、Qwen 3.5 397B-A17BやKimi-K2.5(1,000B超)と同等スコアを叩き出しながら、26B-A4Bはその数十分の一のフットプリントで収まる。「クラスターがないと動かない」レベルの性能を、個人のラップトップに落とし込む——これがMoEの本質的な価値だ。

LM Studio 0.4.0 の「headless化」が実用性を一変させた

LM Studioはもともとローカルモデルを手軽に動かせるデスクトップアプリとして知られていたが、0.4.0でアーキテクチャ自体が変わった。新たに llmster(コア推論エンジン)と lms(CLIツール)が導入され、GUIなしのヘッドレス運用が可能になった。


出典: この記事は Running Gemma 4 locally with LM Studio’s new headless CLI and Claude Code の内容をもとに、筆者の見解を加えて独自に執筆したものです。