Google「Gemma 4」が最大3倍高速化——投機的デコード技術でローカルAIの速度ボトルネックを突破

GoogleがオープンモデルシリーズGemma 4向けに、Multi-Token Prediction（MTP）ドラフターを追加した。Ars Technicaが2026年5月6日に報じたところによると、推論品質を損なわずに最大3倍の速度向上を実現するという実験的機能で、ローカルLLM界隈で注目を集めている。

なぜ注目か——「遊んでいるリソース」を活用する投機的デコード

LLMの推論は従来、自己回帰（autoregressive）と呼ばれる仕組みで動作している。前のトークンを参照しながら1トークンずつ順番に生成していく方式だ。エンタープライズ向けの高帯域幅メモリ（HBM）を搭載したサーバーでは高速だが、一般的なコンシューマーGPUではVRAMからパラメータをコンピュートユニットへ転送する待ち時間がボトルネックとなり、計算リソースが遊んでしまう。

MTPドラフターはこの「遊び時間」を活用する。投機的デコード（Speculative Decoding）という手法を用い、軽量なドラフトモデルが次のトークン群を「先読み予測」している間に、メインモデルが並列でその予測を検証する。予測が正しければまとめて一括採用できるため、実質的なスループットが大幅に向上する。

今回のドラフターはGemma 4 E2B向けでわずか7,400万パラメータという軽量設計。以下の最適化も施されている：

KVキャッシュの共有：メインモデルがすでに計算したコンテキストを再利用し、重複計算を排除
スパースデコード：確率の高いトークン群に絞り込むことでドラフト生成をさらに高速化

Ars Technicaのレビューポイント

Ars TechnicaのRyan Whitwam記者によると、NVIDIA RTX PRO 6000でGemma 4 26Bを動作させた実験では、標準推論と比較してMTPドラフター使用時は約2倍のトークン/秒を記録したという。公式発表の「最大3倍」は使用ハードウェアによって変動するとしながらも、品質面での劣化は見られなかったと評価している。

良い点：

品質をゼロロスで速度向上。ドラフトはあくまで「予測補助」であり、最終出力はメインモデルが検証するため精度が保たれる
Apache 2.0ライセンスへの変更。以前のGemmaは独自ライセンスだったが、今回から商用利用・改変・再配布が大幅に自由化された

気になる点：

速度向上幅がハードウェア依存。エンタープライズ向けGPUほど恩恵が大きく、コンシューマー環境では3倍に届かないケースもある
現時点では「実験的（experimental）」リリースの位置づけ

日本市場での注目点

Gemma 4はHugging Face経由でGoogle公式リポジトリから無償で入手可能。MTPドラフターも同様に公開済みで、今すぐ試せる状態にある。

Apache 2.0ライセンスへの変更は、日本の企業・開発者にとって特に重要だ。これまでGemmaの独自ライセンス条項がビジネス利用のハードルになっていたが、今後は商用サービスへの組み込みも検討しやすくなる。

動作環境としては、最大モデルにはNVIDIA RTX 4090クラス以上が実用的。量子化（quantization）を活用すれば、より低スペックのGPUでも動作させることができる。

筆者の見解

技術的な観点から見ると、MTPドラフターのアプローチは非常に筋がいい。「待ち時間を無駄にせず先読みで埋める」という発想は、単純だが効果的だ。しかもドラフトは必ず検証されるため、品質を犠牲にせずに速度だけを稼げる。Ars Technicaのレビューが示した「2倍向上・品質劣化なし」という結果は、この設計の正しさを裏付けている。

それ以上に注目したいのがApache 2.0ライセンスへの切り替えだ。モデル性能よりも長期的なエコシステム形成という観点で、これは大きな意味を持つ。ライセンスの制約が薄れれば、産業用機器・オンプレ環境・医療など「外部送信NG」な領域でのローカルAI活用が一気に広がりやすくなる。

もう一点加えると、ローカルLLMの速度問題はAIエージェントを自律的にループ実行させる際のボトルネックになりやすい。エージェントが複数サブタスクを繰り返す際、1トークンごとの待ち時間は積み重なって無視できないレイテンシになる。MTPのようなアプローチが成熟していけば、クラウドに依存しないローカルでの自律エージェント実行が現実的な選択肢になっていく。「最大3倍高速化」は単なる数字の話ではなく、ローカルAIの使いどころを根本から変える可能性がある。

Googleがこの路線をどこまで本腰で進めるか——オープンモデルへの継続投資とGemini（クラウド課金）とのバランスが今後の鍵だ。

出典: この記事は Google’s Gemma 4 AI models get 3x speed boost by predicting future tokens の内容をもとに、筆者の見解を加えて独自に執筆したものです。

なぜ注目か——「遊んでいるリソース」を活用する投機的デコード#

Ars Technicaのレビューポイント#

日本市場での注目点#

筆者の見解#

なぜ注目か——「遊んでいるリソース」を活用する投機的デコード

Ars Technicaのレビューポイント

日本市場での注目点

筆者の見解