Google DeepMind、Gemma 4にQAT適用——スマホで1GB以下で動くオンデバイスAIが現実に

Google DeepMindのOlivier Lacombe（プロダクト管理ディレクター）とOmar Sanseviero（テクニカルスタッフ）が2026年6月5日、Gemma 4シリーズに量子化認識トレーニング（QAT）を適用した新しいチェックポイントをGoogle公式ブログで発表した。モバイルデバイスやコンシューマー向けGPUでの動作を想定した圧縮最適化で、最小モデルのメモリフットプリントを1GB以下にまで削減するというものだ。

なぜこの発表が注目か

オンデバイスAIの普及を阻む最大の壁は「メモリ要件」だ。大規模言語モデルをそのままスマートフォンで動かすには数十GBのRAMが必要で、現実的ではない。量子化（Quantization）はその解決策として広く使われてきたが、精度の劣化が避けられない問題だった。

QAT（Quantization-Aware Training）は、量子化を訓練プロセスに組み込むことで、圧縮後の品質劣化を最小化する手法だ。従来の「訓練後量子化（PTQ）」と比べ、モデルが量子化の影響を訓練中から学習するため、精度を保ちながら大幅なメモリ削減を実現できる。同ブログでは「QATの結果は標準PTQベースラインと比べて全体的に高い品質を達成した」と説明されている。

海外レビューのポイント

Google DeepMindの公式ブログによると、今回のリリースは2種類のフォーマットに対応している。

Q4_0フォーマット（コンシューマーGPU向け）

既存の量子化パイプラインと互換性があり、コンシューマーGPUでの利用を想定。全モデル（E2B、E4B、26B MoE）にQATを適用済みだ。

モバイル専用量子化スキーマ（エッジデバイス向け）

Googleが独自設計したモバイル最適化の核心は4つの技術にある。

静的アクティベーション — 通常はリアルタイムで計算するスケーリング処理を訓練中に事前計算。モバイルチップの処理負荷を軽減し、応答速度を向上させる
チャネルワイズ量子化 — データ構造をモバイルアクセラレーターの設計に合わせて最適化。低速な回避処理なしでネイティブ計算が可能
ターゲット2ビット量子化 — トークン生成部分を2ビットまで重点圧縮しつつ、コアの推論レイヤーは高精度を維持。ストレージを節約しながら「モデルの賢さ」を損なわない設計
埋め込みおよびKVキャッシュ最適化 — ボキャブラリーリストと短期メモリの圧縮に注力し、長い会話でもメモリ不足にならないよう設計

メモリ要件の目安

同ブログが公開した概算データによると、Gemma 4 E2Bのテキストのみモデル（Per-Layer Embeddingsなし）は1GB未満のVRAMで動作する。音声・ビジョンエンコーダーは不要なユースケースでは省略可能で、さらにフットプリントを削減できるという。

Hacker Newsのコメント欄でも開発者コミュニティから注目を集めており（387ポイント、120コメント）、実際に動かした報告が続々と上がっている。

日本市場での注目点

入手方法とコスト

QATチェックポイントはHugging Face経由で公開されており、日本からも無償でダウンロード可能だ。llama.cppやOllamaといった既存のローカルLLMツールと組み合わせて利用でき、特別なハードウェアや有料サービスは不要。

実用的な活用シーン

ハイエンドスマートフォンでのオフラインAI処理（機内・通信圏外での利用）
低スペックのノートPCやエッジデバイスへの組み込み
プライバシー重視のユースケース（医療、法務など、クラウドに送れないデータの処理）

競合比較

同じオンデバイスAI分野では、MicrosoftのPhi-4シリーズ（Phi Silica）、AppleのOn-Device ML、MetaのLlama 3.2なども競合する。Googleの差別化点は、標準的なQ4_0フォーマットとの互換性を保ちながら、モバイル専用最適化を加えたハイブリッドアプローチにある。

筆者の見解

Gemma 4 QATの技術的アプローチは評価できる。「圧縮するなら最初からそれを前提に訓練せよ」というQATの設計思想は理にかなっており、モバイル専用の量子化スキーマを独自設計したことも一貫性のある判断だ。

ただ、個人的に少し慎重に見ている部分もある。「スペック上の数字」と「実際の使い勝手」が乖離するケースはこれまでも珍しくなかった。1GB以下で動くという数字は魅力的だが、推論品質がどこまで保たれているかは、開発者コミュニティでの実証が積み重なってから判断したい。

それでも、オンデバイスAIの選択肢が広がること自体の意義は大きい。 クラウドAPIだけに依存する構成は、コスト・レイテンシ・プライバシーの三重苦を抱える。エッジで動く軽量モデルの選択肢が増えることは、システム設計の自由度を高める。

日本のエンジニアに薦めるアクションは「すぐに本番移行する」ではなく「手元の端末でまず動かしてみる」だ。Ollama経由であれば試すコストはほぼゼロ。実際に動かして、自分のユースケースで使える品質かどうかを確かめておくことが、今後の設計判断に直結する。「情報を追うより実際に使って成果を出す」——それが今この技術と向き合う正しい姿勢だと思う。

出典: この記事は Gemma 4 QAT models: Optimizing compression for mobile and laptop efficiency の内容をもとに、筆者の見解を加えて独自に執筆したものです。

なぜこの発表が注目か#

海外レビューのポイント#

Q4_0フォーマット（コンシューマーGPU向け）#

モバイル専用量子化スキーマ（エッジデバイス向け）#

メモリ要件の目安#

日本市場での注目点#

筆者の見解#