Google DeepMind「Gemma 4」登場——ローカルで動く最小2Bから26B MoEまで、マルチモーダル対応の本気モデル群
Google DeepMindが2026年4月2日、オープンソースLLMシリーズの最新作「Gemma 4」を発表した。2B・4B・31B・26B-A4B(Mixture-of-Experts)の4モデルがApache 2.0ライセンスで公開され、いずれも画像・動画に対応したマルチモーダルモデルとして登場している。「パラメータ1バイトあたりの知能が史上最高」というGoogleの主張が本当なら、ローカルLLM界隈は一気に盛り上がる。 Gemma 4の技術的な特徴 「E2B」「E4B」——実効パラメータ数という新概念 小さい2モデルには「E2B」「E4B」という表記が使われている。「E」は「Effective(実効)」の意味で、Per-Layer Embeddings(PLE) という技術によるものだ。 通常のLLMはすべてのパラメータが推論計算に使われるが、PLEではデコーダー層ごとに小さな埋め込みテーブルを持たせ、推論時は「高速なルックアップ」で済ませる。テーブル自体は大きいが計算コストが極めて低い——だから「全パラメータ数」と「実効パラメータ数」が乖離する。オンデバイス展開向けのチューニングとして理にかなった設計だ。 マルチモーダルの広がり:画像・動画・音声すべて対応 全モデルが画像・動画をネイティブに処理でき、解像度も可変対応。OCRや図表理解が得意とされる。さらにE2BとE4BはネイティブAudio入力にも対応しており、音声認識・音声理解もモデル単体で扱える。 ただし現時点ではLM StudioやOllamaで音声入力を動かす方法は未確立で、ローカル実行での音声活用はまだ先になりそうだ。 LM Studioでの動作確認 Simon Willisonが実際にGGUF版で検証した結果: モデル ファイルサイズ 動作 E2B 4.41GB ○ 正常 E4B 6.33GB ○ 正常 26B-A4B 17.99GB ○ 正常 31B 19.89GB × ループ出力で破損 31BモデルはGGUFが壊れているようで、すべてのプロンプトに"---\n"を延々と返し続ける状態だった。大きいモデルほど初期リリースの品質ばらつきが出やすいのはローカルLLM界隈でよくある話だが、APIアクセスはAI Studioから可能になっているので、31Bを試したい場合はそちらが現実的だ。 実務への影響——ローカルLLM実用化の加速 Gemma 4が面白いのは「4.41GBのファイル1つで画像も動画も扱えるモデルが動く」という点だ。普通のPCのVRAMやメモリに収まる。 日本のエンジニアやIT管理者が明日から試せるポイントを整理する: 1. LM Studio経由でゼロコスト検証 E2B(4.41GB)・E4B(6.33GB)はLM StudioのGGUFで即動く。クラウドAPIへのアクセスなし、コストゼロで試せる。社内の機密ドキュメントOCRや図表解析の概念実証(PoC)に最適だ。 2. オフライン・エアギャップ環境への展開 Apache 2.0ライセンスかつローカル完結なので、金融・医療・製造業など外部通信が制限された環境でも使いやすい。従来はクラウドAPIなしでマルチモーダルを扱う手段が限られていたが、選択肢が広がった。 3. 26B-A4BのMoEアーキテクチャに注目 Mixture-of-Experts(MoE)は「推論時に全パラメータを使わず、担当の専門家サブネットワークだけを呼び出す」仕組みだ。26Bの規模感でありながら実効4Bレベルの計算コストで動く。コスト効率を重視する実務ユースケースにはこのモデルが主役になりそうだ。 筆者の見解 Googleの実務系AIには正直まだ様子見の姿勢だが、Gemma 4は注目に値する。「パラメータ効率」という研究方向は本物で、これはGoogleに限らず業界全体のホットテーマになっている。小さくても使えるモデルを作る競争は、ローカルLLMの実用化を直接加速させる。Gemma 4の登場は素直に歓迎したい。 気になるのは31BのGGUFがリリース直後に壊れていた点。「史上最高のパラメータ効率」を謳うリリースでモデルファイルが壊れているのはもったいない。とはいえコミュニティがすぐ修正するのもオープンソースの強みなので、致命的な問題ではない。こういう部分の品質を詰めていけば、GemmaシリーズはローカルLLMの有力な選択肢になるポテンシャルがある。 ローカルLLM派の人は今すぐLM Studioで26B-A4Bを試してほしい。17.99GBさえ積めるなら、ラップトップで動くマルチモーダルモデルとしてかなりおもしろい体験ができるはずだ。ガンガン使ってフィードバックを積み上げていくのが今の正しい動き方だと思っている。 出典: この記事は Gemma 4: Byte for byte, the most capable open models の内容をもとに、筆者の見解を加えて独自に執筆したものです。 ...