Googleが最大4倍速のLLM「DiffusionGemma」を無償公開——拡散モデルをテキスト生成に応用した新アーキテクチャの実力

Googleは2026年6月10日、新しいマルチモーダルLLM「DiffusionGemma」を発表した。PC Watchが報じたところによると、「テキスト拡散（text diffusion）」と呼ばれる独自アーキテクチャを採用し、従来の逐次処理型LLMと比較して最大4倍の速度でトークン生成を実現するという。Apache 2.0ライセンスでHugging Faceに公開されており、モデルウェイトを無償でダウンロード・利用できる。なお、現時点では実験段階との位置づけだ。

なぜこの技術が注目されるのか

一般的なLLMは、トークンを1つずつ順番に生成していく「自己回帰型」の仕組みを採っている。DiffusionGemmaはこれとは根本的に異なるアプローチを取る。AI画像生成の世界で確立された「拡散モデル（Diffusion Model）」の考え方をテキスト生成に応用し、ランダムな「プレースホルダートークン」でテキストブロックを埋めておき、それを反復的に精緻化することで最終的な出力を得る手法だ。

この並列生成により、GPUやTPUの演算資源を効率的に活用できる。自己回帰型では前のトークンが確定しないと次を計算できないが、拡散型はブロック単位で並列処理できるため、ハードウェアの待ち時間を大幅に削減できるという設計だ。

スペックと実測速度

DiffusionGemmaのモデルスペックは以下の通り：

総パラメータ数: 260億（26B）
アクティブパラメータ数: 40億（4B）
アーキテクチャ: エキスパート混合モデル（MoE）
対応入力: テキスト・画像・動画（マルチモーダル）
出力: テキスト

海外レビューのポイント

PC Watchの報道によると、実測での生成速度は NVIDIA H100 で1,000トークン/秒以上、GeForce RTX 5090 で700トークン/秒以上 を達成するという。従来の逐次生成型との比較で最大4倍という数値は、ローカル実行環境でも体感レベルで大きく異なるパフォーマンスだ。

一方で、Googleは公式に「速度を優先した設計のため、全体的な出力品質はGemma 4より低い」と明言している。DiffusionGemmaが想定するユースケースとして挙げられているのは次の通りだ：

インライン編集: リアルタイムに文章を補完・修正するワークフロー
高速なイテレーション: 素早くドラフトを何度も出し直す用途
インタラクティブなローカルワークフロー: ローカル環境で対話的に使う場面

品質よりも速度・応答性を優先する用途に特化したモデルというのが現時点での正確な評価だ。

日本市場での注目点

Hugging FaceでApache 2.0ライセンスにて公開されており、商用利用も含め無償で使用できる。特定のクラウドAPIに縛られず、自前の環境で動かせる点が大きな特徴だ。

ただし、H100で1,000トークン/秒という実測値を出すにはそれ相応のGPU環境が必要になる。RTX 5090はコンシューマー向けとはいえ現状は高価であり、個人での手軽な導入にはハードルがある。企業・研究機関での検証から始まる利用が現実的な入り口となるだろう。

日本国内でもクラウドAPIのコスト削減やデータのオンプレミス保持の観点からローカルLLMへの注目が高まっており、DiffusionGemmaのような高速モデルの選択肢が増えることは、その流れを後押しする動きとして注目に値する。

筆者の見解

テキスト拡散というアーキテクチャの登場は、LLM開発における「次の軸」として率直に面白いと思う。自己回帰型一辺倒だったテキスト生成に並列処理という新しいアプローチが加わったことで、用途によってアーキテクチャを使い分ける時代が来るかもしれない。

特に注目したいのが、AIエージェントの自律ループとの相性だ。エージェントが計画→実行→検証を繰り返す「ハーネスループ」においては、1回の応答の品質よりも高速に多くの試行回数を稼げることが重要になるケースがある。DiffusionGemmaが想定する「高速なイテレーション」という用途は、まさにこの方向と一致する。スピードを武器にエージェントが自律的にループを回せるなら、品質の低さはある程度カバーできるシナリオも考えられる。

一方、現時点でGemma 4を下回る出力品質は素直に受け止めるべきだ。「実験段階」という位置づけも相まって、今すぐ実務の主力として使える段階ではない。このアーキテクチャが品質面で成熟すれば——速度と品質のバランスが改善されれば——ローカル実行を前提としたエージェント用途での本格採用が見えてくる。Googleの画像生成で磨かれた拡散モデルの知見がテキスト側にどこまで転用されるか、今後の進化に注目したい。

なぜこの技術が注目されるのか#

スペックと実測速度#

海外レビューのポイント#

日本市場での注目点#

筆者の見解#

関連製品リンク#

なぜこの技術が注目されるのか

スペックと実測速度

海外レビューのポイント

日本市場での注目点

筆者の見解

関連製品リンク