Inception、拡散アーキテクチャLLM「Mercury 2」公開——毎秒1,000トークン超でエージェントループの速度限界に挑む

Inceptionが、拡散（Diffusion）アーキテクチャを採用した大規模言語モデル「Mercury 2」を公開した。従来のオートレグレッシブ型LLMとは根本的に異なる生成メカニズムにより、毎秒1,000トークンを超える推論速度を実現。AIエージェントのリアルタイムループやリアルタイム音声処理など、本番ユースケースを直接照準に据えたモデルとして注目を集めている。

「拡散型LLM」とは何が違うのか

従来のGPT系モデルやClaudeに代表されるオートレグレッシブ（自己回帰型）LLMは、トークンを1つずつ順番に生成する。前のトークンが確定してから次を生成するため、出力速度は本質的にシーケンシャルな制約を受ける。

Mercury 2が採用する拡散アーキテクチャは、画像生成の分野でStable DiffusionやMidjourneyが用いてきた手法をテキスト生成に適用したものだ。ノイズから徐々に意味のある出力へと「洗練」させていくプロセスで、トークンを並列に生成できる。

結果として達成されたのが毎秒1,000トークン超という数値だ。現在の主流フロンティアモデルが概ね毎秒50〜200トークン前後であることを考えると、ケタ違いの速度優位性といえる。

2026年春、LLM戦国時代のなかでの位置づけ

Mercury 2の登場は、2026年春のLLM大競争時代と同期している。OpenAIのGPT-5.5、AnthropicのClaude Opus 4.7、GoogleのGemini 3.5 Flash、DeepSeekのV4 Pro、AlibabaのQwen 3.7 Maxが約30日間に集中リリースされるという異常な状況が続く中での登場だ。

この中でMercury 2が際立つのは、性能指標の軸自体が違う点にある。推論品質ベンチマーク（GPQA、SWE-Bench等）を主戦場とする他社と異なり、Mercury 2は「速さ」と「リアルタイム性」を第一義的な差別化軸として設計されている。

2026年のLLM評価軸として注目すべき変化がある：

1Mトークンコンテキストが標準化：GPT-5.5、Claude Opus 4.7、Gemini 3.5 Flash等がいずれも100万トークン以上に対応。コンテキスト長はもはや差別化要因ではなくなった
エージェント能力がベースライン化：ツール使用・計画・記憶・マルチステップ実行が全フロンティアモデルの前提機能になった
中国オープンウェイトが猛追：DeepSeek V4 ProとQwen 3.7 Maxがクローズドモデルと競合するベンチマークを達成しつつ、APIコストで75%削減を実現

Mercury 2はこのレースに「速度という第三の次元」で切り込む格好だ。

実務への影響：エージェントループ設計者に刺さる仕様

Mercury 2が狙うユースケースとして明示されているのがエージェントループとリアルタイム音声だ。この2つはまさに、現在のAIアプリケーション開発における最大のボトルネックが速度にある領域である。

エージェントループへの影響：自律AIエージェントがサブタスクを連続実行する際、各ステップのLLM推論がボトルネックになる。毎秒200トークンのモデルで1,000トークンの応答を待つと5秒かかるが、毎秒1,000トークンなら1秒に短縮される。1サイクルの差が大きいエージェント設計では、これはループ全体のスループットを大幅に改善する。

リアルタイム音声への影響：音声→テキスト→LLM→テキスト→音声のパイプラインで、LLM推論の遅延は直接「会話の間」として知覚される。毎秒1,000トークンは、自然な会話テンポに必要な遅延200ms以内を実現するための現実的な水準だ。

日本のエンジニアへの実践的ヒント：

現在CLIやAPIでストリーミング表示のもたつきを感じているエージェント基盤があるなら、Mercury 2のAPIが提供された際に差し替えを試す価値がある
ただし速度最優先の設計は推論品質とのトレードオフが生じる場合がある。コーディング支援や複雑な文書分析など推論深度が求められる用途では、速度特化モデルの限界を事前に検証すること
エージェントを設計する際は「速いモデル×複数ステップ」か「賢いモデル×少ステップ」かをユースケース別に設計分岐させることが今後の標準的なアプローチになる

筆者の見解

Mercury 2の意義は、LLMの評価軸そのものに「スループット」という次元を正式に追加した点だと思っている。

私がここ1年以上注目しているのが「ハーネスループ」——AIエージェントが自律的に判断・実行・検証を繰り返すループ構造だ。このループが実用的に成立するかどうかは、単発の応答品質だけでなく1ループあたりのレイテンシに大きく依存する。1ステップが遅ければループは重くなり、人間が「やっぱり自分でやった方が早い」と感じる閾値を超えてしまう。

その意味で、毎秒1,000トークンという数値は単なる性能自慢ではなく、エージェントの「使用感」を根本的に変えうる数字だ。

一方で冷静に見ると、拡散型LLMの推論品質がオートレグレッシブ型のフロンティアモデルに匹敵するかどうかはまだ未知数だ。速さと賢さのトレードオフがどこにあるかは、実際の本番ワークロードで検証しないとわからない。「速いから使う」だけで設計を決めず、用途別の使い分けを前提に評価することが重要だと思う。

2026年のLLM戦争は「誰が一番賢いか」から「誰が一番使えるか」へとゴールポストが動いている。Mercury 2はその変化の象徴的な一手であり、これ以降のエージェント設計では速度を設計変数に入れることが当たり前になっていくだろう。

出典: この記事は Inception releases Mercury 2: diffusion-based LLM exceeding 1,000 tokens/sec の内容をもとに、筆者の見解を加えて独自に執筆したものです。

「拡散型LLM」とは何が違うのか#

2026年春、LLM戦国時代のなかでの位置づけ#

実務への影響：エージェントループ設計者に刺さる仕様#

筆者の見解#

「拡散型LLM」とは何が違うのか

2026年春、LLM戦国時代のなかでの位置づけ

実務への影響：エージェントループ設計者に刺さる仕様

筆者の見解