Inception Labsは2025年5月、拡散(ディフュージョン)型アーキテクチャを採用した推論LLM「Mercury 2」をリリースした。NVIDIA Blackwell GPU上で毎秒1,009トークンという生成速度を達成しており、既存の速度最適化モデルと比較して5倍以上の高速化を実現している。OpenAI API互換のため、既存のAIスタックをそのまま流用して組み込める点も特徴だ。

従来のLLMが抱える「逐次デコードの壁」

現在主流のLLMはすべて「自己回帰(オートレグレッシブ)型」だ。トークンを左から右へ1つずつ生成するため、どれだけハードウェアを強化しても処理の本質的な順次性は変わらない。

Mercury 2はこの制約を根本から覆す。画像生成AI(Stable Diffusionなど)で実績を持つ「拡散プロセス」をテキスト生成に応用し、複数トークンを同時に並列生成・段階的に精緻化するアプローチを採用した。「タイプライターが1文字ずつ打つのではなく、編集者が草稿全体を一気に推敲する」とInception Labsは説明している。

スペックと価格

項目 値

生成速度 1,009 tokens/sec(NVIDIA Blackwell)

入力価格 $0.25 / 1M tokens

出力価格 $0.75 / 1M tokens

コンテキスト長 128K tokens

主な機能 ネイティブツール使用・スキーマ対応JSON出力・調整可能な推論

APIはOpenAI互換のため、base_urlapi_keyを変更するだけで既存システムに組み込める。

なぜエージェントにとって「速さ」が本質的なのか

単一のプロンプト→応答サイクルであれば、数百ミリ秒の遅延は許容範囲だ。しかしAIエージェントが自律的にループを回す場合、推論呼び出しは10回・50回・100回と積み重なる。遅延は「加算」ではなく「乗算」で効いてくる。

1ステップあたり2秒かかるエージェントが50ステップの処理をこなせば100秒。Mercury 2の速度でこれが20秒以下になれば、同じ時間内により多くの推論ステップを踏めるし、ユーザーが「待つ」体験が消える。コーディング支援ツールZedや音声インターフェースWispr Flowがすでに採用しているのも、この「体感のリアルタイム性」を評価しているからだ。

実務での活用ポイント

既存スタックへの組み込みは容易: OpenAI API互換のため、エンドポイントとAPIキーを差し替えるだけで試せる。まずPoCでコスト・速度・品質を自社ユースケースで実測することを勧めたい。

コーディング支援との相性: オートコンプリートや次の編集提案など、開発者がループ内にいるワークフローでは、わずかな遅延がフロー体験を壊す。低遅延モデルの候補として検討に値する。

エージェントフレームワークとの組み合わせ: LangChainやLlamaIndex、あるいはゼロから構築したエージェントループにも容易に組み込める。ステップ数が多いタスク(大量ドキュメント処理、マルチステップ推論)での効果測定が特に有望だ。

筆者の見解

拡散型LLMのアプローチは以前から理論的な可能性として注目していたが、Mercury 2で実用水準に達した印象を受ける。

個人的に最も興味深いのは、エージェントのループ設計が「速さの制約」から解放されていく可能性だ。これまでは推論コストとレイテンシのトレードオフにより、「ステップ数を削る」「並列化で逃げる」といった設計上の妥協を余儀なくされることがあった。推論品質を保ちながらリアルタイムに近い応答を得られる選択肢が増えることは、エージェント設計の自由度を広げる。

価格帯(出力$0.75/1M tokens)も現実的だ。高頻度ループでコストを意識するユースケースでは、速さと価格の両立が効いてくる場面があるだろう。

ただし「最速=最善」ではない。品質・価格・速度のバランスはユースケースによって大きく異なる。速さが必須な場面と、むしろ思考の深さが必要な場面を分けて評価するのが正しいアプローチだ。アーキテクチャの革新よりも、自分の手元のタスクで実測した数値を信じてほしい。


出典: この記事は Inception Launches Mercury 2, the Fastest Reasoning LLM — 5x Faster Than Leading Speed-Optimized LLMs の内容をもとに、筆者の見解を加えて独自に執筆したものです。