NVIDIAは2026年6月4日、Computex 2026に合わせて長時間稼働エージェント向けオープンモデル「Nemotron 3 Ultra 550B」をリリースした。Mixture-of-Experts(MoE)とMambaを組み合わせたハイブリッドアーキテクチャにより、同クラスのオープンモデルと比べて5倍の推論スループットを実現しつつ、エージェントタスクのトークン消費を最大30%削減している。

なぜ今「長時間エージェント向け」モデルが必要なのか

シングルターンのチャットボットは急速に過去のものになりつつある。現代のAIエージェントは、プランニング・ツール呼び出し・サブエージェントへの委譲・出力の検証・エラーからの回復を何十ターンにもわたって繰り返す。そのたびにコンテキストは膨らみ、トークンコストは積み上がり、そして「目標のブレ(goal drift)」のリスクが高まる。

NVIDIAが提示する解法は「モデルの分業体制」だ。複雑な推論とオーケストレーションには高精度なフロンティアモデルを、高頻度な実行・検証・ツール呼び出しには効率的なモデルを充てる。Nemotron 3 Ultraはその前者、すなわち長時間ワークフローの司令塔として設計されている。

Nemotron 3 Ultraの技術的な核心

MoEによるパラメータ効率

総パラメータ数は550Bだが、推論時にアクティブになるのは55B。Mixture-of-Experts(MoE)アーキテクチャが入力に応じて最適な「専門家モジュール」を選択するため、全パラメータを常に活性化するモデルと比べて計算コストを大幅に抑えられる。コンテキスト長は最大100万トークン(1Mトークン)を実現している。

ハイブリッドMamba-Transformer

従来のTransformerのみの設計に対し、NVIDIAはMambaレイヤーとTransformerレイヤーを組み合わせた。Mambaレイヤーは長いシーケンスを効率よく処理する特性を持ち、コンテキストが長くなるほど威力を発揮する。Transformerレイヤーは大きなコンテキストウィンドウ内の特定の事実を正確に引き出す精度を担保する。この組み合わせが長文処理の効率性と検索精度の両立を可能にした。

NVFP4精度とマルチGPU対応

NVFP4(4ビット浮動小数点)量子化を採用し、NVIDIA Hopper・Blackwell・Ampereの各GPU世代で同一チェックポイントを使用可能にした。Blackwell GPU上ではBF16比で最大5倍のスループット向上を実現する。

LatentMoEとエージェントハーネス向け後学習

エキスパートルーティングを効率化する「LatentMoE」により、推論・コード生成・ツール呼び出しをまたぐ複合ワークフローでも安定した処理が可能だ。また、シングルターン対話だけでなく、エージェントが多ターンにわたってループし続けるワークフロー向けに後学習(post-training)が施されており、NVIDIAのNeMo RLとGymライブラリで構築した大規模なエージェントタスクデータセットが使われている。

ベンチマーク:強みと正直な評価

エージェント生産性(PinchBench:91%)と長文脈処理(Ruler @1M:95%)では競合を上回る成績を示している。一方、コーディング系ベンチマーク(Terminal-Bench 2.0:54%)ではGLM 5.1(64%)やKimi K2.6(67%)に届いていない。これはパラメータ効率とコスト削減を優先したトレードオフの結果であり、コーディング専門タスクには別モデルとの組み合わせを検討する余地がある。

オープンソース面では、訓練レシピと2.5兆トークンのデータセットも公開済み。リリース当日から25以上のクラウドプロバイダーで利用可能となっており、即日評価を始められる。

日本のIT現場への実務的な影響

マルチエージェントコストの管理

社内システムにAIエージェントを組み込む企業が増えると、長時間稼働ループのAPIコストが無視できなくなる。Nemotron 3 Ultraのような「効率的なオーケストレーションモデル」を複数モデル体制の中で位置付け、「どのタスクをどのモデルに任せるか」のルーティング設計がコスト最適化の鍵になる。

1Mトークンコンテキストの活用

コードベース全体・大規模な仕様書・複数回にわたる会議の議事録を一度にコンテキストへ投入するユースケースが現実的になりつつある。社内ドキュメントQAや大規模リファクタリングの自動化への応用を検討できる段階だ。

NVIDIAインフラを保有する企業への恩恵

Blackwell GPUをオンプレミスで持つ企業やNVIDIA NIMを利用する環境であれば、NVFP4による5倍スループット向上が即座に恩恵をもたらす。クラウドAPIのみに依存しない選択肢として検討価値がある。

筆者の見解

今回のNemotron 3 Ultraが面白いのは、550Bというスペックよりも「エージェントハーネスを前提に設計された」という思想にある。プランニング・ツール呼び出し・検証・エラー回復を繰り返すループを主戦場として想定し、そのためにアーキテクチャから後学習まで一貫して設計したモデルがオープンウェイトで登場した。これは設計の本質を突いていると感じる。

訓練レシピとデータセットの同時公開も注目に値する。NVIDIAがGPUインフラ企業から「モデル開発エコシステムの整備者」としての役割を強化しようとしている姿勢が読み取れる。特定クラウドへの依存を避けたい企業にとって、選択肢の多様化は歓迎すべき動きだ。

実務的な観点から言えば、今の段階でシングルモデル・モノエージェント構成のシステムを設計しているなら、「フロントエンドの推論担当」と「高頻度実行の作業担当」を分離する設計への移行を視野に入れ始めるタイミングが来ていると感じる。コンテキストが大きければ良いわけでもなく、コストと精度のトレードオフを設計段階から意識することが、これからのエージェント実装の品質を左右するだろう。もったいないのは、モデルの性能が上がってもアーキテクチャ設計が旧来のまま変わらないシステムだ。


出典: この記事は NVIDIA Nemotron 3 Ultra Powers Faster, More Efficient Reasoning for Long-Running Agents の内容をもとに、筆者の見解を加えて独自に執筆したものです。