NVIDIAがエージェント特化オープンモデル「Nemotron 3 Ultra」を6月4日公開——550B MoEで推論速度5倍・コスト30%削減

NVIDIAは2026年6月1日、台湾で開催されたGTC Taipeiにおいて、エージェントワークフロー向けに設計したオープンウェイトモデル「Nemotron 3 Ultra」を発表した。総パラメーター数550B（実行時アクティブ55B）のMixture-of-Experts（MoE）アーキテクチャを採用し、6月4日よりHugging Faceを通じて一般公開される。

Nemotron 3 Ultraの主要スペック

Nemotron 3 Ultraは、NVIDIAが開発したMoEアーキテクチャのオープンウェイト大規模言語モデルだ。GTC Taipeiで公開された数値は以下の通り。

項目数値

総パラメーター数 550B

アクティブパラメーター数（1トークンあたり）約55B

コンテキストウィンドウ 100万トークン

インテリジェンスインデックス 48

出力スループット 300トークン/秒超

コスト（同等フロンティアモデル比）約30%削減

速度（同等フロンティアモデル比）約5倍高速

MoEアーキテクチャがもたらすコスト効率

MoE（Mixture-of-Experts）は、各トークン生成時にモデル全体のパラメーターを使わず、一部の専門家ネットワーク（エキスパート）だけを活性化するアーキテクチャだ。Nemotron 3 Ultraの場合、総パラメーター550Bのうち実際の推論に使われるのは55Bのみ。550Bの密なモデルに匹敵する出力品質を維持しながら、55Bモデルに近い推論コストを実現しているのがこの構造の肝だ。

1Mトークンコンテキストの実用的な意味

エージェントシステムの開発現場でよく聞かれる制約のひとつが、コンテキストウィンドウの上限だ。現在の主流は200K〜400Kトークン程度であり、大規模コードベースや長期会話履歴を扱う際に「チャンキング（分割）」が避けられない。Nemotron 3 Ultraの100万トークンコンテキストは、大規模なコードベースや長い会話履歴を分割せずに単一パスで処理できることを意味し、エージェントが複雑な文脈を保持したまま長時間稼働する場面での優位性は小さくない。

「エージェント向け」設計の中身

従来の大規模言語モデルは「人間との1対1の対話」に最適化されてきた。しかしエージェントワークフローは構造が根本的に異なる。モデルはタスクを受け取り、ツールを呼び出し、結果を評価し、次のアクションを決定するサイクルを何十回・何百回と繰り返す。

NVIDIAはNemotron 3 Ultraの学習においてこのループ構造を中心に設計しており、具体的には以下を実現したと主張している。

ReActパターン（推論→行動→観察のサイクル）を大規模に学習
ツール呼び出しシーケンスを学習データに組み込み
ツール呼び出し失敗時のエラーリカバリーを主要な学習目標として設定
長期タスクセッションで蓄積される状態（ツール出力・推論トレース・メモリオブジェクト）への対応

内部ベンチマークでは91%のエージェント生産性を達成しており、人間の再介入なしにマルチステップタスクを完遂できるとNVIDIAは発表している。

入手・利用方法

6月4日の公開時点で以下の4チャネルから利用可能になる予定だ。

Hugging Face — オープンウェイトのダウンロード。自前のGPUインフラが必要だが、レート制限なし
ModelScope — 中国地域の開発者向けNVIDIA公認配布パートナー
OpenRouter — トークン従量課金のマネージドAPI（Nemotron 3 Super 120Bはすでに提供中）
NVIDIA NIM — エンタープライズ向けマネージドサービス経由での提供も見込まれる

ライセンス条件は6月4日のモデルカード公開時に確定するが、LLaMA 4 Maverickに近いリサーチ・コミュニティライセンスが想定される。

日本のIT現場への影響

データガバナンスとオンプレミス活用

オープンウェイトモデルの最大のメリットは、データをクラウドに送らずローカル環境で動作させられる点だ。データガバナンスやセキュリティ要件が厳しい日本企業にとって、フロンティア級の性能をプライベート環境で利用できる意義は大きい。

ただし、550B規模のモデルをオンプレで動かすには相応のGPU投資が必要だ。まずOpenRouterやNVIDIA NIMなどのAPIサービスで実ワークロードの評価を行い、投資対効果を見極めてからオンプレ展開を判断するのが現実的なアプローチになる。

AIエージェントパイプライン開発者への示唆

「オープンモデルではフロンティア品質に届かない」という課題を抱えているエージェント開発チームは少なくない。Nemotron 3 Ultraが公約通りの性能を発揮するなら、クローズドAPIへの依存度を下げながらエージェント品質を維持できる選択肢が増える。特にコスト構造を改善したい本番エージェントシステムでの評価は検討に値する。

筆者の見解

AIエージェント開発の文脈でこのリリースを見ると、最も注目すべきはエラーリカバリーを主要な学習目標に据えたという設計思想だ。エージェントが長時間自律的に動き続けるためには「想定外の状況でどう立て直すか」が決定的に重要になる。現場でエージェントを動かしていると、ツール呼び出しの失敗や予期しないレスポンスへの対応がボトルネックになるケースは多い。この部分を正面から取り組んだNVIDIAの判断は、現場のペインポイントを正確に把握していると感じる。

一方で、発表数値をそのまま鵜呑みにするのは禁物だ。「内部ベンチマークで91%」という数字は自社測定であり、独立した第三者によるベンチマーク評価が揃うまでは慎重に見る必要がある。6月4日の公開後、実務に近いワークロードで実際に動かして検証することが採用判断の前提になる。

オープンウェイトという点は、単なる「無料で使える」以上の意味を持つ。モデルをカスタマイズ・ファインチューニングできる自由度、データをベンダーに送らない安心感、ベンダーロックインを回避できる戦略的価値——これらはエンタープライズ導入の検討材料として十分に機能する。フロンティア品質のオープンモデルという選択肢が本格的に育ってきたことは、AIエージェント開発全体にとって健全な流れだと思う。

出典: この記事は Nemotron 3 Ultra Launches June 4: The First Open Frontier Model Built for Agents の内容をもとに、筆者の見解を加えて独自に執筆したものです。

Nemotron 3 Ultraの主要スペック#

MoEアーキテクチャがもたらすコスト効率#

1Mトークンコンテキストの実用的な意味#

「エージェント向け」設計の中身#

入手・利用方法#

日本のIT現場への影響#

データガバナンスとオンプレミス活用#

AIエージェントパイプライン開発者への示唆#

筆者の見解#