News公開日:2026年4月19日 23:45

Nvidiaは、エージェント型ワークロード向けに設計された1200億パラメータのOpenAIモデル「Nemotron 3 Super」をリリースしました。

Nvidiaは、人工知能（AI）エージェントを大規模に実行する際の計算コストを削減するために設計された、総パラメータ数1,200億のオープンソース・ハイブリッドモデル「Nemotron 3 Super」をリリースしました。主なポイント：

著者

Jamie Redman

公開日: 2026年4月19日 23:45

Nvidiaは、エージェント型ワークロード向けに設計された1200億パラメータのOpenAIモデル「Nemotron 3 Super」をリリースしました。

NVIDIAは、1回のフォワードパスでわずか127億パラメータのみを活性化する、1,200億パラメータのオープンMoEモデル「Nemotron 3 Super」をリリースしました。
8k入力／64k出力のエージェントワークロードでは、Qwen3.5-122B-A10Bと比較して最大7.5倍のスループットを実現します。
本モデルはNvidia Nemotron Open Model Licenseの下で完全にオープンソース化されており、チェックポイントとトレーニングデータはHugging Faceで公開されています。

Nvidia、Qwen3.5-122B比で7.5倍のスループット向上を実現するNemotron 3 Superを発表

NVIDIAの最新モデルはMixture-of-Experts（MoE）アーキテクチャを採用しており、1回のフォワードパスでわずか127億個のパラメータのみを活性化させるため、推論中には重みの大部分がアイドル状態のままとなります。この設計は、多段階AIエージェントを展開する際に開発者が直面する二つの問題、すなわち長大な推論チェーンによる追加コストと、マルチエージェントパイプラインで最大15倍に膨れ上がるトークン使用量の急増を直接的に解決することを目的としています。

Nemotron 3 Superは、2025年12月に発表されたNemotron 3 Nanoに続く、NvidiaのNemotron 3ファミリーにおける2番目のモデルです。Nvidiaは2026年3月10日頃にリリースを発表しました。

このモデルは88層からなるハイブリッドなMamba-Transformerバックボーンを採用しています。Mamba-2ブロックが線形時間効率で長いシーケンスを処理し、Transformerアテンション層が正確なリコール（再現性）を維持します。この組み合わせにより、純粋なアテンション設計に典型的なメモリ負荷なく、最大100万トークンのコンテキストウィンドウをネイティブにサポートできます。

さらにNVIDIAはLatentMoEルーティングシステムを組み込んでいます。これはトークン埋め込みを低ランク空間に圧縮し、各層の512個のエキスパートに送信して一度に22個をアクティブ化する仕組みです。同社によると、この方式により標準的なMoEアプローチと比べて同じ推論コストで約4倍のエキスパートを運用でき、エキスパートレベルでPythonロジックとSQL処理を分離するなど、よりきめ細かなタスク特化が可能になるとしています。

Nvidia Releases Nemotron 3 Super, a 120B Open AI Model Built for Agentic Workloads — 画像出典：Nvidiaブログ。

2つの共有重みヘッドを持つマルチトークン予測層は思考連鎖の生成を高速化し、ネイティブな投機的デコードを可能にします。構造化タスクでは最大3倍の生成速度向上が報告されています。

このモデルは2段階にわたり25兆トークンで事前学習されています。第1段階では20兆トークンの広範なデータを使用し、第2段階ではベンチマーク性能に合わせて調整された5兆の高品質トークンを使用しました。さらに5,100億トークンで行われた最終拡張段階では、ネイティブコンテキストを100万トークンに拡張しています。事後学習としては、約700万サンプルの教師あり微調整と、21の環境で120万回以上ロールアウトした強化学習が含まれます。

ベンチマークでは、Nemotron 3 SuperはOpenHandsを使用したMMLU-Proで83.73、AIME25で90.21、SWE-Benchで60.47を記録しました。PinchBenchでは85.6％に達し、同クラスのオープンソースモデルの中で報告されている最高スコアとなりました。長文コンテキスト評価ではRULER 1Mで91.64点を記録しました。GPT-OSS-120Bと比較すると、Nemotron 3 Superは入力8k・出力64kで2.2倍のスループットを実現し、Qwen3.5-122B-A10Bとの比較では7.5倍に達します。 Nvidiaはまた、前世代のNemotron Superと比べスループットが5倍以上、精度は最大2倍向上したと報告しています。Nvidiaは、Blackwell GPU向けに最適化されたNVFP4 4ビット浮動小数点形式でこのモデルをエンドツーエンドでトレーニングしました。 Nvidiaによると、B200ハードウェア上での推論処理はH100でのFP8と比較して最大4倍高速であり、精度の低下は確認されていない。量子化されたFP8およびNVFP4のチェックポイントは、フル精度の99.8％以上の精度を維持している。このモデルは、Deepresearch Benchリーダーボードで1位を獲得したNvidia AI-Qリサーチエージェントにも採用されている。

Nvidia、20億ドルという巨額の投資でNebiusのAIファクトリー計画を後押しします

NvidiaがAIクラウドインフラに20億ドルを投資し、コンピューティングの未来をいかに変革しようとしているかをご紹介します。 read more.

Nvidia、20億ドルという巨額の投資でNebiusのAIファクトリー計画を後押しします

NvidiaがAIクラウドインフラに20億ドルを投資し、コンピューティングの未来をいかに変革しようとしているかをご紹介します。 read more.

Nvidia、20億ドルという巨額の投資でNebiusのAIファクトリー計画を後押しします

NvidiaがAIクラウドインフラに20億ドルを投資し、コンピューティングの未来をいかに変革しようとしているかをご紹介します。 read more.

Nemotron 3 SuperはNvidia Nemotron Open Model Licenseの下で完全にオープンソース化されています。BF16、FP8、NVFP4形式のチェックポイントに加え、事前学習データ、事後学習サンプル、強化学習環境がHugging Faceで利用可能です。推論はNvidia NIMやbuild.nvidia.com、Perplexity、Openrouter、Together AI、Google Cloud、AWS、Azure、Coreweaveを通じてサポートされており、Dell Enterprise HubおよびHPEを介したオンプレミスでの利用も可能です。開発者はvLLM、SGLang、TensorRT-LLMを使用してNeMoプラットフォームを通じてトレーニングレシピ、微調整ガイド、推論クックブックにアクセスできます。