英伟达发布了Nemotron 3 Super,这是一个总参数数达1200亿的开源混合模型,旨在降低大规模运行人工智能(AI)代理的计算成本。 要点:
英伟达发布Nemotron 3 Super,一款专为代理任务设计的1200亿参数OpenAI模型

- 英伟达发布了 Nemotron 3 Super,这是一个拥有 1200 亿参数的开放式混合增强(MoE)模型,每次前向传播仅激活 127 亿参数。
- 在 8k 输入/64k 输出的设置下,Nemotron 3 Super 在代理工作负载中的吞吐量最高可达 Qwen3.5-122B-A10B 的 7.5 倍。
- 该模型在Nvidia Nemotron开放模型许可下完全开源,检查点和训练数据均发布于Hugging Face。
英伟达推出 Nemotron 3 Super,吞吐量较 Qwen3.5-122B 提升 7.5 倍
这款最新的英伟达模型采用混合专家(MoE)架构,每次前向传播仅激活127亿个参数,这意味着在推理过程中,其大部分权重处于闲置状态。这种设计直接针对开发者在部署多步骤AI代理时遇到的两大问题:冗长推理链带来的额外成本,以及在多代理管道中可能激增至15倍的令牌使用量。
Nemotron 3 Super是英伟达Nemotron 3系列中的第二款模型,继2025年12月发布的Nemotron 3 Nano之后推出。英伟达于2026年3月10日左右宣布了该模型的发布。
该模型采用跨88层的混合Mamba-Transformer骨干结构。Mamba-2模块以线性时间效率处理长序列,而Transformer注意力层则确保精确的召回率。这种组合使模型原生支持高达100万令牌的上下文窗口,同时避免了纯注意力设计中常见的内存开销。
英伟达还内置了LatentMoE路由系统,该系统在将令牌嵌入向量发送至每层512个专家模型之前,会将其压缩至低秩空间,并每次激活其中22个。该公司表示,与标准MoE方法相比,这在相同的推理成本下可容纳约四倍数量的专家模型,并支持更精细的任务专业化,例如在专家模型层面将Python逻辑与SQL处理分离。

多令牌预测层采用两个共享权重的头部,加速了思维链生成,并支持原生投机解码。在结构化任务中,英伟达报告称生成速度最高可达三倍。
该模型分两个阶段在25万亿个令牌上进行了预训练。第一阶段使用了20万亿个广泛数据令牌,第二阶段则使用了5万亿个针对基准性能进行调优的高质量令牌。最后在510亿个令牌上进行的扩展阶段,将原生上下文扩展至100万个令牌。训练后阶段包括基于约700万个样本的监督微调,以及在21个环境中进行强化学习,累计执行了超过120万次迭代。
在基准测试中,Nemotron 3 Super 在 MMLU-Pro 上获得 83.73 分,在 AIME25 上获得 90.21 分,在 SWE-Bench 上(使用 OpenHands)获得 60.47 分。在 PinchBench 上,其得分达到 85.6%,是同类开源模型中报告的最高分。 在长上下文评估中,该模型在 RULER 1M 上的得分为 91.64。 与 GPT-OSS-120B 相比,Nemotron 3 Super 在 8k 输入和 64k 输出条件下实现了 2.2 倍的吞吐量。与 Qwen3.5-122B-A10B 相比,这一数字更是达到了 7.5 倍。 英伟达还表示,相较于上一代Nemotron Super,其吞吐量提升了5倍以上,准确率最高提升2倍。 英伟达采用专为Blackwell GPU优化的NVFP4四位浮点格式,对该模型进行了端到端训练。 英伟达表示,在 B200 硬件上,与 H100 上的 FP8 相比,推理速度最高可达 4 倍,且未报告精度损失。量化后的 FP8 和 NVFP4 检查点保留了 99.8% 或更高的全精度。 该模型还驱动了英伟达 AI-Q 研究代理,该代理在 Deepresearch Bench 排行榜上名列榜首。

英伟达斥资20亿美元,助力Nebius实现AI工厂计划
了解英伟达如何通过向人工智能云基础设施投入 20 亿美元,重塑计算的未来。 read more.
立即阅读

英伟达斥资20亿美元,助力Nebius实现AI工厂计划
立即阅读了解英伟达如何通过向人工智能云基础设施投入 20 亿美元,重塑计算的未来。 read more.
Nemotron 3 Super 完全遵循 Nvidia Nemotron 开放模型许可协议(Nvidia Nemotron Open Model License)开放。BF16、FP8 和 NVFP4 格式的检查点,以及预训练数据、后训练样本和强化学习环境,均可在 Hugging Face 上获取。 推理支持通过 Nvidia NIM、build.nvidia.com、Perplexity、Openrouter、Together AI、Google Cloud、AWS、Azure 和 Coreweave 进行,同时可通过 Dell Enterprise Hub 和 HPE 实现本地部署。 开发者可通过 NeMo 平台,利用 vLLM、SGLang 和 TensorRT-LLM 访问训练配方、微调指南和推理食谱。














