News发布日期:2026年4月19日 23:45

英伟达发布Nemotron 3 Super，一款专为代理任务设计的1200亿参数OpenAI模型

英伟达发布了Nemotron 3 Super，这是一个总参数数达1200亿的开源混合模型，旨在降低大规模运行人工智能（AI）代理的计算成本。要点：

作者

Jamie Redman

发布日期: 2026年4月19日 23:45

英伟达发布Nemotron 3 Super，一款专为代理任务设计的1200亿参数OpenAI模型

英伟达发布了 Nemotron 3 Super，这是一个拥有 1200 亿参数的开放式混合增强（MoE）模型，每次前向传播仅激活 127 亿参数。
在 8k 输入/64k 输出的设置下，Nemotron 3 Super 在代理工作负载中的吞吐量最高可达 Qwen3.5-122B-A10B 的 7.5 倍。
该模型在Nvidia Nemotron开放模型许可下完全开源，检查点和训练数据均发布于Hugging Face。

英伟达推出 Nemotron 3 Super，吞吐量较 Qwen3.5-122B 提升 7.5 倍

这款最新的英伟达模型采用混合专家（MoE）架构，每次前向传播仅激活127亿个参数，这意味着在推理过程中，其大部分权重处于闲置状态。这种设计直接针对开发者在部署多步骤AI代理时遇到的两大问题：冗长推理链带来的额外成本，以及在多代理管道中可能激增至15倍的令牌使用量。

Nemotron 3 Super是英伟达Nemotron 3系列中的第二款模型，继2025年12月发布的Nemotron 3 Nano之后推出。英伟达于2026年3月10日左右宣布了该模型的发布。

该模型采用跨88层的混合Mamba-Transformer骨干结构。Mamba-2模块以线性时间效率处理长序列，而Transformer注意力层则确保精确的召回率。这种组合使模型原生支持高达100万令牌的上下文窗口，同时避免了纯注意力设计中常见的内存开销。

英伟达还内置了LatentMoE路由系统，该系统在将令牌嵌入向量发送至每层512个专家模型之前，会将其压缩至低秩空间，并每次激活其中22个。该公司表示，与标准MoE方法相比，这在相同的推理成本下可容纳约四倍数量的专家模型，并支持更精细的任务专业化，例如在专家模型层面将Python逻辑与SQL处理分离。

Nvidia Releases Nemotron 3 Super, a 120B Open AI Model Built for Agentic Workloads — 图片来源：英伟达博客。

多令牌预测层采用两个共享权重的头部，加速了思维链生成，并支持原生投机解码。在结构化任务中，英伟达报告称生成速度最高可达三倍。

该模型分两个阶段在25万亿个令牌上进行了预训练。第一阶段使用了20万亿个广泛数据令牌，第二阶段则使用了5万亿个针对基准性能进行调优的高质量令牌。最后在510亿个令牌上进行的扩展阶段，将原生上下文扩展至100万个令牌。训练后阶段包括基于约700万个样本的监督微调，以及在21个环境中进行强化学习，累计执行了超过120万次迭代。

在基准测试中，Nemotron 3 Super 在 MMLU-Pro 上获得 83.73 分，在 AIME25 上获得 90.21 分，在 SWE-Bench 上（使用 OpenHands）获得 60.47 分。在 PinchBench 上，其得分达到 85.6%，是同类开源模型中报告的最高分。在长上下文评估中，该模型在 RULER 1M 上的得分为 91.64。与 GPT-OSS-120B 相比，Nemotron 3 Super 在 8k 输入和 64k 输出条件下实现了 2.2 倍的吞吐量。与 Qwen3.5-122B-A10B 相比，这一数字更是达到了 7.5 倍。英伟达还表示，相较于上一代Nemotron Super，其吞吐量提升了5倍以上，准确率最高提升2倍。英伟达采用专为Blackwell GPU优化的NVFP4四位浮点格式，对该模型进行了端到端训练。英伟达表示，在 B200 硬件上，与 H100 上的 FP8 相比，推理速度最高可达 4 倍，且未报告精度损失。量化后的 FP8 和 NVFP4 检查点保留了 99.8% 或更高的全精度。该模型还驱动了英伟达 AI-Q 研究代理，该代理在 Deepresearch Bench 排行榜上名列榜首。

英伟达斥资20亿美元，助力Nebius实现AI工厂计划

了解英伟达如何通过向人工智能云基础设施投入 20 亿美元，重塑计算的未来。 read more.

英伟达斥资20亿美元，助力Nebius实现AI工厂计划

了解英伟达如何通过向人工智能云基础设施投入 20 亿美元，重塑计算的未来。 read more.

英伟达斥资20亿美元，助力Nebius实现AI工厂计划

了解英伟达如何通过向人工智能云基础设施投入 20 亿美元，重塑计算的未来。 read more.

Nemotron 3 Super 完全遵循 Nvidia Nemotron 开放模型许可协议（Nvidia Nemotron Open Model License）开放。BF16、FP8 和 NVFP4 格式的检查点，以及预训练数据、后训练样本和强化学习环境，均可在 Hugging Face 上获取。推理支持通过 Nvidia NIM、build.nvidia.com、Perplexity、Openrouter、Together AI、Google Cloud、AWS、Azure 和 Coreweave 进行，同时可通过 Dell Enterprise Hub 和 HPE 实现本地部署。开发者可通过 NeMo 平台，利用 vLLM、SGLang 和 TensorRT-LLM 访问训练配方、微调指南和推理食谱。