A Nvidia lançou o Nemotron 3 Super, um modelo híbrido aberto com 120 bilhões de parâmetros no total, projetado para reduzir o custo computacional da execução de agentes de inteligência artificial (IA) em grande escala.
A Nvidia lança o Nemotron 3 Super, um modelo de IA aberta de 120 bilhões de parâmetros desenvolvido para cargas de trabalho com agentes

Pontos principais:
- A Nvidia lançou o Nemotron 3 Super, um modelo MoE aberto com 120 bilhões de parâmetros que ativa apenas 12,7 bilhões de parâmetros por passagem direta.
- O Nemotron 3 Super oferece até 7,5 vezes mais rendimento do que o Qwen3.5-122B-A10B em cargas de trabalho de agentes em configurações de 8k de entrada/64k de saída.
- O modelo é totalmente aberto sob a Licença de Modelo Aberto Nvidia Nemotron, com pontos de verificação e dados de treinamento no Hugging Face.
Nvidia lança o Nemotron 3 Super com ganhos de rendimento 7,5 vezes maiores em relação ao Qwen3.5-122B
O mais recente modelo da Nvidia ativa apenas 12,7 bilhões de parâmetros por passagem direta usando uma arquitetura Mixture-of-Experts (MoE), o que significa que a maior parte de seu peso permanece ociosa durante a inferência. Essa escolha de design visa diretamente dois problemas que os desenvolvedores enfrentam ao implantar agentes de IA de múltiplas etapas: o custo adicional de cadeias de raciocínio estendidas e o uso crescente de tokens, que pode se multiplicar em até 15 vezes em pipelines com múltiplos agentes.
O Nemotron 3 Super é o segundo modelo da família Nemotron 3 da Nvidia, sucedendo o Nemotron 3 Nano de dezembro de 2025. A Nvidia anunciou o lançamento por volta de 10 de março de 2026.
O modelo utiliza uma estrutura híbrida Mamba-Transformer em 88 camadas. Os blocos Mamba-2 lidam com sequências longas com eficiência de tempo linear, enquanto as camadas de atenção do Transformer preservam a precisão da recuperação. Essa combinação confere ao modelo suporte nativo para janelas de contexto de até um milhão de tokens sem as penalidades de memória típicas de projetos de atenção pura.
A Nvidia também incorporou um sistema de roteamento LatentMoE que comprime as incorporações de tokens em um espaço de baixa dimensão antes de enviá-las a 512 especialistas por camada, ativando 22 de cada vez. A empresa afirma que isso permite cerca de quatro vezes mais especialistas com o mesmo custo de inferência em comparação com abordagens MoE padrão, além de possibilitar uma especialização de tarefas mais refinada, como separar a lógica Python do tratamento de SQL no nível do especialista.

Camadas de previsão multitoken, usando duas cabeças de peso compartilhado, aceleram a geração da cadeia de pensamento e permitem a decodificação especulativa nativa. Em tarefas estruturadas, a Nvidia relata uma geração até três vezes mais rápida.
O modelo foi pré-treinado em 25 trilhões de tokens em duas fases. A primeira fase utilizou 20 trilhões de tokens de dados amplos. A segunda utilizou cinco trilhões de tokens de alta qualidade ajustados para desempenho de benchmark. Uma fase final de extensão em 51 bilhões de tokens ampliou o contexto nativo para um milhão de tokens. O pós-treinamento incluiu ajuste fino supervisionado em aproximadamente sete milhões de amostras e aprendizado por reforço em 21 ambientes com mais de 1,2 milhão de implementações.
Nos benchmarks, o Nemotron 3 Super obteve 83,73 no MMLU-Pro, 90,21 no AIME25 e 60,47 no SWE-Bench usando o OpenHands. No PinchBench, atingiu 85,6%, a pontuação mais alta relatada entre os modelos abertos de sua classe. Na avaliação de contexto longo, obteve 91,64 no RULER 1M.
Em comparação com o GPT-OSS-120B, o Nemotron 3 Super oferece 2,2 vezes mais throughput com 8k de entrada e 64k de saída. Em relação ao Qwen3.5-122B-A10B, esse número chega a 7,5 vezes. A Nvidia também relata mais de cinco vezes a taxa de transferência e até duas vezes a precisão em relação à geração anterior do Nemotron Super.
A Nvidia treinou o modelo de ponta a ponta em seu formato de ponto flutuante de quatro bits NVFP4, otimizado para GPUs Blackwell. No hardware B200, a Nvidia afirma que a inferência é executada até quatro vezes mais rápido em comparação com FP8 no H100, sem perda de precisão relatada. Os checkpoints quantizados em FP8 e NVFP4 mantêm 99,8% ou mais da precisão de precisão total.
O modelo também alimenta o agente de pesquisa Nvidia AI-Q, que alcançou a primeira posição no ranking do Deepresearch Bench.

A Nvidia impulsiona os planos da Nebius para a fábrica de IA com um investimento maciço de US$ 2 bilhões
Descubra como a Nvidia está remodelando o futuro da computação com um investimento de US$ 2 bilhões em infraestrutura de IA na nuvem. read more.
Leia agora
A Nvidia impulsiona os planos da Nebius para a fábrica de IA com um investimento maciço de US$ 2 bilhões
Descubra como a Nvidia está remodelando o futuro da computação com um investimento de US$ 2 bilhões em infraestrutura de IA na nuvem. read more.
Leia agora
A Nvidia impulsiona os planos da Nebius para a fábrica de IA com um investimento maciço de US$ 2 bilhões
Leia agoraDescubra como a Nvidia está remodelando o futuro da computação com um investimento de US$ 2 bilhões em infraestrutura de IA na nuvem. read more.
O Nemotron 3 Super é totalmente aberto sob a Licença de Modelo Aberto Nvidia Nemotron. Pontos de verificação nos formatos BF16, FP8 e NVFP4, juntamente com dados de pré-treinamento, amostras pós-treinamento e ambientes de aprendizado por reforço, estão disponíveis no Hugging Face. A inferência é suportada por meio do Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure e Coreweave, com opções locais via Dell Enterprise Hub e HPE.
Os desenvolvedores podem acessar receitas de treinamento, guias de ajuste fino e manuais de inferência por meio da plataforma NeMo usando vLLM, SGLang e TensorRT-LLM.














