NewsPublicado:19 de abr. de 2026, 23:45

A Nvidia lança o Nemotron 3 Super, um modelo de IA aberta de 120 bilhões de parâmetros desenvolvido para cargas de trabalho com agentes

A Nvidia lançou o Nemotron 3 Super, um modelo híbrido aberto com 120 bilhões de parâmetros no total, projetado para reduzir o custo computacional da execução de agentes de inteligência artificial (IA) em grande escala.

ESCRITO POR

Jamie Redman

PARTILHAR

Publicado: 19 de abr. de 2026, 23:45

A Nvidia lança o Nemotron 3 Super, um modelo de IA aberta de 120 bilhões de parâmetros desenvolvido para cargas de trabalho com agentes

Pontos principais:

A Nvidia lançou o Nemotron 3 Super, um modelo MoE aberto com 120 bilhões de parâmetros que ativa apenas 12,7 bilhões de parâmetros por passagem direta.
O Nemotron 3 Super oferece até 7,5 vezes mais rendimento do que o Qwen3.5-122B-A10B em cargas de trabalho de agentes em configurações de 8k de entrada/64k de saída.
O modelo é totalmente aberto sob a Licença de Modelo Aberto Nvidia Nemotron, com pontos de verificação e dados de treinamento no Hugging Face.

Nvidia lança o Nemotron 3 Super com ganhos de rendimento 7,5 vezes maiores em relação ao Qwen3.5-122B

O mais recente modelo da Nvidia ativa apenas 12,7 bilhões de parâmetros por passagem direta usando uma arquitetura Mixture-of-Experts (MoE), o que significa que a maior parte de seu peso permanece ociosa durante a inferência. Essa escolha de design visa diretamente dois problemas que os desenvolvedores enfrentam ao implantar agentes de IA de múltiplas etapas: o custo adicional de cadeias de raciocínio estendidas e o uso crescente de tokens, que pode se multiplicar em até 15 vezes em pipelines com múltiplos agentes.

O Nemotron 3 Super é o segundo modelo da família Nemotron 3 da Nvidia, sucedendo o Nemotron 3 Nano de dezembro de 2025. A Nvidia anunciou o lançamento por volta de 10 de março de 2026.

O modelo utiliza uma estrutura híbrida Mamba-Transformer em 88 camadas. Os blocos Mamba-2 lidam com sequências longas com eficiência de tempo linear, enquanto as camadas de atenção do Transformer preservam a precisão da recuperação. Essa combinação confere ao modelo suporte nativo para janelas de contexto de até um milhão de tokens sem as penalidades de memória típicas de projetos de atenção pura.

A Nvidia também incorporou um sistema de roteamento LatentMoE que comprime as incorporações de tokens em um espaço de baixa dimensão antes de enviá-las a 512 especialistas por camada, ativando 22 de cada vez. A empresa afirma que isso permite cerca de quatro vezes mais especialistas com o mesmo custo de inferência em comparação com abordagens MoE padrão, além de possibilitar uma especialização de tarefas mais refinada, como separar a lógica Python do tratamento de SQL no nível do especialista.

Nvidia Releases Nemotron 3 Super, a 120B Open AI Model Built for Agentic Workloads — Fonte da imagem: blog da Nvidia.

Camadas de previsão multitoken, usando duas cabeças de peso compartilhado, aceleram a geração da cadeia de pensamento e permitem a decodificação especulativa nativa. Em tarefas estruturadas, a Nvidia relata uma geração até três vezes mais rápida.

O modelo foi pré-treinado em 25 trilhões de tokens em duas fases. A primeira fase utilizou 20 trilhões de tokens de dados amplos. A segunda utilizou cinco trilhões de tokens de alta qualidade ajustados para desempenho de benchmark. Uma fase final de extensão em 51 bilhões de tokens ampliou o contexto nativo para um milhão de tokens. O pós-treinamento incluiu ajuste fino supervisionado em aproximadamente sete milhões de amostras e aprendizado por reforço em 21 ambientes com mais de 1,2 milhão de implementações.

Nos benchmarks, o Nemotron 3 Super obteve 83,73 no MMLU-Pro, 90,21 no AIME25 e 60,47 no SWE-Bench usando o OpenHands. No PinchBench, atingiu 85,6%, a pontuação mais alta relatada entre os modelos abertos de sua classe. Na avaliação de contexto longo, obteve 91,64 no RULER 1M.

Em comparação com o GPT-OSS-120B, o Nemotron 3 Super oferece 2,2 vezes mais throughput com 8k de entrada e 64k de saída. Em relação ao Qwen3.5-122B-A10B, esse número chega a 7,5 vezes. A Nvidia também relata mais de cinco vezes a taxa de transferência e até duas vezes a precisão em relação à geração anterior do Nemotron Super.

A Nvidia treinou o modelo de ponta a ponta em seu formato de ponto flutuante de quatro bits NVFP4, otimizado para GPUs Blackwell. No hardware B200, a Nvidia afirma que a inferência é executada até quatro vezes mais rápido em comparação com FP8 no H100, sem perda de precisão relatada. Os checkpoints quantizados em FP8 e NVFP4 mantêm 99,8% ou mais da precisão de precisão total.

O modelo também alimenta o agente de pesquisa Nvidia AI-Q, que alcançou a primeira posição no ranking do Deepresearch Bench.

A Nvidia impulsiona os planos da Nebius para a fábrica de IA com um investimento maciço de US$ 2 bilhões

Descubra como a Nvidia está remodelando o futuro da computação com um investimento de US$ 2 bilhões em infraestrutura de IA na nuvem. read more.

A Nvidia impulsiona os planos da Nebius para a fábrica de IA com um investimento maciço de US$ 2 bilhões

Descubra como a Nvidia está remodelando o futuro da computação com um investimento de US$ 2 bilhões em infraestrutura de IA na nuvem. read more.

A Nvidia impulsiona os planos da Nebius para a fábrica de IA com um investimento maciço de US$ 2 bilhões

Descubra como a Nvidia está remodelando o futuro da computação com um investimento de US$ 2 bilhões em infraestrutura de IA na nuvem. read more.

O Nemotron 3 Super é totalmente aberto sob a Licença de Modelo Aberto Nvidia Nemotron. Pontos de verificação nos formatos BF16, FP8 e NVFP4, juntamente com dados de pré-treinamento, amostras pós-treinamento e ambientes de aprendizado por reforço, estão disponíveis no Hugging Face. A inferência é suportada por meio do Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure e Coreweave, com opções locais via Dell Enterprise Hub e HPE.

Os desenvolvedores podem acessar receitas de treinamento, guias de ajuste fino e manuais de inferência por meio da plataforma NeMo usando vLLM, SGLang e TensorRT-LLM.

24 de mai. de 2026

Relatório da Keyrock: 76% das transações realizadas por agentes de IA ficam abaixo do valor mínimo de US$ 0,30 estabelecido pela Visa

News

17 de abr. de 2026

A Anthropic lança o Claude Opus 4.7, à medida que os fluxos de trabalho baseados em agentes ganham destaque

News

16 de abr. de 2026

O Lobster.cash da Crossmint integra o Mastercard Agent Pay para o comércio por agentes

News

13 de abr. de 2026

Relatório: Analista do Goldman Sachs afirma que os receios quanto à disrupção causada pela IA persistirão por anos no setor de ações de software

News

7 de abr. de 2026

Milla Jovovich, estrela de Resident Evil, desenvolve ferramenta de memória baseada em IA com o engenheiro Ben Sigman

News

5 de abr. de 2026

O artigo “AI Agent Traps”, da Deepmind, detalha como os hackers poderiam usar agentes de IA contra os usuários

News

Tags nesta história

Artificial intelligence (AI)Nvidia

ÚLTIMAS NOTÍCIAS

O Citi projeta um mercado tokenizado de US$ 5,5 trilhões até 2030, à medida que Wall Street migra para a blockchain

LAB atinge US$ 16,23 apesar das preocupações com a oferta de 95%, enquanto os vendedores a descoberto sofrem pesadas perdas

há 4 horas

O petróleo barato pode não voltar tão cedo, já que os mercados estão precificando os riscos relacionados à oferta

há 5 horas

A Nvidia lança o Nemotron 3 Super, um modelo de IA aberta de 120 bilhões de parâmetros desenvolvido para cargas de trabalho com agentes

Nvidia lança o Nemotron 3 Super com ganhos de rendimento 7,5 vezes maiores em relação ao Qwen3.5-122B

A Nvidia impulsiona os planos da Nebius para a fábrica de IA com um investimento maciço de US$ 2 bilhões

A Nvidia impulsiona os planos da Nebius para a fábrica de IA com um investimento maciço de US$ 2 bilhões

A Nvidia impulsiona os planos da Nebius para a fábrica de IA com um investimento maciço de US$ 2 bilhões

Artigos relacionados

Relatório da Keyrock: 76% das transações realizadas por agentes de IA ficam abaixo do valor mínimo de US$ 0,30 estabelecido pela Visa

A Anthropic lança o Claude Opus 4.7, à medida que os fluxos de trabalho baseados em agentes ganham destaque

O Lobster.cash da Crossmint integra o Mastercard Agent Pay para o comércio por agentes

Relatório: Analista do Goldman Sachs afirma que os receios quanto à disrupção causada pela IA persistirão por anos no setor de ações de software

Milla Jovovich, estrela de Resident Evil, desenvolve ferramenta de memória baseada em IA com o engenheiro Ben Sigman

O artigo “AI Agent Traps”, da Deepmind, detalha como os hackers poderiam usar agentes de IA contra os usuários

Tags nesta história

ÚLTIMAS NOTÍCIAS

O Citi projeta um mercado tokenizado de US$ 5,5 trilhões até 2030, à medida que Wall Street migra para a blockchain

Solana se prepara para uma grande reformulação da tokenômica com o objetivo de reduzir a inflação da rede

A Rede Avalanche dispara com a Copa do Mundo da FIFA gerando 60 mil transações de ingressos via blockchain

LAB atinge US$ 16,23 apesar das preocupações com a oferta de 95%, enquanto os vendedores a descoberto sofrem pesadas perdas

O petróleo barato pode não voltar tão cedo, já que os mercados estão precificando os riscos relacionados à oferta

ÚLTIMAS NOTÍCIAS

O Citi projeta um mercado tokenizado de US$ 5,5 trilhões até 2030, à medida que Wall Street migra para a blockchain

Solana se prepara para uma grande reformulação da tokenômica com o objetivo de reduzir a inflação da rede

A Rede Avalanche dispara com a Copa do Mundo da FIFA gerando 60 mil transações de ingressos via blockchain

LAB atinge US$ 16,23 apesar das preocupações com a oferta de 95%, enquanto os vendedores a descoberto sofrem pesadas perdas

O petróleo barato pode não voltar tão cedo, já que os mercados estão precificando os riscos relacionados à oferta

ÚLTIMAS NOTÍCIAS

O Citi projeta um mercado tokenizado de US$ 5,5 trilhões até 2030, à medida que Wall Street migra para a blockchain

Solana se prepara para uma grande reformulação da tokenômica com o objetivo de reduzir a inflação da rede

A Rede Avalanche dispara com a Copa do Mundo da FIFA gerando 60 mil transações de ingressos via blockchain

LAB atinge US$ 16,23 apesar das preocupações com a oferta de 95%, enquanto os vendedores a descoberto sofrem pesadas perdas

O petróleo barato pode não voltar tão cedo, já que os mercados estão precificando os riscos relacionados à oferta

COMUNICADOS DE IMPRENSA

A OKX lista contratos perpétuos com vencimento (X-Perp) para TRXUSD, oferecendo acesso a derivativos em conformidade com a MiFID para TRX

Criptomoedas encontram Wall Street: MEXC lança o 'RealStocks' com negociação de ações dos EUA sem taxas e dividendos reais

Ganhe uma experiência de hospitalidade premium na Copa do Mundo! O ZOOMEX World Cup Carnival começa com um prêmio total de US$ 300.000

Grandes investidores da Hyperliquid e da Zcash se dirigem em massa à pré-venda da SurgeXRP, com mais de 10% do soft cap já atingido; ranking de líderes será divulgado

BC.GAME: Os participantes do BC Engine já ganharam mais de US$ 2 milhões em recompensas

Artigos relacionados

Relatório da Keyrock: 76% das transações realizadas por agentes de IA ficam abaixo do valor mínimo de US$ 0,30 estabelecido pela Visa

A Anthropic lança o Claude Opus 4.7, à medida que os fluxos de trabalho baseados em agentes ganham destaque

O Lobster.cash da Crossmint integra o Mastercard Agent Pay para o comércio por agentes

Relatório: Analista do Goldman Sachs afirma que os receios quanto à disrupção causada pela IA persistirão por anos no setor de ações de software

Milla Jovovich, estrela de Resident Evil, desenvolve ferramenta de memória baseada em IA com o engenheiro Ben Sigman

O artigo “AI Agent Traps”, da Deepmind, detalha como os hackers poderiam usar agentes de IA contra os usuários