Drevet af
News

Nvidia lancerer Nemotron 3 Super, en OpenAI-model med 120 milliarder parametre udviklet til agentbaserede arbejdsopgaver

Nvidia har lanceret Nemotron 3 Super, en åben hybridmodel med i alt 120 milliarder parametre, der er udviklet til at reducere beregningsomkostningerne ved at køre kunstig intelligens-agenter (AI) i stor skala.

SKREVET AF
DEL
Nvidia lancerer Nemotron 3 Super, en OpenAI-model med 120 milliarder parametre udviklet til agentbaserede arbejdsopgaver

Hovedpunkter:

  • Nvidia har lanceret Nemotron 3 Super, en åben MoE-model med 120 milliarder parametre, der kun aktiverer 12,7 milliarder parametre pr. fremadgående gennemløb.
  • Nemotron 3 Super leverer op til 7,5 gange større gennemstrømning end Qwen3.5-122B-A10B i agent-arbejdsbelastninger ved 8k-in/64k-out-indstillinger.
  • Modellen er fuldt åben under Nvidia Nemotron Open Model License, med checkpoints og træningsdata på Hugging Face.

Nvidia lancerer Nemotron 3 Super med 7,5 gange højere gennemstrømning end Qwen3.5-122B

Den nyeste Nvidia-model aktiverer kun 12,7 milliarder parametre pr. fremadgående gennemløb ved hjælp af en Mixture-of-Experts (MoE)-arkitektur, hvilket betyder, at det meste af dens vægt forbliver inaktiv under inferens. Dette designvalg er direkte rettet mod to problemer, som udviklere støder på, når de implementerer AI-agenter i flere trin: de ekstra omkostninger ved udvidede ræsonnementskæder og den eksplosive stigning i tokenforbruget, der kan blive op til 15 gange større i multi-agent-pipelines.

Nemotron 3 Super er den anden model i Nvidias Nemotron 3-familie efter Nemotron 3 Nano fra december 2025. Nvidia annoncerede udgivelsen omkring den 10. marts 2026.

Modellen bruger en hybrid Mamba-Transformer-backbone på tværs af 88 lag. Mamba-2-blokke håndterer lange sekvenser med lineær tidseffektivitet, mens Transformer-attention-lag bevarer præcis genkaldelse. Denne kombination giver modellen indbygget support til kontekstvinduer på op til en million tokens uden de hukommelsestab, der er typiske for rene attention-design.

Nvidia har også indbygget et LatentMoE-routing-system, der komprimerer token-indlejringer til et lavrang-rum, før de sendes til 512 eksperter pr. lag, hvor 22 aktiveres ad gangen. Virksomheden siger, at dette muliggør cirka fire gange flere eksperter til samme inferensomkostninger sammenlignet med standard MoE-tilgange og muliggør finere opgavespecialisering, såsom at adskille Python-logik fra SQL-håndtering på ekspertniveau.

Nvidia Releases Nemotron 3 Super, a 120B Open AI Model Built for Agentic Workloads
Billedkilde: Nvidia-blog.

Multi-Token Prediction-lag, der bruger to shared-weight-heads, fremskynder genereringen af tankekæder og muliggør native spekulativ afkodning. På strukturerede opgaver rapporterer Nvidia om op til tre gange hurtigere generering.

Modellen blev foruddannet på 25 billioner tokens fordelt på to faser. Den første fase anvendte 20 billioner tokens med bred data. Den anden anvendte fem billioner tokens af høj kvalitet, der var finjusteret til benchmark-ydeevne. En afsluttende udvidelsesfase på 51 milliarder tokens udvidede den indbyggede kontekst til en million tokens. Efteruddannelsen omfattede overvåget finjustering på cirka syv millioner prøver og forstærkningslæring på tværs af 21 miljøer med mere end 1,2 millioner udrulninger.

I benchmarks scorede Nemotron 3 Super 83,73 på MMLU-Pro, 90,21 på AIME25 og 60,47 på SWE-Bench ved brug af OpenHands. På PinchBench nåede den 85,6 procent, hvilket er den højeste rapporterede score blandt åbne modeller i sin klasse. Ved evaluering af lang kontekst scorede den 91,64 på RULER 1M.

Sammenlignet med GPT-OSS-120B leverer Nemotron 3 Super 2,2 gange så stor gennemstrømning ved 8k input og 64k output. I forhold til Qwen3.5-122B-A10B når dette tal op på 7,5 gange. Nvidia rapporterer også mere end fem gange så høj gennemstrømning og op til dobbelt så høj nøjagtighed i forhold til den forrige Nemotron Super-generation.

Nvidia har trænet modellen end-to-end i sit NVFP4 fire-bit flydende komma-format, der er optimeret til Blackwell GPU'er. På B200-hardware siger Nvidia, at inferens kører op til fire gange hurtigere sammenlignet med FP8 på H100 uden rapporteret tab af nøjagtighed. Kvantiserede FP8- og NVFP4-checkpoints bevarer 99,8 procent eller mere af nøjagtigheden ved fuld præcision.

Modellen driver også Nvidia AI-Q-forskningsagenten, som nåede førstepladsen på Deepresearch Bench-leaderboardet.

Nvidia støtter Nebius’ planer om en AI-fabrik med en massiv investering på 2 milliarder dollar

Nvidia støtter Nebius’ planer om en AI-fabrik med en massiv investering på 2 milliarder dollar

Se, hvordan Nvidia er med til at forme fremtidens databehandling med en investering på 2 milliarder dollar i AI-cloudinfrastruktur. read more.

Læs nu

Nemotron 3 Super er fuldt åben under Nvidia Nemotron Open Model License. Checkpoints i BF16-, FP8- og NVFP4-formater samt fortræningsdata, eftertræningsprøver og forstærkningslæringsmiljøer er tilgængelige på Hugging Face. Inferens understøttes via Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure og Coreweave, med on-premises-muligheder via Dell Enterprise Hub og HPE.

Udviklere kan få adgang til træningsopskrifter, finjusteringsvejledninger og inferens-kogebøger via NeMo-platformen ved hjælp af vLLM, SGLang og TensorRT-LLM.