Nvidia har släppt Nemotron 3 Super, en öppen hybridmodell med totalt 120 miljarder parametrar som är utformad för att sänka beräkningskostnaden för att köra AI-agenter i stor skala.
Nvidia lanserar Nemotron 3 Super, en OpenAI-modell med 120 miljarder parametrar utvecklad för agentbaserade arbetsbelastningar

Huvudpunkter:
- Nvidia har släppt Nemotron 3 Super, en öppen MoE-modell med 120 miljarder parametrar som endast aktiverar 12,7 miljarder parametrar per framåtpass.
- Nemotron 3 Super levererar upp till 7,5 gånger högre genomströmning än Qwen3.5-122B-A10B i agentarbetsbelastningar med inställningarna 8k-in/64k-out.
- Modellen är helt öppen under Nvidia Nemotron Open Model License, med kontrollpunkter och träningsdata på Hugging Face.
Nvidia lanserar Nemotron 3 Super med 7,5 gånger högre genomströmning än Qwen3.5-122B
Den senaste Nvidia-modellen aktiverar endast 12,7 miljarder parametrar per framåtpass med hjälp av en Mixture-of-Experts (MoE)-arkitektur, vilket innebär att större delen av dess vikt förblir inaktiv under inferens. Det designvalet riktar sig direkt mot två problem som utvecklare stöter på när de implementerar flerstegs-AI–agenter: den extra kostnaden för utökade resonemangskedjor och den exploderande tokenanvändningen som kan multipliceras upp till 15 gånger i multiagent-pipelines.
Nemotron 3 Super är den andra modellen i Nvidias Nemotron 3-familj, efter Nemotron 3 Nano från december 2025. Nvidia tillkännagav lanseringen omkring den 10 mars 2026.
Modellen använder en hybrid Mamba-Transformer-backbone över 88 lager. Mamba-2-block hanterar långa sekvenser med linjär tidseffektivitet, medan Transformer-uppmärksamhetslager bevarar exakt återkallning. Den kombinationen ger modellen inbyggt stöd för kontextfönster på upp till en miljon token utan de minnesförluster som är typiska för rena uppmärksamhetsdesign.
Nvidia har också byggt in ett LatentMoE-routingsystem som komprimerar token-inbäddningar till ett lågrankat utrymme innan de skickas till 512 experter per lager, varav 22 aktiveras åt gången. Företaget säger att detta möjliggör ungefär fyra gånger fler experter till samma inferenskostnad jämfört med standard-MoE-metoder, och möjliggör finare uppgiftsspecialisering, såsom att separera Python-logik från SQL-hantering på expertnivå.

Multi-Token Prediction-lager, som använder två huvuden med delade vikter, påskyndar genereringen av tankekedjor och möjliggör inbyggd spekulativ avkodning. Vid strukturerade uppgifter rapporterar Nvidia upp till tre gånger snabbare generering.
Modellen förtränades på 25 biljoner token i två faser. Den första fasen använde 20 biljoner token med bred data. Den andra använde fem biljoner högkvalitativa token anpassade för benchmarkprestanda. En slutlig utvidgningsfas på 51 miljarder token utökade det inbyggda sammanhanget till en miljon token. Efterträningen inkluderade övervakad finjustering på ungefär sju miljoner prov och förstärkningsinlärning i 21 miljöer med mer än 1,2 miljoner lanseringar.
I benchmark-tester fick Nemotron 3 Super 83,73 på MMLU-Pro, 90,21 på AIME25 och 60,47 på SWE-Bench med OpenHands. På PinchBench nådde den 85,6 procent, det högsta rapporterade resultatet bland öppna modeller i sin klass. Vid utvärdering av långa sammanhang fick den 91,64 på RULER 1M.
Jämfört med GPT-OSS-120B levererar Nemotron 3 Super 2,2 gånger så hög genomströmning vid 8k ingång och 64k utgång. Jämfört med Qwen3.5-122B-A10B når den siffran 7,5 gånger. Nvidia rapporterar också mer än fem gånger så hög genomströmning och upp till dubbelt så hög noggrannhet jämfört med den tidigare generationen Nemotron Super.
Nvidia tränade modellen end-to-end i sitt NVFP4-format med fyra bitar flyttal, optimerat för Blackwell-GPU:er. På B200-hårdvara säger Nvidia att inferens körs upp till fyra gånger snabbare jämfört med FP8 på H100 utan rapporterad noggrannhetsförlust. Kvantiserade FP8- och NVFP4-kontrollpunkter behåller 99,8 procent eller mer av fullprecisionsnoggrannheten.
Modellen driver också Nvidia AI-Q-forskningsagenten, som nådde topplaceringen på Deepresearch Bench-rankingen.

Nvidia stöder Nebius planer på en AI-fabrik med en massiv investering på 2 miljarder dollar
Upptäck hur Nvidia omformar datorbranschens framtid genom en investering på 2 miljarder dollar i molnbaserad AI-infrastruktur. read more.
Läs nu
Nvidia stöder Nebius planer på en AI-fabrik med en massiv investering på 2 miljarder dollar
Upptäck hur Nvidia omformar datorbranschens framtid genom en investering på 2 miljarder dollar i molnbaserad AI-infrastruktur. read more.
Läs nu
Nvidia stöder Nebius planer på en AI-fabrik med en massiv investering på 2 miljarder dollar
Läs nuUpptäck hur Nvidia omformar datorbranschens framtid genom en investering på 2 miljarder dollar i molnbaserad AI-infrastruktur. read more.
Nemotron 3 Super är helt öppen under Nvidia Nemotron Open Model License. Kontrollpunkter i BF16-, FP8- och NVFP4-format, tillsammans med förträningsdata, efterträningsprov och förstärkningsinlärningsmiljöer, finns tillgängliga på Hugging Face. Inferens stöds via Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure och Coreweave, med lokala alternativ via Dell Enterprise Hub och HPE.
Utvecklare kan få tillgång till träningsrecept, finjusteringsguider och inferenskokböcker via NeMo-plattformen med hjälp av vLLM, SGLang och TensorRT-LLM.














