Nvidia heeft Nemotron 3 Super uitgebracht, een open hybride model met in totaal 120 miljard parameters dat is ontworpen om de rekenkosten van het op grote schaal uitvoeren van kunstmatige intelligentie (AI)-agenten te verlagen.
Nvidia brengt Nemotron 3 Super uit, een OpenAI-model met 120 miljard parameters dat is ontwikkeld voor agentgebaseerde taken

Belangrijkste punten:
- Nvidia heeft Nemotron 3 Super uitgebracht, een open MoE-model met 120 miljard parameters dat slechts 12,7 miljard parameters per forward pass activeert.
- Nemotron 3 Super levert tot 7,5 keer meer doorvoer dan Qwen3.5-122B-A10B bij agent-workloads met instellingen van 8k-in/64k-out.
- Het model is volledig open onder de Nvidia Nemotron Open Model License, met checkpoints en trainingsdata op Hugging Face.
Nvidia lanceert Nemotron 3 Super met 7,5x hogere doorvoer dan Qwen3.5-122B
Het nieuwste Nvidia-model activeert slechts 12,7 miljard parameters per forward pass met behulp van een Mixture-of-Experts (MoE)-architectuur, wat betekent dat het grootste deel van het gewicht inactief blijft tijdens de inferentie. Die ontwerpkeuze pakt direct twee problemen aan waarmee ontwikkelaars te maken krijgen bij het implementeren van AI-agenten met meerdere stappen: de extra kosten van uitgebreide redeneringsketens en het explosief stijgende tokengebruik dat tot 15 keer kan toenemen in pijplijnen met meerdere agenten.
Nemotron 3 Super is het tweede model in de Nemotron 3-familie van Nvidia, na Nemotron 3 Nano uit december 2025. Nvidia kondigde de release rond 10 maart 2026 aan.
Het model maakt gebruik van een hybride Mamba-Transformer-backbone over 88 lagen. Mamba-2-blokken verwerken lange sequenties met lineaire tijdsefficiëntie, terwijl Transformer-aandachtslagen een nauwkeurige recall behouden. Die combinatie geeft het model native ondersteuning voor contextvensters tot een miljoen tokens zonder de geheugenbeperkingen die typisch zijn voor pure-attention-ontwerpen.
Nvidia heeft ook een LatentMoE-routeringssysteem ingebouwd dat token-embeddings comprimeert tot een low-rank ruimte voordat ze naar 512 experts per laag worden gestuurd, waarbij er 22 tegelijk worden geactiveerd. Het bedrijf zegt dat dit ongeveer vier keer meer experts mogelijk maakt tegen dezelfde inferentiekosten in vergelijking met standaard MoE-benaderingen, en dat het fijnere taakspecialisatie mogelijk maakt, zoals het scheiden van Python-logica van SQL-verwerking op expertniveau.

Multi-Token Prediction-lagen, die gebruikmaken van twee heads met gedeelde gewichten, versnellen het genereren van gedachteketens en maken native speculatieve decodering mogelijk. Bij gestructureerde taken rapporteert Nvidia een tot drie keer snellere generatie.
Het model werd vooraf getraind op 25 biljoen tokens in twee fasen. In de eerste fase werden 20 biljoen tokens met brede data gebruikt. In de tweede fase werden vijf biljoen hoogwaardige tokens gebruikt die waren afgestemd op benchmarkprestaties. Een laatste uitbreidingsfase op 51 miljard tokens breidde de native context uit tot één miljoen tokens. De post-training omvatte supervised fine-tuning op ongeveer zeven miljoen samples en reinforcement learning in 21 omgevingen met meer dan 1,2 miljoen rollouts.
In benchmarks scoorde Nemotron 3 Super 83,73 op MMLU-Pro, 90,21 op AIME25 en 60,47 op SWE-Bench met behulp van OpenHands. Op PinchBench bereikte het 85,6 procent, de hoogste gerapporteerde score onder open modellen in zijn klasse. Bij evaluatie met lange context scoorde het 91,64 op RULER 1M.
In vergelijking met GPT-OSS-120B levert Nemotron 3 Super 2,2 keer de doorvoer bij 8k input en 64k output. Ten opzichte van Qwen3.5-122B-A10B loopt dat cijfer op tot 7,5 keer. Nvidia meldt ook een meer dan vijf keer zo hoge doorvoer en tot twee keer zo hoge nauwkeurigheid ten opzichte van de vorige Nemotron Super-generatie.
Nvidia heeft het model end-to-end getraind in zijn NVFP4 vier-bits drijvende-kommagetalformaat, geoptimaliseerd voor Blackwell GPU's. Op B200-hardware zegt Nvidia dat inferentie tot vier keer sneller verloopt in vergelijking met FP8 op H100, zonder dat er een verlies aan nauwkeurigheid wordt gemeld. Gekwantiseerde FP8- en NVFP4-checkpoints behouden 99,8 procent of meer van de volledige precisienauwkeurigheid.
Het model drijft ook de Nvidia AI-Q-onderzoeksagent aan, die de toppositie bereikte op het Deepresearch Bench-klassement.

Nvidia ondersteunt de plannen voor de Nebius AI-fabriek met een enorme investering van 2 miljard dollar
Ontdek hoe Nvidia de toekomst van de informatica vormgeeft met een investering van 2 miljard dollar in AI-cloudinfrastructuur. read more.
Lees nu
Nvidia ondersteunt de plannen voor de Nebius AI-fabriek met een enorme investering van 2 miljard dollar
Ontdek hoe Nvidia de toekomst van de informatica vormgeeft met een investering van 2 miljard dollar in AI-cloudinfrastructuur. read more.
Lees nu
Nvidia ondersteunt de plannen voor de Nebius AI-fabriek met een enorme investering van 2 miljard dollar
Lees nuOntdek hoe Nvidia de toekomst van de informatica vormgeeft met een investering van 2 miljard dollar in AI-cloudinfrastructuur. read more.
Nemotron 3 Super is volledig open onder de Nvidia Nemotron Open Model License. Checkpoints in BF16-, FP8- en NVFP4-formaten, samen met pre-traininggegevens, post-trainingvoorbeelden en reinforcement learning-omgevingen, zijn beschikbaar op Hugging Face. Inferentie wordt ondersteund via Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure en Coreweave, met on-premises opties via Dell Enterprise Hub en HPE.
Ontwikkelaars hebben via het NeMo-platform toegang tot trainingsrecepten, handleidingen voor fijnafstemming en inferentie-kookboeken met behulp van vLLM, SGLang en TensorRT-LLM.














