Drevet av
News

Nvidia lanserer Nemotron 3 Super, en åpen AI-modell på 120B bygget for agentbaserte arbeidsbelastninger

Nvidia har lansert Nemotron 3 Super, en åpen hybridmodell med totalt 120 milliarder parametere, utviklet for å kutte beregningskostnaden ved å kjøre kunstig intelligens (AI)-agenter i stor skala.

SKREVET AV
DEL
Nvidia lanserer Nemotron 3 Super, en åpen AI-modell på 120B bygget for agentbaserte arbeidsbelastninger

Viktige poenger:

  • Nvidia lanserte Nemotron 3 Super, en åpen MoE-modell med 120B parametere som aktiverer kun 12,7B parametere per forward pass.
  • Nemotron 3 Super leverer opptil 7,5x høyere gjennomstrømning enn Qwen3.5-122B-A10B i agent-arbeidslaster med 8k-inn/64k-ut-innstillinger.
  • Modellen er fullt åpen under Nvidia Nemotron Open Model License, med sjekkpunkter og treningsdata på Hugging Face.

Nvidia lanserer Nemotron 3 Super med 7,5x gjennomstrømningsgevinst over Qwen3.5-122B

Den nyeste Nvidia-modellen aktiverer kun 12,7 milliarder parametere per forward pass ved å bruke en Mixture-of-Experts (MoE)-arkitektur, noe som betyr at mesteparten av vektene forblir inaktive under inferens. Dette designvalget retter seg direkte mot to problemer utviklere møter når de ruller ut flertrinns AI-agenter: den økte kostnaden ved utvidede resonneringskjeder og den oppblåste tokenbruken som kan mangedobles opptil 15 ganger i multi-agent-pipelines.

Nemotron 3 Super er den andre modellen i Nvidias Nemotron 3-familie, etter Nemotron 3 Nano fra desember 2025. Nvidia annonserte lanseringen rundt 10. mars 2026.

Modellen bruker en hybrid Mamba-Transformer-ryggrad på tvers av 88 lag. Mamba-2-blokker håndterer lange sekvenser med lineær tids-effektivitet, mens Transformer-oppmerksomhetslag bevarer presis gjenkalling. Den kombinasjonen gir modellen innebygd støtte for kontekstvinduer på opptil én million tokens uten minnestraffene som er typiske for rene oppmerksomhetsdesign.

Nvidia har også bygget inn et LatentMoE-rutingsystem som komprimerer token-embeddings til et lavrangert rom før de sendes til 512 eksperter per lag, hvor 22 aktiveres om gangen. Selskapet sier dette muliggjør omtrent fire ganger flere eksperter til samme inferenskostnad sammenlignet med standard MoE-tilnærminger, og åpner for finere oppgavespesialisering, som å skille Python-logikk fra SQL-håndtering på ekspertnivå.

Nvidia Releases Nemotron 3 Super, a 120B Open AI Model Built for Agentic Workloads
Bildekilde: Nvidia-bloggen.

Multi-Token Prediction-lag, som bruker to hoder med delte vekter, øker hastigheten på chain-of-thought-generering og muliggjør innebygd spekulativ dekoding. På strukturerte oppgaver rapporterer Nvidia opptil tre ganger raskere generering.

Modellen ble forhåndstrent på 25 billioner tokens over to faser. Den første fasen brukte 20 billioner tokens med bredt datagrunnlag. Den andre brukte fem billioner tokens av høy kvalitet, justert for ytelse på benchmark-tester. En siste utvidelsesfase på 51 milliarder tokens utvidet innebygd kontekst til én million tokens. Ettertrening inkluderte veiledet finjustering på rundt sju millioner eksempler og forsterkningslæring på tvers av 21 miljøer med mer enn 1,2 millioner utrullinger.

I benchmark-tester scoret Nemotron 3 Super 83,73 på MMLU-Pro, 90,21 på AIME25 og 60,47 på SWE-Bench ved bruk av OpenHands. På PinchBench nådde den 85,6 prosent, den høyeste rapporterte scoren blant åpne modeller i sin klasse. På evaluering av lang kontekst scoret den 91,64 på RULER 1M.

Sammenlignet med GPT-OSS-120B leverer Nemotron 3 Super 2,2 ganger gjennomstrømningen ved 8k input og 64k output. Mot Qwen3.5-122B-A10B når tallet 7,5 ganger. Nvidia rapporterer også mer enn fem ganger gjennomstrømningen og opptil to ganger nøyaktigheten sammenlignet med forrige generasjon Nemotron Super.

Nvidia trente modellen ende-til-ende i sitt NVFP4-firebit flyttallsformat, optimalisert for Blackwell-GPU-er. På B200-maskinvare sier Nvidia at inferens kjører opptil fire ganger raskere sammenlignet med FP8 på H100 uten rapportert tap av nøyaktighet. Kvantiserte FP8- og NVFP4-sjekkpunkter beholder 99,8 prosent eller mer av fullpresisjonsnøyaktigheten.

Modellen driver også Nvidia AI-Q-forskningsagenten, som nådde toppplassen på Deepresearch Bench-ledertavlen.

Nvidia driver Nebius AI Factory-planer med en massiv investering på 2 milliarder dollar

Nvidia driver Nebius AI Factory-planer med en massiv investering på 2 milliarder dollar

Utforsk hvordan Nvidia omformer fremtiden for databehandling med en investering på 2 milliarder dollar i AI-skyinfrastruktur. read more.

Les nå

Nemotron 3 Super er fullt åpen under Nvidia Nemotron Open Model License. Sjekkpunkter i BF16-, FP8- og NVFP4-formater, sammen med forhåndstreningsdata, ettertreningsprøver og miljøer for forsterkningslæring, er tilgjengelige på Hugging Face. Inferens støttes via Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure og Coreweave, med lokale alternativer via Dell Enterprise Hub og HPE.

Utviklere kan få tilgang til treningsoppskrifter, finjusteringsguider og inferens-kokebøker gjennom NeMo-plattformen ved bruk av vLLM, SGLang og TensorRT-LLM.

Tags i denne artikkelen