Nvidia je objavila Nemotron 3 Super, otvoreni hibridni model s ukupno 120 milijardi parametara, osmišljen za smanjenje troškova računalnih resursa pri pokretanju agenata umjetne inteligencije (AI) u velikom opsegu.
Nvidia objavljuje Nemotron 3 Super, otvoreni AI model od 120B izgrađen za agentička opterećenja

Ključne poruke:
- Nvidia je objavila Nemotron 3 Super, otvoreni MoE model sa 120 mlrd. parametara koji aktivira samo 12,7 mlrd. parametara po jednom prolazu unaprijed.
- Nemotron 3 Super postiže do 7,5x veću propusnost od Qwen3.5-122B-A10B u agentskim radnim opterećenjima pri postavkama 8k ulaz / 64k izlaz.
- Model je u potpunosti otvoren pod licencom Nvidia Nemotron Open Model License, a kontrolne točke i podaci za treniranje dostupni su na Hugging Faceu.
Nvidia lansira Nemotron 3 Super uz 7,5x povećanje propusnosti u odnosu na Qwen3.5-122B
Najnoviji Nvidijin model aktivira samo 12,7 milijardi parametara po jednom prolazu unaprijed koristeći arhitekturu Mixture-of-Experts (MoE), što znači da većina njegove težine ostaje neaktivna tijekom izvođenja (inference). Taj dizajnerski izbor izravno cilja dva problema na koja developeri nailaze pri implementaciji višekoračnih AI agenata: dodatni trošak produljenih lanaca zaključivanja i rastuću potrošnju tokena koja se u višagentskim pipelineovima može uvećati i do 15 puta.
Nemotron 3 Super drugi je model u Nvidijinoj obitelji Nemotron 3, nakon Nemotron 3 Nano iz prosinca 2025. Nvidia je najavila izdanje oko 10. ožujka 2026.
Model koristi hibridnu Mamba-Transformer okosnicu kroz 88 slojeva. Blokovi Mamba-2 obrađuju duge sekvence uz učinkovitost linearnog vremena, dok slojevi Transformer pažnje čuvaju precizno prisjećanje. Ta kombinacija modelu daje nativnu podršku za kontekstne prozore do milijun tokena bez memorijskih kazni tipičnih za dizajne koji se oslanjaju isključivo na pažnju.
Nvidia je također ugradila sustav usmjeravanja LatentMoE koji komprimira ugradnje tokena u niskorangni prostor prije slanja na 512 eksperata po sloju, pri čemu se aktivira 22 odjednom. Tvrtka navodi da to omogućuje otprilike četiri puta više eksperata uz isti trošak izvođenja u usporedbi sa standardnim MoE pristupima te omogućuje finiju specijalizaciju zadataka, primjerice odvajanje Python logike od SQL obrade na razini eksperata.

Slojevi predviđanja više tokena (Multi-Token Prediction), koji koriste dvije glave sa zajedničkim težinama, ubrzavaju generiranje lanca misli (chain-of-thought) i omogućuju nativno spekulativno dekodiranje. Na strukturiranim zadacima, Nvidia navodi do tri puta brže generiranje.
Model je prethodno treniran na 25 trilijuna tokena kroz dvije faze. Prva faza koristila je 20 trilijuna tokena širokog skupa podataka. Druga je koristila pet trilijuna visokokvalitetnih tokena podešenih za performanse na benchmarkovima. Završna faza proširenja na 51 milijardu tokena proširila je nativni kontekst na milijun tokena. Post-trening je uključivao nadzirano fino podešavanje na približno sedam milijuna uzoraka i učenje potkrepljenjem u 21 okruženju s više od 1,2 milijuna izvođenja (rollouts).
Na benchmarkovima, Nemotron 3 Super postigao je 83,73 na MMLU-Pro, 90,21 na AIME25 i 60,47 na SWE-Bench koristeći OpenHands. Na PinchBenchu dosegnuo je 85,6 posto, što je najviši prijavljeni rezultat među otvorenim modelima u svojoj klasi. Na evaluaciji dugog konteksta postigao je 91,64 na RULER 1M.
U usporedbi s GPT-OSS-120B, Nemotron 3 Super pruža 2,2 puta veću propusnost pri 8k ulaza i 64k izlaza. U odnosu na Qwen3.5-122B-A10B, ta brojka doseže 7,5 puta. Nvidia također navodi više od pet puta veću propusnost i do dva puta veću točnost u odnosu na prethodnu generaciju Nemotron Super.
Nvidia je trenirala model od početka do kraja u svom NVFP4 četverobitnom formatu s pomičnim zarezom, optimiziranom za Blackwell GPU-ove. Na B200 hardveru, Nvidia navodi da se izvođenje odvija do četiri puta brže u usporedbi s FP8 na H100 bez prijavljenog gubitka točnosti. Kvantizirane FP8 i NVFP4 kontrolne točke zadržavaju 99,8 posto ili više točnosti u odnosu na punu preciznost.
Model također pokreće istraživačkog agenta Nvidia AI-Q, koji je dosegnuo prvo mjesto na ljestvici Deepresearch Bench.

Nvidia pokreće planove Nebiusove AI tvornice uz golemo ulaganje od 2 milijarde dolara
Istražite kako Nvidia preoblikuje budućnost računalstva uz ulaganje od 2 milijarde dolara u AI cloud infrastrukturu. read more.
Pročitaj
Nvidia pokreće planove Nebiusove AI tvornice uz golemo ulaganje od 2 milijarde dolara
Istražite kako Nvidia preoblikuje budućnost računalstva uz ulaganje od 2 milijarde dolara u AI cloud infrastrukturu. read more.
Pročitaj
Nvidia pokreće planove Nebiusove AI tvornice uz golemo ulaganje od 2 milijarde dolara
PročitajIstražite kako Nvidia preoblikuje budućnost računalstva uz ulaganje od 2 milijarde dolara u AI cloud infrastrukturu. read more.
Nemotron 3 Super u potpunosti je otvoren pod licencom Nvidia Nemotron Open Model License. Kontrolne točke u formatima BF16, FP8 i NVFP4, zajedno s podacima za pre-trening, uzorcima za post-trening i okruženjima za učenje potkrepljenjem, dostupne su na Hugging Faceu. Izvođenje je podržano putem Nvidia NIM-a, build.nvidia.com, Perplexityja, Openroutera, Together AI-ja, Google Clouda, AWS-a, Azurea i Coreweavea, uz lokalne (on-premises) opcije kroz Dell Enterprise Hub i HPE.
Developeri mogu pristupiti receptima za treniranje, vodičima za fino podešavanje i priručnicima za izvođenje putem platforme NeMo koristeći vLLM, SGLang i TensorRT-LLM.














