Nvidia je predstavila Nemotron 3 Super, odprti hibridni model s skupno 120 milijardami parametrov, zasnovan za zmanjšanje stroškov računalniške obdelave pri izvajanju agentov umetne inteligence (AI) v velikem obsegu.
Nvidia je predstavila Nemotron 3 Super, model odprte umetne inteligence z 120 milijardami parametrov, zasnovan za agenske delovne obremenitve

Ključne ugotovitve:
- Nvidia je predstavila Nemotron 3 Super, odprti model MoE s 120 milijardami parametrov, ki v vsakem naprednem prehodu aktivira le 12,7 milijarde parametrov.
- Nemotron 3 Super zagotavlja do 7,5-krat večjo prepustnost kot Qwen3.5-122B-A10B pri delovnih obremenitvah agentov v nastavitvah 8k-in/64k-out.
- Model je v celoti odprt v skladu z licenco Nvidia Nemotron Open Model License, s kontrolnimi točkami in podatki za usposabljanje na Hugging Face.
Nvidia predstavlja Nemotron 3 Super s 7,5-kratno povečano prepustnostjo v primerjavi z Qwen3.5-122B
Najnovejši model Nvidie aktivira le 12,7 milijarde parametrov na posredni prehod z uporabo arhitekture Mixture-of-Experts (MoE), kar pomeni, da večina njegove teže ostane neaktivna med sklepanjem. Ta izbira zasnove neposredno cilja na dva problema, s katerima se razvijalci srečujejo pri uvajanju večstopenjskih AI-agentov: dodatne stroške podaljšanih verig sklepanja in eksplozivno povečanje porabe tokenov, ki se lahko v večagentskih poteh pomnoži do 15-krat.
Nemotron 3 Super je drugi model v družini Nemotron 3 podjetja Nvidia, ki sledi modelu Nemotron 3 Nano iz decembra 2025. Nvidia je izid napovedala okoli 10. marca 2026.
Model uporablja hibridno hrbtenico Mamba-Transformer v 88 slojih. Bloki Mamba-2 obdelujejo dolge zaporedja z učinkovitostjo linearne časa, medtem ko sloji pozornosti Transformer ohranjajo natančen priklic. Ta kombinacija modelu omogoča nativno podporo za kontekstna okna do milijona tokenov brez izgub pomnilnika, ki so značilne za zasnove s čisto pozornostjo.
Nvidia je vgradila tudi usmerjevalni sistem LatentMoE, ki stisne vgrajene tokene v prostor nizkega ranga, preden jih pošlje 512 strokovnjakom na plast, pri čemer aktivira 22 naenkrat. Podjetje pravi, da to omogoča približno štirikrat več strokovnjakov ob enakih stroških sklepanja v primerjavi s standardnimi pristopi MoE ter omogoča natančnejšo specializacijo nalog, kot je ločevanje logike Python od obdelave SQL na strokovni ravni.

Sloji za napovedovanje več tokenov, ki uporabljajo dve glavi s skupno težo, pospešijo generiranje verige misli in omogočajo nativno spekulativno dekodiranje. Pri strukturiranih nalogah Nvidia poroča o do trikrat hitrejši generaciji.
Model je bil predhodno usposobljen na 25 bilijonih tokenov v dveh fazah. V prvi fazi je bilo uporabljenih 20 bilijonov tokenov splošnih podatkov. V drugi fazi je bilo uporabljenih pet bilijonov visokokakovostnih tokenov, prilagojenih za primerjalno zmogljivost. Končna razširitvena faza na 51 milijardah tokenov je razširila nativni kontekst na milijon tokenov. Po usposabljanju je bilo izvedeno nadzorovano natančno prilagajanje na približno sedmih milijonih vzorcev in učenje s krepitvijo v 21 okoljih z več kot 1,2 milijona izvedb.
V primerjalnih testih je Nemotron 3 Super dosegel 83,73 točk na MMLU-Pro, 90,21 na AIME25 in 60,47 na SWE-Bench z uporabo OpenHands. Na PinchBench je dosegel 85,6 odstotka, kar je najvišji zabeležen rezultat med odprtimi modeli v svojem razredu. Pri ocenjevanju dolgih kontekstov je dosegel 91,64 točk na RULER 1M.
V primerjavi z GPT-OSS-120B Nemotron 3 Super zagotavlja 2,2-krat večjo prepustnost pri 8k vhodnih in 64k izhodnih podatkih. V primerjavi z Qwen3.5-122B-A10B ta številka doseže 7,5-kratno vrednost. Nvidia poroča tudi o več kot petkratni prepustnosti in do dvakratni natančnosti v primerjavi s prejšnjo generacijo Nemotron Super.
Nvidia je model usposobila od začetka do konca v svojem štiribitnem formatu s plavajočo vejico NVFP4, optimiziranem za grafične procesorje Blackwell. Na stroju B200 Nvidia navaja, da sklepanje poteka do štirikrat hitreje v primerjavi z FP8 na H100, pri čemer ni poročanih izgub natančnosti. Kvantizirani kontrolni točki FP8 in NVFP4 ohranjajo 99,8 odstotka ali več natančnosti s polno natančnostjo.
Model poganja tudi raziskovalnega agenta Nvidia AI-Q, ki je dosegel prvo mesto na lestvici Deepresearch Bench.

Nvidia podpira načrte podjetja Nebius AI Factory z ogromno naložbo v višini 2 milijard dolarjev
Preberite, kako podjetje Nvidia s 2-milijardno naložbo v infrastrukturo umetne inteligence v oblaku preoblikuje prihodnost računalništva. read more.
Preberi zdaj
Nvidia podpira načrte podjetja Nebius AI Factory z ogromno naložbo v višini 2 milijard dolarjev
Preberite, kako podjetje Nvidia s 2-milijardno naložbo v infrastrukturo umetne inteligence v oblaku preoblikuje prihodnost računalništva. read more.
Preberi zdaj
Nvidia podpira načrte podjetja Nebius AI Factory z ogromno naložbo v višini 2 milijard dolarjev
Preberi zdajPreberite, kako podjetje Nvidia s 2-milijardno naložbo v infrastrukturo umetne inteligence v oblaku preoblikuje prihodnost računalništva. read more.
Nemotron 3 Super je v celoti odprt pod licenco Nvidia Nemotron Open Model License. Kontrolne točke v formatih BF16, FP8 in NVFP4, skupaj s podatki za predhodno usposabljanje, vzorci po usposabljanju in okolji za učenje s krepitvijo, so na voljo na Hugging Face. Sklepanje je podprto prek Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure in Coreweave, z možnostmi na lokaciji prek Dell Enterprise Hub in HPE.
Razvijalci lahko dostopajo do receptov za usposabljanje, vodnikov za natančno nastavitev in priročnikov za sklepanje prek platforme NeMo z uporabo vLLM, SGLang in TensorRT-LLM.














