Nvidia a lansat Nemotron 3 Super, un model hibrid deschis cu un total de 120 de miliarde de parametri, conceput pentru a reduce costurile de calcul asociate rulării agenților de inteligență artificială (IA) la scară largă.
Nvidia lansează Nemotron 3 Super, un model OpenAI de 120 de miliarde de parametri conceput pentru sarcini de tip agentic

Puncte cheie:
- Nvidia a lansat Nemotron 3 Super, un model MoE deschis cu 120 de miliarde de parametri, care activează doar 12,7 miliarde de parametri pe fiecare trecere înainte.
- Nemotron 3 Super oferă un randament de până la 7,5 ori mai mare decât Qwen3.5-122B-A10B în sarcinile de lucru ale agenților, în configurații de 8k intrări/64k ieșiri.
- Modelul este complet deschis sub licența Nvidia Nemotron Open Model License, cu puncte de control și date de antrenament pe Hugging Face.
Nvidia lansează Nemotron 3 Super cu un randament de 7,5 ori mai mare decât Qwen3.5-122B
Cel mai recent model Nvidia activează doar 12,7 miliarde de parametri pe trecere directă folosind o arhitectură Mixture-of-Experts (MoE), ceea ce înseamnă că cea mai mare parte a greutății sale rămâne inactivă în timpul inferenței. Această alegere de proiectare vizează direct două probleme cu care se confruntă dezvoltatorii atunci când implementează agenți AI în mai mulți pași: costul suplimentar al lanțurilor de raționament extinse și utilizarea în creștere a token-urilor, care se poate multiplica de până la 15 ori în pipeline-urile multi-agent.
Nemotron 3 Super este al doilea model din familia Nemotron 3 a Nvidia, după Nemotron 3 Nano din decembrie 2025. Nvidia a anunțat lansarea în jurul datei de 10 martie 2026.
Modelul utilizează o structură hibridă Mamba-Transformer pe 88 de straturi. Blocurile Mamba-2 gestionează secvențe lungi cu eficiență liniară, în timp ce straturile de atenție Transformer păstrează o reamintire precisă. Această combinație oferă modelului suport nativ pentru ferestre de context de până la un milion de tokenuri, fără penalizările de memorie tipice proiectelor cu atenție pură.
Nvidia a integrat, de asemenea, un sistem de rutare LatentMoE care comprimă încorporările de tokenuri într-un spațiu de rang inferior înainte de a le trimite către 512 experți pe strat, activând 22 simultan. Compania afirmă că acest lucru permite aproximativ de patru ori mai mulți experți la același cost de inferență în comparație cu abordările MoE standard și permite o specializare mai fină a sarcinilor, cum ar fi separarea logicii Python de gestionarea SQL la nivel de expert.

Straturile de predicție multi-token, care utilizează două capete cu greutate partajată, accelerează generarea lanțului de gândire și permit decodarea speculativă nativă. În cazul sarcinilor structurate, Nvidia raportează o generare de până la trei ori mai rapidă.
Modelul a fost pre-antrenat pe 25 de trilioane de tokenuri în două faze. Prima fază a utilizat 20 de trilioane de tokenuri de date generale. A doua a utilizat cinci trilioane de tokenuri de înaltă calitate, optimizate pentru performanța de referință. O fază finală de extindere pe 51 de miliarde de tokenuri a extins contextul nativ la un milion de tokenuri. Post-antrenarea a inclus reglarea fină supravegheată pe aproximativ șapte milioane de eșantioane și învățare prin întărire în 21 de medii cu peste 1,2 milioane de rulări.
În testele de performanță, Nemotron 3 Super a obținut 83,73 la MMLU-Pro, 90,21 la AIME25 și 60,47 la SWE-Bench folosind OpenHands. La PinchBench, a atins 85,6%, cel mai mare scor raportat printre modelele deschise din clasa sa. La evaluarea contextului lung, a obținut un scor de 91,64 pe RULER 1M.
În comparație cu GPT-OSS-120B, Nemotron 3 Super oferă un debit de 2,2 ori mai mare la o intrare de 8k și o ieșire de 64k. Față de Qwen3.5-122B-A10B, această cifră ajunge la 7,5 ori. Nvidia raportează, de asemenea, un debit de peste cinci ori mai mare și o precizie de până la două ori mai mare față de generația anterioară Nemotron Super.
Nvidia a antrenat modelul end-to-end în formatul său NVFP4 cu virgulă mobilă pe patru biți, optimizat pentru GPU-urile Blackwell. Pe hardware-ul B200, Nvidia afirmă că inferența rulează de până la patru ori mai rapid comparativ cu FP8 pe H100, fără pierderi de precizie raportate. Punctele de control cuantificate FP8 și NVFP4 păstrează 99,8% sau mai mult din precizia de plină precizie.
Modelul alimentează, de asemenea, agentul de cercetare Nvidia AI-Q, care a atins prima poziție în clasamentul Deepresearch Bench.

Nvidia susține planurile Nebius privind fabrica de inteligență artificială printr-o investiție masivă de 2 miliarde de dolari
Aflați cum Nvidia remodelează viitorul informaticii printr-o investiție de 2 miliarde de dolari în infrastructura de cloud pentru inteligența artificială. read more.
Citește acum
Nvidia susține planurile Nebius privind fabrica de inteligență artificială printr-o investiție masivă de 2 miliarde de dolari
Aflați cum Nvidia remodelează viitorul informaticii printr-o investiție de 2 miliarde de dolari în infrastructura de cloud pentru inteligența artificială. read more.
Citește acum
Nvidia susține planurile Nebius privind fabrica de inteligență artificială printr-o investiție masivă de 2 miliarde de dolari
Citește acumAflați cum Nvidia remodelează viitorul informaticii printr-o investiție de 2 miliarde de dolari în infrastructura de cloud pentru inteligența artificială. read more.
Nemotron 3 Super este complet deschis sub licența Nvidia Nemotron Open Model. Punctele de control în formatele BF16, FP8 și NVFP4, împreună cu datele de pre-antrenare, eșantioanele post-antrenare și mediile de învățare prin întărire, sunt disponibile pe Hugging Face. Inferența este acceptată prin Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure și Coreweave, cu opțiuni locale prin Dell Enterprise Hub și HPE.
Dezvoltatorii pot accesa rețete de antrenament, ghiduri de reglare fină și ghiduri de inferență prin platforma NeMo folosind vLLM, SGLang și TensorRT-LLM.














