Offerto da
News

Nvidia lancia Nemotron 3 Super, un modello OpenAI da 120 miliardi di parametri progettato per carichi di lavoro agentici

Nvidia ha lanciato Nemotron 3 Super, un modello ibrido open source con 120 miliardi di parametri complessivi, progettato per ridurre i costi di calcolo legati all'esecuzione su larga scala di agenti di intelligenza artificiale (IA). Punti chiave:

SCRITTO DA
CONDIVIDI
Nvidia lancia Nemotron 3 Super, un modello OpenAI da 120 miliardi di parametri progettato per carichi di lavoro agentici
  • Nvidia ha rilasciato Nemotron 3 Super, un modello MoE aperto da 120 miliardi di parametri che attiva solo 12,7 miliardi di parametri per ogni passaggio in avanti.
  • Nemotron 3 Super offre un throughput fino a 7,5 volte superiore rispetto a Qwen3.5-122B-A10B nei carichi di lavoro degli agenti con impostazioni 8k-in/64k-out.
  • Il modello è completamente aperto sotto la licenza Nvidia Nemotron Open Model License, con checkpoint e dati di addestramento su Hugging Face.

Nvidia lancia Nemotron 3 Super con un aumento della produttività di 7,5 volte rispetto a Qwen3.5-122B

L'ultimo modello di Nvidia attiva solo 12,7 miliardi di parametri per ogni passaggio in avanti utilizzando un'architettura Mixture-of-Experts (MoE), il che significa che la maggior parte del suo peso rimane inattiva durante l'inferenza. Questa scelta progettuale affronta direttamente due problemi che gli sviluppatori incontrano quando implementano agenti AI a più fasi: il costo aggiuntivo delle catene di ragionamento estese e l'uso esponenziale dei token che può moltiplicarsi fino a 15 volte nelle pipeline multi-agente.

Nemotron 3 Super è il secondo modello della famiglia Nemotron 3 di Nvidia, dopo Nemotron 3 Nano del dicembre 2025. Nvidia ha annunciato il rilascio intorno al 10 marzo 2026.

Il modello utilizza un backbone ibrido Mamba-Transformer su 88 livelli. I blocchi Mamba-2 gestiscono lunghe sequenze con efficienza in tempo lineare, mentre i livelli di attenzione Transformer preservano un richiamo preciso. Questa combinazione offre al modello il supporto nativo per finestre di contesto fino a un milione di token senza le penalizzazioni di memoria tipiche dei progetti a pura attenzione.

Nvidia ha inoltre integrato un sistema di routing LatentMoE che comprime gli embedding dei token in uno spazio a basso rango prima di inviarli a 512 esperti per livello, attivandone 22 alla volta. L'azienda afferma che ciò consente di avere circa quattro volte più esperti a parità di costo di inferenza rispetto agli approcci MoE standard e permette una specializzazione più fine delle attività, come la separazione della logica Python dalla gestione SQL a livello di esperto.

Nvidia Releases Nemotron 3 Super, a 120B Open AI Model Built for Agentic Workloads
Fonte immagine: blog Nvidia.

I livelli di previsione multi-token, che utilizzano due teste a peso condiviso, accelerano la generazione della catena di pensiero e consentono la decodifica speculativa nativa. Su compiti strutturati, Nvidia riporta una generazione fino a tre volte più veloce.

Il modello è stato pre-addestrato su 25 trilioni di token in due fasi. La prima fase ha utilizzato 20 trilioni di token di dati generici. La seconda ha utilizzato cinque trilioni di token di alta qualità ottimizzati per le prestazioni di benchmark. Una fase finale di estensione su 51 miliardi di token ha esteso il contesto nativo a un milione di token. Il post-addestramento ha incluso una messa a punto supervisionata su circa sette milioni di campioni e l'apprendimento per rinforzo in 21 ambienti con oltre 1,2 milioni di rollout.

Nei benchmark, Nemotron 3 Super ha ottenuto un punteggio di 83,73 su MMLU-Pro, 90,21 su AIME25 e 60,47 su SWE-Bench utilizzando OpenHands. Su PinchBench ha raggiunto l'85,6%, il punteggio più alto registrato tra i modelli aperti della sua classe. Nella valutazione a contesto lungo, ha ottenuto un punteggio di 91,64 su RULER 1M. Rispetto a GPT-OSS-120B, Nemotron 3 Super offre una velocità di elaborazione 2,2 volte superiore con 8k di input e 64k di output. Rispetto a Qwen3.5-122B-A10B, tale cifra raggiunge un valore 7,5 volte superiore. Nvidia riporta inoltre un throughput più di cinque volte superiore e una precisione fino a due volte superiore rispetto alla precedente generazione Nemotron Super. Nvidia ha addestrato il modello end-to-end nel proprio formato a virgola mobile a quattro bit NVFP4, ottimizzato per le GPU Blackwell. Sull'hardware B200, Nvidia afferma che l'inferenza è fino a quattro volte più veloce rispetto all'FP8 su H100 senza alcuna perdita di precisione segnalata. I checkpoint quantizzati FP8 e NVFP4 mantengono il 99,8% o più della precisione a piena precisione. Il modello alimenta anche l'agente di ricerca Nvidia AI-Q, che ha raggiunto la prima posizione nella classifica di Deepresearch Bench.

Nvidia sostiene i piani di Nebius per la creazione di una "fabbrica di IA" con un ingente investimento di 2 miliardi di dollari

Nvidia sostiene i piani di Nebius per la creazione di una "fabbrica di IA" con un ingente investimento di 2 miliardi di dollari

Scopri come Nvidia sta ridefinendo il futuro dell'informatica con un investimento di 2 miliardi di dollari nell'infrastruttura cloud per l'intelligenza artificiale. read more.

Leggi ora

Nemotron 3 Super è completamente open source sotto la Nvidia Nemotron Open Model License. I checkpoint nei formati BF16, FP8 e NVFP4, insieme ai dati di pre-addestramento, ai campioni post-addestramento e agli ambienti di apprendimento per rinforzo, sono disponibili su Hugging Face. L'inferenza è supportata tramite Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure e Coreweave, con opzioni on-premise tramite Dell Enterprise Hub e HPE. Gli sviluppatori possono accedere a ricette di addestramento, guide di messa a punto e ricettari di inferenza attraverso la piattaforma NeMo utilizzando vLLM, SGLang e TensorRT-LLM.