Propulsé par
News

Nvidia lance Nemotron 3 Super, un modèle d'IA ouvert de 120 milliards de paramètres conçu pour les charges de travail agentiques

Nvidia a lancé Nemotron 3 Super, un modèle hybride ouvert comptant au total 120 milliards de paramètres, conçu pour réduire les coûts de calcul liés à l'exécution d'agents d'intelligence artificielle (IA) à grande échelle. Points clés :

ÉCRIT PAR
PARTAGER
Nvidia lance Nemotron 3 Super, un modèle d'IA ouvert de 120 milliards de paramètres conçu pour les charges de travail agentiques
  • Nvidia a lancé Nemotron 3 Super, un modèle MoE ouvert de 120 milliards de paramètres qui n'active que 12,7 milliards de paramètres par passage avant.
  • Nemotron 3 Super offre un débit jusqu'à 7,5 fois supérieur à celui de Qwen3.5-122B-A10B pour les charges de travail des agents avec des paramètres de 8 000 entrées et 64 000 sorties.
  • Le modèle est entièrement ouvert sous la licence Nvidia Nemotron Open Model License, avec des points de contrôle et des données d'entraînement disponibles sur Hugging Face.

Nvidia lance Nemotron 3 Super avec un gain de débit 7,5 fois supérieur à celui de Qwen3.5-122B

Le dernier modèle de Nvidia n'active que 12,7 milliards de paramètres par passage direct grâce à une architecture Mixture-of-Experts (MoE), ce qui signifie que la majeure partie de son poids reste inactive pendant l'inférence. Ce choix de conception vise directement deux problèmes rencontrés par les développeurs lors du déploiement d'agents IA en plusieurs étapes : le coût supplémentaire des chaînes de raisonnement étendues et l'utilisation exponentielle des tokens qui peut être multipliée par 15 dans les pipelines multi-agents.

Nemotron 3 Super est le deuxième modèle de la famille Nemotron 3 de Nvidia, après le Nemotron 3 Nano sorti en décembre 2025. Nvidia a annoncé sa sortie vers le 10 mars 2026.

Le modèle utilise une architecture hybride Mamba-Transformer sur 88 couches. Les blocs Mamba-2 traitent les longues séquences avec une efficacité en temps linéaire, tandis que les couches d'attention Transformer préservent une précision de rappel. Cette combinaison confère au modèle une prise en charge native des fenêtres de contexte pouvant atteindre un million de tokens sans les pénalités de mémoire typiques des architectures à attention pure.

Nvidia a également intégré un système de routage LatentMoE qui compresse les embeddings de tokens dans un espace de rang faible avant de les envoyer à 512 experts par couche, en activant 22 à la fois. L'entreprise affirme que cela permet d'avoir environ quatre fois plus d'experts pour un coût d'inférence identique par rapport aux approches MoE standard, et permet une spécialisation plus fine des tâches, comme la séparation de la logique Python de la gestion SQL au niveau des experts.

Nvidia Releases Nemotron 3 Super, a 120B Open AI Model Built for Agentic Workloads
Source de l'image : blog Nvidia.

Les couches de prédiction multi-tokens, utilisant deux têtes à poids partagés, accélèrent la génération de chaînes de pensée et permettent un décodage spéculatif natif. Sur des tâches structurées, Nvidia rapporte une génération jusqu’à trois fois plus rapide.

Le modèle a été pré-entraîné sur 25 000 milliards de tokens en deux phases. La première phase a utilisé 20 000 milliards de tokens de données générales. La seconde a utilisé 5 000 milliards de tokens de haute qualité optimisés pour les performances de référence. Une phase d'extension finale sur 51 milliards de tokens a étendu le contexte natif à un million de tokens. Le post-entraînement comprenait un réglage fin supervisé sur environ sept millions d'échantillons et un apprentissage par renforcement dans 21 environnements avec plus de 1,2 million de déploiements.

Lors des tests de performance, Nemotron 3 Super a obtenu un score de 83,73 sur MMLU-Pro, 90,21 sur AIME25 et 60,47 sur SWE-Bench en utilisant OpenHands. Sur PinchBench, il a atteint 85,6 %, le score le plus élevé jamais enregistré parmi les modèles ouverts de sa catégorie. Lors de l'évaluation en contexte long, il a obtenu un score de 91,64 sur RULER 1M. Par rapport au GPT-OSS-120B, Nemotron 3 Super offre un débit 2,2 fois supérieur avec une entrée de 8k et une sortie de 64k. Face au Qwen3.5-122B-A10B, ce chiffre atteint 7,5 fois. Nvidia annonce également un débit plus de cinq fois supérieur et une précision jusqu'à deux fois supérieure à ceux de la génération précédente de Nemotron Super. Nvidia a entraîné le modèle de bout en bout dans son format à virgule flottante à quatre bits NVFP4, optimisé pour les GPU Blackwell. Sur le matériel B200, Nvidia affirme que l'inférence s'exécute jusqu'à quatre fois plus rapidement par rapport au format FP8 sur H100, sans perte de précision signalée. Les points de contrôle quantifiés FP8 et NVFP4 conservent 99,8 % ou plus de la précision en pleine précision. Le modèle alimente également l'agent de recherche Nvidia AI-Q, qui a atteint la première place du classement Deepresearch Bench.

Nvidia soutient les projets de Nebius AI Factory grâce à un investissement colossal de 2 milliards de dollars

Nvidia soutient les projets de Nebius AI Factory grâce à un investissement colossal de 2 milliards de dollars

Découvrez comment Nvidia redéfinit l'avenir de l'informatique grâce à un investissement de 2 milliards de dollars dans les infrastructures cloud dédiées à l'IA. read more.

Lire

Nemotron 3 Super est entièrement ouvert sous la licence Nvidia Nemotron Open Model License. Des points de contrôle aux formats BF16, FP8 et NVFP4, ainsi que des données de pré-entraînement, des échantillons post-entraînement et des environnements d'apprentissage par renforcement, sont disponibles sur Hugging Face. L'inférence est prise en charge via Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure et Coreweave, avec des options sur site via Dell Enterprise Hub et HPE. Les développeurs peuvent accéder à des recettes de formation, des guides de réglage fin et des recueils de recettes d'inférence via la plateforme NeMo en utilisant vLLM, SGLang et TensorRT-LLM.