Nvidia hat Nemotron 3 Super veröffentlicht, ein offenes Hybridmodell mit insgesamt 120 Milliarden Parametern, das darauf ausgelegt ist, den Rechenaufwand für den Betrieb von KI-Agenten in großem Maßstab zu senken. Die wichtigsten Erkenntnisse:
Nvidia veröffentlicht Nemotron 3 Super, ein 120-Milliarden-Parameter-Modell von OpenAI, das für agentenbasierte Workloads entwickelt wurde

- Nvidia hat Nemotron 3 Super veröffentlicht, ein offenes MoE-Modell mit 120 Milliarden Parametern, das pro Vorwärtsdurchlauf nur 12,7 Milliarden Parameter aktiviert.
- Nemotron 3 Super liefert bei Agenten-Workloads mit 8k-In/64k-Out-Einstellungen einen bis zu 7,5-mal höheren Durchsatz als Qwen3.5-122B-A10B.
- Das Modell ist unter der Nvidia Nemotron Open Model License vollständig offen zugänglich, mit Checkpoints und Trainingsdaten auf Hugging Face.
Nvidia bringt Nemotron 3 Super mit 7,5-facher Durchsatzsteigerung gegenüber Qwen3.5-122B auf den Markt
Das neueste Nvidia-Modell aktiviert bei einem Vorwärtsdurchlauf nur 12,7 Milliarden Parameter unter Verwendung einer Mixture-of-Experts (MoE)-Architektur, was bedeutet, dass der Großteil seiner Gewichte während der Inferenz inaktiv bleibt. Diese Designentscheidung zielt direkt auf zwei Probleme ab, mit denen Entwickler bei der Bereitstellung von mehrstufigen KI-Agenten konfrontiert sind: die zusätzlichen Kosten durch erweiterte Schlussfolgerungsketten und den explodierenden Token-Verbrauch, der sich in Multi-Agent-Pipelines bis zum 15-Fachen vervielfachen kann.
Nemotron 3 Super ist das zweite Modell in Nvidias Nemotron-3-Familie, nach Nemotron 3 Nano aus dem Dezember 2025. Nvidia kündigte die Veröffentlichung für den 10. März 2026 an.
Das Modell nutzt ein hybrides Mamba-Transformer-Backbone über 88 Schichten. Mamba-2-Blöcke verarbeiten lange Sequenzen mit linearer Zeiteffizienz, während Transformer-Attention-Schichten eine präzise Wiederauffindbarkeit gewährleisten. Diese Kombination ermöglicht dem Modell native Unterstützung für Kontextfenster von bis zu einer Million Token ohne die für reine Attention-Designs typischen Speichereinschränkungen.
Nvidia hat außerdem ein LatentMoE-Routing-System integriert, das Token-Einbettungen in einen Low-Rank-Raum komprimiert, bevor sie an 512 Experten pro Schicht gesendet werden, wobei jeweils 22 gleichzeitig aktiviert werden. Das Unternehmen gibt an, dass dies im Vergleich zu Standard-MoE-Ansätzen bei gleichen Inferenzkosten etwa viermal mehr Experten ermöglicht und eine feinere Aufgabenspezialisierung erlaubt, wie beispielsweise die Trennung von Python-Logik und SQL-Verarbeitung auf Expertenebene.

Multi-Token-Prediction-Schichten, die zwei Heads mit gemeinsamen Gewichten verwenden, beschleunigen die Generierung von Gedankengängen und ermöglichen native spekulative Dekodierung. Bei strukturierten Aufgaben berichtet Nvidia von einer bis zu dreimal schnelleren Generierung.
Das Modell wurde in zwei Phasen auf 25 Billionen Token vortrainiert. In der ersten Phase wurden 20 Billionen Token aus breit gefassten Daten verwendet. In der zweiten Phase wurden fünf Billionen hochwertige Token verwendet, die auf Benchmark-Leistung abgestimmt waren. Eine abschließende Erweiterungsphase mit 51 Milliarden Token erweiterte den nativen Kontext auf eine Million Token. Das Nachtraining umfasste überwachtes Fine-Tuning an rund sieben Millionen Samples sowie Reinforcement Learning in 21 Umgebungen mit mehr als 1,2 Millionen Rollouts.
In Benchmarks erzielte Nemotron 3 Super 83,73 Punkte bei MMLU-Pro, 90,21 bei AIME25 und 60,47 bei SWE-Bench unter Verwendung von OpenHands. Bei PinchBench erreichte es 85,6 Prozent, die höchste gemeldete Punktzahl unter den offenen Modellen seiner Klasse. Bei der Bewertung mit langem Kontext erzielte es 91,64 Punkte auf RULER 1M. Im Vergleich zu GPT-OSS-120B liefert Nemotron 3 Super bei 8k Eingabe und 64k Ausgabe den 2,2-fachen Durchsatz. Im Vergleich zu Qwen3.5-122B-A10B erreicht dieser Wert das 7,5-Fache. Nvidia berichtet zudem von einem mehr als fünffachen Durchsatz und einer bis zu doppelt so hohen Genauigkeit gegenüber der vorherigen Nemotron-Super-Generation. Nvidia trainierte das Modell durchgängig in seinem NVFP4-Vier-Bit-Gleitkommaformat, das für Blackwell-GPUs optimiert ist. Auf B200-Hardware läuft die Inferenz laut Nvidia bis zu viermal schneller als FP8 auf H100, ohne dass ein Genauigkeitsverlust gemeldet wird. Quantisierte FP8- und NVFP4-Checkpoints behalten 99,8 Prozent oder mehr der Vollpräzisionsgenauigkeit bei. Das Modell unterstützt auch den Nvidia AI-Q-Forschungsagenten, der die Spitzenposition auf der Deepresearch Bench-Rangliste erreichte.

Nvidia unterstützt die Pläne für die Nebius-KI-Fabrik mit einer massiven Investition in Höhe von 2 Milliarden Dollar
Erfahren Sie, wie Nvidia mit einer Investition von 2 Milliarden Dollar in die KI-Cloud-Infrastruktur die Zukunft der Datenverarbeitung neu gestaltet. read more.
Jetzt lesen
Nvidia unterstützt die Pläne für die Nebius-KI-Fabrik mit einer massiven Investition in Höhe von 2 Milliarden Dollar
Erfahren Sie, wie Nvidia mit einer Investition von 2 Milliarden Dollar in die KI-Cloud-Infrastruktur die Zukunft der Datenverarbeitung neu gestaltet. read more.
Jetzt lesen
Nvidia unterstützt die Pläne für die Nebius-KI-Fabrik mit einer massiven Investition in Höhe von 2 Milliarden Dollar
Jetzt lesenErfahren Sie, wie Nvidia mit einer Investition von 2 Milliarden Dollar in die KI-Cloud-Infrastruktur die Zukunft der Datenverarbeitung neu gestaltet. read more.
Nemotron 3 Super ist unter der Nvidia Nemotron Open Model License vollständig offen. Checkpoints in den Formaten BF16, FP8 und NVFP4 sowie Vortrainingsdaten, Posttrainings-Samples und Umgebungen für verstärktes Lernen sind auf Hugging Face verfügbar. Die Inferenz wird über Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure und Coreweave unterstützt, mit On-Premises-Optionen über Dell Enterprise Hub und HPE. Entwickler können über die NeMo-Plattform mit vLLM, SGLang und TensorRT-LLM auf Trainingsrezepte, Fine-Tuning-Anleitungen und Inferenz-Cookbooks zugreifen.




