Společnost Nvidia představila Nemotron 3 Super, otevřený hybridní model s celkovým počtem 120 miliard parametrů, který byl navržen s cílem snížit výpočetní náklady spojené s provozem agentů umělé inteligence (AI) ve velkém měřítku.
Společnost Nvidia uvádí na trh Nemotron 3 Super, model OpenAI s 120 miliardami parametrů určený pro agentní úlohy

Hlavní body:
- Společnost Nvidia uvedla na trh Nemotron 3 Super, otevřený model MoE s 120 miliardami parametrů, který při každém průchodu aktivuje pouze 12,7 miliardy parametrů.
- Nemotron 3 Super poskytuje až 7,5krát vyšší propustnost než Qwen3.5-122B-A10B při zátěži agentů v nastavení 8k-in/64k-out.
- Model je plně otevřený pod licencí Nvidia Nemotron Open Model License, s kontrolními body a trénovacími daty na Hugging Face.
Nvidia uvádí na trh Nemotron 3 Super s 7,5násobným zvýšením propustnosti oproti Qwen3.5-122B
Nejnovější model Nvidia aktivuje pouze 12,7 miliardy parametrů na jeden průchod vpřed pomocí architektury Mixture-of-Experts (MoE), což znamená, že většina jeho váhy zůstává během inferenčního procesu nečinná. Tato volba designu přímo řeší dva problémy, na které vývojáři narážejí při nasazování vícestupňových AI agentů: dodatečné náklady na rozšířené řetězce uvažování a prudce rostoucí využití tokenů, které se v multiagentních pipelinech může až patnáctinásobně znásobit.
Nemotron 3 Super je druhým modelem v rodině Nemotron 3 od Nvidie, který navazuje na Nemotron 3 Nano z prosince 2025. Nvidia oznámila jeho vydání kolem 10. března 2026.
Model využívá hybridní páteř Mamba-Transformer napříč 88 vrstvami. Bloky Mamba-2 zpracovávají dlouhé sekvence s lineární časovou účinností, zatímco vrstvy pozornosti Transformer zachovávají přesnou přesnost. Tato kombinace poskytuje modelu nativní podporu pro kontextová okna až do jednoho milionu tokenů bez paměťových ztrát typických pro čistě pozornostní návrhy.
Společnost Nvidia také zabudovala směrovací systém LatentMoE, který komprimuje vkládání tokenů do prostoru s nízkým řádem před jejich odesláním k 512 expertům na vrstvu, přičemž aktivuje 22 najednou. Společnost uvádí, že to umožňuje přibližně čtyřikrát více expertů při stejných nákladech na inferenci ve srovnání se standardními přístupy MoE a umožňuje jemnější specializaci úkolů, jako je oddělení logiky Pythonu od zpracování SQL na úrovni expertů.

Vrstvy Multi-Token Prediction, využívající dvě hlavy se sdílenými váhami, urychlují generování řetězce myšlenek a umožňují nativní spekulativní dekódování. U strukturovaných úkolů Nvidia uvádí až třikrát rychlejší generování.
Model byl předem trénován na 25 bilionech tokenů ve dvou fázích. V první fázi bylo použito 20 bilionů tokenů širokých dat. Ve druhé fázi bylo použito pět bilionů vysoce kvalitních tokenů vyladěných pro benchmarkový výkon. Závěrečná fáze rozšíření na 51 miliard tokenů rozšířila nativní kontext na jeden milion tokenů. Post-trénink zahrnoval supervizované doladění na přibližně sedmi milionech vzorků a učení s posilováním v 21 prostředích s více než 1,2 miliony rolloutů.
V benchmarkových testech dosáhl Nemotron 3 Super skóre 83,73 v MMLU-Pro, 90,21 v AIME25 a 60,47 v SWE-Bench s využitím OpenHands. V PinchBench dosáhl 85,6 procenta, což je nejvyšší zaznamenané skóre mezi otevřenými modely ve své třídě. Při hodnocení s dlouhým kontextem dosáhl skóre 91,64 na RULER 1M.
Ve srovnání s GPT-OSS-120B poskytuje Nemotron 3 Super 2,2násobnou propustnost při vstupu 8k a výstupu 64k. Ve srovnání s Qwen3.5-122B-A10B je tento údaj až 7,5násobný. Společnost Nvidia také uvádí více než pětinásobnou propustnost a až dvojnásobnou přesnost oproti předchozí generaci Nemotron Super.
Společnost Nvidia model trénovala end-to-end ve svém čtyřbitovém formátu s plovoucí desetinnou čárkou NVFP4, optimalizovaném pro GPU Blackwell. Na hardwaru B200 je podle Nvidie inferenční výpočet až čtyřikrát rychlejší ve srovnání s FP8 na H100, a to bez hlášené ztráty přesnosti. Kvantizované kontrolní body FP8 a NVFP4 si zachovávají 99,8 procenta nebo více přesnosti s plnou přesností.
Model také pohání výzkumného agenta Nvidia AI-Q, který dosáhl první pozice v žebříčku Deepresearch Bench.

Společnost Nvidia podporuje plány na vybudování továrny Nebius AI Factory prostřednictvím masivní investice ve výši 2 miliard dolarů
Zjistěte, jak společnost Nvidia mění budoucnost výpočetní techniky díky investici ve výši 2 miliard dolarů do cloudové infrastruktury pro umělou inteligenci. read more.
Přečíst
Společnost Nvidia podporuje plány na vybudování továrny Nebius AI Factory prostřednictvím masivní investice ve výši 2 miliard dolarů
Zjistěte, jak společnost Nvidia mění budoucnost výpočetní techniky díky investici ve výši 2 miliard dolarů do cloudové infrastruktury pro umělou inteligenci. read more.
Přečíst
Společnost Nvidia podporuje plány na vybudování továrny Nebius AI Factory prostřednictvím masivní investice ve výši 2 miliard dolarů
PřečístZjistěte, jak společnost Nvidia mění budoucnost výpočetní techniky díky investici ve výši 2 miliard dolarů do cloudové infrastruktury pro umělou inteligenci. read more.
Nemotron 3 Super je plně otevřený pod licencí Nvidia Nemotron Open Model License. Kontrolní body ve formátech BF16, FP8 a NVFP4, spolu s daty pro předtrénování, vzorky po tréninku a prostředími pro učení s posilováním, jsou k dispozici na Hugging Face. Inference je podporována prostřednictvím Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure a Coreweave, s možnostmi on-premises prostřednictvím Dell Enterprise Hub a HPE.
Vývojáři mají přístup k tréninkovým receptům, průvodcům pro jemné ladění a kuchařkám pro inferenci prostřednictvím platformy NeMo s využitím vLLM, SGLang a TensorRT-LLM.














