Az Nvidia kiadta a Nemotron 3 Super modellt, egy összesen 120 milliárd paraméterrel rendelkező, nyílt hibrid modellt, amelyet úgy terveztek, hogy csökkentsék a mesterséges intelligencia (AI) ügynökök nagy léptékű futtatásának számítási költségeit.
Az Nvidia bemutatja a Nemotron 3 Supert, egy 120 milliárd paraméteres OpenAI-modellt, amelyet ügynökalapú feladatokra fejlesztettek ki

Főbb megállapítások:
- Az Nvidia kiadta a Nemotron 3 Super-t, egy 120 milliárd paraméteres nyílt MoE modellt, amely előremeneti ciklusonként csak 12,7 milliárd paramétert aktivál.
- A Nemotron 3 Super akár 7,5-szer nagyobb átviteli sebességet biztosít, mint a Qwen3.5-122B-A10B az ügynökök terhelései esetén 8k-in/64k-out beállítások mellett.
- A modell teljes mértékben nyílt az Nvidia Nemotron Open Model License alapján, a checkpointok és a képzési adatok a Hugging Face-en találhatók.
Az Nvidia piacra dobja a Nemotron 3 Super modellt, amely 7,5-szer nagyobb átviteli sebességet biztosít a Qwen3.5-122B-hez képest
A legújabb Nvidia-modell a Mixture-of-Experts (MoE) architektúra használatával előremeneti lépésenként csak 12,7 milliárd paramétert aktivál, ami azt jelenti, hogy súlyának nagy része inaktív marad a következtetés során. Ez a tervezési döntés közvetlenül két olyan problémát céloz meg, amellyel a fejlesztők szembesülnek a több lépéses AI-ügynökök telepítésekor: a kiterjesztett érvelési láncok hozzáadott költségeit és a tokenhasználat robbanásszerű növekedését, amely többszereplős folyamatokban akár 15-szeresére is megnőhet.
A Nemotron 3 Super az Nvidia Nemotron 3 családjának második modellje, a 2025 decemberében megjelent Nemotron 3 Nano után. Az Nvidia 2026. március 10. körül jelentette be a kiadást.
A modell 88 rétegen átívelő hibrid Mamba-Transformer gerincet használ. A Mamba-2 blokkok lineáris időhatékonysággal kezelik a hosszú szekvenciákat, míg a Transformer figyelemrétegek megőrzik a pontos visszahívást. Ez a kombináció natív támogatást biztosít a modellnek akár egymillió tokenes kontextusablakokhoz is, anélkül, hogy a tisztán figyelemalapú tervezésekre jellemző memória-terhelés jelentkezne.
Az Nvidia beépített egy LatentMoE útválasztó rendszert is, amely a token-beágyazásokat alacsony rangú térbe tömöríti, mielőtt azokat rétegenként 512 szakértőnek továbbítaná, egyszerre 22-t aktiválva. A vállalat szerint ez a standard MoE-megközelítésekhez képest körülbelül négyszer több szakértőt tesz lehetővé azonos következtetési költség mellett, és finomabb feladat-specializációt tesz lehetővé, például a Python-logika és az SQL-kezelés szakértői szintű szétválasztását.

A két közös súlyú fejjel rendelkező Multi-Token Prediction rétegek felgyorsítják a gondolatlánc-generálást és lehetővé teszik a natív spekulatív dekódolást. Strukturált feladatok esetén az Nvidia akár háromszor gyorsabb generálást jelent.
A modellt két fázisban, 25 billió tokenen előre betanították. Az első fázisban 20 billió tokennyi széles körű adatot használtak. A másodikban 5 billió, a benchmark teljesítményre hangolt, kiváló minőségű tokenet használtak. Egy végső kiterjesztési fázis 51 milliárd tokenen kiterjesztette a natív kontextust egymillió tokenre. A betanítás utáni fázis magában foglalta a felügyelt finomhangolást körülbelül hétmillió mintán, valamint a megerősítő tanulást 21 környezetben, több mint 1,2 millió rollouttal.
A benchmark tesztekben a Nemotron 3 Super 83,73 pontot ért el az MMLU-Pro-n, 90,21-et az AIME25-ön, és 60,47-et az SWE-Bench-en az OpenHands használatával. A PinchBench-en 85,6 százalékot ért el, ami a legmagasabb jelentett pontszám a kategóriájában lévő nyílt modellek között. Hosszú kontextusú értékelés során 91,64 pontot ért el a RULER 1M-en.
A GPT-OSS-120B-hez képest a Nemotron 3 Super 2,2-szeres átviteli sebességet biztosít 8k bemenet és 64k kimenet esetén. A Qwen3.5-122B-A10B-hez viszonyítva ez az arány 7,5-szeresre nő. Az Nvidia arról is beszámol, hogy az előző Nemotron Super generációhoz képest több mint ötszörös átviteli sebességet és akár kétszeres pontosságot ér el.
Az Nvidia a modellt végpontok közötti módon, a Blackwell GPU-kra optimalizált NVFP4 négybites lebegőpontos formátumban képezte ki. A B200 hardveren az Nvidia szerint a következtetés akár négyszer gyorsabban fut, mint az H100-on az FP8, anélkül, hogy pontossági veszteséget jelentettek volna. A kvantált FP8 és NVFP4 ellenőrzőpontok a teljes pontosság 99,8 százalékát vagy annál többet megőrzik.
A modell az Nvidia AI-Q kutatási ügynököt is működteti, amely az első helyet érte el a Deepresearch Bench ranglistáján.

Az Nvidia 2 milliárd dolláros hatalmas beruházással támogatja a Nebius AI gyárépítési terveit
Fedezze fel, hogyan alakítja át az Nvidia a számítástechnika jövőjét egy 2 milliárd dolláros beruházással a mesterséges intelligencia felhőalapú infrastruktúrájába. read more.
Olvass most
Az Nvidia 2 milliárd dolláros hatalmas beruházással támogatja a Nebius AI gyárépítési terveit
Fedezze fel, hogyan alakítja át az Nvidia a számítástechnika jövőjét egy 2 milliárd dolláros beruházással a mesterséges intelligencia felhőalapú infrastruktúrájába. read more.
Olvass most
Az Nvidia 2 milliárd dolláros hatalmas beruházással támogatja a Nebius AI gyárépítési terveit
Olvass mostFedezze fel, hogyan alakítja át az Nvidia a számítástechnika jövőjét egy 2 milliárd dolláros beruházással a mesterséges intelligencia felhőalapú infrastruktúrájába. read more.
A Nemotron 3 Super teljes mértékben nyílt a Nvidia Nemotron Open Model License alapján. A BF16, FP8 és NVFP4 formátumú ellenőrzőpontok, valamint az előzetes képzési adatok, a képzés utáni minták és a megerősítő tanulási környezetek elérhetők a Hugging Face-en. Az inferenciát az Nvidia NIM, a build.nvidia.com, a Perplexity, az Openrouter, a Together AI, a Google Cloud, az AWS, az Azure és a Coreweave támogatja, helyszíni opciókkal a Dell Enterprise Hub és a HPE révén.
A fejlesztők a NeMo platformon keresztül vLLM, SGLang és TensorRT-LLM használatával érhetik el a képzési receptjeiket, a finomhangolási útmutatókat és az inferencia-szakácskönyveket.














