Poháňa
News

Spoločnosť Nvidia uvádza na trh Nemotron 3 Super, model OpenAI s kapacitou 120 miliárd parametrov určený pre agentové úlohy

Spoločnosť Nvidia uviedla na trh Nemotron 3 Super, otvorený hybridný model s celkovým počtom 120 miliárd parametrov, ktorý bol navrhnutý s cieľom znížiť výpočtové náklady na prevádzku agentov umelej inteligencie (AI) vo veľkom meradle.

NAPÍSAL
ZDIEĽAŤ
Spoločnosť Nvidia uvádza na trh Nemotron 3 Super, model OpenAI s kapacitou 120 miliárd parametrov určený pre agentové úlohy

Kľúčové body:

  • Spoločnosť Nvidia uviedla na trh Nemotron 3 Super, otvorený model MoE s 120 miliardami parametrov, ktorý aktivuje iba 12,7 miliardy parametrov na jeden forward pass.
  • Nemotron 3 Super poskytuje až 7,5-násobne vyššiu priepustnosť ako Qwen3.5-122B-A10B pri pracovných zaťaženiach agentov v nastaveniach 8k-in/64k-out.
  • Model je plne otvorený pod licenciou Nvidia Nemotron Open Model License, s kontrolnými bodmi a trénovacími dátami na Hugging Face.

Nvidia uvádza na trh Nemotron 3 Super s 7,5-násobným zvýšením priepustnosti oproti Qwen3.5-122B

Najnovší model spoločnosti Nvidia aktivuje iba 12,7 miliardy parametrov na jeden dopredný priechod pomocou architektúry Mixture-of-Experts (MoE), čo znamená, že väčšina jeho váhy zostáva počas inferencie neaktívna. Táto voľba dizajnu priamo rieši dva problémy, s ktorými sa vývojári stretávajú pri nasadzovaní viacstupňových agentov umelej inteligencie: dodatočné náklady na rozšírené reťazce úvah a prudký nárast využitia tokenov, ktoré sa v potrubiach s viacerými agentmi môžu znásobiť až 15-násobne.

Nemotron 3 Super je druhý model v rodine Nemotron 3 od spoločnosti Nvidia, nasledujúci po modeli Nemotron 3 Nano z decembra 2025. Spoločnosť Nvidia oznámila jeho uvedenie na trh okolo 10. marca 2026.

Model využíva hybridnú kostru Mamba-Transformer v 88 vrstvách. Bloky Mamba-2 spracúvajú dlhé sekvencie s lineárnou časovou efektivitou, zatiaľ čo vrstvy pozornosti Transformer zachovávajú presnú spätnú väzbu. Táto kombinácia poskytuje modelu natívnu podporu pre kontextové okná až do jedného milióna tokenov bez penalizácie pamäte typickej pre dizajny s čistou pozornosťou.

Spoločnosť Nvidia tiež zabudovala smerovací systém LatentMoE, ktorý komprimuje vloženia tokenov do priestoru s nízkym rangom pred ich odoslaním 512 expertom na vrstvu, pričom aktivuje 22 naraz. Spoločnosť tvrdí, že to umožňuje približne štyrikrát viac expertov pri rovnakých nákladoch na inferenciu v porovnaní so štandardnými prístupmi MoE a umožňuje jemnejšiu špecializáciu úloh, ako je oddelenie logiky Pythonu od spracovania SQL na úrovni expertov.

Nvidia Releases Nemotron 3 Super, a 120B Open AI Model Built for Agentic Workloads
Zdroj obrázku: blog spoločnosti Nvidia.

Vrstvy Multi-Token Prediction, využívajúce dve hlavy so zdieľanými váhami, urýchľujú generovanie reťazca myšlienok a umožňujú natívne špekulatívne dekódovanie. Pri štruktúrovaných úlohách Nvidia hlási až trojnásobne rýchlejšie generovanie.

Model bol predtrénovaný na 25 biliónoch tokenov v dvoch fázach. V prvej fáze sa použilo 20 biliónov tokenov širokých dát. V druhej fáze sa použilo päť biliónov vysoko kvalitných tokenov vyladených na benchmarkový výkon. Záverečná fáza rozšírenia na 51 miliárd tokenov rozšírila natívny kontext na jeden milión tokenov. Post-tréning zahŕňal supervidované jemné ladenie na približne siedmich miliónoch vzoriek a učenie s posilnením v 21 prostrediach s viac ako 1,2 miliónmi nasadení.

V benchmarkoch dosiahol Nemotron 3 Super skóre 83,73 v MMLU-Pro, 90,21 v AIME25 a 60,47 v SWE-Bench s použitím OpenHands. V PinchBench dosiahol 85,6 percenta, čo je najvyššie zaznamenané skóre spomedzi otvorených modelov vo svojej triede. Pri hodnotení s dlhým kontextom dosiahol skóre 91,64 na RULER 1M.

V porovnaní s GPT-OSS-120B poskytuje Nemotron 3 Super 2,2-násobnú priepustnosť pri 8k vstupoch a 64k výstupoch. V porovnaní s Qwen3.5-122B-A10B je tento údaj až 7,5-násobný. Spoločnosť Nvidia tiež uvádza viac ako päťnásobnú priepustnosť a až dvojnásobnú presnosť v porovnaní s predchádzajúcou generáciou Nemotron Super.
Spoločnosť Nvidia model trénovala end-to-end vo svojom formáte NVFP4 so štyrmi bitmi s plávajúcou desatinnou čiarkou, optimalizovanom pre GPU Blackwell. Na hardvéri B200 je podľa Nvidie inferencia až štyrikrát rýchlejšia v porovnaní s FP8 na H100 bez hlásenej straty presnosti. Kvantizované kontrolné body FP8 a NVFP4 si zachovávajú 99,8 percent alebo viac presnosti s plnou presnosťou.

Model tiež poháňa výskumného agenta Nvidia AI-Q, ktorý dosiahol prvé miesto v rebríčku Deepresearch Bench.

Spoločnosť Nvidia podporuje plány na vybudovanie továrne Nebius AI prostredníctvom obrovskej investície vo výške 2 miliardy dolárov

Spoločnosť Nvidia podporuje plány na vybudovanie továrne Nebius AI prostredníctvom obrovskej investície vo výške 2 miliardy dolárov

Zistite, ako spoločnosť Nvidia mení budúcnosť výpočtovej techniky prostredníctvom investície vo výške 2 miliardy dolárov do cloudovej infraštruktúry pre umelú inteligenciu. read more.

Čítať teraz

Nemotron 3 Super je plne otvorený pod licenciou Nvidia Nemotron Open Model License. Kontrolné body vo formátoch BF16, FP8 a NVFP4 spolu s dátami predtrénovania, vzorkami po trénovaní a prostredím posilňovacieho učenia sú k dispozícii na Hugging Face. Inferencia je podporovaná prostredníctvom Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure a Coreweave, s možnosťami on-premises prostredníctvom Dell Enterprise Hub a HPE.

Vývojári majú prístup k návodom na trénovanie, príručkám na jemné ladenie a príručkám na inferenciu prostredníctvom platformy NeMo s využitím vLLM, SGLang a TensorRT-LLM.

Značky v tomto článku