Toetab
News

Nvidia toob turule Nemotron 3 Superi, 120 miljardi parameetriga OpenAI mudeli, mis on loodud agendipõhiste töökoormuste jaoks

Nvidia on välja toonud Nemotron 3 Superi, 120 miljardi parameetriga avatud hübriidmudeli, mis on loodud selleks, et vähendada tehisintellekti (AI) agentide suuremahulise käitamise arvutuskulusid.

KIRJUTAS
JAGA
Nvidia toob turule Nemotron 3 Superi, 120 miljardi parameetriga OpenAI mudeli, mis on loodud agendipõhiste töökoormuste jaoks

Peamised järeldused:

  • Nvidia tõi turule Nemotron 3 Superi, 120 miljardi parameetriga avatud MoE-mudeli, mis aktiveerib ühe edasisuunalise läbiviimise jooksul vaid 12,7 miljardit parameetrit.
  • Nemotron 3 Super pakub kuni 7,5 korda suuremat läbilaskevõimet kui Qwen3.5-122B-A10B agendi töökoormuste puhul 8k-in/64k-out seadetel.
  • Mudel on täielikult avatud Nvidia Nemotron Open Model License'i alusel, kontrollpunktid ja koolitusandmed on saadaval Hugging Face'is.

Nvidia toob turule Nemotron 3 Superi, mille läbilaskevõime on 7,5 korda suurem kui Qwen3.5-122B-l

Nvidia uusim mudel aktiveerib Mixture-of-Experts (MoE) arhitektuuri kasutades ainult 12,7 miljardit parameetrit ühe edasisuunalise läbiviimise kohta, mis tähendab, et enamik selle kaalust jääb järeldamise ajal kasutamata. See disainivalik on suunatud otseselt kahele probleemile, millega arendajad mitmeastmeliste AI-agentide kasutuselevõtul kokku puutuvad: pikendatud järeldusahelate lisakulu ja tokenite kasutuse plahvatuslik kasv, mis võib mitmeagendilistes torudes mitmekordistuda kuni 15 korda.

Nemotron 3 Super on Nvidia Nemotron 3 perekonna teine mudel, mis järgneb 2025. aasta detsembris ilmunud Nemotron 3 Nanole. Nvidia teatas mudeli väljalaskest umbes 10. märtsil 2026.

Mudel kasutab 88 kihilist hübriidset Mamba-Transformer-põhistruktuuri. Mamba-2-plokid töötlevad pikki jadasid lineaarselt tõhusalt, samas kui Transformer-tähelepanukihid säilitavad täpse meenutamise. See kombinatsioon annab mudelile natiivse toe kuni miljoni tokeni pikkustele kontekstiakendele ilma puhtalt tähelepanupõhiste disainide tüüpiliste mälukahjumiteta.

Nvidia lisas ka LatentMoE marsruutimissüsteemi, mis pakub tokenite sissekanded madala rangusega ruumi enne nende saatmist 512 eksperdile kihi kohta, aktiveerides korraga 22. Ettevõtte sõnul võimaldab see kasutada ligikaudu neli korda rohkem eksperte sama järelduskuluga võrreldes standardse MoE lähenemisviisiga ning võimaldab täpsemat ülesannete spetsialiseerumist, näiteks Python-loogika eraldamist SQL-töötlemisest eksperdi tasandil.

Nvidia Releases Nemotron 3 Super, a 120B Open AI Model Built for Agentic Workloads
Pildi allikas: Nvidia blogi.

Multi-Token Prediction kihid, mis kasutavad kahte jagatud kaaluga pead, kiirendavad mõttekäigu genereerimist ja võimaldavad natiivset spekulatiivset dekodeerimist. Struktureeritud ülesannete puhul teatab Nvidia kuni kolm korda kiiremast genereerimisest.

Mudel oli eelnevalt treenitud 25 triljoni tokeniga kahes faasis. Esimeses faasis kasutati 20 triljonit laiaulatuslikku andmetokenit. Teises kasutati viit triljonit kõrgekvaliteedilist tokenit, mis olid häälestatud võrdlusnäitajate saavutamiseks. Lõplik laiendusfaas 51 miljardi tokeniga laiendas natiivset konteksti miljoni tokenini. Pärast treenimist toimus juhendatud peenhäälestamine ligikaudu seitsme miljoni näite põhjal ning tugevdusõpe 21 keskkonnas, kus toimus üle 1,2 miljoni käivituse.

Võrdlustestides sai Nemotron 3 Super OpenHandsi abil MMLU-Pro-s 83,73, AIME25-s 90,21 ja SWE-Bench-is 60,47 punkti. PinchBench-is saavutas see 85,6 protsenti, mis on selle klassi avatud mudelite seas kõrgeim tulemus. Pika konteksti hindamisel sai see RULER 1M-il 91,64 punkti.

Võrreldes GPT-OSS-120B-ga pakub Nemotron 3 Super 2,2 korda suuremat läbilaskevõimet 8k sisendi ja 64k väljundi juures. Võrreldes Qwen3.5-122B-A10B-ga ulatub see näitaja 7,5 korda. Nvidia teatab ka, et võrreldes eelmise Nemotron Super põlvkonnaga on läbilaskevõime üle viie korra suurem ja täpsus kuni kaks korda parem.
Nvidia treenis mudelit algusest lõpuni oma NVFP4 neljabitises ujukomavormingus, mis on optimeeritud Blackwell GPU-dele. B200 riistvaral töötab järeldamine Nvidia sõnul kuni neli korda kiiremini võrreldes H100-l töötava FP8-ga, ilma et täpsus oleks vähenenud. Kvantiseeritud FP8 ja NVFP4 kontrollpunktid säilitavad 99,8 protsenti või enam täis-täpsusest.

Mudel toetab ka Nvidia AI-Q uurimisagenti, mis jõudis Deepresearch Benchi edetabelis esikohale.

Nvidia toetab Nebius AI Factory plaane 2 miljardi dollari suuruse investeeringuga

Nvidia toetab Nebius AI Factory plaane 2 miljardi dollari suuruse investeeringuga

Uurige, kuidas Nvidia kujundab ümber arvutite tuleviku, investeerides 2 miljardit dollarit tehisintellekti pilveinfrastruktuuri. read more.

Loe nüüd

Nemotron 3 Super on täielikult avatud Nvidia Nemotron Open Model License'i alusel. Kontrollpunktid BF16, FP8 ja NVFP4 formaatides, koos eelõppe andmete, järelõppe näidiste ja tugevdatud õppe keskkondadega, on saadaval Hugging Face'is. Järelduste tegemist toetavad Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure ja Coreweave, kohapealsed võimalused on saadaval Dell Enterprise Hubi ja HPE kaudu.

Arendajad saavad NeMo platvormi kaudu juurdepääsu koolitusretseptidele, täpsustamisjuhenditele ja järelduste tegemise juhenditele, kasutades vLLM-i, SGLang-i ja TensorRT-LLM-i.