Tarjoaa
News

Nvidia julkaisee Nemotron 3 Superin, 120 miljardin parametrin OpenAI-mallin, joka on suunniteltu agenttipohjaisiin työkuormiin

Nvidia on julkaissut Nemotron 3 Superin, avoimen hybridimallin, jonka parametrien kokonaismäärä on 120 miljardia ja joka on suunniteltu vähentämään tekoälyagenttien laajamittaisen käytön laskentakustannuksia.

KIRJOITTAJA
JAA
Nvidia julkaisee Nemotron 3 Superin, 120 miljardin parametrin OpenAI-mallin, joka on suunniteltu agenttipohjaisiin työkuormiin

Tärkeimmät kohdat:

  • Nvidia julkaisi Nemotron 3 Superin, 120 miljardin parametrin avoimen MoE-mallin, joka aktivoi vain 12,7 miljardia parametria per eteenpäinlähetys.
  • Nemotron 3 Super tarjoaa jopa 7,5-kertaisen suorituskyvyn Qwen3.5-122B-A10B:hen verrattuna agenttien työkuormissa 8k-in/64k-out-asetuksilla.
  • Malli on täysin avoin Nvidia Nemotron Open Model -lisenssin alaisena, ja sen tarkistuspisteet ja koulutustiedot ovat saatavilla Hugging Facessa.

Nvidia lanseeraa Nemotron 3 Superin, jonka suorituskyky on 7,5-kertainen Qwen3.5-122B:hen verrattuna

Uusin Nvidia-malli aktivoi vain 12,7 miljardia parametria per eteenpäinohjaus käyttämällä Mixture-of-Experts (MoE) -arkkitehtuuria, mikä tarkoittaa, että suurin osa sen painoarvosta pysyy käyttämättömänä päättelyn aikana. Tämä suunnitteluratkaisu kohdistuu suoraan kahteen ongelmaan, joihin kehittäjät törmäävät ottaessaan käyttöön monivaiheisia tekoälyagentteja: laajennettujen päättelyketjujen aiheuttamiin lisäkustannuksiin ja tokenien käytön räjähdysmäiseen kasvuun, joka voi moninkertaistua jopa 15-kertaiseksi moniagenttiputkistoissa.

Nemotron 3 Super on Nvidian Nemotron 3 -tuoteperheen toinen malli joulukuussa 2025 julkaistun Nemotron 3 Nanon jälkeen. Nvidia ilmoitti julkaisusta noin 10. maaliskuuta 2026.

Malli käyttää hybridi-Mamba-Transformer-runkoa 88 kerroksessa. Mamba-2-lohkot käsittelevät pitkiä sekvenssejä lineaarisella tehokkuudella, kun taas Transformer-huomiokerrokset säilyttävät tarkan palautuksen. Tämä yhdistelmä antaa mallille natiivin tuen jopa miljoonan tokenin konteksti-ikkunoille ilman puhdas-huomio-suunnittelulle tyypillisiä muistihaittoja.

Nvidia on myös rakentanut LatentMoE-reititysjärjestelmän, joka pakkaa token-upotukset matalan asteen tilaan ennen niiden lähettämistä 512 asiantuntijalle kerrosta kohti, aktivoiden 22 kerrallaan. Yrityksen mukaan tämä mahdollistaa noin neljä kertaa enemmän asiantuntijoita samalla päättelykustannuksella verrattuna tavallisiin MoE-lähestymistapoihin ja mahdollistaa tarkemman tehtävien erikoistumisen, kuten Python-logiikan erottamisen SQL-käsittelystä asiantuntijatasolla.

Nvidia Releases Nemotron 3 Super, a 120B Open AI Model Built for Agentic Workloads
Kuvan lähde: Nvidian blogi.

Multi-Token Prediction -kerrokset, jotka käyttävät kahta jaettua painopäätä, nopeuttavat ajatusketjun luomista ja mahdollistavat natiivin spekulatiivisen dekoodauksen. Rakenteellisissa tehtävissä Nvidia raportoi jopa kolminkertaisen nopeuden.

Malli esikoulutettiin 25 biljoonalla tokenilla kahdessa vaiheessa. Ensimmäisessä vaiheessa käytettiin 20 biljoonaa tokenia laajaa dataa. Toisessa vaiheessa käytettiin viittä biljoonaa korkealaatuista tokenia, jotka oli viritetty vertailuarvosuorituskykyä varten. Lopullinen laajennusvaihe 51 miljardilla tokenilla laajensi natiivin kontekstin miljoonaan tokeniin. Koulutuksen jälkeiseen vaiheeseen sisältyi valvotun hienosäätö noin seitsemällä miljoonalla näytteellä sekä vahvistusoppiminen 21 ympäristössä yli 1,2 miljoonalla käyttöönotolla.

Vertailuissa Nemotron 3 Super sai 83,73 pistettä MMLU-Pro:ssa, 90,21 pistettä AIME25:ssä ja 60,47 pistettä SWE-Benchissä OpenHandsia käyttäen. PinchBenchissä se saavutti 85,6 prosenttia, mikä on korkein raportoitu tulos luokkansa avoimista malleista. Pitkän kontekstin arvioinnissa se sai 91,64 pistettä RULER 1M:ssä.

Verrattuna GPT-OSS-120B:hen Nemotron 3 Super tarjoaa 2,2-kertaisen läpimenon 8k:n syötöllä ja 64k:n tuotoksella. Verrattuna Qwen3.5-122B-A10B:hen luku nousee 7,5-kertaiseksi. Nvidia raportoi myös yli viisinkertaisen läpimenon ja jopa kaksinkertaisen tarkkuuden edelliseen Nemotron Super -sukupolveen verrattuna.

Nvidia koulutti mallin päästä päähän NVFP4-nelibittisessä liukulukuformaatissaan, joka on optimoitu Blackwell-grafiikkaprosessoreille. Nvidia kertoo, että B200-laitteistolla päättely on jopa neljä kertaa nopeampaa verrattuna H100:n FP8:aan ilman raportoituja tarkkuuden menetyksiä. Kvantisoidut FP8- ja NVFP4-tarkistuspisteet säilyttävät 99,8 prosenttia tai enemmän täyden tarkkuuden tarkkuudesta.

Malli ohjaa myös Nvidia AI-Q -tutkimusagenttia, joka saavutti ykkössijan Deepresearch Bench -tulostaululla.

Nvidia tukee Nebiusin tekoälytehtaan suunnitelmia 2 miljardin dollarin jättisijoituksella

Nvidia tukee Nebiusin tekoälytehtaan suunnitelmia 2 miljardin dollarin jättisijoituksella

Tutustu siihen, miten Nvidia muokkaa tietotekniikan tulevaisuutta 2 miljardin dollarin investoinnilla tekoälyn pilvi-infrastruktuuriin. read more.

Lue nyt

Nemotron 3 Super on täysin avoin Nvidia Nemotron Open Model -lisenssin alaisena. BF16-, FP8- ja NVFP4-muotoiset tarkistuspisteet sekä esikoulutustiedot, jälkikoulutusnäytteet ja vahvistusoppimisympäristöt ovat saatavilla Hugging Facessa. Päätelmien tekemistä tuetaan Nvidia NIM:n, build.nvidia.comin, Perplexityn, Openrouterin, Together AI:n, Google Cloudin, AWS:n, Azuren ja Coreweaven kautta, ja paikallisia vaihtoehtoja on saatavilla Dell Enterprise Hubin ja HPE:n kautta.

Kehittäjät voivat käyttää koulutusohjeita, hienosäätöoppaita ja päätelmien tekemisen oppaita NeMo-alustan kautta käyttämällä vLLM:ää, SGLangia ja TensorRT-LLM:ää.

Tunnisteet tässä tarinassa