Obsługiwane przez
News

Firma Nvidia wprowadza na rynek Nemotron 3 Super, model OpenAI o rozmiarze 120 miliardów parametrów, stworzony z myślą o zadaniach opartych na agentach

Firma Nvidia wypuściła Nemotron 3 Super, otwarty model hybrydowy o łącznej liczbie 120 miliardów parametrów, zaprojektowany w celu obniżenia kosztów obliczeniowych związanych z obsługą agentów sztucznej inteligencji (AI) na dużą skalę.

NAPISAŁ
UDOSTĘPNIJ
Firma Nvidia wprowadza na rynek Nemotron 3 Super, model OpenAI o rozmiarze 120 miliardów parametrów, stworzony z myślą o zadaniach opartych na agentach

Najważniejsze informacje:

  • Firma Nvidia wypuściła Nemotron 3 Super, otwarty model MoE o 120 miliardach parametrów, aktywujący tylko 12,7 miliarda parametrów na jeden przebieg.
  • Nemotron 3 Super zapewnia nawet 7,5-krotnie większą przepustowość niż Qwen3.5-122B-A10B w obciążeniach agentów przy ustawieniach 8k-in/64k-out.
  • Model jest w pełni otwarty na licencji Nvidia Nemotron Open Model License, a punkty kontrolne i dane szkoleniowe są dostępne na platformie Hugging Face.

Nvidia wprowadza na rynek Nemotron 3 Super o przepustowości 7,5 razy większej niż Qwen3.5-122B

Najnowszy model Nvidii aktywuje tylko 12,7 miliarda parametrów na jeden przebieg przy użyciu architektury Mixture-of-Experts (MoE), co oznacza, że większość jego wagi pozostaje nieaktywna podczas wnioskowania. Ten wybór projektowy bezpośrednio rozwiązuje dwa problemy, z którymi borykają się programiści podczas wdrażania wieloetapowych agentów AI: dodatkowy koszt rozbudowanych łańcuchów wnioskowania oraz gwałtowny wzrost zużycia tokenów, które może wzrosnąć nawet 15-krotnie w potokach wieloagentowych.

Nemotron 3 Super to drugi model z rodziny Nemotron 3 firmy Nvidia, po Nemotron 3 Nano z grudnia 2025 r. Firma Nvidia ogłosiła premierę około 10 marca 2026 r.

Model wykorzystuje hybrydowy szkielet Mamba-Transformer w 88 warstwach. Bloki Mamba-2 obsługują długie sekwencje z wydajnością w czasie liniowym, podczas gdy warstwy uwagi Transformer zachowują precyzyjne przywołanie. Ta kombinacja zapewnia modelowi natywną obsługę okien kontekstowych do miliona tokenów bez strat pamięci typowych dla projektów opartych wyłącznie na uwadze.

Nvidia wbudowała również system routingu LatentMoE, który kompresuje osadzenia tokenów do przestrzeni o niskim rankingu przed wysłaniem ich do 512 ekspertów na warstwę, aktywując 22 naraz. Firma twierdzi, że pozwala to na wykorzystanie około czterokrotnie większej liczby ekspertów przy tych samych kosztach wnioskowania w porównaniu ze standardowymi podejściami MoE oraz umożliwia dokładniejszą specjalizację zadań, taką jak oddzielenie logiki Python od obsługi SQL na poziomie eksperckim.

Nvidia Releases Nemotron 3 Super, a 120B Open AI Model Built for Agentic Workloads
Źródło zdjęcia: blog Nvidii.

Warstwy prognozowania wielu tokenów, wykorzystujące dwie głowice o wspólnej wadze, przyspieszają generowanie łańcucha myśli i umożliwiają natywne dekodowanie spekulatywne. W przypadku zadań strukturalnych firma Nvidia odnotowuje nawet trzykrotnie szybsze generowanie.

Model został wstępnie wytrenowany na 25 bilionach tokenów w dwóch fazach. W pierwszej fazie wykorzystano 20 bilionów tokenów danych ogólnych. W drugiej fazie wykorzystano pięć bilionów tokenów wysokiej jakości, dostrojonych pod kątem wydajności w testach porównawczych. Końcowa faza rozszerzenia na 51 miliardach tokenów rozszerzyła natywny kontekst do miliona tokenów. Etap po treningu obejmował nadzorowane dostrajanie na około siedmiu milionach próbek oraz uczenie się przez wzmocnienie w 21 środowiskach z ponad 1,2 milionem wdrożeń.

W testach porównawczych Nemotron 3 Super uzyskał wynik 83,73 w MMLU-Pro, 90,21 w AIME25 i 60,47 w SWE-Bench przy użyciu OpenHands. W PinchBench osiągnął 85,6 procent, co jest najwyższym odnotowanym wynikiem wśród otwartych modeli w swojej klasie. W ocenie długiego kontekstu uzyskał wynik 91,64 w teście RULER 1M.

W porównaniu z GPT-OSS-120B, Nemotron 3 Super zapewnia 2,2-krotną przepustowość przy 8k danych wejściowych i 64k danych wyjściowych. W porównaniu z Qwen3.5-122B-A10B wartość ta wzrasta do 7,5-krotnej. Nvidia informuje również o ponad pięciokrotnej przepustowości i nawet dwukrotnie większej dokładności w porównaniu z poprzednią generacją Nemotron Super.
Nvidia wyszkoliła model od początku do końca w swoim czterobitowym formacie zmiennoprzecinkowym NVFP4, zoptymalizowanym pod kątem procesorów graficznych Blackwell. Według Nvidii na sprzęcie B200 wnioskowanie przebiega nawet czterokrotnie szybciej w porównaniu z FP8 na H100, bez odnotowanej utraty dokładności. Kwantyzowane punkty kontrolne FP8 i NVFP4 zachowują 99,8 procent lub więcej dokładności pełnej precyzji.

Model ten zasila również agenta badawczego Nvidia AI-Q, który osiągnął pierwsze miejsce w rankingu Deepresearch Bench.

Nvidia wspiera plany Nebius dotyczące fabryki sztucznej inteligencji, przeznaczając na ten cel ogromną inwestycję w wysokości 2 miliardów dolarów

Nvidia wspiera plany Nebius dotyczące fabryki sztucznej inteligencji, przeznaczając na ten cel ogromną inwestycję w wysokości 2 miliardów dolarów

Dowiedz się, jak firma Nvidia zmienia oblicze przyszłości informatyki dzięki inwestycji o wartości 2 miliardów dolarów w infrastrukturę chmury obliczeniowej opartą na sztucznej inteligencji. read more.

Czytaj teraz

Nemotron 3 Super jest w pełni otwarty na licencji Nvidia Nemotron Open Model License. Punkty kontrolne w formatach BF16, FP8 i NVFP4, wraz z danymi do wstępnego szkolenia, próbkami po szkoleniu oraz środowiskami uczenia się przez wzmocnienie, są dostępne na Hugging Face. Inferencja jest obsługiwana przez Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure i Coreweave, a opcje lokalne są dostępne za pośrednictwem Dell Enterprise Hub i HPE.

Programiści mogą uzyskać dostęp do receptur szkoleniowych, przewodników po dostrajaniu i podręczników inferencji za pośrednictwem platformy NeMo przy użyciu vLLM, SGLang i TensorRT-LLM.