Pinapagana ng
News

Inilabas ng Nvidia ang Nemotron 3 Super, isang 120B na Open AI Model na ginawa para sa mga agentic na workload

Inilabas ng Nvidia ang Nemotron 3 Super, isang 120 bilyong kabuuang parameter na bukas na hybrid na modelo na idinisenyo upang bawasan ang gastos sa kompyut ng pagpapatakbo ng mga artificial intelligence (AI) agent sa malakihang saklaw.

ISINULAT NI
IBAHAGI
Inilabas ng Nvidia ang Nemotron 3 Super, isang 120B na Open AI Model na ginawa para sa mga agentic na workload

Mahahalagang Punto:

  • Inilabas ng Nvidia ang Nemotron 3 Super, isang 120B-parameter na bukas na MoE model na nag-a-activate lamang ng 12.7B na parameter sa bawat forward pass.
  • Naghahatid ang Nemotron 3 Super ng hanggang 7.5x na mas mataas na throughput kaysa Qwen3.5-122B-A10B sa mga agent workload sa 8k-in/64k-out na mga setting.
  • Ganap na bukas ang modelo sa ilalim ng Nvidia Nemotron Open Model License, at ang mga checkpoint at training data ay nasa Hugging Face.

Inilunsad ng Nvidia ang Nemotron 3 Super na may 7.5x na Pagtaas ng Throughput Kumpara sa Qwen3.5-122B

Ang pinakabagong modelo ng Nvidia ay nag-a-activate lamang ng 12.7 bilyong parameter sa bawat forward pass gamit ang arkitekturang Mixture-of-Experts (MoE), na ibig sabihin ay karamihan sa bigat nito ay nananatiling walang ginagawa sa panahon ng inference. Direktang tinatarget ng pagpiling ito sa disenyo ang dalawang problemang nararanasan ng mga developer kapag nagde-deploy ng mga multi-step na AI agent: ang dagdag na gastos ng mahahabang reasoning chain at ang lumolobong paggamit ng token na maaaring dumami hanggang 15 beses sa mga multi-agent pipeline.

Ang Nemotron 3 Super ang ikalawang modelo sa pamilya ng Nemotron 3 ng Nvidia, kasunod ng Nemotron 3 Nano noong Disyembre 2025. Inanunsyo ng Nvidia ang paglabas bandang Marso 10, 2026.

Gumagamit ang modelo ng hybrid na Mamba-Transformer backbone sa 88 layer. Pinangangasiwaan ng mga Mamba-2 block ang mahahabang sequence na may linear-time na kahusayan, habang pinananatili ng mga Transformer attention layer ang tumpak na recall. Ang kombinasyong iyon ang nagbibigay sa modelo ng likas na suporta para sa mga context window na hanggang isang milyong token nang walang mga parusang pang-memorya na karaniwan sa mga pure-attention na disenyo.

Ang Nvidia ay nagdagdag din ng LatentMoE routing system na nagko-compress ng mga token embedding sa isang low-rank na espasyo bago ipadala ang mga ito sa 512 expert sa bawat layer, na nag-a-activate ng 22 sa isang pagkakataon. Sinasabi ng kumpanya na nagbibigay ito-daan sa humigit-kumulang apat na beses na mas maraming expert sa parehong inference cost kumpara sa mga karaniwang MoE approach, at nagpapahintulot ng mas pinong task specialization, gaya ng paghihiwalay ng Python logic mula sa SQL handling sa antas ng expert.

Nvidia Releases Nemotron 3 Super, a 120B Open AI Model Built for Agentic Workloads
Pinagmulan ng larawan: Nvidia blog.

Ang mga Multi-Token Prediction layer, na gumagamit ng dalawang shared-weight head, ay nagpapabilis sa pagbuo ng chain-of-thought at nagbibigay-daan sa likas na speculative decoding. Sa mga structured na gawain, iniulat ng Nvidia ang hanggang tatlong beses na mas mabilis na pagbuo.

Ang modelo ay na-pre-train sa 25 trilyong token sa dalawang yugto. Ang unang yugto ay gumamit ng 20 trilyong token ng malawak na datos. Ang ikalawa ay gumamit ng limang trilyong de-kalidad na token na itinono para sa performance sa benchmark. Ang huling extension phase na may 51 bilyong token ay nagpalawig ng likas na context hanggang isang milyong token. Kasama sa post-training ang supervised fine-tuning sa humigit-kumulang pitong milyong sample at reinforcement learning sa 21 environment na may mahigit 1.2 milyong rollout.

Sa mga benchmark, nakakuha ang Nemotron 3 Super ng 83.73 sa MMLU-Pro, 90.21 sa AIME25, at 60.47 sa SWE-Bench gamit ang OpenHands. Sa PinchBench, umabot ito sa 85.6 porsiyento, ang pinakamataas na naiulat na marka sa mga bukas na modelo sa klaseng ito. Sa long-context evaluation, nakakuha ito ng 91.64 sa RULER 1M.

Kung ihahambing sa GPT-OSS-120B, naghahatid ang Nemotron 3 Super ng 2.2 beses na throughput sa 8k input at 64k output. Laban sa Qwen3.5-122B-A10B, umaabot ang bilang na iyon sa 7.5 beses. Iniulat din ng Nvidia ang mahigit limang beses na throughput at hanggang dalawang beses na accuracy kumpara sa naunang henerasyon ng Nemotron Super.

Sinanay ng Nvidia ang modelo end-to-end sa NVFP4 na four-bit floating-point format nito, na in-optimize para sa mga Blackwell GPU. Sa B200 hardware, sinasabi ng Nvidia na ang inference ay tumatakbo nang hanggang apat na beses na mas mabilis kumpara sa FP8 sa H100 nang walang naiulat na pagkawala ng accuracy. Ang mga quantized na FP8 at NVFP4 checkpoint ay nagpapanatili ng 99.8 porsiyento o higit pa ng full-precision na accuracy.

Ang modelo ay nagpapagana rin sa Nvidia AI-Q research agent, na umabot sa nangungunang puwesto sa Deepresearch Bench leaderboard.

Pinapagana ng Nvidia ang mga Plano ng Nebius AI Factory sa Pamamagitan ng Malaking $2 Bilyong Pamumuhunan

Pinapagana ng Nvidia ang mga Plano ng Nebius AI Factory sa Pamamagitan ng Malaking $2 Bilyong Pamumuhunan

Tuklasin kung paano binabago ng Nvidia ang hinaharap ng kompyuting sa pamamagitan ng $2 bilyong pamumuhunan sa imprastraktura ng AI cloud. read more.

Basahin ngayon

Ganap na bukas ang Nemotron 3 Super sa ilalim ng Nvidia Nemotron Open Model License. Ang mga checkpoint sa BF16, FP8, at NVFP4 na mga format, kasama ang pre-training data, post-training sample, at reinforcement learning environment, ay available sa Hugging Face. Sinusuportahan ang inference sa pamamagitan ng Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure, at Coreweave, kasama ang mga on-premises na opsyon sa pamamagitan ng Dell Enterprise Hub at HPE.

Maaaring ma-access ng mga developer ang mga training recipe, gabay sa fine-tuning, at inference cookbook sa pamamagitan ng NeMo platform gamit ang vLLM, SGLang, at TensorRT-LLM.

Mga tag sa kwentong ito