Dikuasakan oleh
News

Nvidia Melancarkan Nemotron 3 Super, Model AI Terbuka 120B yang Dibina untuk Beban Kerja Agentik

Nvidia telah melancarkan Nemotron 3 Super, sebuah model hibrid terbuka dengan jumlah 120 bilion parameter yang direka untuk mengurangkan kos pengkomputeran bagi menjalankan ejen kecerdasan buatan (AI) pada skala besar.

DITULIS OLEH
KONGSI
Nvidia Melancarkan Nemotron 3 Super, Model AI Terbuka 120B yang Dibina untuk Beban Kerja Agentik

Intipati Utama:

  • Nvidia melancarkan Nemotron 3 Super, model MoE terbuka 120B-parameter yang mengaktifkan hanya 12.7B parameter bagi setiap laluan hadapan.
  • Nemotron 3 Super memberikan sehingga 7.5x lebih throughput berbanding Qwen3.5-122B-A10B dalam beban kerja ejen pada tetapan 8k-masuk/64k-keluar.
  • Model ini sepenuhnya terbuka di bawah Nvidia Nemotron Open Model License, dengan checkpoint dan data latihan di Hugging Face.

Nvidia Melancarkan Nemotron 3 Super Dengan Peningkatan Throughput 7.5x Berbanding Qwen3.5-122B

Model Nvidia terkini hanya mengaktifkan 12.7 bilion parameter bagi setiap laluan hadapan menggunakan seni bina Mixture-of-Experts (MoE), yang bermaksud kebanyakan pemberatnya kekal tidak aktif semasa inferens. Pilihan reka bentuk itu secara langsung menyasarkan dua masalah yang dihadapi pembangun apabila melancarkan ejen AI berbilang langkah: kos tambahan bagi rantaian penaakulan yang panjang dan penggunaan token yang melonjak yang boleh meningkat sehingga 15 kali ganda dalam saluran paip berbilang ejen.

Nemotron 3 Super ialah model kedua dalam keluarga Nemotron 3 Nvidia, selepas Nemotron 3 Nano pada Disember 2025. Nvidia mengumumkan pelancaran tersebut sekitar 10 Mac 2026.

Model ini menggunakan tulang belakang hibrid Mamba-Transformer merentasi 88 lapisan. Blok Mamba-2 mengendalikan jujukan panjang dengan kecekapan masa linear, manakala lapisan perhatian Transformer mengekalkan ingatan semula yang tepat. Gabungan itu memberikan model sokongan asli untuk tetingkap konteks sehingga satu juta token tanpa penalti memori yang lazim bagi reka bentuk perhatian tulen.

Nvidia juga membina sistem penghalaan LatentMoE yang memampatkan token embedding ke dalam ruang low-rank sebelum menghantarnya kepada 512 pakar bagi setiap lapisan, dengan 22 diaktifkan pada satu masa. Syarikat itu berkata ini membolehkan kira-kira empat kali ganda lebih banyak pakar pada kos inferens yang sama berbanding pendekatan MoE standard, serta membolehkan pengkhususan tugasan yang lebih halus, seperti memisahkan logik Python daripada pengendalian SQL pada peringkat pakar.

Nvidia Releases Nemotron 3 Super, a 120B Open AI Model Built for Agentic Workloads
Sumber imej: blog Nvidia.

Lapisan Multi-Token Prediction, menggunakan dua kepala berkongsi pemberat, mempercepat penjanaan chain-of-thought dan membolehkan speculative decoding secara asli. Untuk tugasan berstruktur, Nvidia melaporkan sehingga tiga kali lebih pantas penjanaan.

Model ini telah dipra-latih pada 25 trilion token merentasi dua fasa. Fasa pertama menggunakan 20 trilion token data umum. Fasa kedua menggunakan lima trilion token berkualiti tinggi yang ditala untuk prestasi penanda aras. Satu fasa lanjutan terakhir pada 51 bilion token meluaskan konteks asli kepada satu juta token. Pasca-latihan merangkumi supervised fine-tuning pada kira-kira tujuh juta sampel dan pembelajaran pengukuhan merentasi 21 persekitaran dengan lebih daripada 1.2 juta rollouts.

Dalam penanda aras, Nemotron 3 Super mencatat 83.73 pada MMLU-Pro, 90.21 pada AIME25, dan 60.47 pada SWE-Bench menggunakan OpenHands. Pada PinchBench, ia mencapai 85.6 peratus, skor tertinggi yang dilaporkan dalam kalangan model terbuka dalam kelasnya. Pada penilaian konteks panjang, ia mencatat 91.64 pada RULER 1M.

Berbanding GPT-OSS-120B, Nemotron 3 Super memberikan 2.2 kali throughput pada input 8k dan output 64k. Menentang Qwen3.5-122B-A10B, angka itu mencapai 7.5 kali. Nvidia juga melaporkan lebih daripada lima kali throughput dan sehingga dua kali ketepatan berbanding generasi Nemotron Super sebelumnya.

Nvidia melatih model ini dari hujung ke hujung dalam format floating-point empat-bit NVFP4 miliknya, yang dioptimumkan untuk GPU Blackwell. Pada perkakasan B200, Nvidia berkata inferens berjalan sehingga empat kali lebih pantas berbanding FP8 pada H100 tanpa kehilangan ketepatan yang dilaporkan. Checkpoint FP8 dan NVFP4 yang dikuantumkan mengekalkan 99.8 peratus atau lebih ketepatan berketepatan penuh.

Model ini juga menggerakkan ejen penyelidikan Nvidia AI-Q, yang mencapai kedudukan teratas pada papan pendahulu Deepresearch Bench.

Nvidia Menguasakan Rancangan Kilang AI Nebius Dengan Pelaburan Besar-Besaran $2 Bilion

Nvidia Menguasakan Rancangan Kilang AI Nebius Dengan Pelaburan Besar-Besaran $2 Bilion

Terokai bagaimana Nvidia sedang membentuk semula masa depan pengkomputeran dengan pelaburan $2 bilion dalam infrastruktur awan AI. read more.

Baca sekarang

Nemotron 3 Super sepenuhnya terbuka di bawah Nvidia Nemotron Open Model License. Checkpoint dalam format BF16, FP8, dan NVFP4, bersama data pra-latihan, sampel pasca-latihan, serta persekitaran pembelajaran pengukuhan, tersedia di Hugging Face. Inferens disokong melalui Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure, dan Coreweave, dengan pilihan on-premises melalui Dell Enterprise Hub dan HPE.

Pembangun boleh mengakses resipi latihan, panduan fine-tuning, dan buku resipi inferens melalui platform NeMo menggunakan vLLM, SGLang, dan TensorRT-LLM.