Nvidia telah merilis Nemotron 3 Super, sebuah model hibrida terbuka dengan total 120 miliar parameter yang dirancang untuk menekan biaya komputasi dalam menjalankan agen kecerdasan buatan (AI) secara massal.
Nvidia Meluncurkan Nemotron 3 Super, Model OpenAI dengan 120 miliar parameter yang dirancang untuk beban kerja berbasis agen

Poin Utama:
- Nvidia meluncurkan Nemotron 3 Super, sebuah model MoE terbuka dengan 120 miliar parameter yang hanya mengaktifkan 12,7 miliar parameter per lintasan maju.
- Nemotron 3 Super memberikan throughput hingga 7,5 kali lebih tinggi daripada Qwen3.5-122B-A10B dalam beban kerja agen pada pengaturan 8k-in/64k-out.
- Model ini sepenuhnya terbuka di bawah Lisensi Model Terbuka Nvidia Nemotron, dengan titik pemeriksaan dan data pelatihan di Hugging Face.
Nvidia Meluncurkan Nemotron 3 Super dengan Peningkatan Throughput 7,5x Dibandingkan Qwen3.5-122B
Model terbaru Nvidia hanya mengaktifkan 12,7 miliar parameter per lintasan maju menggunakan arsitektur Mixture-of-Experts (MoE), artinya sebagian besar bobotnya tetap tidak aktif selama inferensi. Pilihan desain ini secara langsung menargetkan dua masalah yang dihadapi pengembang saat mengimplementasikan agen AI multi-langkah: biaya tambahan dari rantai penalaran yang diperpanjang dan penggunaan token yang melonjak hingga 15 kali lipat dalam pipa multi-agen.
Nemotron 3 Super adalah model kedua dalam keluarga Nemotron 3 Nvidia, menyusul Nemotron 3 Nano yang dirilis pada Desember 2025. Nvidia mengumumkan peluncurannya sekitar 10 Maret 2026.
Model ini menggunakan arsitektur hibrida Mamba-Transformer yang mencakup 88 lapisan. Blok Mamba-2 menangani urutan panjang dengan efisiensi waktu linier, sementara lapisan perhatian Transformer mempertahankan akurasi ingatan yang presisi. Kombinasi ini memberikan dukungan bawaan untuk jendela konteks hingga satu juta token tanpa penalti memori yang umumnya terjadi pada desain berbasis perhatian murni.
Nvidia juga mengintegrasikan sistem rute LatentMoE yang mengompresi embedding token ke dalam ruang peringkat rendah sebelum mengirimkannya ke 512 ahli per lapisan, dengan mengaktifkan 22 ahli sekaligus. Perusahaan menyatakan hal ini memungkinkan sekitar empat kali lebih banyak ahli dengan biaya inferensi yang sama dibandingkan pendekatan MoE standar, serta memfasilitasi spesialisasi tugas yang lebih halus, seperti memisahkan logika Python dari penanganan SQL pada tingkat ahli.

Lapisan Prediksi Multi-Token, yang menggunakan dua kepala dengan bobot bersama, mempercepat pembangkitan rantai pemikiran dan memungkinkan dekoding spekulatif asli. Pada tugas terstruktur, Nvidia melaporkan pembangkitan hingga tiga kali lebih cepat.
Model ini dilatih sebelumnya pada 25 triliun token melalui dua fase. Fase pertama menggunakan 20 triliun token data umum. Fase kedua menggunakan lima triliun token berkualitas tinggi yang disesuaikan untuk kinerja benchmark. Fase ekstensi akhir pada 51 miliar token memperluas konteks asli hingga satu juta token. Pelatihan pasca-pelatihan mencakup penyempurnaan terawasi pada sekitar tujuh juta sampel dan pembelajaran penguatan di 21 lingkungan dengan lebih dari 1,2 juta iterasi.
Dalam pengujian benchmark, Nemotron 3 Super meraih skor 83,73 pada MMLU-Pro, 90,21 pada AIME25, dan 60,47 pada SWE-Bench menggunakan OpenHands. Pada PinchBench, model ini mencapai 85,6 persen, skor tertinggi yang dilaporkan di antara model terbuka dalam kelasnya. Pada evaluasi konteks panjang, model ini meraih skor 91,64 pada RULER 1M.
Dibandingkan dengan GPT-OSS-120B, Nemotron 3 Super menghasilkan throughput 2,2 kali lipat pada input 8k dan output 64k. Terhadap Qwen3.5-122B-A10B, angka tersebut mencapai 7,5 kali lipat. Nvidia juga melaporkan throughput lebih dari lima kali lipat dan akurasi hingga dua kali lipat dibandingkan generasi Nemotron Super sebelumnya.
Nvidia melatih model ini secara end-to-end dalam format bilangan floating-point empat bit NVFP4, yang dioptimalkan untuk GPU Blackwell. Pada perangkat keras B200, Nvidia menyatakan bahwa proses inferensi berjalan hingga empat kali lebih cepat dibandingkan FP8 pada H100 tanpa kehilangan akurasi yang dilaporkan. Titik pemeriksaan FP8 dan NVFP4 yang dikuantisasi mempertahankan 99,8 persen atau lebih dari akurasi presisi penuh.
Model ini juga mendukung agen penelitian Nvidia AI-Q, yang mencapai posisi teratas di papan peringkat Deepresearch Bench.

Nvidia Mendukung Rencana Pabrik AI Nebius dengan Investasi Besar Senilai $2 Miliar
Simak bagaimana Nvidia sedang membentuk masa depan komputasi melalui investasi senilai $2 miliar dalam infrastruktur cloud AI. read more.
Baca sekarang
Nvidia Mendukung Rencana Pabrik AI Nebius dengan Investasi Besar Senilai $2 Miliar
Simak bagaimana Nvidia sedang membentuk masa depan komputasi melalui investasi senilai $2 miliar dalam infrastruktur cloud AI. read more.
Baca sekarang
Nvidia Mendukung Rencana Pabrik AI Nebius dengan Investasi Besar Senilai $2 Miliar
Baca sekarangSimak bagaimana Nvidia sedang membentuk masa depan komputasi melalui investasi senilai $2 miliar dalam infrastruktur cloud AI. read more.
Nemotron 3 Super sepenuhnya terbuka di bawah Lisensi Model Terbuka Nvidia Nemotron. Titik pemeriksaan dalam format BF16, FP8, dan NVFP4, beserta data pra-pelatihan, sampel pasca-pelatihan, dan lingkungan pembelajaran penguatan, tersedia di Hugging Face. Inferensi didukung melalui Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure, dan Coreweave, dengan opsi on-premises melalui Dell Enterprise Hub dan HPE.
Pengembang dapat mengakses resep pelatihan, panduan penyempurnaan, dan buku panduan inferensi melalui platform NeMo menggunakan vLLM, SGLang, dan TensorRT-LLM.









