Nvidia ได้เปิดตัว Nemotron 3 Super ซึ่งเป็นโมเดลไฮบริดแบบเปิดที่มีพารามิเตอร์รวม 120 พันล้าน ออกแบบมาเพื่อลดต้นทุนการประมวลผลในการรันเอเจนต์ปัญญาประดิษฐ์ (AI) ในระดับสเกล
Nvidia เปิดตัว Nemotron 3 Super ซึ่งเป็นโมเดล Open AI ขนาด 120B ที่สร้างขึ้นสำหรับเวิร์กโหลดแบบเอเจนต์

ประเด็นสำคัญ:
- Nvidia เปิดตัว Nemotron 3 Super ซึ่งเป็นโมเดล MoE แบบเปิดที่มีพารามิเตอร์ 120B โดยเปิดใช้งานเพียง 12.7B พารามิเตอร์ต่อการส่งผ่านแบบ forward pass
- Nemotron 3 Super ให้ปริมาณงาน (throughput) สูงสุดมากกว่า Qwen3.5-122B-A10B ถึง 7.5 เท่าในงานเอเจนต์ บนการตั้งค่า 8k-in/64k-out
- โมเดลนี้เปิดใช้งานได้เต็มรูปแบบภายใต้สัญญาอนุญาต Nvidia Nemotron Open Model License พร้อมเช็คพอยต์และข้อมูลฝึกสอนบน Hugging Face
Nvidia เปิดตัว Nemotron 3 Super พร้อมการเพิ่ม throughput 7.5 เท่าเหนือ Qwen3.5-122B
โมเดลล่าสุดของ Nvidia เปิดใช้งานเพียง 12.7 พันล้านพารามิเตอร์ต่อการส่งผ่านแบบ forward pass ด้วยสถาปัตยกรรม Mixture-of-Experts (MoE) หมายความว่าน้ำหนักส่วนใหญ่จะไม่ถูกใช้งานระหว่างการทำอนุมาน (inference) ตัวเลือกการออกแบบนี้มุ่งแก้สองปัญหาที่นักพัฒนาเจอเมื่อปรับใช้ เอเจนต์ AI แบบหลายขั้นตอน: ต้นทุนที่เพิ่มขึ้นจากสายการให้เหตุผลที่ยาวขึ้น และการใช้โทเค็นที่พุ่งสูงซึ่งอาจทวีคูณได้ถึง 15 เท่าในไปป์ไลน์แบบหลายเอเจนต์
Nemotron 3 Super เป็นโมเดลตัวที่สองในตระกูล Nemotron 3 ของ Nvidia ต่อจาก Nemotron 3 Nano ที่เปิดตัวเมื่อเดือนธันวาคม 2025 โดย Nvidia ประกาศ การเปิดตัวราววันที่ 10 มีนาคม 2026
โมเดลนี้ใช้แบ็กโบนแบบไฮบริด Mamba-Transformer ครอบคลุม 88 เลเยอร์ บล็อก Mamba-2 จัดการลำดับยาวด้วยประสิทธิภาพแบบเวลาเชิงเส้น (linear-time) ขณะที่เลเยอร์ attention ของ Transformer ช่วยคงความสามารถในการเรียกคืนข้อมูลอย่างแม่นยำ การผสานกันนี้ทำให้โมเดลรองรับหน้าต่างคอนเท็กซ์ได้สูงสุดหนึ่งล้านโทเค็นโดยกำเนิด โดยไม่ต้องแบกรับโทษด้านหน่วยความจำที่พบได้ทั่วไปในดีไซน์ที่พึ่งพา attention ล้วนๆ
Nvidia ยังได้ผนวกระบบกำหนดเส้นทาง LatentMoE ที่บีบอัด embedding ของโทเค็นลงไปอยู่ในสเปซแบบ low-rank ก่อนส่งไปยังผู้เชี่ยวชาญ (experts) 512 ตัวต่อเลเยอร์ โดยเปิดใช้งานพร้อมกันครั้งละ 22 ตัว บริษัทระบุว่าวิธีนี้ทำให้มีผู้เชี่ยวชาญได้มากขึ้นราวสี่เท่าในต้นทุนการทำอนุมานเท่าเดิมเมื่อเทียบกับแนวทาง MoE มาตรฐาน และช่วยให้เชี่ยวชาญงานได้ละเอียดขึ้น เช่น แยกตรรกะ Python ออกจากการจัดการ SQL ในระดับ expert

เลเยอร์ Multi-Token Prediction ซึ่งใช้หัว (heads) สองหัวที่แชร์น้ำหนักร่วมกัน ช่วยเร่งการสร้าง chain-of-thought และรองรับ speculative decoding แบบเนทีฟ สำหรับงานที่มีโครงสร้าง Nvidia รายงานว่าสามารถสร้างได้เร็วขึ้นสูงสุดถึงสามเท่า
โมเดลถูกพรีเทรนบนโทเค็นรวม 25 ล้านล้านโทเค็น แบ่งเป็นสองเฟส เฟสแรกใช้โทเค็น 20 ล้านล้านจากข้อมูลวงกว้าง เฟสที่สองใช้โทเค็นคุณภาพสูง 5 ล้านล้านเพื่อปรับจูนให้ทำคะแนนบนเบนช์มาร์กได้ดี จากนั้นมีเฟสขยายเพิ่มเติมบน 51 พันล้านโทเค็นเพื่อขยายคอนเท็กซ์เนทีฟเป็นหนึ่งล้านโทเค็น ขั้นตอนหลังการฝึก (post-training) รวมถึง supervised fine-tuning บนตัวอย่างราว 7 ล้านรายการ และ reinforcement learning ครอบคลุม 21 สภาพแวดล้อมด้วย rollouts มากกว่า 1.2 ล้านครั้ง
ในการทดสอบเบนช์มาร์ก Nemotron 3 Super ทำได้ 83.73 บน MMLU-Pro, 90.21 บน AIME25 และ 60.47 บน SWE-Bench โดยใช้ OpenHands บน PinchBench ทำได้ 85.6 เปอร์เซ็นต์ ซึ่งเป็นคะแนนสูงสุดที่รายงานในบรรดาโมเดลแบบเปิดในคลาสเดียวกัน สำหรับการประเมินคอนเท็กซ์ยาว ทำได้ 91.64 บน RULER 1M
เมื่อเทียบกับ GPT-OSS-120B, Nemotron 3 Super ให้ throughput สูงขึ้น 2.2 เท่าที่อินพุต 8k และเอาต์พุต 64k ส่วนเมื่อเทียบกับ Qwen3.5-122B-A10B ตัวเลขดังกล่าวเพิ่มเป็น 7.5 เท่า Nvidia ยังรายงาน throughput มากกว่า 5 เท่า และความแม่นยำสูงขึ้นได้ถึง 2 เท่า เมื่อเทียบกับ Nemotron Super รุ่นก่อนหน้า
Nvidia ฝึกโมเดลแบบ end-to-end ด้วยฟอร์แมตเลขทศนิยมลอยตัวสี่บิต NVFP4 ของตน ซึ่งปรับให้เหมาะกับ GPU ตระกูล Blackwell บนฮาร์ดแวร์ B200 Nvidia ระบุว่าการทำอนุมานทำได้เร็วขึ้นสูงสุด 4 เท่าเมื่อเทียบกับ FP8 บน H100 โดยไม่มีรายงานการสูญเสียความแม่นยำ เช็คพอยต์แบบควอนไทซ์ FP8 และ NVFP4 ยังคงรักษาความแม่นยำได้อย่างน้อย 99.8 เปอร์เซ็นต์ของแบบความละเอียดเต็ม (full-precision)
โมเดลนี้ ยังเป็นพลังขับเคลื่อนให้กับเอเจนต์วิจัย Nvidia AI-Q ซึ่งขึ้นไปอยู่ในอันดับสูงสุดบนลีดเดอร์บอร์ด Deepresearch Bench

Nvidia ขับเคลื่อนแผนโรงงาน AI ของ Nebius ด้วยการลงทุนมหาศาล 2 พันล้านดอลลาร์
สำรวจว่า Nvidia กำลังกำหนดอนาคตของการประมวลผลใหม่อย่างไร ด้วยการลงทุนมูลค่า 2 พันล้านดอลลาร์ในโครงสร้างพื้นฐานคลาวด์สำหรับ AI read more.
อ่านตอนนี้
Nvidia ขับเคลื่อนแผนโรงงาน AI ของ Nebius ด้วยการลงทุนมหาศาล 2 พันล้านดอลลาร์
สำรวจว่า Nvidia กำลังกำหนดอนาคตของการประมวลผลใหม่อย่างไร ด้วยการลงทุนมูลค่า 2 พันล้านดอลลาร์ในโครงสร้างพื้นฐานคลาวด์สำหรับ AI read more.
อ่านตอนนี้
Nvidia ขับเคลื่อนแผนโรงงาน AI ของ Nebius ด้วยการลงทุนมหาศาล 2 พันล้านดอลลาร์
อ่านตอนนี้สำรวจว่า Nvidia กำลังกำหนดอนาคตของการประมวลผลใหม่อย่างไร ด้วยการลงทุนมูลค่า 2 พันล้านดอลลาร์ในโครงสร้างพื้นฐานคลาวด์สำหรับ AI read more.
Nemotron 3 Super เปิดให้ใช้งานได้เต็มรูปแบบภายใต้ Nvidia Nemotron Open Model License โดยมีเช็คพอยต์ในฟอร์แมต BF16, FP8 และ NVFP4 พร้อมทั้งข้อมูลพรีเทรน ข้อมูลตัวอย่างสำหรับ post-training และสภาพแวดล้อม reinforcement learning ให้ใช้งานบน Hugging Face การทำอนุมานรองรับผ่าน Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure และ Coreweave พร้อมตัวเลือกใช้งานแบบ on-premises ผ่าน Dell Enterprise Hub และ HPE
นักพัฒนาสามารถเข้าถึงสูตรการฝึก (training recipes) คู่มือการฟাইনจูน และคู่มือการทำอนุมาน (inference cookbooks) ผ่านแพลตฟอร์ม NeMo โดยใช้ vLLM, SGLang และ TensorRT-LLM














