Nvidia đã ra mắt Nemotron 3 Super, một mô hình lai mã nguồn mở với tổng cộng 120 tỷ tham số, được thiết kế để giảm chi phí tính toán khi triển khai các tác nhân trí tuệ nhân tạo (AI) trên quy mô lớn.
Nvidia ra mắt Nemotron 3 Super, một mô hình AI mở có 120 tỷ tham số được thiết kế dành cho các tác vụ dựa trên tác nhân

Điểm chính:
- Nvidia đã ra mắt Nemotron 3 Super, một mô hình MoE mở với 120 tỷ tham số, chỉ kích hoạt 12,7 tỷ tham số cho mỗi lần truyền qua.
- Nemotron 3 Super mang lại thông lượng cao hơn tới 7,5 lần so với Qwen3.5-122B-A10B trong các tác vụ của tác nhân với cài đặt 8k-in/64k-out.
- Mô hình này hoàn toàn mở theo Giấy phép Mô hình Mở Nvidia Nemotron, với các điểm kiểm tra và dữ liệu huấn luyện trên Hugging Face.
Nvidia ra mắt Nemotron 3 Super với hiệu suất cao gấp 7,5 lần so với Qwen3.5-122B
Mô hình mới nhất của Nvidia chỉ kích hoạt 12,7 tỷ tham số mỗi lần truyền qua (forward pass) nhờ kiến trúc Mixture-of-Experts (MoE), nghĩa là phần lớn trọng số của nó ở trạng thái không hoạt động trong quá trình suy luận. Lựa chọn thiết kế này trực tiếp giải quyết hai vấn đề mà nhà phát triển gặp phải khi triển khai các tác nhân AI đa bước: chi phí tăng thêm do chuỗi suy luận kéo dài và việc sử dụng token tăng vọt có thể nhân lên đến 15 lần trong các đường ống đa tác nhân.
Nemotron 3 Super là mô hình thứ hai trong dòng Nemotron 3 của Nvidia, tiếp theo sau Nemotron 3 Nano ra mắt vào tháng 12 năm 2025. Nvidia đã công bố việc phát hành vào khoảng ngày 10 tháng 3 năm 2026.
Mô hình sử dụng kiến trúc lai Mamba-Transformer trải dài qua 88 lớp. Các khối Mamba-2 xử lý các chuỗi dài với hiệu suất tuyến tính, trong khi các lớp chú ý Transformer duy trì độ chính xác cao. Sự kết hợp này cho phép mô hình hỗ trợ bản địa các cửa sổ ngữ cảnh lên đến một triệu token mà không gặp các hạn chế về bộ nhớ thường thấy trong các thiết kế chú ý thuần túy.
Nvidia cũng tích hợp hệ thống định tuyến LatentMoE, nén các nhúng token vào không gian thứ hạng thấp trước khi gửi chúng đến 512 chuyên gia mỗi lớp, kích hoạt 22 chuyên gia cùng lúc. Công ty cho biết điều này cho phép sử dụng khoảng bốn lần số chuyên gia hơn với cùng chi phí suy luận so với các phương pháp MoE tiêu chuẩn, đồng thời cho phép chuyên môn hóa tác vụ chi tiết hơn, chẳng hạn như tách biệt logic Python khỏi xử lý SQL ở cấp độ chuyên gia.

Các lớp Dự đoán Đa Token, sử dụng hai đầu ra có trọng số chung, giúp tăng tốc quá trình tạo chuỗi suy luận và cho phép giải mã dự đoán gốc. Trên các tác vụ có cấu trúc, Nvidia báo cáo tốc độ tạo nội dung nhanh hơn tới ba lần.
Mô hình được huấn luyện trước trên 25 nghìn tỷ token qua hai giai đoạn. Giai đoạn đầu tiên sử dụng 20 nghìn tỷ token dữ liệu tổng quát. Giai đoạn thứ hai sử dụng 5 nghìn tỷ token chất lượng cao được tối ưu hóa cho hiệu suất trên các bộ dữ liệu chuẩn. Giai đoạn mở rộng cuối cùng trên 51 tỷ token đã mở rộng bối cảnh gốc lên một triệu token. Giai đoạn huấn luyện sau bao gồm tinh chỉnh có giám sát trên khoảng bảy triệu mẫu và học tăng cường trên 21 môi trường với hơn 1,2 triệu lần triển khai.
Trong các bài kiểm tra chuẩn, Nemotron 3 Super đạt 83,73 trên MMLU-Pro, 90,21 trên AIME25 và 60,47 trên SWE-Bench khi sử dụng OpenHands. Trên PinchBench, nó đạt 85,6%, là điểm số cao nhất được báo cáo trong số các mô hình mở cùng loại. Trong đánh giá bối cảnh dài, nó đạt 91,64 trên RULER 1M.
So với GPT-OSS-120B, Nemotron 3 Super mang lại thông lượng gấp 2,2 lần ở đầu vào 8k và đầu ra 64k. So với Qwen3.5-122B-A10B, con số này lên tới 7,5 lần. Nvidia cũng báo cáo thông lượng cao hơn gấp hơn năm lần và độ chính xác cao hơn gấp hai lần so với thế hệ Nemotron Super trước đó.
Nvidia đã huấn luyện mô hình từ đầu đến cuối (end-to-end) trong định dạng số thập phân bốn bit NVFP4, được tối ưu hóa cho GPU Blackwell. Trên phần cứng B200, Nvidia cho biết quá trình suy luận diễn ra nhanh hơn tới 4 lần so với FP8 trên H100 mà không có sự suy giảm độ chính xác được báo cáo. Các điểm kiểm tra (checkpoint) được lượng tử hóa ở định dạng FP8 và NVFP4 duy trì 99,8% hoặc hơn độ chính xác so với định dạng độ chính xác đầy đủ.
Mô hình này cũng cung cấp sức mạnh cho tác nhân nghiên cứu Nvidia AI-Q, đã đạt vị trí dẫn đầu trên bảng xếp hạng Deepresearch Bench.

Nvidia hỗ trợ kế hoạch xây dựng nhà máy trí tuệ nhân tạo Nebius với khoản đầu tư khổng lồ trị giá 2 tỷ USD
Khám phá cách Nvidia đang định hình lại tương lai của ngành công nghệ thông tin thông qua khoản đầu tư 2 tỷ USD vào hạ tầng đám mây trí tuệ nhân tạo. read more.
Đọc ngay
Nvidia hỗ trợ kế hoạch xây dựng nhà máy trí tuệ nhân tạo Nebius với khoản đầu tư khổng lồ trị giá 2 tỷ USD
Khám phá cách Nvidia đang định hình lại tương lai của ngành công nghệ thông tin thông qua khoản đầu tư 2 tỷ USD vào hạ tầng đám mây trí tuệ nhân tạo. read more.
Đọc ngay
Nvidia hỗ trợ kế hoạch xây dựng nhà máy trí tuệ nhân tạo Nebius với khoản đầu tư khổng lồ trị giá 2 tỷ USD
Đọc ngayKhám phá cách Nvidia đang định hình lại tương lai của ngành công nghệ thông tin thông qua khoản đầu tư 2 tỷ USD vào hạ tầng đám mây trí tuệ nhân tạo. read more.
Nemotron 3 Super được phát hành hoàn toàn mở theo Giấy phép Mô hình Mở Nvidia Nemotron. Các điểm kiểm tra ở các định dạng BF16, FP8 và NVFP4, cùng với dữ liệu tiền huấn luyện, mẫu hậu huấn luyện và môi trường học tăng cường, đều có sẵn trên Hugging Face. Việc suy luận được hỗ trợ thông qua Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure và Coreweave, cùng với các tùy chọn tại chỗ thông qua Dell Enterprise Hub và HPE.
Các nhà phát triển có thể truy cập các công thức huấn luyện, hướng dẫn tinh chỉnh và sách hướng dẫn suy luận thông qua nền tảng NeMo bằng cách sử dụng vLLM, SGLang và TensorRT-LLM.









