انویدیا نماترون ۳ سوپر را منتشر کرده است؛ یک مدل هیبریدی باز با مجموع ۱۲۰ میلیارد پارامتر که برای کاهش هزینهٔ محاسبات اجرای عاملهای هوش مصنوعی (AI) در مقیاس طراحی شده است.
انویدیا نماترون ۳ سوپر را منتشر کرد؛ یک مدل متنباز ۱۲۰ میلیارد پارامتری که برای بارهای کاری عاملمحور ساخته شده است

نکات کلیدی:
- انویدیا نماترون ۳ سوپر را منتشر کرد؛ یک مدل باز MoE با ۱۲۰ میلیارد پارامتر که در هر عبور روبهجلو فقط ۱۲.۷ میلیارد پارامتر را فعال میکند.
- نماترون ۳ سوپر در بارهای کاری عاملمحور با تنظیمات 8k ورودی/64k خروجی تا ۷.۵ برابر توان عملیاتی بیشتر از Qwen3.5-122B-A10B ارائه میدهد.
- این مدل بهطور کامل تحت مجوز Nvidia Nemotron Open Model License باز است و چکپوینتها و دادههای آموزشی آن روی Hugging Face قرار دارند.
انویدیا نماترون ۳ سوپر را با افزایش ۷.۵ برابری توان عملیاتی نسبت به Qwen3.5-122B عرضه کرد
جدیدترین مدل انویدیا با استفاده از معماری Mixture-of-Experts (MoE) در هر عبور روبهجلو فقط ۱۲.۷ میلیارد پارامتر را فعال میکند؛ یعنی بخش عمدهٔ وزنهای آن هنگام استنتاج بلااستفاده میماند. این انتخاب طراحی مستقیماً دو مشکلی را هدف میگیرد که توسعهدهندگان هنگام استقرار عاملهای هوش مصنوعی چندمرحلهای با آن روبهرو میشوند: هزینهٔ اضافی زنجیرههای استدلال طولانی و افزایش سرسامآور مصرف توکن که در پایپلاینهای چندعاملی میتواند تا ۱۵ برابر شود.
نماترون ۳ سوپر دومین مدل از خانوادهٔ Nemotron 3 انویدیا است و پس از Nemotron 3 Nano در دسامبر ۲۰۲۵ عرضه میشود. انویدیا اعلام کرد که این انتشار حوالی ۱۰ مارس ۲۰۲۶ انجام شده است.
این مدل از یک ستونفقرات هیبریدی Mamba-Transformer در ۸۸ لایه استفاده میکند. بلوکهای Mamba-2 توالیهای طولانی را با کارایی زمان خطی مدیریت میکنند، در حالی که لایههای توجه ترنسفورمر یادآوری دقیق را حفظ میکنند. این ترکیب به مدل امکان پشتیبانی بومی از پنجرههای زمینه تا یک میلیون توکن را میدهد، بدون جریمههای حافظهای که معمولاً در طراحیهای صرفاً مبتنی بر توجه دیده میشود.
انویدیا همچنین یک سامانهٔ مسیریابی LatentMoE را تعبیه کرده است که پیش از ارسال به ۵۱۲ اکسپرت در هر لایه، امبدینگهای توکن را در یک فضای کمرتبه فشرده میکند و هر بار ۲۲ اکسپرت را فعال میسازد. شرکت میگوید این کار در مقایسه با رویکردهای استاندارد MoE امکان حدوداً چهار برابر اکسپرت بیشتر را با همان هزینهٔ استنتاج فراهم میکند و تخصصیسازی دقیقتر وظایف را ممکن میسازد؛ مانند جدا کردن منطق پایتون از رسیدگی به SQL در سطح اکسپرت.

لایههای پیشبینی چندتوکنی (Multi-Token Prediction) با استفاده از دو هد با وزن مشترک، تولید زنجیرهٔ تفکر را سریعتر میکنند و امکان رمزگشایی گمانهزنانهٔ بومی (speculative decoding) را فراهم میسازند. انویدیا در وظایف ساختیافته، افزایش سرعت تولید تا سه برابر را گزارش میکند.
این مدل در دو فاز روی ۲۵ تریلیون توکن پیشآموزش داده شد. فاز اول از ۲۰ تریلیون توکنِ دادهٔ عمومی و گسترده استفاده کرد. فاز دوم از پنج تریلیون توکنِ باکیفیت برای تنظیم عملکرد بنچمارکها بهره گرفت. یک فاز توسعهٔ نهایی روی ۵۱ میلیارد توکن، زمینهٔ بومی را تا یک میلیون توکن گسترش داد. پس از آموزش، شامل ریزتنظیم نظارتشده روی حدود هفت میلیون نمونه و یادگیری تقویتی در ۲۱ محیط با بیش از ۱.۲ میلیون رولاوت بود.
در بنچمارکها، نماترون ۳ سوپر امتیاز ۸۳.۷۳ در MMLU-Pro، امتیاز ۹۰.۲۱ در AIME25 و امتیاز ۶۰.۴۷ در SWE-Bench با استفاده از OpenHands را کسب کرد. در PinchBench به ۸۵.۶ درصد رسید که بالاترین امتیاز گزارششده در میان مدلهای باز در کلاس خود است. در ارزیابی زمینهٔ طولانی، در RULER 1M امتیاز ۹۱.۶۴ را ثبت کرد.
در مقایسه با GPT-OSS-120B، نماترون ۳ سوپر در ورودی 8k و خروجی 64k، ۲.۲ برابر توان عملیاتی ارائه میدهد. در برابر Qwen3.5-122B-A10B، این عدد به ۷.۵ برابر میرسد. انویدیا همچنین بیش از پنج برابر توان عملیاتی و تا دو برابر دقت نسبت به نسل قبلی Nemotron Super را گزارش میکند.
انویدیا این مدل را بهصورت سرتاسری در قالب نقطهاعشاری چهاربیتی NVFP4 خود آموزش داده است که برای GPUهای Blackwell بهینه شده است. انویدیا میگوید روی سختافزار B200، استنتاج در مقایسه با FP8 روی H100 تا چهار برابر سریعتر اجرا میشود، بدون آنکه افت دقتی گزارش شود. چکپوینتهای کوانتیزهشدهٔ FP8 و NVFP4، ۹۹.۸ درصد یا بیشتر از دقتِ تمامدقت را حفظ میکنند.
این مدل همچنین موتور عامل پژوهشی Nvidia AI-Q است که به رتبهٔ نخست جدول Deepresearch Bench دست یافته است.

انویدیا با سرمایهگذاری عظیم ۲ میلیارد دلاری، برنامههای کارخانه هوش مصنوعی نبیوس را تقویت میکند
کشف کنید چگونه انویدیا با سرمایهگذاری ۲ میلیارد دلاری در زیرساخت ابری هوش مصنوعی، آیندهٔ رایانش را بازتعریف میکند. read more.
اکنون بخوانید
انویدیا با سرمایهگذاری عظیم ۲ میلیارد دلاری، برنامههای کارخانه هوش مصنوعی نبیوس را تقویت میکند
کشف کنید چگونه انویدیا با سرمایهگذاری ۲ میلیارد دلاری در زیرساخت ابری هوش مصنوعی، آیندهٔ رایانش را بازتعریف میکند. read more.
اکنون بخوانید
انویدیا با سرمایهگذاری عظیم ۲ میلیارد دلاری، برنامههای کارخانه هوش مصنوعی نبیوس را تقویت میکند
اکنون بخوانیدکشف کنید چگونه انویدیا با سرمایهگذاری ۲ میلیارد دلاری در زیرساخت ابری هوش مصنوعی، آیندهٔ رایانش را بازتعریف میکند. read more.
نماترون ۳ سوپر تحت مجوز Nvidia Nemotron Open Model License بهطور کامل باز است. چکپوینتها در قالبهای BF16، FP8 و NVFP4، بههمراه دادههای پیشآموزش، نمونههای پساآموزش و محیطهای یادگیری تقویتی، روی Hugging Face در دسترس هستند. استنتاج از طریق Nvidia NIM، build.nvidia.com، Perplexity، Openrouter، Together AI، Google Cloud، AWS، Azure و Coreweave پشتیبانی میشود و گزینههای درونسازمانی (on-premises) نیز از طریق Dell Enterprise Hub و HPE ارائه میگردد.
توسعهدهندگان میتوانند از طریق پلتفرم NeMo با استفاده از vLLM، SGLang و TensorRT-LLM به دستورالعملهای آموزش، راهنماهای ریزتنظیم و کتابچههای راهنمای استنتاج دسترسی پیدا کنند.














