ارائه توسط
News

انویدیا نماترون ۳ سوپر را منتشر کرد؛ یک مدل متن‌باز ۱۲۰ میلیارد پارامتری که برای بارهای کاری عامل‌محور ساخته شده است

انویدیا نماترون ۳ سوپر را منتشر کرده است؛ یک مدل هیبریدی باز با مجموع ۱۲۰ میلیارد پارامتر که برای کاهش هزینهٔ محاسبات اجرای عامل‌های هوش مصنوعی (AI) در مقیاس طراحی شده است.

نویسنده
اشتراک
انویدیا نماترون ۳ سوپر را منتشر کرد؛ یک مدل متن‌باز ۱۲۰ میلیارد پارامتری که برای بارهای کاری عامل‌محور ساخته شده است

نکات کلیدی:

  • انویدیا نماترون ۳ سوپر را منتشر کرد؛ یک مدل باز MoE با ۱۲۰ میلیارد پارامتر که در هر عبور رو‌به‌جلو فقط ۱۲.۷ میلیارد پارامتر را فعال می‌کند.
  • نماترون ۳ سوپر در بارهای کاری عامل‌محور با تنظیمات 8k ورودی/64k خروجی تا ۷.۵ برابر توان عملیاتی بیشتر از Qwen3.5-122B-A10B ارائه می‌دهد.
  • این مدل به‌طور کامل تحت مجوز Nvidia Nemotron Open Model License باز است و چک‌پوینت‌ها و داده‌های آموزشی آن روی Hugging Face قرار دارند.

انویدیا نماترون ۳ سوپر را با افزایش ۷.۵ برابری توان عملیاتی نسبت به Qwen3.5-122B عرضه کرد

جدیدترین مدل انویدیا با استفاده از معماری Mixture-of-Experts (MoE) در هر عبور رو‌به‌جلو فقط ۱۲.۷ میلیارد پارامتر را فعال می‌کند؛ یعنی بخش عمدهٔ وزن‌های آن هنگام استنتاج بلااستفاده می‌ماند. این انتخاب طراحی مستقیماً دو مشکلی را هدف می‌گیرد که توسعه‌دهندگان هنگام استقرار عامل‌های هوش مصنوعی چندمرحله‌ای با آن روبه‌رو می‌شوند: هزینهٔ اضافی زنجیره‌های استدلال طولانی و افزایش سرسام‌آور مصرف توکن که در پایپ‌لاین‌های چندعاملی می‌تواند تا ۱۵ برابر شود.

نماترون ۳ سوپر دومین مدل از خانوادهٔ Nemotron 3 انویدیا است و پس از Nemotron 3 Nano در دسامبر ۲۰۲۵ عرضه می‌شود. انویدیا اعلام کرد که این انتشار حوالی ۱۰ مارس ۲۰۲۶ انجام شده است.

این مدل از یک ستون‌فقرات هیبریدی Mamba-Transformer در ۸۸ لایه استفاده می‌کند. بلوک‌های Mamba-2 توالی‌های طولانی را با کارایی زمان خطی مدیریت می‌کنند، در حالی که لایه‌های توجه ترنسفورمر یادآوری دقیق را حفظ می‌کنند. این ترکیب به مدل امکان پشتیبانی بومی از پنجره‌های زمینه تا یک میلیون توکن را می‌دهد، بدون جریمه‌های حافظه‌ای که معمولاً در طراحی‌های صرفاً مبتنی بر توجه دیده می‌شود.

انویدیا همچنین یک سامانهٔ مسیریابی LatentMoE را تعبیه کرده است که پیش از ارسال به ۵۱۲ اکسپرت در هر لایه، امبدینگ‌های توکن را در یک فضای کم‌رتبه فشرده می‌کند و هر بار ۲۲ اکسپرت را فعال می‌سازد. شرکت می‌گوید این کار در مقایسه با رویکردهای استاندارد MoE امکان حدوداً چهار برابر اکسپرت بیشتر را با همان هزینهٔ استنتاج فراهم می‌کند و تخصصی‌سازی دقیق‌تر وظایف را ممکن می‌سازد؛ مانند جدا کردن منطق پایتون از رسیدگی به SQL در سطح اکسپرت.

Nvidia Releases Nemotron 3 Super, a 120B Open AI Model Built for Agentic Workloads
منبع تصویر: وبلاگ انویدیا.

لایه‌های پیش‌بینی چندتوکنی (Multi-Token Prediction) با استفاده از دو هد با وزن مشترک، تولید زنجیرهٔ تفکر را سریع‌تر می‌کنند و امکان رمزگشایی گمانه‌زنانهٔ بومی (speculative decoding) را فراهم می‌سازند. انویدیا در وظایف ساخت‌یافته، افزایش سرعت تولید تا سه برابر را گزارش می‌کند.

این مدل در دو فاز روی ۲۵ تریلیون توکن پیش‌آموزش داده شد. فاز اول از ۲۰ تریلیون توکنِ دادهٔ عمومی و گسترده استفاده کرد. فاز دوم از پنج تریلیون توکنِ باکیفیت برای تنظیم عملکرد بنچمارک‌ها بهره گرفت. یک فاز توسعهٔ نهایی روی ۵۱ میلیارد توکن، زمینهٔ بومی را تا یک میلیون توکن گسترش داد. پس از آموزش، شامل ریزتنظیم نظارت‌شده روی حدود هفت میلیون نمونه و یادگیری تقویتی در ۲۱ محیط با بیش از ۱.۲ میلیون رول‌اوت بود.

در بنچمارک‌ها، نماترون ۳ سوپر امتیاز ۸۳.۷۳ در MMLU-Pro، امتیاز ۹۰.۲۱ در AIME25 و امتیاز ۶۰.۴۷ در SWE-Bench با استفاده از OpenHands را کسب کرد. در PinchBench به ۸۵.۶ درصد رسید که بالاترین امتیاز گزارش‌شده در میان مدل‌های باز در کلاس خود است. در ارزیابی زمینهٔ طولانی، در RULER 1M امتیاز ۹۱.۶۴ را ثبت کرد.

در مقایسه با GPT-OSS-120B، نماترون ۳ سوپر در ورودی 8k و خروجی 64k، ۲.۲ برابر توان عملیاتی ارائه می‌دهد. در برابر Qwen3.5-122B-A10B، این عدد به ۷.۵ برابر می‌رسد. انویدیا همچنین بیش از پنج برابر توان عملیاتی و تا دو برابر دقت نسبت به نسل قبلی Nemotron Super را گزارش می‌کند.

انویدیا این مدل را به‌صورت سرتاسری در قالب نقطه‌اعشاری چهار‌بیتی NVFP4 خود آموزش داده است که برای GPUهای Blackwell بهینه شده است. انویدیا می‌گوید روی سخت‌افزار B200، استنتاج در مقایسه با FP8 روی H100 تا چهار برابر سریع‌تر اجرا می‌شود، بدون آن‌که افت دقتی گزارش شود. چک‌پوینت‌های کوانتیزه‌شدهٔ FP8 و NVFP4، ۹۹.۸ درصد یا بیشتر از دقتِ تمام‌دقت را حفظ می‌کنند.

این مدل همچنین موتور عامل پژوهشی Nvidia AI-Q است که به رتبهٔ نخست جدول Deepresearch Bench دست یافته است.

انویدیا با سرمایه‌گذاری عظیم ۲ میلیارد دلاری، برنامه‌های کارخانه هوش مصنوعی نبیوس را تقویت می‌کند

انویدیا با سرمایه‌گذاری عظیم ۲ میلیارد دلاری، برنامه‌های کارخانه هوش مصنوعی نبیوس را تقویت می‌کند

کشف کنید چگونه انویدیا با سرمایه‌گذاری ۲ میلیارد دلاری در زیرساخت ابری هوش مصنوعی، آیندهٔ رایانش را بازتعریف می‌کند. read more.

اکنون بخوانید

نماترون ۳ سوپر تحت مجوز Nvidia Nemotron Open Model License به‌طور کامل باز است. چک‌پوینت‌ها در قالب‌های BF16، FP8 و NVFP4، به‌همراه داده‌های پیش‌آموزش، نمونه‌های پساآموزش و محیط‌های یادگیری تقویتی، روی Hugging Face در دسترس هستند. استنتاج از طریق Nvidia NIM، build.nvidia.com، Perplexity، Openrouter، Together AI، Google Cloud، AWS، Azure و Coreweave پشتیبانی می‌شود و گزینه‌های درون‌سازمانی (on-premises) نیز از طریق Dell Enterprise Hub و HPE ارائه می‌گردد.

توسعه‌دهندگان می‌توانند از طریق پلتفرم NeMo با استفاده از vLLM، SGLang و TensorRT-LLM به دستورالعمل‌های آموزش، راهنماهای ریزتنظیم و کتابچه‌های راهنمای استنتاج دسترسی پیدا کنند.

برچسب‌ها در این داستان