נבידיה פרסמה את Nemotron 3 Super, מודל היברידי פתוח עם 120 מיליארד פרמטרים בסך הכול, שנועד לצמצם את עלות החישוב של הרצת סוכני בינה מלאכותית (AI) בקנה מידה רחב.
אנבידיה משיקה את Nemotron 3 Super, מודל בינה מלאכותית פתוח עם 120 מיליארד פרמטרים שנבנה עבור עומסי עבודה סוכניים

נקודות עיקריות:
- נבידיה השיקה את Nemotron 3 Super, מודל MoE פתוח עם 120 מיליארד פרמטרים, שמפעיל רק 12.7 מיליארד פרמטרים בכל מעבר קדימה (forward pass).
- Nemotron 3 Super מספק עד פי 7.5 יותר תפוקה (throughput) לעומת Qwen3.5-122B-A10B בעומסי עבודה של סוכנים, בהגדרות 8k קלט / 64k פלט.
- המודל פתוח לחלוטין תחת רישיון Nvidia Nemotron Open Model License, עם נקודות בדיקה (checkpoints) ונתוני אימון ב-Hugging Face.
נבידיה משיקה את Nemotron 3 Super עם שיפור תפוקה של פי 7.5 לעומת Qwen3.5-122B
המודל החדש של נבידיה מפעיל רק 12.7 מיליארד פרמטרים בכל מעבר קדימה באמצעות ארכיטקטורת Mixture-of-Experts (MoE), כלומר רוב המשקלים שלו נשארים רדומים במהלך האינפרנס. בחירת עיצוב זו מכוונת ישירות לשתי בעיות שמפתחים נתקלים בהן בעת פריסה של סוכני AI רב-שלביים: העלות הנוספת של שרשראות הסקה ממושכות, והתנפחות השימוש בטוקנים שיכולה לגדול עד פי 15 בצינורות עבודה מרובי-סוכנים.
Nemotron 3 Super הוא המודל השני במשפחת Nemotron 3 של נבידיה, לאחר Nemotron 3 Nano מדצמבר 2025. נבידיה הכריזה על ההשקה סביב ה-10 במרץ 2026.
המודל משתמש בשדרה (backbone) היברידית מסוג Mamba-Transformer לאורך 88 שכבות. בלוקים מסוג Mamba-2 מטפלים ברצפים ארוכים ביעילות זמן ליניארית, בעוד ששכבות קשב של Transformer שומרות על שחזור מדויק. השילוב הזה מעניק למודל תמיכה מובנית בחלונות הקשר של עד מיליון טוקנים, ללא קנסות הזיכרון האופייניים לעיצובים המבוססים על קשב בלבד.
נבידיה שילבה גם מערכת ניתוב LatentMoE שמדחסת הטמעות טוקנים (token embeddings) למרחב בדרגה נמוכה (low-rank) לפני שליחתן ל-512 מומחים בכל שכבה, כאשר 22 מופעלים בכל פעם. החברה אומרת שזה מאפשר בערך פי ארבעה יותר מומחים באותה עלות אינפרנס בהשוואה לגישות MoE סטנדרטיות, ומאפשר התמחות משימה עדינה יותר, כגון הפרדה בין לוגיקת Python לטיפול ב-SQL ברמת המומחה.

שכבות Multi-Token Prediction, המשתמשות בשני ראשים בעלי משקלים משותפים, מאיצות יצירת chain-of-thought ומאפשרות speculative decoding באופן מובנה. במשימות מובנות, נבידיה מדווחת על יצירה מהירה עד פי שלושה.
המודל עבר קדם-אימון על 25 טריליון טוקנים בשני שלבים. השלב הראשון השתמש ב-20 טריליון טוקנים של נתונים כלליים. השלב השני השתמש בחמישה טריליון טוקנים איכותיים המכווננים לביצועים במדדי Benchmark. שלב הרחבה אחרון על 51 מיליארד טוקנים הרחיב את ההקשר המובנה למיליון טוקנים. האימון שלאחר מכן (post-training) כלל fine-tuning מפוקח על כ-7 מיליון דגימות ולמידת חיזוק (reinforcement learning) על פני 21 סביבות עם יותר מ-1.2 מיליון הרצות (rollouts).
במדדי Benchmark, Nemotron 3 Super קיבל 83.73 ב-MMLU-Pro, 90.21 ב-AIME25, ו-60.47 ב-SWE-Bench באמצעות OpenHands. ב-PinchBench הוא הגיע ל-85.6 אחוז, הציון המדווח הגבוה ביותר בין מודלים פתוחים בקטגוריה שלו. בהערכת הקשר ארוך, הוא קיבל 91.64 ב-RULER 1M.
בהשוואה ל-GPT-OSS-120B, Nemotron 3 Super מספק פי 2.2 תפוקה בהגדרות של 8k קלט ו-64k פלט. מול Qwen3.5-122B-A10B, הנתון מגיע לפי 7.5. נבידיה גם מדווחת על יותר מפי חמישה תפוקה ועד פי שניים דיוק לעומת דור Nemotron Super הקודם.
נבידיה אימנה את המודל מקצה לקצה בפורמט הנקודה הצפה ארבעה-ביט שלה NVFP4, המותאם ל-GPU-ים של Blackwell. על חומרת B200, נבידיה אומרת שאינפרנס רץ עד פי ארבעה מהר יותר בהשוואה ל-FP8 על H100 ללא ירידת דיוק מדווחת. נקודות בדיקה מכומתות (quantized) בפורמטים FP8 ו-NVFP4 שומרות על 99.8 אחוז או יותר מדיוק ברמת דיוק מלאה (full-precision).
המודל גם מניע את סוכן המחקר Nvidia AI-Q, שהגיע למקום הראשון בלוח המובילים של Deepresearch Bench.

אנבידיה מניעה את תוכניות מפעל ה-AI של נביוס עם השקעה עצומה של 2 מיליארד דולר
גלו כיצד Nvidia מעצבת מחדש את עתיד המחשוב באמצעות השקעה של 2 מיליארד דולר בתשתיות ענן לבינה מלאכותית. read more.
קרא עכשיו
אנבידיה מניעה את תוכניות מפעל ה-AI של נביוס עם השקעה עצומה של 2 מיליארד דולר
גלו כיצד Nvidia מעצבת מחדש את עתיד המחשוב באמצעות השקעה של 2 מיליארד דולר בתשתיות ענן לבינה מלאכותית. read more.
קרא עכשיו
אנבידיה מניעה את תוכניות מפעל ה-AI של נביוס עם השקעה עצומה של 2 מיליארד דולר
קרא עכשיוגלו כיצד Nvidia מעצבת מחדש את עתיד המחשוב באמצעות השקעה של 2 מיליארד דולר בתשתיות ענן לבינה מלאכותית. read more.
Nemotron 3 Super פתוח לחלוטין תחת רישיון Nvidia Nemotron Open Model License. נקודות בדיקה בפורמטים BF16, FP8 ו-NVFP4, יחד עם נתוני קדם-אימון, דגימות post-training וסביבות למידת חיזוק, זמינים ב-Hugging Face. אינפרנס נתמך דרך Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure ו-Coreweave, עם אפשרויות on-premises דרך Dell Enterprise Hub ו-HPE.
מפתחים יכולים לגשת למתכוני אימון, מדריכי fine-tuning וספרי מתכונים לאינפרנס (inference cookbooks) דרך פלטפורמת NeMo באמצעות vLLM, SGLang ו-TensorRT-LLM.














