Компанія Nvidia випустила Nemotron 3 Super — відкриту гібридну модель із загальною кількістю параметрів 120 мільярдів, призначену для зниження обчислювальних витрат при масштабному запуску агентів штучного інтелекту (ШІ).
Nvidia випустила Nemotron 3 Super — модель OpenAI з 120 мільярдами параметрів, призначену для агентських завдань

Основні висновки:
- Nvidia випустила Nemotron 3 Super — відкриту модель MoE з 120 млрд параметрів, яка активує лише 12,7 млрд параметрів за один прохід.
- Nemotron 3 Super забезпечує до 7,5 разів більшу пропускну здатність, ніж Qwen3.5-122B-A10B, при обробці робочих навантажень агентів у режимі 8k-in/64k-out.
- Модель є повністю відкритою відповідно до ліцензії Nvidia Nemotron Open Model License, а контрольні точки та навчальні дані розміщені на Hugging Face.
Nvidia запускає Nemotron 3 Super із 7,5-кратним приростом пропускної здатності порівняно з Qwen3.5-122B
Новітня модель Nvidia активує лише 12,7 млрд параметрів за один прохід вперед, використовуючи архітектуру Mixture-of-Experts (MoE), що означає, що більша частина її ваги залишається неактивною під час інференції. Цей вибір дизайну безпосередньо спрямований на вирішення двох проблем, з якими стикаються розробники під час розгортання багатоетапних AI-агентів: додаткові витрати на розширені ланцюжки міркувань та стрімке зростання використання токенів, яке може збільшитися до 15 разів у багатоагентних конвеєрах.
Nemotron 3 Super — це друга модель у сімействі Nemotron 3 від Nvidia, що йде слідом за Nemotron 3 Nano, випущеною у грудні 2025 року. Nvidia оголосила про випуск моделі приблизно 10 березня 2026 року.
Модель використовує гібридну основу Mamba-Transformer, що складається з 88 шарів. Блоки Mamba-2 обробляють довгі послідовності з лінійною часовою ефективністю, тоді як шари уваги Transformer зберігають точний відтворюваність. Ця комбінація надає моделі вбудовану підтримку контекстних вікон до одного мільйона токенів без втрат пам'яті, типових для конструкцій з чистою увагою.
Nvidia також вбудувала систему маршрутизації LatentMoE, яка стискає вбудовування токенів у простір низького рангу перед тим, як надсилати їх до 512 експертів на кожен шар, активуючи 22 одночасно. Компанія заявляє, що це дозволяє залучити приблизно в чотири рази більше експертів за тієї ж вартості інференції порівняно зі стандартними підходами MoE, а також забезпечує більш точну спеціалізацію завдань, наприклад, відокремлення логіки Python від обробки SQL на рівні експертів.

Шари прогнозування з декількома токенами, що використовують дві головки зі спільними вагами, прискорюють генерацію ланцюжка думок і дозволяють здійснювати вбудоване спекулятивне декодування. За даними Nvidia, у структурованих завданнях генерація відбувається втричі швидше.
Модель була попередньо навчена на 25 трильйонах токенів у двох фазах. У першій фазі використовували 20 трильйонів токенів широких даних. У другій — п’ять трильйонів високоякісних токенів, налаштованих для еталонної продуктивності. Остаточна фаза розширення на 51 мільярд токенів розширила вбудований контекст до одного мільйона токенів. Після навчання було проведено контрольоване точне налаштування на приблизно семи мільйонах зразків та навчання з підкріпленням у 21 середовищі з понад 1,2 мільйонами розгортань.
У тестах Nemotron 3 Super набрав 83,73 бали на MMLU-Pro, 90,21 на AIME25 та 60,47 на SWE-Bench з використанням OpenHands. На PinchBench він досяг 85,6 відсотка, що є найвищим результатом серед відкритих моделей у своєму класі. У оцінці з довгим контекстом вона набрала 91,64 бали на RULER 1M.
У порівнянні з GPT-OSS-120B, Nemotron 3 Super забезпечує у 2,2 рази вищу пропускну здатність при вхідних даних 8k та вихідних 64k. У порівнянні з Qwen3.5-122B-A10B цей показник сягає 7,5 разів. Nvidia також повідомляє про більш ніж п'ятикратну пропускну здатність та до двократної точності порівняно з попереднім поколінням Nemotron Super.
Nvidia навчила модель від початку до кінця у своєму чотирибітовому форматі з плаваючою комою NVFP4, оптимізованому для графічних процесорів Blackwell. На апаратному забезпеченні B200, за даними Nvidia, інференція працює до чотирьох разів швидше порівняно з FP8 на H100 без втрати точності. Квантовані контрольні точки FP8 та NVFP4 зберігають 99,8% або більше точності повної точності.
Модель також використовується в дослідницькому агенті Nvidia AI-Q, який посів перше місце в рейтингу Deepresearch Bench.

Nvidia підтримує плани Nebius щодо створення фабрики штучного інтелекту, інвестувавши 2 мільярди доларів
Дізнайтеся, як компанія Nvidia змінює майбутнє обчислювальної техніки, інвестуючи 2 мільярди доларів у хмарну інфраструктуру штучного інтелекту. read more.
Читати
Nvidia підтримує плани Nebius щодо створення фабрики штучного інтелекту, інвестувавши 2 мільярди доларів
Дізнайтеся, як компанія Nvidia змінює майбутнє обчислювальної техніки, інвестуючи 2 мільярди доларів у хмарну інфраструктуру штучного інтелекту. read more.
Читати
Nvidia підтримує плани Nebius щодо створення фабрики штучного інтелекту, інвестувавши 2 мільярди доларів
ЧитатиДізнайтеся, як компанія Nvidia змінює майбутнє обчислювальної техніки, інвестуючи 2 мільярди доларів у хмарну інфраструктуру штучного інтелекту. read more.
Nemotron 3 Super є повністю відкритою моделлю під ліцензією Nvidia Nemotron Open Model License. Контрольні точки у форматах BF16, FP8 та NVFP4, а також дані попереднього навчання, зразки після навчання та середовища підкріплювального навчання доступні на Hugging Face. Інференція підтримується через Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure та Coreweave, а також локальні варіанти через Dell Enterprise Hub та HPE.
Розробники можуть отримати доступ до рецептів навчання, посібників з тонкого налаштування та збірників інференції через платформу NeMo, використовуючи vLLM, SGLang та TensorRT-LLM.














