При поддержке
News

Nvidia выпустила Nemotron 3 Super — модель OpenAI объёмом 120 миллиардов параметров, разработанную для задач с агентами

Компания Nvidia выпустила Nemotron 3 Super — открытую гибридную модель с общим количеством параметров 120 миллиардов, разработанную для снижения вычислительных затрат при масштабном запуске агентов искусственного интеллекта (ИИ).

АВТОР
ПОДЕЛИТЬСЯ
Nvidia выпустила Nemotron 3 Super — модель OpenAI объёмом 120 миллиардов параметров, разработанную для задач с агентами

Основные выводы:

  • Nvidia выпустила Nemotron 3 Super — открытую модель MoE с 120 млрд параметров, активирующую только 12,7 млрд параметров за один проход.
  • Nemotron 3 Super обеспечивает пропускную способность, в 7,5 раз превышающую показатели Qwen3.5-122B-A10B при обработке рабочих нагрузок агентов с настройками 8k-in/64k-out.
  • Модель полностью открыта в соответствии с лицензией Nvidia Nemotron Open Model License, а контрольные точки и обучающие данные доступны на Hugging Face.

Nvidia запускает Nemotron 3 Super с 7,5-кратным увеличением пропускной способности по сравнению с Qwen3.5-122B

Новейшая модель Nvidia активирует только 12,7 миллиарда параметров за один проход вперед, используя архитектуру Mixture-of-Experts (MoE), что означает, что большая часть ее весов остается в режиме ожидания во время инференции. Этот выбор дизайна напрямую нацелен на решение двух проблем, с которыми сталкиваются разработчики при развертывании многоэтапных ИИ-агентов: дополнительные затраты на расширенные цепочки рассуждений и резкое увеличение использования токенов, которое может увеличиться в 15 раз в многоагентных конвейерах.

Nemotron 3 Super — вторая модель в семействе Nemotron 3 от Nvidia, следующая за Nemotron 3 Nano, выпущенной в декабре 2025 года. Nvidia анонсировала релиз примерно 10 марта 2026 года.

Модель использует гибридную основу Mamba-Transformer, состоящую из 88 слоев. Блоки Mamba-2 обрабатывают длинные последовательности с линейной временной эффективностью, в то время как слои внимания Transformer сохраняют точную воспроизводимость. Такое сочетание обеспечивает модели встроенную поддержку контекстных окон размером до одного миллиона токенов без потерь памяти, характерных для конструкций с чистым вниманием.

Nvidia также встроила систему маршрутизации LatentMoE, которая сжимает вложения токенов в пространство низкого ранга перед отправкой их 512 экспертам на каждый слой, активируя по 22 за раз. Компания заявляет, что это позволяет использовать примерно в четыре раза больше экспертов при тех же затратах на вывод по сравнению со стандартными подходами MoE, а также обеспечивает более точную специализацию задач, например, отделение логики Python от обработки SQL на уровне экспертов.

Nvidia Releases Nemotron 3 Super, a 120B Open AI Model Built for Agentic Workloads
Источник изображения: блог Nvidia.

Слои Multi-Token Prediction, использующие две головки с общими весами, ускоряют генерацию цепочки мыслей и позволяют осуществлять нативное спекулятивное декодирование. По данным Nvidia, при решении структурированных задач скорость генерации увеличивается до трех раз.

Модель была предварительно обучена на 25 триллионах токенов в двух фазах. В первой фазе использовалось 20 триллионов токенов широких данных. Во второй — пять триллионов высококачественных токенов, настроенных для производительности по тестам. Заключительная фаза расширения на 51 миллиарде токенов расширила нативный контекст до одного миллиона токенов. Послеобучение включало контролируемую настройку на примерно семи миллионах образцов и обучение с подкреплением в 21 среде с более чем 1,2 миллионами развертываний.

В тестах Nemotron 3 Super набрал 83,73 балла в MMLU-Pro, 90,21 — в AIME25 и 60,47 — в SWE-Bench с использованием OpenHands. В PinchBench он достиг 85,6 процента, что является самым высоким результатом среди открытых моделей своего класса. В оценке с длинным контекстом он набрал 91,64 балла на RULER 1M.

По сравнению с GPT-OSS-120B, Nemotron 3 Super обеспечивает в 2,2 раза большую пропускную способность при входе 8k и выходе 64k. По сравнению с Qwen3.5-122B-A10B этот показатель достигает 7,5 раз. Nvidia также сообщает о более чем пятикратной пропускной способности и до двухкратной точности по сравнению с предыдущим поколением Nemotron Super.
Nvidia обучила модель от начала до конца в своем четырехбитном формате с плавающей запятой NVFP4, оптимизированном для графических процессоров Blackwell. По данным Nvidia, на аппаратном обеспечении B200 инференс работает до четырех раз быстрее по сравнению с FP8 на H100 без заметной потери точности. Квантованные контрольные точки FP8 и NVFP4 сохраняют 99,8% или более точности полной точности.

Модель также лежит в основе исследовательского агента Nvidia AI-Q, который занял первое место в рейтинге Deepresearch Bench.

Nvidia поддерживает планы Nebius по созданию фабрики искусственного интеллекта, вложив в проект 2 миллиарда долларов

Nvidia поддерживает планы Nebius по созданию фабрики искусственного интеллекта, вложив в проект 2 миллиарда долларов

Узнайте, как компания Nvidia меняет будущее вычислений, инвестируя 2 миллиарда долларов в облачную инфраструктуру искусственного интеллекта. read more.

Читать

Nemotron 3 Super полностью открыт в соответствии с лицензией Nvidia Nemotron Open Model License. Контрольные точки в форматах BF16, FP8 и NVFP4, а также данные для предварительного обучения, образцы для последующего обучения и среды для обучения с подкреплением доступны на Hugging Face. Инференс поддерживается через Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure и Coreweave, а также локально через Dell Enterprise Hub и HPE.

Разработчики могут получить доступ к рецептам обучения, руководствам по тонкой настройке и сборникам рецептов инференса через платформу NeMo с использованием vLLM, SGLang и TensorRT-LLM.

Теги в этой статье