Impulsado por
News

Nvidia lanza Nemotron 3 Super, un modelo de IA abierta de 120 000 millones de parámetros diseñado para cargas de trabajo de tipo agente

Nvidia ha lanzado Nemotron 3 Super, un modelo híbrido abierto con un total de 120 000 millones de parámetros, diseñado para reducir el coste computacional de ejecutar agentes de inteligencia artificial (IA) a gran escala. Puntos clave:

ESCRITO POR
COMPARTIR
Nvidia lanza Nemotron 3 Super, un modelo de IA abierta de 120 000 millones de parámetros diseñado para cargas de trabajo de tipo agente
  • Nvidia ha lanzado Nemotron 3 Super, un modelo MoE abierto de 120 000 millones de parámetros que activa solo 12 700 millones de parámetros por paso hacia adelante.
  • Nemotron 3 Super ofrece hasta 7,5 veces más rendimiento que Qwen3.5-122B-A10B en cargas de trabajo de agentes con configuraciones de 8k de entrada y 64k de salida.
  • El modelo es totalmente abierto bajo la licencia Nvidia Nemotron Open Model License, con puntos de control y datos de entrenamiento disponibles en Hugging Face.

Nvidia lanza Nemotron 3 Super con un rendimiento 7,5 veces superior al de Qwen3.5-122B

El último modelo de Nvidia activa solo 12 700 millones de parámetros por paso hacia adelante utilizando una arquitectura Mixture-of-Experts (MoE), lo que significa que la mayor parte de su peso permanece inactivo durante la inferencia. Esa elección de diseño aborda directamente dos problemas a los que se enfrentan los desarrolladores al implementar agentes de IA de múltiples pasos: el coste añadido de las cadenas de razonamiento extendidas y el uso desmesurado de tokens, que puede multiplicarse hasta por 15 en los flujos de trabajo con múltiples agentes.

Nemotron 3 Super es el segundo modelo de la familia Nemotron 3 de Nvidia, tras el Nemotron 3 Nano de diciembre de 2025. Nvidia anunció su lanzamiento alrededor del 10 de marzo de 2026.

El modelo utiliza una estructura híbrida Mamba-Transformer a lo largo de 88 capas. Los bloques Mamba-2 gestionan secuencias largas con eficiencia de tiempo lineal, mientras que las capas de atención de Transformer conservan una recuperación precisa. Esa combinación proporciona al modelo soporte nativo para ventanas de contexto de hasta un millón de tokens sin las penalizaciones de memoria típicas de los diseños de atención pura.

Nvidia también ha incorporado un sistema de enrutamiento LatentMoE que comprime las incrustaciones de tokens en un espacio de rango bajo antes de enviarlas a 512 expertos por capa, activando 22 a la vez. La empresa afirma que esto permite contar con aproximadamente cuatro veces más expertos con el mismo coste de inferencia en comparación con los enfoques MoE estándar, y permite una especialización de tareas más precisa, como separar la lógica de Python del manejo de SQL a nivel de experto.

Nvidia Releases Nemotron 3 Super, a 120B Open AI Model Built for Agentic Workloads
Fuente de la imagen: blog de Nvidia.

Las capas de predicción multitoken, que utilizan dos cabezales de peso compartido, aceleran la generación de la cadena de pensamiento y permiten la decodificación especulativa nativa. En tareas estructuradas, Nvidia informa de una generación hasta tres veces más rápida.

El modelo se preentrenó con 25 billones de tokens en dos fases. La primera fase utilizó 20 billones de tokens de datos generales. La segunda utilizó cinco billones de tokens de alta calidad ajustados para el rendimiento de referencia. Una fase de extensión final con 51 000 millones de tokens amplió el contexto nativo a un millón de tokens. El posentrenamiento incluyó un ajuste fino supervisado en aproximadamente siete millones de muestras y aprendizaje por refuerzo en 21 entornos con más de 1,2 millones de implementaciones.

En las pruebas de rendimiento, Nemotron 3 Super obtuvo una puntuación de 83,73 en MMLU-Pro, 90,21 en AIME25 y 60,47 en SWE-Bench utilizando OpenHands. En PinchBench, alcanzó el 85,6 %, la puntuación más alta registrada entre los modelos abiertos de su clase. En la evaluación de contexto largo, obtuvo una puntuación de 91,64 en RULER 1M. En comparación con GPT-OSS-120B, Nemotron 3 Super ofrece un rendimiento 2,2 veces superior con 8k de entrada y 64k de salida. Frente a Qwen3.5-122B-A10B, esa cifra alcanza las 7,5 veces. Nvidia también informa de un rendimiento más de cinco veces superior y una precisión hasta dos veces mayor con respecto a la generación anterior de Nemotron Super. Nvidia entrenó el modelo de extremo a extremo en su formato de coma flotante de cuatro bits NVFP4, optimizado para las GPU Blackwell. En hardware B200, Nvidia afirma que la inferencia se ejecuta hasta cuatro veces más rápido en comparación con FP8 en H100 sin que se haya informado de pérdida de precisión. Los puntos de control cuantificados FP8 y NVFP4 conservan el 99,8 % o más de la precisión de precisión completa. El modelo también impulsa el agente de investigación Nvidia AI-Q, que alcanzó la primera posición en la clasificación de Deepresearch Bench.

Nvidia impulsa los planes de Nebius para su «fábrica de IA» con una inversión masiva de 2000 millones de dólares

Nvidia impulsa los planes de Nebius para su «fábrica de IA» con una inversión masiva de 2000 millones de dólares

Descubre cómo Nvidia está redefiniendo el futuro de la informática con una inversión de 2000 millones de dólares en infraestructura de IA en la nube. read more.

Leer ahora

Nemotron 3 Super es totalmente abierto bajo la licencia Nvidia Nemotron Open Model License. Los puntos de control en formatos BF16, FP8 y NVFP4, junto con los datos de preentrenamiento, las muestras de postentrenamiento y los entornos de aprendizaje por refuerzo, están disponibles en Hugging Face. La inferencia es compatible con Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure y Coreweave, con opciones locales a través de Dell Enterprise Hub y HPE. Los desarrolladores pueden acceder a recetas de entrenamiento, guías de ajuste fino y libros de recetas de inferencia a través de la plataforma NeMo utilizando vLLM, SGLang y TensorRT-LLM.

Etiquetas en esta historia