제공
News

엔비디아, 에이전트 기반 워크로드를 위해 설계된 1200억 파라미터 규모의 오픈AI 모델 ‘네모트론 3 슈퍼’ 출시

엔비디아는 대규모 인공지능(AI) 에이전트 운영 시 발생하는 연산 비용을 절감하기 위해 설계된, 총 1,200억 개의 매개변수를 가진 오픈 하이브리드 모델인 ‘네모트론 3 슈퍼(Nemotron 3 Super)’를 출시했습니다. 주요 내용:

작성자
공유
엔비디아, 에이전트 기반 워크로드를 위해 설계된 1200억 파라미터 규모의 오픈AI 모델 ‘네모트론 3 슈퍼’ 출시
  • 엔비디아는 포워드 패스당 127억 개의 매개변수만 활성화하는 1,200억 매개변수 규모의 오픈 MoE 모델인 '네모트론 3 슈퍼(Nemotron 3 Super)'를 출시했습니다.
  • Nemotron 3 Super는 8k 입력/64k 출력 설정에서 에이전트 워크로드 수행 시 Qwen3.5-122B-A10B보다 최대 7.5배 더 높은 처리량을 제공합니다.
  • 이 모델은 엔비디아 네모트론 오픈 모델 라이선스(Nvidia Nemotron Open Model License) 하에 완전히 공개되었으며, 체크포인트와 훈련 데이터는 허깅 페이스(Hugging Face)에서 확인할 수 있습니다.

Nvidia, Qwen3.5-122B 대비 처리량 7.5배 향상된 Nemotron 3 Super 출시

Nvidia의 최신 모델은 Mixture-of-Experts(MoE) 아키텍처를 사용하여 전진 패스당 127억 개의 매개변수만 활성화하므로, 추론 과정에서 대부분의 가중치는 유휴 상태로 유지됩니다. 이러한 설계 선택은 개발자가 다단계 AI 에이전트를 배포할 때 직면하는 두 가지 문제, 즉 확장된 추론 체인으로 인한 추가 비용과 다중 에이전트 파이프라인에서 최대 15배까지 증가할 수 있는 토큰 사용량 급증을 직접적으로 해결합니다.

Nemotron 3 Super는 2025년 12월 출시된 Nemotron 3 Nano에 이어 엔비디아의 Nemotron 3 제품군에서 두 번째로 선보이는 모델입니다. 엔비디아는 2026년 3월 10일경 출시를 발표했습니다.

이 모델은 88개 레이어에 걸쳐 하이브리드 Mamba-Transformer 백본을 사용합니다. Mamba-2 블록은 선형 시간 효율성으로 긴 시퀀스를 처리하는 반면, Transformer 어텐션 레이어는 정밀한 리콜을 유지합니다. 이러한 조합을 통해 이 모델은 순수 어텐션 설계에서 흔히 발생하는 메모리 손실 없이 최대 100만 토큰의 컨텍스트 윈도우를 기본적으로 지원합니다.

또한 엔비디아는 토큰 임베딩을 저순위 공간으로 압축한 후, 레이어당 512명의 전문가에게 전송하고 한 번에 22명을 활성화하는 LatentMoE 라우팅 시스템을 내장했습니다. 회사에 따르면 이를 통해 표준 MoE 접근 방식에 비해 동일한 추론 비용으로 약 4배 더 많은 전문가를 활용할 수 있으며, 전문가 수준에서 Python 로직과 SQL 처리를 분리하는 등 더 세밀한 작업 전문화를 가능하게 합니다.

Nvidia Releases Nemotron 3 Super, a 120B Open AI Model Built for Agentic Workloads
이미지 출처: 엔비디아 블로그.

두 개의 공유 가중치 헤드를 사용하는 멀티 토큰 예측 레이어는 사고 연쇄 생성을 가속화하고 네이티브 추측 디코딩을 가능하게 합니다. 구조화된 작업에서 엔비디아는 최대 3배 더 빠른 생성 속도를 보고했습니다.

이 모델은 두 단계에 걸쳐 25조 개의 토큰으로 사전 훈련되었습니다. 첫 번째 단계에서는 광범위한 데이터의 20조 개 토큰을 사용했습니다. 두 번째 단계에서는 벤치마크 성능을 위해 튜닝된 5조 개의 고품질 토큰을 사용했습니다. 510억 개의 토큰을 사용한 최종 확장 단계에서는 네이티브 컨텍스트를 100만 개의 토큰으로 확장했습니다. 사후 훈련에는 약 700만 개의 샘플에 대한 지도 학습 미세 조정과 120만 회 이상의 롤아웃을 포함한 21개 환경에서의 강화 학습이 포함되었습니다.

벤치마크 결과, Nemotron 3 Super는 OpenHands를 사용하여 MMLU-Pro에서 83.73점, AIME25에서 90.21점, SWE-Bench에서 60.47점을 기록했습니다. PinchBench에서는 85.6%를 달성하여 동급 오픈 소스 모델 중 보고된 최고 점수를 기록했습니다. 장문 맥락 평가에서는 RULER 1M에서 91.64점을 기록했습니다. GPT-OSS-120B와 비교했을 때, Nemotron 3 Super는 8k 입력 및 64k 출력 조건에서 2.2배의 처리량을 제공합니다. Qwen3.5-122B-A10B와 비교하면 이 수치는 7.5배에 달합니다. Nvidia는 또한 이전 세대 Nemotron Super 대비 처리량이 5배 이상, 정확도는 최대 2배 향상되었다고 보고했습니다. Nvidia는 Blackwell GPU에 최적화된 NVFP4 4비트 부동소수점 형식으로 모델을 엔드투엔드(end-to-end)로 훈련시켰습니다. Nvidia에 따르면 B200 하드웨어에서 추론 속도는 H100의 FP8 대비 최대 4배 빠르며, 정확도 저하는 보고되지 않았습니다. 양자화된 FP8 및 NVFP4 체크포인트는 전체 정밀도 정확도의 99.8% 이상을 유지합니다. 이 모델은 또한 Deepresearch Bench 리더보드에서 1위를 차지한 Nvidia AI-Q 연구 에이전트의 기반이 됩니다.

엔비디아, 20억 달러 규모의 대규모 투자로 네비우스 AI 팩토리 계획 추진

엔비디아, 20억 달러 규모의 대규모 투자로 네비우스 AI 팩토리 계획 추진

엔비디아가 20억 달러를 투자해 AI 클라우드 인프라를 구축하며 컴퓨팅의 미래를 어떻게 재편하고 있는지 알아보세요. read more.

지금 읽기

Nemotron 3 Super는 Nvidia Nemotron 오픈 모델 라이선스(Nvidia Nemotron Open Model License)에 따라 완전히 공개되었습니다. BF16, FP8, NVFP4 형식의 체크포인트와 함께 사전 훈련 데이터, 사후 훈련 샘플, 강화 학습 환경은 Hugging Face에서 이용할 수 있습니다. 추론은 Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure 및 Coreweave를 통해 지원되며, Dell Enterprise Hub와 HPE를 통한 온프레미스 옵션도 제공됩니다. 개발자는 vLLM, SGLang 및 TensorRT-LLM을 사용하여 NeMo 플랫폼을 통해 훈련 레시피, 미세 조정 가이드 및 추론 쿡북에 액세스할 수 있습니다.