제공
News

Google, 9,216칩 팟 및 액체 냉각 기능을 갖춘 Ironwood TPU 출시

Google는 Ironwood라는 7세대 Tensor Processing Unit을 출시하고 있습니다. 이는 효율적이고 대규모의 추론을 위해 설계된 회사의 가장 발전된 인공 지능(AI) 가속기로 평가받으며, 향후 몇 주 동안 사용 가능성이 확대되면서 Nvidia의 우위를 겨냥하고 있습니다.

작성자
공유
Google, 9,216칩 팟 및 액체 냉각 기능을 갖춘 Ironwood TPU 출시

Google의 Ironwood TPU, Pod-Scale FP8 파워로 Nvidia의 영역을 겨냥하다

Google는 4월 Google Cloud Next ’25에서 Ironwood를 미리 공개했으며, 현재 칩을 “추론의 시대”에 맞춰 조정된 맞춤형 실리콘으로 위치시키고 있으며, 이 시대에는 모델이 실시간으로 글로벌 클라우드 지역에서 응답, 추론 및 생성할 것으로 예상됩니다.

CNBC 보도에 따르면, 이 움직임은 데이터 센터에서 개발 도구 툴킷에 이르기까지 AI 스택을 소유하려는 하이퍼스케일러 간의 광범위한 힘의 게임에 들어맞습니다. Ironwood는 3D 토러스 인터커넥트, 지속적인 부하를 위한 액체 냉각, 순위, 추천, 금융 및 과학 컴퓨팅을 가속화하기 위한 개선된 Sparsecore에 의존합니다.

데이터 이동과 통신 병목 현상을 최소화하도록 설계되었습니다—이는 멀티칩 작업에서 종종 처리량을 제한하는 두 가지 원인입니다. 최대 4,614 TFLOPs (FP8)와 192 GB의 HBM, 7.37 TB/s 대역폭, 1.2 TB/s 양방향 인터칩 대역폭을 자랑합니다. Pod는 256칩에서 9,216칩 구성으로 확장되어 42.5 엑사플롭스(FP8) 연산을 제공합니다. 완전 Pod 전력 소모는 약 10 MW이며, 액체 냉각은 공기 냉각보다 훨씬 높은 지속적인 성능을 가능하게 합니다.

Google은 Ironwood가 전체 AI 처리량에서 이전 Trillium(TPU v6)보다 4배 더 빠르며 와트당 2배 더 나은 성능을 제공한다고 하며, 2018년의 첫 Cloud TPU보다 대략 30배 더 높은 에너지 효율성을 자랑합니다. 최대 구성 시, 회사는 El Capitan과 같은 최상위 슈퍼컴퓨터와 비교하여 FP8 엑사플롭스 기준에서 계산적 우위를 주장합니다. 방법론도 중요하지만 의도는 분명합니다.

전이 학습은 가능하지만, Ironwood의 주장은 대규모 언어 모델과 전문화된 시스템에 대한 추론을 중심으로 합니다—이는 현재 북미, 유럽, 그리고 아시아-태평양 데이터 센터를 채우고 있는 높은 QPS, 저지연 작업에 적합합니다. 챗봇, 에이전트, Gemini급 모델, 그리고 고차원 검색 및 추천 시스템 파이프라인을 생각해보세요.

Google Cloud의 AI Hypercomputer를 통해 하드웨어와 Pathways와 같은 소프트웨어를 결합하여 수천 개의 다이에 걸친 분산 연산을 조율함으로써 통합이 이루어집니다. 이 스택은 이미 검색에서 Gmail까지 고객 및 기업 서비스를 지원하고 있으며, Ironwood는 GPU와 함께 관리되는 TPU 네이티브 경로로 업그레이드 경로로 자리 잡습니다.

시장 메시지도 포함되어 있습니다: Google은 일부 AI 작업에서 도메인 전용 TPU가 범용 GPU보다 가격 성능 및 에너지 사용 면에서 우수할 수 있다고 주장하면서 Nvidia의 지배력을 도전하고 있습니다. CNBC 보도에 따르면 초기 사용자에는 Anthropic이 포함되며, Claude에 대한 백만 TPU 규모의 배포를 계획하고 있습니다—이는 추론 발자국이 얼마나 커지고 있는지를 보여주는 놀라운 신호입니다.

Alphabet CEO Sundar Pichai는 2025년 3분기 Google Cloud 수익이 151억 5천만 달러로 34% 증가했으며 AI 구축에 930억 달러의 자본 지출이 이루어졌다고 언급하며 수요를 중요한 수익 견인 요소로 설명했습니다. “우리는 AI 인프라 제품에 대한 상당한 수요를 보고 있으며, 이를 충족하기 위해 투자하고 있습니다,”라고 그는 말하며, 올해가 지난 두 해를 합친 것보다 더 많은 수십억 달러 규모의 거래가 체결됐다고 덧붙였습니다.

Ironwood의 넓은 가용성은 2025년 후반에 Google Cloud를 통해 예정되어 있으며, 지금 바로 액세스 요청이 가능합니다. 미국, 유럽 및 아시아 태평양 지역의 기업들이 전력 예산, 랙 밀도 및 지연 시간 목표를 저울질하는 상황에서, Ironwood의 Pod-Scale FP8 수학 및 냉각 프로필이 생산 작업 부하와 일치하는지가 중요한 질문입니다.

FAQ ❓

  • Ironwood는 어디서 사용할 수 있나요? 북미, 유럽, 그리고 아시아 태평양을 포함한 글로벌 지역의 Google Cloud를 통해 사용할 수 있습니다.
  • 언제 접근이 시작되나요? 몇 주 내에 더 넓은 접근성이 시작되며, 2025년 후반에 더 넓은 롤아웃이 이루어집니다.
  • 어떤 작업 부하에 최적화되었나요? LLM, MoE, 검색, 추천, 금융 및 과학 컴퓨팅에 대한 높은 처리량 추론을 위해 설계되었습니다.
  • 이전 TPU와 비교하면 어떤가요? Google은 Trillium에 비해 4배 높은 처리량과 와트당 2배 더 나은 성능을 인용하고 있습니다.