Impulsado por
News

Google lanza Ironwood TPU con pods de 9,216 chips y enfriamiento líquido

Google está lanzando Ironwood, su séptima generación de unidades de procesamiento tensorial, un acelerador de inteligencia artificial (IA) diseñado específicamente que la compañía presenta como el más avanzado hasta ahora, construido para inferencias eficientes y a escala, listo para desafiar el liderazgo de Nvidia a medida que su disponibilidad se expande en las próximas semanas.

ESCRITO POR
COMPARTIR
Google lanza Ironwood TPU con pods de 9,216 chips y enfriamiento líquido

Ironwood TPU de Google apunta al territorio de Nvidia con poder de FP8 a escala de pod

Google presentó Ironwood en Google Cloud Next ’25 en abril y ahora está ampliando el acceso, posicionando el chip como un silicio personalizado afinado para la “era de la inferencia”, cuando se espera que los modelos respondan, razonen y generen en tiempo real a través de regiones en la nube global.

Según un informe de CNBC, el movimiento se integra claramente en una estrategia de poder más amplia entre los hiperescaladores que compiten por poseer el stack de IA desde el centro de datos hasta el kit de desarrollo. Bajo el capó, Ironwood se apoya en un interconector de toro 3D, refrigeración líquida para cargas sostenidas y un núcleo disperso mejorado para acelerar embeddings ultra grandes para clasificación, recomendaciones, finanzas y computación científica.

Está diseñado para minimizar el movimiento de datos y los cuellos de botella en la comunicación, dos culpables que a menudo limitan el rendimiento en trabajos con múltiples chips. Las cifras brutas están diseñadas para llamar la atención: hasta 4,614 TFLOPs (FP8) por chip, 192 GB de HBM con 7.37 TB/s de ancho de banda, y 1.2 TB/s de ancho de banda inter-chip bidireccional. Los pods escalan de 256 chips a una configuración de 9,216 chips que proporciona 42.5 exaflops (FP8) de cómputo, con un consumo total de aproximadamente 10 MW y la refrigeración líquida permitiendo un rendimiento sostenido significativamente más alto que el aire.

Google dice que Ironwood es más de 4x veces más rápido que el anterior Trillium (TPU v6) en rendimiento total de IA y ofrece aproximadamente el doble de rendimiento por vatio, al tiempo que registra una eficiencia energética casi 30x mayor que su primera TPU de nube de 2018. En su forma más avanzada, la compañía afirma una ventaja computacional sobre supercomputadoras superiores como El Capitan cuando se mide en exaflops FP8. Como siempre, la metodología importa, pero la intención es clara.

Si bien puede entrenar, el enfoque de Ironwood se centra en la inferencia para modelos de lenguaje grande y sistemas de mezcla de expertos, exactamente el trabajo de alta QPS y baja latencia que ahora inunda los centros de datos desde América del Norte hasta Europa y Asia-Pacífico. Piense en chatbots, agentes, modelos de clase Gemini y pipelines de búsqueda y recomendación de alta dimensión que exigen memoria rápida y sincronización a escala de pod.

La integración llega a través del Supercomputador de IA de Google Cloud, emparejando el hardware con software como Pathways para orquestar el cómputo distribuido a través de miles de dies. Ese stack ya respalda servicios de consumo y empresariales desde Search hasta Gmail, y Ironwood se posiciona como una ruta de actualización para clientes que desean un camino gestionado, nativo de TPU junto a las GPU.

Hay un mensaje de mercado implícito: Google está desafiando la dominancia de Nvidia argumentando que los TPUs específicos de dominio pueden superar a las GPUs de propósito general en precio-rendimiento y uso de energía para ciertas tareas de IA. El informe de CNBC dice que los primeros adoptadores incluyen a Anthropic, que planea implementaciones a escala de millón de TPUs para Claude, una señal llamativa de cuán grandes se están volviendo las huellas de inferencia.

El CEO de Alphabet, Sundar Pichai, situó la demanda como un factor clave de ingresos, citando un aumento del 34% en los ingresos de Google Cloud a $15.15 mil millones en el tercer trimestre de 2025 y gastos de capital vinculados al desarrollo de IA que totalizaron $93 mil millones. “Estamos viendo una demanda sustancial de nuestros productos de infraestructura de IA… y estamos invirtiendo para satisfacer esa demanda”, dijo, señalando que se firmaron más acuerdos multimillonarios este año que en los dos anteriores juntos.

La disponibilidad más amplia de Ironwood está programada para finales de 2025 a través de Google Cloud, con solicitudes de acceso abiertas ahora. Para las empresas en EE. UU., Europa y Asia-Pacífico que ponderan sus presupuestos de energía, densidad de racks y objetivos de latencia, la pregunta es menos sobre el bombo publicitario y más sobre si las matemáticas de FP8 a escala de pod de Ironwood y su perfil de refrigeración se alinean con sus cargas de trabajo de producción.

FAQ ❓

  • ¿Dónde estará disponible Ironwood? A través de Google Cloud en regiones globales, incluidas América del Norte, Europa y Asia-Pacífico.
  • ¿Cuándo comienza el acceso? La disponibilidad más amplia comienza en las próximas semanas, con un despliegue más amplio a finales de 2025.
  • ¿Para qué cargas de trabajo está construido? Inferencia de alto rendimiento para LLMs, MoEs, búsqueda, recomendaciones, finanzas y computación científica.
  • ¿Cómo se compara con los TPUs anteriores? Google cita un rendimiento 4× mayor y un rendimiento por vatio 2× mejor que Trillium.
Etiquetas en esta historia