Google déploie Ironwood, son unité de traitement de tenseur de septième génération, un accélérateur d’intelligence artificielle (IA) spécialement conçu que la société présente comme son plus avancé à ce jour—conçu pour une inférence efficace, à grande échelle et prêt à défier la avance de Nvidia puisque la disponibilité s’étend dans les semaines à venir.
Google déploie l'Ironwood TPU avec des pods de 9 216 puces et un refroidissement liquide

Le TPU Ironwood de Google cible le territoire de Nvidia avec la puissance FP8 à l’échelle des pods
Google a présenté en avant-première Ironwood lors de Google Cloud Next ’25 en avril et élargit maintenant l’accès, positionnant la puce comme un silicium personnalisé réglé pour « l’ère de l’inférence », lorsque les modèles doivent répondre, raisonner et générer en temps réel dans les régions mondiales du cloud.
Selon un rapport de CNBC, cette initiative s’inscrit pleinement dans une compétition plus large parmi les hyperscalers qui se précipitent pour posséder la pile d’IA, du centre de données à l’outil de développement. Sous le capot, Ironwood s’appuie sur un interconnexion en tore 3D, un refroidissement liquide pour les charges soutenues, et un Sparsecore amélioré pour accélérer les très grands embeddings pour le classement, les recommandations, la finance et l’informatique scientifique.
Il est conçu pour minimiser le déplacement des données et les goulets d’étranglement en matière de communication—deux coupables qui limitent souvent le débit dans les tâches multi-puces. Les chiffres bruts sont conçus pour faire tourner les têtes : jusqu’à 4 614 TFLOPs (FP8) par puce, 192 Go de HBM avec une bande passante de 7,37 To/s, et une bande passante bidirectionnelle de 1,2 To/s entre puces. Les pods s’échelonnent de 256 puces à une configuration de 9 216 puces délivrant 42,5 exaflops (FP8) de calcul, avec une consommation électrique maximale du pod d’environ 10 MW et un refroidissement liquide permettant des performances soutenues nettement plus élevées qu’à l’air libre.
Google affirme qu’Ironwood est plus de 4× plus rapide que le précédent Trillium (TPU v6) en termes de débit global d’IA et offre environ 2× de meilleures performances par watt—tout en affichant près de 30× l’efficacité énergétique de son premier Cloud TPU de 2018. Dans sa forme maximale, la société revendique un avantage computationnel sur les superordinateurs les plus performants tels qu’El Capitan lorsqu’il est mesuré à des exaflops FP8. Comme toujours, la méthodologie compte, mais l’intention est claire.
Bien qu’il puisse entraîner, la présentation d’Ironwood se concentre sur l’inférence pour les grands modèles de langage et les systèmes Mixture-of-Experts—exactement le travail à haut QPS et faible latence qui inonde actuellement les centres de données de l’Amérique du Nord à l’Europe et l’Asie-Pacifique. Pensez chatbots, agents, modèles de classe Gemini et pipelines de recherche et recsys à haute dimension qui nécessitent une mémoire rapide et une synchronisation serrée à l’échelle des pods.
L’intégration se fait par l’intermédiaire de l’AI Hypercomputer de Google Cloud—associant le matériel à des logiciels comme Pathways pour orchestrer le calcul distribué sur des milliers de dies. Cette pile soutient déjà les services grand public et entreprise, de la Recherche à Gmail, et Ironwood s’inscrit comme une voie de mise à niveau pour les clients qui souhaitent une solution native TPU gérée à côté des GPU.
Un message de marché est inscrit : Google défie la domination de Nvidia en faisant valoir que les TPUs spécifiques à un domaine peuvent surpasser les GPU généralistes en termes de rapport coût-performance et d’utilisation énergétique pour certaines tâches d’IA. Le rapport de CNBC indique que les premiers utilisateurs incluent Anthropic, qui prévoit des déploiements à l’échelle d’un million de TPU pour Claude—un signal élevé sur l’ampleur que prennent les empreintes de l’inférence.
Le PDG d’Alphabet, Sundar Pichai, a présenté la demande comme un moteur clé de revenus, citant une augmentation de 34% des revenus de Google Cloud à 15,15 milliards de dollars au troisième trimestre 2025 et des dépenses en capital liées au développement de l’IA totalisant 93 milliards de dollars. « Nous constatons une demande considérable pour nos produits d’infrastructure IA… et nous investissons pour y répondre », a-t-il déclaré, notant que davantage d’accords d’un milliard de dollars ont été signés cette année que lors des deux précédentes combinées.
La disponibilité élargie d’Ironwood est prévue pour plus tard en 2025 via Google Cloud, avec les demandes d’accès ouvertes maintenant. Pour les entreprises des États-Unis, d’Europe, et à travers l’Asie-Pacifique qui évaluent les budgets énergétiques, la densité des racks et les objectifs de latence, la question n’est pas tant la hype que de savoir si le calcul FP8 à l’échelle des pods d’Ironwood et son profil de refroidissement correspondent à leurs charges de travail de production.
FAQ ❓
- Où Ironwood sera-t-il disponible ? Via Google Cloud dans les régions mondiales, y compris l’Amérique du Nord, l’Europe et l’Asie-Pacifique.
- Quand l’accès commence-t-il ? Une disponibilité plus large commence dans les semaines à venir, avec un déploiement plus large prévu pour la fin de 2025.
- Pour quelles charges de travail est-il conçu ? Inférence à haut débit pour les LLMs, MoEs, recherche, recommandations, finance et informatique scientifique.
- Comment se compare-t-il aux TPUs précédents ? Google cite un débit 4× plus élevé et des performances par watt 2× supérieures à celles de Trillium.















