Bereitgestellt von
News

Google führt Ironwood TPU mit 9.216-Chip-Pods und Flüssigkeitskühlung ein

Google führt Ironwood ein, seine siebte Generation der Tensor Processing Unit, einen speziell entwickelten künstlichen Intelligenz (KI) Beschleuniger, den das Unternehmen als seinen bisher fortschrittlichsten bezeichnet – gebaut für effiziente, skalierbare Inferenz und bereit, Nvidias Vorsprung zu übertreffen, da die Verfügbarkeit in den kommenden Wochen ausgeweitet wird.

GESCHRIEBEN VON
TEILEN
Google führt Ironwood TPU mit 9.216-Chip-Pods und Flüssigkeitskühlung ein

Googles Ironwood TPU greift Nvidias Gebiet mit Pod-Skala FP8 Kraft an

Google stellte Ironwood im April bei Google Cloud Next ’25 vor und erweitert nun den Zugang, indem der Chip als maßgeschneiderte Hardware für das „Zeitalter der Inferenz“ positioniert wird, in dem Modelle in Echtzeit in globalen Cloud-Regionen reagieren, argumentieren und generieren sollen.

Laut einem Bericht von CNBC passt der Schritt klar in ein breiteres Machtspiel unter Hyperscalern, die darum wetteifern, den KI-Stack vom Rechenzentrum bis zum Entwickler-Toolkit zu besitzen. Unter der Haube setzt Ironwood auf eine 3D-Torus-Verbindung, Flüssigkeitskühlung für anhaltende Lasten und einen verbesserten Sparsecore, um ultra-große Einbettungen für Rangfolge, Empfehlungen, Finanz- und wissenschaftliches Rechnen zu beschleunigen.

Es ist entwickelt, um Datenbewegungen und Kommunikationsengpässe zu minimieren – zwei Ursachen, die oft den Durchsatz bei Multi-Chip-Arbeiten begrenzen. Die rohen Zahlen sind darauf ausgelegt, Aufmerksamkeit zu erregen: bis zu 4.614 TFLOPs (FP8) pro Chip, 192 GB HBM mit 7,37 TB/s Bandbreite und 1,2 TB/s bidirektionale Inter-Chip-Bandbreite. Pods skalieren von 256 Chips zu einer 9.216-Chip-Konfiguration, die 42,5 Exaflops (FP8) Rechenleistung liefert, mit einem vollständigen Pod-Energieverbrauch von rund 10 MW und einer Flüssigkeitskühlung, die eine signifikant höhere anhaltende Leistung als Luftkühlung ermöglicht.

Google gibt an, dass Ironwood mehr als 4-mal schneller ist als das vorherige Trillium (TPU v6) in der gesamten KI-Durchsatzleistung und etwa 2-mal besser in der Leistung pro Watt – während es fast 30-mal die Energieeffizienz seiner ersten Cloud TPU von 2018 erreicht. In vollständig ausgebauter Form behauptet das Unternehmen einen rechnerischen Vorteil gegenüber den besten Supercomputern wie El Capitan, gemessen in FP8 Exaflops. Wie immer spielt die Methodik eine Rolle, aber die Absicht ist klar.

Obwohl es trainieren kann, konzentriert sich Ironwoods Angebot auf Inferenz für große Sprachmodelle und Mixture-of-Experts-Systeme – genau die High-QPS-, Low-Latency-Arbeiten, die derzeit Rechenzentren von Nordamerika bis Europa und dem asiatisch-pazifischen Raum fluten. Denken Sie an Chatbots, Agenten, Gemini-Klassen-Modelle und Hochdimensionalsuche und -empfehlungspipelines, die schnelles Gedächtnis und enge Pod-Skalen-Synchronisation erfordern.

Die Integration erfolgt über Googles AI-Hypercomputer, der die Hardware mit Software wie Pathways kombiniert, um verteiltes Rechnen über Tausende von Würfeln zu orchestrieren. Dieser Stack unterstützt bereits Verbraucher- und Unternehmensdienste von Search bis Gmail, und Ironwood tritt als Upgrade-Pfad für Kunden ein, die einen verwalteten, TPU-nativen Weg neben GPUs wünschen.

Eine Marktbotschaft ist eingebaut: Google fordert Nvidias Dominanz heraus, indem es argumentiert, dass domänenspezifische TPUs allgemeine GPUs in Preis-Leistungs-Verhältnis und Energieverbrauch bei bestimmten KI-Aufgaben schlagen können. Der CNBC-Bericht besagt, dass frühe Anwender Anthropic einschließen, die den Einsatz in Millionen-TPU-Skalierungen für Claude planen – ein aufsehenerregendes Signal dafür, wie groß Inferenz-Fußabdrücke werden.

Der CEO von Alphabet, Sundar Pichai, stellte die Nachfrage als wichtigen Umsatztreiber dar und verwies auf einen Anstieg der Google Cloud-Einnahmen um 34% auf 15,15 Milliarden US-Dollar im dritten Quartal 2025 und auf Investitionsausgaben im Zusammenhang mit KI-Aufbau in Höhe von insgesamt 93 Milliarden US-Dollar. „Wir sehen eine erhebliche Nachfrage nach unseren KI-Infrastrukturprodukten … und wir investieren, um dieser Nachfrage gerecht zu werden“, sagte er und stellte fest, dass in diesem Jahr mehr Milliarden-Dollar-Deals unterzeichnet wurden als in den beiden vorherigen zusammen.

Die breitere Verfügbarkeit von Ironwood ist für später im Jahr 2025 über Google Cloud geplant, wobei Zugriffsanfragen jetzt möglich sind. Für Unternehmen in den USA, Europa und der asiatisch-pazifischen Region, die Strombudgets, Rackdichte und Latenzziele abwägen, geht es weniger um den Hype und mehr darum, ob Ironwoods Pod-Skala FP8 Mathematik und Kühlungsprofil mit ihren Produktions-Workloads übereinstimmen.

FAQ ❓

  • Wo wird Ironwood verfügbar sein? Über Google Cloud in globalen Regionen, einschließlich Nordamerika, Europa und der asiatisch-pazifischen Region.
  • Wann beginnt der Zugang? Die breitere Verfügbarkeit beginnt in den kommenden Wochen, mit einem weiteren Rollout später im Jahr 2025.
  • Für welche Arbeitslasten ist es gebaut? Hochdurchsatz-Inferenz für LLMs, MoEs, Suche, Empfehlungen, Finanzen und wissenschaftliches Rechnen.
  • Wie vergleicht es sich mit vorherigen TPUs? Google verweist auf einen 4-mal höheren Durchsatz und eine 2-mal bessere Leistung pro Watt im Vergleich zu Trillium.