Google sta lanciando Ironwood, il suo settimo generazione di Tensor Processing Unit, un acceleratore di intelligenza artificiale (AI) costruito appositamente che l’azienda descrive come il più avanzato finora—progettato per un’inferenza efficiente e su vasta scala, pronto a competere con la leadership di Nvidia man mano che la disponibilità si espande nelle prossime settimane.
Google lancia Ironwood TPU con pod da 9.216 chip e raffreddamento a liquido

Il TPU Ironwood di Google prende di mira il territorio di Nvidia con potenza FP8 su scala Pod
Google ha presentato Ironwood al Google Cloud Next ’25 in aprile e ora sta ampliando l’accesso, posizionando il chip come silicio personalizzato ottimizzato per l'”era dell’inferenza”, quando i modelli devono rispondere, ragionare e generare in tempo reale in tutte le regioni cloud globali.
Secondo un rapporto CNBC, la mossa rientra chiaramente in una più ampia lotta di potere tra gli hyperscaler in corsa per possedere lo stack AI dal data center al toolkit di sviluppo. Sotto il cofano, Ironwood si basa su un interconnessione a toro 3D, raffreddamento a liquido per carichi sostenuti e un miglioramento di Sparsecore per accelerare incorporamenti ultra-grandi per classificazione, raccomandazioni, finanza e calcolo scientifico.
È progettato per minimizzare il movimento dei dati e i colli di bottiglia nelle comunicazioni—due responsabili che spesso limitano la larghezza di banda nei lavori multi-chip. I numeri grezzi sono progettati per attirare l’attenzione: fino a 4.614 TFLOP (FP8) per chip, 192 GB di HBM con 7,37 TB/s di larghezza di banda, e 1,2 TB/s di larghezza di banda bidirezionale tra chip. I pod variano da 256 chip a una configurazione di 9.216 chip che offre 42,5 exaflop (FP8) di calcolo, con un consumo energetico del pod completo intorno ai 10 MW e il raffreddamento a liquido che consente prestazioni sostenute significativamente più elevate rispetto all’aria.
Google afferma che Ironwood è oltre 4 volte più veloce rispetto al precedente Trillium (TPU v6) in termini di throughput complessivo di AI e offre circa 2 volte migliori performance per watt, pur registrando quasi 30 volte l’efficienza energetica del suo primo TPU Cloud del 2018. Nella forma massimizzata, l’azienda sostiene un vantaggio computazionale rispetto ai migliori supercomputer come El Capitan quando misurato in exaflop FP8. Come sempre, la metodologia conta, ma l’intento è chiaro.
Sebbene possa addestrare, l’offerta di Ironwood si concentra sull’inferenza per modelli di linguaggio di grandi dimensioni e sistemi Mixture-of-Experts—esattamente il lavoro ad alto QPS e bassa latenza che ora inonda i data center dal Nord America all’Europa e Asia-Pacifico. Pensate a chatbot, agenti, modelli di classe Gemini e pipeline di ricerca e raccomandazione ad alta dimensione che richiedono memoria veloce e sincronizzazione su scala pod stretta.
L’integrazione arriva tramite il supercomputer AI di Google Cloud—accoppiando l’hardware con software come Pathways per orchestrare il calcolo distribuito su migliaia di die. Quello stack supporta già servizi consumer ed enterprise da Search a Gmail, e Ironwood si inserisce come percorso di aggiornamento per i clienti che desiderano un percorso gestito, nativo TPU insieme alle GPU.
C’è un messaggio di mercato incorporato: Google sta sfidando il dominio di Nvidia sostenendo che i TPU specifici del dominio possono superare le GPU generiche in termini di rapporto prezzo-prestazioni e consumo energetico per determinati compiti AI. Il rapporto di CNBC afferma che i primi adottanti includono Anthropic, che prevede implementazioni su scala di milioni di TPU per Claude—a un segnale sorprendente di quanto stiano diventando grandi i footprint di inferenza.
Il CEO di Alphabet Sundar Pichai ha inquadrato la domanda come un fattore chiave di ricavi, citando un aumento del 34% delle entrate di Google Cloud a 15,15 miliardi di dollari nel Q3 2025 e spese in conto capitale legate alla costruzione AI per un totale di 93 miliardi di dollari. “Stiamo vedendo una domanda sostanziale per i nostri prodotti di infrastruttura AI… e stiamo investendo per soddisfarla,” ha detto, notando che quest’anno sono stati firmati più accordi da miliardi di dollari rispetto ai due anni precedenti combinati.
La disponibilità più ampia di Ironwood è prevista per la fine del 2025 tramite Google Cloud, con richieste di accesso già aperte. Per le imprese negli Stati Uniti, in Europa e in tutta l’Asia-Pacifico che valutano i budget energetici, la densità dei rack e gli obiettivi di latenza, la domanda è meno riguardo all’hype e più se la matematica FP8 su scala pod di Ironwood e il profilo di raffreddamento si allineano con i loro carichi di lavoro produttivi.
FAQ ❓
- Dove sarà disponibile Ironwood? Tramite Google Cloud nelle regioni globali, inclusi Nord America, Europa e Asia-Pacifico.
- Quando inizia l’accesso? La disponibilità più ampia inizia nelle prossime settimane, con un lancio più ampio più tardi nel 2025.
- Per quali carichi di lavoro è stato costruito? Inferenza ad alta larghezza di banda per LLM, MoE, ricerca, raccomandazioni, finanza e calcolo scientifico.
- Come si confronta con i TPU precedenti? Google cita un throughput 4× superiore e prestazioni 2× migliori per watt rispetto a Trillium.















