O Google está lançando o Ironwood, sua sétima geração de Unidade de Processamento Tensorial, um acelerador de inteligência artificial (IA) desenvolvido especificamente, que a empresa caracteriza como o mais avançado até agora — projetado para inferência eficiente em grande escala e pronto para desafiar a liderança da Nvidia à medida que a disponibilidade se expande nas próximas semanas.
Google Lança Ironwood TPU com Pods de 9.216 Chips e Resfriamento a Líquido

O Ironwood TPU da Google mira o território da Nvidia com poder em escala de Pod FP8
O Google apresentou o Ironwood no Google Cloud Next ’25 em abril e agora está ampliando o acesso, posicionando o chip como um silício personalizado ajustado para a “era da inferência,” quando se espera que os modelos respondam, raciocinem e gerem em tempo real em regiões globais de nuvem.
De acordo com um relatório da CNBC, a iniciativa se encaixa diretamente em uma disputa de poder mais ampla entre os hyperscalers, que buscam dominar o stack de IA desde o data center até o kit de ferramentas de desenvolvimento. Sob o capô, o Ironwood conta com um interconexão de torus 3D, resfriamento líquido para cargas sustentadas e um Sparsecore aprimorado para acelerar embeddings ultragrandes para classificação, recomendações, finanças e computação científica.
Ele é projetado para minimizar a movimentação de dados e os gargalos de comunicação — dois culpados que muitas vezes limitam o throughput em trabalhos com múltiplos chips. Os números brutos são projetados para chamar a atenção: até 4.614 TFLOPs (FP8) por chip, 192 GB de HBM com 7,37 TB/s de largura de banda e 1,2 TB/s de largura de banda bidirecional entre chips. Os pods escalam de 256 chips para uma configuração de 9.216 chips, entregando 42,5 exaflops (FP8) de computação, com consumo total de energia de aproximadamente 10 MW e resfriamento líquido permitindo desempenho sustentado significativamente maior do que o resfriamento a ar.
O Google afirma que o Ironwood é mais de 4× mais rápido que o Trillium anterior (TPU v6) em throughput total de IA e oferece aproximadamente 2× melhor desempenho por watt — enquanto atinge quase 30× a eficiência energética de seu primeiro Cloud TPU de 2018. Em sua forma mais avançada, a empresa alega uma vantagem computacional sobre supercomputadores de ponta como o El Capitan, quando medido em exaflops FP8. Como sempre, a metodologia é importante, mas a intenção é clara.
Embora possa treinar, a proposta do Ironwood se concentra na inferência para modelos de linguagem grandes e sistemas de Mistura de Especialistas — exatamente os trabalhos de alta QPS e baixa latência que agora inundam data centers da América do Norte à Europa e Ásia-Pacífico. Pense em chatbots, agentes, modelos da classe Gemini e pipelines de pesquisa e recsys de alta dimensão que exigem memória rápida e sincronização em escala de pod.
A integração chega através do AI Hypercomputer da Google Cloud — unindo o hardware com software como o Pathways para orquestrar a computação distribuída em milhares de dies. Esse stack já suporta serviços de consumidor e corporativos, desde o Busca até o Gmail, e o Ironwood surge como um caminho de atualização para clientes que querem uma rota gerenciada e nativa de TPU ao lado de GPUs.
Há uma mensagem de mercado embutida: o Google está desafiando a dominância da Nvidia argumentando que TPUs específicos para domínio podem superar GPUs de propósito geral em termos de custo-desempenho e uso de energia para certas tarefas de IA. O relatório da CNBC diz que os primeiros adotantes incluem a Anthropic, que planeja implantações em escala de milhões de TPUs para Claude — um sinal surpreendente de como as pegadas de inferência estão se tornando grandes.
O CEO da Alphabet, Sundar Pichai, enquadrou a demanda como um importante motor de receita, citando um salto de 34% na receita do Google Cloud para $15,15 bilhões no Q3 de 2025 e despesas de capital ligadas à construção de IA totalizando $93 bilhões. “Estamos vendo uma demanda substancial por nossos produtos de infraestrutura de IA… e estamos investindo para atender a isso,” disse ele, observando que mais negócios bilionários foram fechados este ano do que nos dois anteriores combinados.
A disponibilidade mais ampla do Ironwood está prevista para mais tarde em 2025 através do Google Cloud, com pedidos de acesso abertos agora. Para empresas nos EUA, Europa e Ásia-Pacífico que ponderam orçamentos de energia, densidade de racks e metas de latência, a questão é menos sobre hype e mais sobre se a matemática FP8 em escala de pod e o perfil de resfriamento do Ironwood se alinham com suas cargas de trabalho de produção.
FAQ ❓
- Onde o Ironwood estará disponível? Através do Google Cloud em regiões globais, incluindo América do Norte, Europa e Ásia-Pacífico.
- Quando o acesso começa? A disponibilidade mais ampla começa nas próximas semanas, com um lançamento mais amplo mais tarde em 2025.
- Para quais cargas de trabalho ele foi construído? Inferência de alta taxa de transferência para LLMs, MoEs, pesquisa, recomendações, finanças e computação científica.
- Como ele se compara aos TPUs anteriores? O Google cita 4× maior throughput e 2× melhor desempenho por watt do que o Trillium.















