技术支持
News

Google 推出具有9,216芯片模块和液体冷却的Ironwood TPU

谷歌正在推出其第七代张量处理单元Ironwood,这是一款专门构建的人工智能(AI)加速器,该公司称之为其迄今为止最先进的产品,旨在实现高效的大规模推理,并准备在未来几周内扩展可用性时挑战Nvidia的领先地位。

分享
Google 推出具有9,216芯片模块和液体冷却的Ironwood TPU

谷歌的Ironwood TPU以Pod级FP8功率瞄准Nvidia的领地

谷歌在4月的Google Cloud Next ’25活动中预览了Ironwood,现在正扩大其访问权限,将这款芯片定位为为“推理时代”量身定制的硅芯片,届时模型将被期望在全球云区域中实时响应、推理和生成。

根据CNBC的报道,这次行动完全融入了在超大规模计算中争相掌控从数据中心到开发工具包的AI堆栈的更广泛的权力竞争。Ironwood依托于3D多维环互连、液冷以支持持续负载,以及改进的Sparsecore以加速超大嵌入应用于排名、推荐、金融和科学计算。

它是被设计来最小化数据移动和通信瓶颈—这两个因素往往限制了多芯片作业的吞吐量。其原始数据旨在引人注目:每个芯片最多达4,614 TFLOPs(FP8),192 GB HBM,带宽7.37 TB/s,以及1.2 TB/s的双向芯片间带宽。Pods从256个芯片扩展到9,216个芯片的配置,提供42.5 exaflops(FP8)的计算能力,满载时功耗约为10 MW,并通过液冷实现显著高于空气冷却的持续性能。

谷歌表示,Ironwood在整体AI吞吐量上比之前的Trillium(TPU v6)快超过4倍,并在每瓦性能上提供大约2倍的提升—同时比2018年的第一代Cloud TPU的能效高近30倍。在最大化形式中,谷歌声称在FP8 exaflops情况下,其计算能力超过了顶级超级计算机如El Capitan。方法学总是重要的,但意图已然清晰。

虽然Ironwood可以进行训练,但其主要展示点在于大型语言模型和专家混合系统的推理—这正是从北美到欧洲及亚太的数据中心现在充斥着的高QPS、低延迟工作。想想聊天机器人、代理商、Gemini级模型和需要快速内存及紧密Pod级同步的高维搜索和推荐系统管道。

集成通过谷歌云的AI超级计算机实现—将硬件与像Pathways这样的软件结合,以在数千个芯片上协调分布式计算。该堆栈已经支持从搜索到Gmail的消费和企业服务,而Ironwood则成为希望拥有托管、TPU本地化路径的客户的升级途径。

其中蕴含了市场讯息:谷歌通过论证领域专用TPU在某些AI任务的性价比和能耗上优于通用GPU来挑战Nvidia的主导地位。CNBC的报道提到,早期使用者包括Anthropic,其计划为Claude进行百万TPU规模的部署—这清晰表明了推理工作负载规模的壮大。

Alphabet CEO Sundar Pichai将需求描绘为主要收入驱动因素,指出谷歌云收入在2025年第三季度增长了34%达到151.5亿美元,且用于AI扩展的资本支出总计930亿美元。“我们看到了对我们AI基础设施产品的巨大的需求……我们正在投资以满足这一需求,”他表示,同时指出今年签署的十亿美元以上合同比前两年签署的总和还要多。

Ironwood的更广泛可用性计划于2025年晚些时候通过谷歌云推出,现在已开放访问请求。对于在美国、欧洲和亚太地区的企业,考虑功率预算、机架密度和延迟目标的同时,问题已不是炒作,而是Ironwood的Pod级FP8数学和冷却特性是否符合他们的生产工作负载。

常见问题 ❓

  • Ironwood将在哪里可用? 通过谷歌云在包括北美、欧洲和亚太地区的全球区域。
  • 访问何时开始? 更广泛的访问将于未来几周开始,2025年晚些时候全面推出。
  • 此芯片适用于哪些工作负载? 高吞吐量推理,适用于大型语言模型、专家混合系统、搜索、推荐、金融和科学计算。
  • 它与以前的TPU相比如何? 谷歌称其具备4倍更高的吞吐量和2倍每瓦性能提升,优于Trillium。