Google đang triển khai Ironwood, Đơn vị Xử lý Tensor thế hệ thứ bảy của mình, một bộ tăng tốc trí tuệ nhân tạo (AI) được xây dựng cho mục đích riêng mà công ty cho là tiên tiến nhất từ trước đến nay—được thiết kế cho việc suy diễn hiệu quả, ở quy mô lớn và sẵn sàng thách thức vị trí dẫn đầu của Nvidia khi khả năng cung cấp được mở rộng trong những tuần tới.
Google ra mắt Ironwood TPU với các cụm 9.216 chip và làm mát bằng chất lỏng

TPU Ironwood của Google Nhắm đến Khu Vực Của Nvidia Với Sức Mạnh FP8 Quy mô Pod
Google đã công bố trước Ironwood tại Google Cloud Next ’25 vào tháng 4 và hiện đang mở rộng truy cập, định vị chip như là một silicon tùy chỉnh được tối ưu hóa cho “thời đại của suy diễn,” khi các mô hình được mong đợi phản hồi, lý luận và tạo ra trong thời gian thực trên các vùng đám mây toàn cầu.
Theo một báo cáo của CNBC, động thái này hoàn toàn nằm trong một cuộc chơi quyền lực rộng lớn hơn giữa các công ty công nghệ lớn đang chạy đua để nắm quyền kiểm soát ngăn xếp AI từ trung tâm dữ liệu đến bộ công cụ phát triển. Bên trong, Ironwood dựa vào một kết nối 3D torus, làm mát bằng chất lỏng cho các tải trọng bền bỉ và một Sparsecore cải tiến để tăng tốc nhúng cực lớn cho việc xếp hạng, đề xuất, tài chính và tính toán khoa học.
Nó được thiết kế để giảm thiểu sự di chuyển dữ liệu và tắc nghẽn thông tin liên lạc—hai nguyên nhân thường giới hạn thông lượng trong các công việc đa chip. Các con số thô được thiết kế để gây chú ý: lên tới 4,614 TFLOPs (FP8) mỗi chip, 192 GB HBM với băng thông 7.37 TB/s và băng thông lưỡng chiều giữa các chip 1.2 TB/s. Pods mở rộng từ 256 chip đến cấu hình 9,216-chip, cung cấp 42.5 exaflops (FP8) tính toán, với mức tiêu thụ điện năng toàn bộ pod khoảng 10 MW và làm mát bằng chất lỏng cho phép hiệu suất bền vững cao hơn đáng kể so với không khí.
Google cho biết Ironwood nhanh hơn 4× lần so với Trillium trước đó (TPU v6) về tổng thông lượng AI và cung cấp hiệu suất khoảng 2× tốt hơn mỗi watt—trong khi đạt hiệu quả tiêu thụ năng lượng gần gấp 30 lần so với TPU Cloud đầu tiên của mình từ năm 2018. Trong hình thức tối đa, công ty tuyên bố có lợi thế tính toán so với các siêu máy tính hàng đầu như El Capitan khi đo lường ở FP8 exaflops. Như mọi khi, phương pháp luận rất quan trọng, nhưng ý định là rõ ràng.
Mặc dù nó có thể đào tạo, nhưng sự giới thiệu của Ironwood tập trung vào suy diễn cho các mô hình ngôn ngữ lớn và hệ thống Hỗn hợp các Chuyên gia—chính xác là công việc QPS cao, độ trễ thấp hiện đang tràn ngập các trung tâm dữ liệu từ Bắc Mỹ đến Châu Âu và Châu Á-Thái Bình Dương. Hãy nghĩ đến chatbots, các tác nhân, mô hình lớp Gemini và các đường ống tìm kiếm và đề xuất có kích thước cao đòi hỏi nhanh chóng bộ nhớ và đồng bộ quy mô pod chặt chẽ.
Việc tích hợp diễn ra thông qua AI Hypercomputer của Google Cloud—ghép nối phần cứng với phần mềm như Pathways để điều hướng tính toán phân tán giữa hàng ngàn chip. Ngăn xếp đó đã hỗ trợ các dịch vụ tiêu dùng và doanh nghiệp từ Search đến Gmail, và Ironwood được đưa vào như một con đường nâng cấp cho khách hàng muốn có một con đường do TPU quản lý bên cạnh GPU.
Có một thông điệp thị trường được tích hợp: Google đang thách thức sự thống trị của Nvidia bằng cách lập luận rằng TPUs chuyên biệt có thể vượt qua GPUs mục tiêu tuyết yếu về giá cả-hiệu suất và tiêu thụ năng lượng cho một số nhiệm vụ AI nhất định. Báo cáo của CNBC cho biết những người tiên phong bao gồm Anthropic, có kế hoạch triển khai ở quy mô triệu TPU cho Claude—một tín hiệu gây ngạc nhiên về mức độ lớn của diện tích suy diễn đang trở nên phổ biến.
CEO của Alphabet Sundar Pichai hình dung nhu cầu như là một động lực quan trọng cho doanh thu, trích dẫn mức tăng 34% trong doanh thu Google Cloud lên tới 15.15 tỷ đô la vào Q3 2025 và chi phí đầu tư gắn liền với xây dựng AI lên tới 93 tỷ đô la. “Chúng tôi đang chứng kiến nhu cầu đáng kể đối với các sản phẩm cơ sở hạ tầng AI của mình… và chúng tôi đang đầu tư để đáp ứng điều đó,” ông nói, lưu ý rằng nhiều thỏa thuận trị giá hàng tỷ đô la đã được ký kết trong năm nay hơn cả hai năm trước cộng lại.
Tính khả dụng rộng rãi hơn của Ironwood dự kiến diễn ra vào cuối năm 2025 thông qua Google Cloud, với các yêu cầu truy cập hiện đã mở. Đối với các doanh nghiệp ở Mỹ, Châu Âu và khắp Châu Á-Thái Bình Dương đang cân nhắc ngân sách điện năng, mật độ rack và mục tiêu độ trễ, vấn đề không phải là sự phô trương mà là liệu toán FP8 quy mô pod của Ironwood và cấu hình làm mát có phù hợp với khối lượng công việc sản xuất của họ không.
Câu hỏi thường gặp ❓
- Ironwood sẽ có mặt ở đâu? Thông qua Google Cloud tại các khu vực toàn cầu, bao gồm Bắc Mỹ, Châu Âu và Châu Á-Thái Bình Dương.
- Khi nào sẽ bắt đầu truy cập? Khả năng cung cấp rộng hơn bắt đầu trong vài tuần tới, với việc triển khai rộng hơn vào cuối năm 2025.
- Được xây dựng cho khối lượng công việc nào? Suy diễn với thông lượng cao cho LLMs, MoEs, tìm kiếm, đề xuất, tài chính và tính toán khoa học.
- Nó so với các TPU trước đây như thế nào? Google cho biết có thông lượng cao hơn 4 lần và hiệu suất tốt hơn 2 lần mỗi watt so với Trillium.









