Google sedang memperkenalkan Ironwood, Unit Pemprosesan Tensor generasi ketujuhnya, yang dibina khusus untuk akselerator kecerdasan buatan (AI) yang dikatakan sebagai yang paling maju—dibina untuk inferens yang cekap pada skala besar dan sedia untuk mengatasi kelebihan Nvidia apabila ketersediaan diperluaskan dalam beberapa minggu mendatang.
Google Melancarkan TPU Ironwood Dengan Pod 9,216 Cip dan Penyejukan Cecair

TPU Ironwood Google Mensasarkan Wilayah Nvidia Dengan Kuasa FP8 Skala-Pod
Google telah memberikan pratonton Ironwood di Google Cloud Next ’25 pada bulan April dan kini memperluaskan akses, meletakkan cip ini sebagai cip silikon khas yang disesuaikan untuk “zaman inferens,” apabila model dijangka memberi respons, berfikir, dan menjana dalam masa nyata di seluruh rantau awan global.
Menurut laporan CNBC, langkah ini sepenuhnya merupakan sebahagian daripada permainan kuasa yang lebih besar dalam kalangan hiperskala yang berlumba untuk menguasai tumpukan AI dari pusat data ke alat pembangunan. Di sebalik tabir, Ironwood bergantung pada irintraskom 3D torus, penyejukan cecair untuk beban berterusan, dan Sparsecore yang ditingkatkan untuk mempercepatkan penyemat yang sangat besar untuk pemeringkatan, saranan, kewangan, dan pengkomputeran saintifik.
Ia direka untuk meminimumkan pergerakan data dan halangan komunikasi—dua punca yang sering menghadkan hasil dalam pekerjaan berbilang cip. Angka mentah direka untuk menarik perhatian: sehingga 4,614 TFLOP (FP8) per cip, 192 GB HBM dengan lebar jalur 7.37 TB/s, dan lebar jalur antara cip dua hala 1.2 TB/s. Pod membolehkan skala dari 256 cip hingga konfigurasi 9,216 cip yang memberikan 42.5 ekaflop (FP8) pengkomputan, dengan kuasa penarikan penuh pod sekitar 10 MW dan penyejukan cecair yang membolehkan prestasi berterusan yang jauh lebih tinggi berbanding penyejukan udara.
Google mengatakan Ironwood adalah lebih daripada 4× lebih pantas daripada Trillium sebelumnya (TPU v6) dalam keseluruhan hasil AI dan menawarkan prestasi 2× lebih baik per watt—sementara mencatatkan kecekapan kuasa hampir 30× lebih tinggi daripada TPU Awan pertama dari tahun 2018. Dalam bentuk yang dimaksimumkan, syarikat itu mendakwa kelebihan komputasi berbanding superkomputer teratas seperti El Capitan apabila diukur pada ekaflop FP8. Seperti biasa, metodologi adalah penting, tetapi niatnya jelas.
Walaupun ia boleh melatih, penekanan Ironwood adalah pada inferens untuk model bahasa besar dan sistem Campuran-Pakar—tepat jenis kerja QPS tinggi, latensi rendah yang kini membanjiri pusat data dari Amerika Utara ke Eropah dan Asia-Pasifik. Fikirkan chatbots, agen, model kelas Gemini, dan saluran carian dan pengesyorsan dimensi tinggi yang memerlukan memori pantas dan penyelarasan skala-pod yang rapat.
Integrasi tiba melalui AI Superkomputer Google Cloud—memadankan perkakasan dengan perisian seperti Pathways untuk mengorchestrakan komputasi terdistribusi di ribuan dice. Tumpukan itu sudah menyokong perkhidmatan pengguna dan perusahaan dari Carian ke Gmail, dan Ironwood berperanan sebagai laluan peningkatan untuk pelanggan yang mahukan laluan TPM asli yang diuruskan bersama GPU.
Terdapat mesej pasaran yang tersemat: Google mencabar dominasi Nvidia dengan berhujah bahawa TPM khusus domain boleh mengalahkan GPU tujuan umum dari segi prestasi harga dan penggunaan tenaga untuk tugas AI tertentu. Laporan CNBC mengatakan pengguna awal termasuk Anthropic, yang merancang untuk penyebaran pada skala sejuta-TPU untuk Claude—isyarat yang menaikkan alis mengenai betapa besarnya jejak inferens menjadi.
CEO Alphabet Sundar Pichai merangka permintaan sebagai pemacu hasil utama, memetik lonjakan 34% dalam hasil Google Cloud kepada $15.15 bilion pada suku ketiga 2025 dan modal yang dihubungkan dengan pengembangan AI berjumlah $93 bilion. “Kami melihat permintaan yang tinggi untuk produk infrastruktur AI kami… dan kami sedang melabur untuk memenuhinya,” katanya, mencatatkan lebih banyak perjanjian bernilai bilion dolar ditandatangani tahun ini berbanding gabungan dua tahun sebelumnya.
Ketersediaan Ironwood yang lebih luas dijadualkan untuk lewat 2025 melalui Google Cloud, dengan permintaan akses dibuka sekarang. Bagi perusahaan di AS, Eropah, dan seluruh Asia-Pasifik yang memikirkan bajet kuasa, ketumpatan rak, dan sasaran latensi, persoalannya kurang mengenai gembar-gembur dan lebih kepada sama ada matematik FP8 skala-pod Ironwood dan profil penyejukan sejajar dengan beban kerja pengeluaran mereka.
FAQ ❓
- Di mana Ironwood akan tersedia? Melalui Google Cloud di rantau global, termasuk Amerika Utara, Eropah, dan Asia-Pasifik.
- Bila akses akan bermula? Ketersediaan yang lebih luas bermula dalam beberapa minggu mendatang, dengan pelancaran lebih luas pada lewat 2025.
- Untuk beban kerja apa ia dibina? Inferens throughput tinggi untuk LLM, MoEs, carian, saranan, kewangan, dan pengkomputeran saintifik.
- Bagaimana ia dibandingkan dengan TPU sebelumnya? Google menyebut hasil 4× lebih tinggi dan prestasi 2× lebih baik per watt berbanding Trillium.















