谷歌发布第八代TPU：分训练与推理两款独立芯片

发布时间：2026-04-23 阅读量：282 来源: 发布人: suii

在4月22日举行的Google Cloud Next 2026大会上，谷歌（GOOGL-US）正式推出其第八代张量处理器（TPU）的两款新型号：TPU 8t专为AI模型训练设计，TPU 8i则专注于推理任务优化。这是谷歌首次将训练与推理拆分为独立芯片，标志着其AI硬件战略的重大转向。

图片2.png

谷歌两款芯片均打算在今年稍晚正式对外供应，旨在透过专项优化应对日益分化的 AI 工作负载，并以更具成本效益的方式提供大规模吞吐量和低延迟，满足数百万个 AI 智能体同时运行的需求。

谷歌此次战略调整是对 AI 计算特性分化的直接回应。随着 AI 智能体兴起，预训练、后训练与即时推理在运算需求上已显著不同；训练任务追求极致的吞吐量与规模扩展，而推理任务则对延迟和并发更为敏感。

谷歌资深副总裁兼 AI 与基础设施技术长 Amin Vahdat 指出，业界将受惠于针对这两类需求专门优化的芯片。

Alphabet 执行长皮查伊也强调，这项架构旨在以低成本提供大规模算力。从市场角度来看，统一芯片往往导致某一场景下的资源浪费，而双芯片策略能显著提升价格效能比，降低云端 AI 基础设施的整体拥有成本。

在效能数据上，第八代 TPU 相比去年 11 月发布的第七代 Ironwood 有了巨大飞跃。 TPU 8t 在同等价格下效能提升 2.8 倍，TPU 8i 效能提升 80%，两款芯片的能源效率表现特别亮眼。

TPU 8t 定位为超大规模训练的算力引擎，号称能将前沿模型的开发周期从数月压缩至数周。在规模上，它最多可将 9600 块芯片组合为单一超级运算节点，并透过 JAX 与 Pathways 框架将分散式训练扩展至单一集群超过 100 万块芯片，其核心技术创新包括：专门处理嵌入查找的 SparseCore 加速器、原生 FP4 支援 (使 MXU 吞吐量翻倍并降低能耗)，以及更均衡的向量处理单元扩展设计。

TPU 8i 则面向高并发推理场景，重心在于降低延迟与提升并发处理能力，其最显著的硬体特征是整合了 384MB 静态随机存取存储器，容量是上一代的三倍，可将更大的 KV Cache 保留在片上，大幅减少长上下文解码的等待时间。

此外，它引入了集合加速引擎 (CAE)，专门加速自回归解码与思维链处理，使片上集合操作延迟降低 5 倍。在网路拓扑上，TPU 8i 放弃了传统的 3D 环面结构，转而采用全新的 Boardfly 互联拓扑，将最大跳数压缩至 7 跳，全对全通讯延迟改善最高 50%。

此次发布不仅展示谷歌在芯片设计上的技术深度，也反映其供应链策略的调整。TPU 8t 由博通共同设计，主打极致性能，TPU 8i 则首次牵手联发科，旨在优化成本与效率。

《华尔街见闻》分析指出，谷歌此次采用的双芯片策略使其能够针对训练与推理任务分别深度优化，在实现性能与成本平衡的同时，也通过多供应商布局降低了对单一供应链的依赖与溢价风险。

相关资讯

佰维存储发布工业宽温级eMMC新品TGE408：自研主控芯片和自研固件算法！

佰维推出工业宽温级eMMC嵌入式存储产品TGE408

贸泽开售Telit Cinterion SL871K2 GNSS模块支持单频和多星座GNSS定位

该模块配备多星座单频接收器，支持多达四种卫星星座，可实现出色的覆盖范围和性能，适用于丰富的应用场景，包括车队管理系统、基于GPS和GNSS的道路收费系统、蜂窝基站、汽车导航、远程信息处理、资产追踪以及个人运动训练监测器等。

强强联合！特斯拉Terafab项目计划导入英特尔代工 Intel 14A 先进逻辑制程工艺

特斯拉Terafab芯片制造项目将采用英特尔最先进的Intel 14A逻辑制程工艺

亚马逊推出“Project Houdini”，将AI数据中心建设时间缩短至3周

亚马逊正通过“Project Houdini”计划，推动AI数据中心建设模式从劳动密集型的现场组装向工厂化预制生产转型。

三星、SK海力士受波及，光祖溶剂原料短缺芯片业遭冲击

韩国媒体报道指出，日本供应商已通知多家芯片制造商，关键光阻溶剂原料供应发生中断，波及三星电子与SK海力士等主要存储器厂商，引发市场对供应冲击进一步扩散的担忧。