在拉斯维加斯举办的Google Cloud Next大会上,谷歌宣布了一项重大技术突破:正式推出第八代张量处理器(TPU),首次将AI训练与推理任务分别交由两款独立芯片承担——专为大规模模型训练设计的TPU 8t与面向高并发推理优化的TPU 8i。这一战略调整标志着谷歌在AI硬件领域迈出关键一步,旨在通过针对性优化满足日益分化的计算需求。
谷歌AI与基础设施高级副总裁Amin Vahdat在主题演讲中强调,随着AI智能体生态的爆发式增长,训练与推理任务对硬件的要求已截然不同。训练场景需要极致的计算密度与内存带宽以支撑万亿参数模型的迭代,而推理场景则更关注低延迟与高并发能力,以确保数百万智能体同时响应的流畅性。基于这一洞察,谷歌从零开始设计了这两款芯片,而非简单迭代前代产品。
作为训练旗舰,TPU 8t由谷歌与博通联合研发,单超级计算节点可集成9600块芯片,配备2PB高带宽内存,FP4精度下算力达121 exaflops,较上一代Ironwood提升近3倍。其核心创新包括双计算芯粒架构、8组堆叠HBM3e内存,以及专为大语言模型优化的SparseCore加速器。通过全新Virgo互联架构,数据中心网络带宽提升至前代4倍,支持单集群超百万芯片的分布式训练。存储访问方面,TPU直连RDMA技术使数据吞吐速度提升10倍,配合光路电路交换技术实现硬件拓扑的自动重构,显著提升系统可靠性。
针对推理场景,TPU 8i与联发科合作开发,通过片上384MB SRAM缓存将KV Cache保留在芯片内部,减少长上下文解码时的空闲等待。其集合通信加速引擎(CAE)使多核心结果聚合延迟降低5倍,特别适合自回归解码与思维链推理任务。架构层面,TPU 8i摒弃传统3D环形拓扑,采用Boardfly层级互联设计,在1024芯片集群中可将通信跳数从16次压缩至7次,全对全通信延迟改善最高50%。单Pod性能达11.6 exaflops(FP8),每瓦性能较前代提升117%。
两款芯片均搭载谷歌自研Arm架构Axion CPU作为主控,采用台积电2nm制程工艺制造,计划于2027年底量产,并配备第四代液冷散热系统。软件生态方面,第八代TPU已实现对JAX、PyTorch等主流框架的原生支持,PyTorch迁移工具进入预览阶段,用户可无缝切换硬件平台。
市场布局上,谷歌同步开放第七代TPU Ironwood的云服务,并宣布与英伟达达成深度合作,将于2026年下半年成为首家部署NVIDIA Vera Rubin NVL72超级计算机的云服务商。目前,Anthropic已预订数GW级TPU算力,2027年规模将扩展至3.5吉瓦;Citadel Securities利用TPU开发量化研究软件,美国能源部17个国家实验室则采用TPU构建AI协同科学家系统。行业分析师指出,谷歌通过芯片拆分策略,有效提升了特定场景下的单位算力性价比,为云客户降低了大规模AI部署的门槛。















