谷歌发布第六代TPU—Trillium
今年早些时候,谷歌发布了迄今为止最强大的第六代TPU——Trillium。如今,Trillium已正式向Google Cloud客户开放。
Trillium在AI超级计算机中的核心地位
- AI Hypercomputer架构:Trillium TPU是Google Cloud AI Hypercomputer的核心组成部分之一。这个超算架构集成了性能优化硬件、开源软件及世界级协作设计软件,支持各种规模的AI工作负载。
- Jupiter GPU与TPU协同工作:Jupiter GPU将与TPU共同在Google Cloud上运行,提供卓越的计算能力。
Trillium的主要特性
1. AI推理性能
- 提供业界最佳TPU推理性能,支持图像扩散和密集语言模型。
- 相比Cloud TPU v5e,Stable Diffusion XL的相对推理吞吐量(每秒图像数)提高了3倍以上;Llama2-70B的相对推理吞吐量(每秒标记数)接近两倍。
2. 成本效益
- 在训练密集型语言模型(如Llama2-70b和Llama3.1-405b)时,Trillium的成本效率是Cloud TPU v5e的2.1倍,比Cloud TPU v5p高出2.5倍。
- 相对于Cloud TPU v5e,使用Trillium生成1000张图片进行离线推理可节省27%的成本;SDXL服务器端推理成本降低22%。
3. 模型嵌入
- 第三代SparseCore将密集模型的性能提升一倍,并将DLRM DCNv2的性能提升了5倍。
- SparseCore是一款数据流处理器,为密集工作负载提供更灵活的基础架构。它在处理动态和数据依赖的操作(如散集、稀疏段求和及分区)方面表现出色。
4. 多模型推理
- 引入了新的集合调度功能,优化多副本环境下的任务调度。
- 支持通过Google Kubernetes Engine (GKE)进行单主机或多主机推理工作负载管理。
Trillium的商业价值
Trillium不仅提升了AI创新的高度,还提供了无与伦比的成本效益。它适用于各种规模的组织,帮助他们最大化其AI投资的价值,并推动更快的技术突破和卓越的人工智能解决方案交付。