Google转单台积电生产TensorG5芯片,升级采用3纳米制程

袁遗说科技 2024-06-25 06:03:16

本文由半导体产业纵横(ID:ICVIEWS)综合

Tensor SoC 开发工作不断取得进展,打破三星统包晶圆代工和封测模式。

自2021 年Pixel 6 系列搭载首款Tensor SoC 以来,Google 使用三星代工生产的芯片做为手机核心,然而明年第十代Pixel 将迎来重大变革,Tensor G5 可望成为台积电生产的首款Pixel 系列专用芯片。

The Information 去年7 月报导指出,Google 与台积电达成协议,为Pixel 装置生产完全客制化的Tensor SoC。如果Google 保留现有命名方法,这款芯片可能称为Tensor G5。自从外媒揭露以来,Tensor SoC 开发工作不断取得进展,包括传出测试订单由京元电子拿下,打破三星统包晶圆代工和封测模式。

另一媒体Business Korea 近日报道称,Google 将在明年推出的Tensor G5 使用台积电3 纳米制程,可望让Pixel 系列效能水准大幅提升。目前市售Pixel 8 系列所采用的Tensor G3,是以三星4 纳米制程打造,到了2025 下半年,转向3 纳米制程势在必行。

这不令人意外,苹果从去年iPhone 15 Pro 系列开始采用3 纳米制程。更重要的是,预期高通、联发科下一代芯片将会跟进,非苹阵营的Tensor G5 不会独享制程优势。

此外,Business Korea 报道还讨论三星正在努力解决良率和功耗问题,其中即将推出的Exynos 2500 芯片,宣称功耗和散热性能比台积电3 纳米制程低约10%~20%。

苹果从iPhone 4 起搭载自行研发的A 系列芯片,也将客制化M 系列芯片扩展至Mac 全系列,为iPhone 和Mac 开发3 纳米制程的芯片有近一年的时间,Android 阵营竞争对手才开始涉足这项技术,而Tensor SoC 转单委托台积电生产,Pixel 新机可望有感升级。

谷歌新一代云端AI芯片

谷歌此前还推出了TPUv5p,这是其最新一代云端AI芯片,也是迄今为止功能最强大且最具成本效益的芯片。每个TPUv5pPod包含了多达8,960个芯片,通过高带宽的芯片间连接进行互连,以实现快速数据传输和最佳性能。

新一代的TPUv5p在AI性能方面表现出色,能够提供459teraFLOPS的bfloat16性能或918teraOPS的Int8性能,并配备了95GB的高带宽内存以及2.76TB/s的数据传输速度。与之前的TPUv4相比,TPUv5p的浮点运算次数提高了两倍,高内存带宽提升了三倍,这在人工智能领域引起了广泛的关注。

此外,TPUv5p还在大语言模型(LLM)训练速度上提升了2.8倍,比之前的TPUv5e提升了约50%。谷歌还通过增加计算能力,使得TPUv5p的可扩展性比TPUv4提高了4倍。总体而言,TPUv5p相比TPUv4有以下几个方面的改进:浮点运算次数增加了2倍,内存容量增加了3倍,LLM训练速度提高了2.8倍,嵌入密集模型训练速度提高了1.9倍,带宽增加了2.25倍,芯片间互连带宽增加了2倍。

谷歌在AI领域取得明显的成功,并将其归功于优秀的硬件和软件资源。谷歌的云端AI超级计算机是一组协同工作的元素,旨在实现现代人工智能工作负载。谷歌集成了性能优化计算、最佳存储和液体冷却等功能,充分利用其巨大的计算能力,从而实现了业界领先的性能。

在软件方面,谷歌加强了对流行的机器学习框架(如JAX、TensorFlow和PyTorch)的支持,并提供了一些强大的工具和编译器。这些工具和编译器能够优化分布式架构,使得在不同的硬件平台上开发和训练复杂的模型变得更加高效和易于使用。谷歌还开发了多片训练和多主机推理软件,以简化扩展、训练和服务工作负载的管理。

谷歌的人工智能革命性方法得到了硬件和软件元素的大力支持,这些元素将打破该行业的各种限制。新发布的云端AI芯片TPUv5p以及谷歌的AI超级计算机将为正在进行的AI开发带来更多可能性和机会。可以预见的是,这些先进的技术将进一步加剧竞争,推动人工智能领域的发展。

谷歌的新一代云端AI芯片TPUv5p在性能方面表现出色。与之前的TPUv4相比,TPUv5p在多个方面都有了显著的提升。

首先,TPUv5p的浮点运算次数增加了两倍。它能够提供459teraFLOPS的bfloat16性能或918teraOPS的Int8性能,使得运算速度大大加快。这对于处理复杂的计算任务和大规模的机器学习模型非常有帮助。

其次,TPUv5p的内存容量比TPUv4高出了三倍。它配备了95GB的高带宽内存,可以更快地访问和存储数据。这对于处理大规模的数据集和复杂的模型训练至关重要。

第三,TPUv5p在大语言模型(LLM)训练速度上显示出了2.8倍的代际提升。这对于处理自然语言处理和机器翻译等任务非常有帮助,能够加快模型的训练速度,提高工作效率。

此外,TPUv5p还在嵌入密集模型训练速度方面有了显著的提升,达到了1.9倍的倍增效果。这对于处理深度学习模型和神经网络模型非常有帮助,能够提高模型的训练效率和准确性。

最后,TPUv5p的带宽和芯片间互连速度也有了显著的提升。它的带宽增加了2.25倍,达到了每秒2765GB的传输速度。而芯片间互连带宽是原来的两倍,达到了每芯片4800Gbps的传输速度。这可以提高数据传输的效率和速度,从而提升整体的性能表现。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。

0 阅读:1

袁遗说科技

简介:感谢大家的关注