—— 中新系全媒体矩阵 ——
新闻行业垂直网站如果您希望可以时常见面,欢迎标星收藏哦~
谷歌云今天宣布即将推出迄今为止最强大、最节能的张量处理单元 trillium tpu。
谷歌的 tpu 与 nvidia 公司的图形处理单元类似,后者已成为运行生成人工智能工作负载的最受欢迎的硬件。谷歌希望通过 trillium 为企业提供 nvidia gpu 的替代品。
trillium今天在google i/o 2024上推出,是该公司的第六代 tpu。它旨在为最苛刻的生成式人工智能模型和工作负载提供支持,提供比现有 tpu 显着增强的计算、内存和网络功能。
谷歌云机器学习、系统和云 ai 副总裁兼总经理 amin vadhat 表示,与谷歌宣布的目前最强大的芯片tpu v5e相比,trillium tpu 的峰值计算性能提高了 4.7 倍。cloud next 去年八月。为了实现更高的性能,google 投入了大量精力来扩展执行计算的矩阵乘法单元或 mxu 的大小,并提高了其整体时钟速度。
此外,trillium gpu 的高带宽内存容量和带宽是原来的两倍,而芯片间互连带宽也增加了一倍。amin 表示,这些增强功能将显着缩短大型语言模型的训练时间和服务延迟。
另一项新的创新是第三代sparsecore,它是一个专业加速器,用于处理先进的基于人工智能的排名和推荐系统中的超大嵌入。借此,trillium tpu 将能够训练下一代基础人工智能模型,并以更低的延迟和成本为它们提供服务。amin 表示,与此同时,它们的能效提升高达 67%,这意味着比 tpu v5e 更低的运行成本和更小的碳足迹。
谷歌表示,trillium 将于今年晚些时候推出,能够在单个高带宽、低延迟 pod 中扩展到超过 256 个 tpu。通过利用 google 在 pod 级可扩展性、多切片技术和titanium 智能处理单元方面的进步,用户将能够链接数百个 trillium tpu 的单独 pod,以构建 pb 级超级计算机和数据中心网络。
google cloud 的一些客户已经制定了使用 trillium tpu 的计划。例如,谷歌deepmind将使用新芯片来训练和服务下一代谷歌gemini模型,并且比以前更快、更高效、延迟更低。此外,一家名为deep genomics inc. 的公司正计划使用 trillium tpu 来推进人工智能药物发现。
deep genomics 创始人兼首席信息官 brendan frey 表示:“我们的使命是创建和应用先进的人工智能模型,以突破 rna 治疗领域的可能性界限。”他希望 trillium tpu 能够改善其人工智能的训练和运行基础模型100倍。“先进的人工智能模型突破了 rna 治疗领域的可能性界限。”
trillium tpu 还将与google cloud 的 ai 超级计算机项目集成,该项目是一个超级计算机平台,旨在运行尖端的 ai 工作负载。ai超级计算机将最先进的tpu和gpu与开源软件框架和灵活的消费模型集成在一起,以支持极其强大的新型ai工作负载的开发。
当 trillium 推出时,它将作为另一个硬件选项添加到 ai 超级计算机中,与谷歌的 tpu v5p 和 nvidia 的 h100 gpu 一起。该公司还计划将 nvidia 的新型 blackwell gpu 与 ai 超级计算机集成,但尚未透露具体时间,因此尚不清楚 trillium tpu 是否会首先推出。
谷歌推出第六代 google cloud tpu trillium
生成式人工智能正在改变我们与技术互动的方式,同时为业务影响带来巨大的效率机会。但这些进步需要更大的计算、内存和通信来训练和微调最有能力的模型,并以交互方式为全球用户群提供服务。十多年来,谷歌一直在开发定制的人工智能专用硬件、张量处理单元,以推动规模和效率的前沿发展。
该硬件支持我们今天在 google i/o 上宣布的多项创新,包括gemini 1.5 flash、imagen 3和gemma 2等新型号;所有这些模型都经过 tpu 训练并提供服务。为了提供下一代前沿模型并让您也能做到这一点,我们很高兴推出第六代 tpu trillium,它是迄今为止性能最强、能效最高的 tpu。
与 tpu v5e 相比,trillium tpu 的每芯片峰值计算性能提高了 4.7 倍,令人印象深刻。我们将高带宽内存 容量和带宽增加了一倍,并将 tpu v5e 的芯片间互连 (ici) 带宽增加了一倍。此外,trillium还配备了第三代sparsecore,这是一种专用加速器,用于处理高级排名和推荐工作负载中常见的超大嵌入。trillium tpu 可以更快地训练下一波基础模型,并以更少的延迟和更低的成本为这些模型提供服务。至关重要的是,我们的第六代 tpu 也是最具可持续性的:trillium tpu 的能效比 tpu v5e 高出 67% 以上。
trillium 可以在单个高带宽、低延迟 pod 中扩展到多达 256 个 tpu。除了这种 pod 级可扩展性之外,借助多切片技术和titanium 智能处理单元 ,trillium tpu 还可以扩展到数百个 pod,从而连接建筑物级超级计算机中的数万个芯片,这些芯片通过每秒数 pb 的速度互连数据中心网络。
十多年前,谷歌认识到需要首款用于机器学习的芯片。2013 年,我们开始开发世界上第一个专用人工智能加速器 tpu v1,随后于 2017 年推出了第一个云 tpu。如果没有 tpu,google 的许多最受欢迎的服务(例如实时语音搜索、照片对象识别、交互式语言翻译以及 gemini、imagen 和 gemma 等最先进的基础模型都是不可能的。事实上,tpu 的规模和效率为 google research 的transformers基础工作奠定了基础,而 transformers 是现代生成人工智能的算法基础。
tpu 是专为神经网络而设计的,我们始终致力于改善 ai 工作负载的训练和服务时间。与 tpu v5e 相比,trillium每芯片的峰值计算量提高了 4.7 倍。为了达到这种性能水平,我们扩大了矩阵乘法单元 的大小并提高了时钟速度。此外,sparsecores 通过战略性地卸载来自 tensorcores 的随机和细粒度访问来加速嵌入繁重的工作负载。
hbm 容量和带宽加倍使 trillium 能够处理具有更多权重和更大键值缓存的更大模型。下一代 hbm 可实现更高的内存带宽、更高的能效以及灵活的通道架构,以提高内存吞吐量。这可以缩短大型模型的训练时间和服务延迟。这是模型权重和键值缓存的两倍,访问速度更快,计算能力更强,可加速 ml 工作负载。ici 带宽加倍使训练和推理作业能够扩展到数万个芯片,这得益于定制光学 ici 互连与 pod 中 256 个芯片的战略组合以及google jupiter networking。
trillium tpu 将为下一波人工智能模型和代理提供动力,我们期待帮助我们的客户获得这些先进的功能。例如,自动驾驶汽车公司nuro致力于通过机器人技术通过使用 cloud tpu 训练模型来创造更美好的日常生活;deep genomics正在利用人工智能为药物发现的未来提供动力,并期待他们的下一个由 trillium 提供支持的基础模型将如何改变患者的生活;谷歌云年度人工智能凯发k8官网下载客户端中心的合作伙伴德勤将提供 trillium,通过生成式人工智能实现业务转型。对 trillium tpu 上长上下文、多模式模型的训练和服务的支持也将使google deepmind能够比以往更快、更高效、延迟更低地训练和服务未来几代 gemini 模型。
trillium tpu 是 google cloud人工智能超级计算机的一部分,这是一种专为尖端人工智能工作负载而设计的突破性超级计算架构。它集成了性能优化的基础设施、开源软件框架和灵活的消费模型。我们对 jax、pytorch/xla 和 keras 3 等开源库的承诺为开发人员提供支持。对 jax 和 xla 的支持意味着为任何上一代 tpu 编写的声明性模型描述直接映射到 trillium tpu 的新硬件和网络功能。我们还与 hugging face 在 optimum-tpu 上合作,以简化模型训练和服务。
“我们与 google cloud 的合作使 hugging face 用户可以更轻松地在 google cloud 的 ai 基础设施上微调和运行开放模型。我们很高兴能够通过即将推出的第六代trillium tpu进一步加速开源 ai ,并且我们预计开放模型将继续提供最佳性能,因为与上一代相比,每个芯片的性能提高了 4.7 倍。我们将通过我们新的 optimum-tpu 库,让所有 ai 构建者轻松获得 trillium 的性能!” - hugging face 产品主管 jeff boudier说。
自 2017 年以来,sada 每年都荣获年度凯发k8官网下载客户端中心的合作伙伴奖,并提供 google 云服务以实现最大影响。
作为值得骄傲的 google cloud 首要凯发k8官网下载客户端中心的合作伙伴,sada 与全球知名的 ai 先驱有着 20 年的悠久历史。我们正在为数千名不同的客户快速集成人工智能。凭借我们丰富的经验和人工智能超计算机架构,我们迫不及待地想帮助我们的客户利用 trillium 释放生成人工智能模型的下一个前沿领域的价值。- miles ward,sada 首席技术官说
ai 超级计算机还提供 ai/ml 工作负载所需的灵活消费模型。动态工作负载调度程序 让访问 ai/ml 资源变得更加容易,并帮助客户优化支出。flex 启动模式可以通过同时调度所需的所有加速器来改善突发工作负载(例如训练、微调或批处理作业)的体验,无论您的入口点是什么:vertex ai training、google kubernetes engine (gke) 或 google cloud compute引擎。
lightricks 很高兴能够通过 ai 超级计算机的性能提升和效率提升来重新获得价值。
“自 cloud tpu v4 以来,我们一直在将 tpu 用于文本到图像和文本到视频模型。凭借 tpu v5p 和 ai 超级计算机的效率,我们的训练速度实现了 2.5 倍的惊人提升!第六代 trillium tpu 令人难以置信,与上一代相比,每芯片的计算性能提高了 4.7 倍,hbm 容量和带宽提高了 2 倍。当我们扩展文本到视频模型时,这对我们来说来得正是时候。我们还期待使用 dynamic workload scheduler 的弹性启动模式来管理我们的批量推理作业并管理我们未来的 tpu 预留。” - lightricks 核心生成人工智能研究团队负责人yoav hacohen 博士说。
google cloud tpu 是人工智能加速领域的前沿技术,经过定制设计和优化,可为大规模人工智能模型提供支持。tpu 独家通过 google cloud 提供,为训练和服务 ai 凯发k8手机网页的解决方案提供无与伦比的性能和成本效益。无论是复杂的大型语言模型还是图像生成的创造性潜力,tpu 都有助于开发人员和研究人员突破人工智能世界的可能界限。
点这里加关注,锁定更多原创内容
今天是《半导体行业观察》为您分享的第3766期内容,欢迎关注。
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号id:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。