在生成式人工智能时代,数据中心冷却的下一步是什么?
生成式人工智能时代已经真正到来。据 JLL 称,它是预计对房地产产生最大影响的三大技术之一,2022 年人工智能房地产技术 (PropTech) 的投资额已达到创纪录的 40 亿美元。
JLL 的 2024 年报告还发现,人工智能能源需求(范围从 300-500MW 以上)将需要大量更节能的数据中心设计。
从行业角度来看,这些数字确实令人震惊。TD Cowen 的分析师表示,人工智能浪潮已导致美国数据中心租赁量增加约 2.1GW,而 CBRE 的《2024 年欧洲房地产市场展望》发现,数据中心提供商将看到与人工智能 (AI) 需求相关的容量请求增加,其中大部分预计来自服务提供商和 AI 初创公司,而不是超大规模和云社区的成员。
现在,随着人工智能渗透到技术产品、服务和解决方案的各个方面,许多人都在问数据中心行业是否真正准备好满足其要求。对于许多运营商来说,答案是否定的。
冷却未来的 AI 工作负载
如今,作为高性能计算 (HPC) 和 AI 领域的全球领先权威机构,Nvidia 估计负责超过 95% 的机器学习工作负载,并且仍然是 GPU 加速技术的主要制造商。
去年,该公司分享了获得 500 万美元资助的消息,用于重新设计数据中心格局并构建先进的液体冷却系统,以解决传统数据中心(包括本地、企业和较旧的主机托管设施)面临的许多挑战。
COOLERCHIPS 计划由美国能源部资助,被定位为业界有史以来最雄心勃勃的项目之一,此时,随着摩尔定律和数据中心设计达到物理极限,处理器的发热量和功率能力正在飙升。
一些人预计,传统的风冷数据中心技术可能很快就会过时,尤其是随着人工智能的采用和超级计算的进步,Nvidia 的冷却系统可能比风冷方法成本降低约 5%,运行效率提高 20%。该公司还预计,冷却技术可能开始达到其极限,因为超过 40 瓦/平方厘米的热负荷将在未来面临重大挑战。
这不足为奇,最新的 Nvidia SuperPOD 每个系统最多可容纳 8 个 H100 GPU,并且全部通过 Nvidia NVLink 连接。每个 DGX H100 预计将提供高达 32 petaflops 的 AI 性能,大约是其前身 DGX A100 的六倍,而 DGX A100 已经限制了传统数据中心的功能。
从设计和能源的角度来看,Nvidia SuperPOD 最多可以包含 32 个 DGX H100 系统以及相关的 InfiniBand 连接基础设施,每个机架最多可消耗 40.8kW 的电力。按照今天的标准,这可能被认为是惊人的处理能力和 AI 能力,但机架和功率密度预计只会增加。
有趣的是,Nvidia的新Blackwell GPUs将使企业能够构建和运行实时生成的人工智能应用程序和大型语言模型,成本和能耗比其前身低25倍,为人工智能数据中心铺平了新的道路。问题仍然是,数据中心需要如何发展才能适应人工智能的冷却要求,以及哪些组织将在这场比赛中获胜?
数据中心冷却的未来
关于冷却方法的讨论仍然是业内最具争议的话题之一。 一方是那些提倡空气冷却系统的人,他们认识到自由空气冷却优于液体冷却方法——后者通常需要大量资本支出,对传统数据中心架构进行改造。
另一方是已经在进行概念验证 (POC) 项目并部署混合环境的所有者和运营商——他们正在开发高性能基础设施系统,这些系统经过精心设计,可以适应工业规模的计算密集型应用程序。
液体冷却的好处
随着机架密度现在有望超过100千瓦,液体冷却显然将越来越受欢迎。
对于那些接受这项技术的人来说,好处是显著的。当今的许多液体冷却解决方案利用水和其他液体的高传热特性来冷却高密度机架,比传统措施更加高效和有效。
Iceotope和Meta等组织的研究也加强了此类方法,这些研究证实了精确液体冷却在满足超大规模飞行器冷却要求方面的实用性、效率和有效性,其中液体冷却在社区成员中已经获得了某种偏见。
对于DTC液体冷却,70-75%的机架设备产生的热量通过水排出,其余25-30%通过空气排出。因为从传热角度来看,直接到芯片冷却更有效,因此它能够支持更高的CPU和GPU密度,同时提供显著的热量再利用能力。
行业内的组织还预测,液体冷却的效率比使用空气冷却高3000倍,所有这些都表明液体冷却有可能成为未来的首选冷却架构,并且对于满足数据中心可持续发展要求至关重要。
生成式人工智能的未来既令人兴奋又未知,但如果摩尔定律达到其物理极限,那么所有道路都将走向液体冷却,这是未来GPU驱动计算的唯一选择。
作者:Paul Finch 是 Kao Data 的首席技术官兼首席运营官