为满足全球人工智能(AI)发展需求而建立的数据中心,催生了前所未有的电力需求。2018年,美国数据中心耗电量为76 TWh,占美国总能耗的1.9%。而到2028年,美国数据中心的电力需求预计将达到325至580 TWh,约占美国总能耗的12%。
上述情况对AI数据中心的各个环节都提出了巨大挑战——从芯片和印刷电路板(PCB),再到设备中的冷却系统。简而言之,如何满足AI数据中心能源需求的问题,不仅关乎服务器机房本身,而是一项涉及中心内每个系统的挑战。因此,有效应对这一挑战需要一种整体方法,全面考虑数据中心的各个方面。新思科技旗下Ansys,提供了能够从芯片到设施系统层面应对数据中心能源需求的工具。
人工智能(AI)数据中心是一项多系统工程挑战。
无论用途如何,数据中心都是由多个服务器机房组成的大型设施,这些机房装满了容纳单个服务器的机架。大多数情况下,无论由哪家企业建造,它们看起来都大同小异。然而,在安装第一个机架之前,工程师必须考虑几个关键方面,以确保服务器机房尽可能高效地运行,首要考虑的就是电源。
数据中心必须从某处获取电力,而随着用水量、电网限制和散热问题已经引发公众关注,许多公司正在考虑采用可持续能源替代方案,例如风能、太阳能和核能。工程师可以使用Ansys Fluent 流体 仿真软件、Ansys Granta MI材料数据管理软件和Ansys Discovery 3D仿真软件等解决方案,在设计阶段早期评估所选能源方案的环境足迹。这种评估能帮助工程师了解对数据中心环境足迹影响最大的区域、组件、材料、流程及其他因素。
然后,工程团队必须确保设施获得充足、清洁和可靠的电力,以实现高效运行。确定数据中心的电力需求并不易事,因为服务器功耗会随工作负载和服务器配置而波动。Ansys Maxwell高级电磁场求解器和Ansys Q3D Extractor寄生提取电磁仿真软件等解决方案,可帮助评估电力需求,并优化负载平衡与电能质量。
不过,服务器机房最受关注的领域之一,其实是冷却系统。如果坐在电脑旁边,我们就能够感觉到这些设备的温度会多高,而服务器机房的温度可达其十倍。维持最佳的服务器机房温度和湿度范围,对于确保设备性能和硬件使用寿命至关重要。过热会导致停机,而湿度不稳定则可能引发腐蚀或静电放电。工程师可以使用仿真解决方案,如Fluent软件、Ansys Icepak电子冷却仿真软件 和Ansys Thermal Desktop热建模软件,来修改布局和设备规范,以实现最佳热管理,避免代价高昂的试错过程以及为达到冷却效果进行额外投资。仿真解决方案还可以解决数据中心产生的声学和噪声影响,从而尽量减少对所在社区的干扰。
服务器机房的工程考量因素
如果说服务器机架是数据中心的骨架,那么芯片就是其大脑。当今的芯片越来越多地将专用处理元件和存储器集成到复杂的多芯片封装中。要设计这些系统,就需要了解电气、热和机械领域的复杂交互,而这些交互须通过综合的多物理场仿真来预测。供电网络和热管理系统必须进行整体分析,因为电气性能会影响热分布,而散热会影响连续反馈回路中的电气性能。这种相互依赖性,对于AI工作负载中使用的神经处理单元(NPU)尤为关键,NPU可能在不同计算阶段经历巨大的功耗波动。
同样,芯片之间的高带宽、低功耗接口需要进行详细的电磁分析,以确保信号完整性,同时在日益严格的功率限制下运行,而随着芯片到芯片通信速度的提高,这一挑战也变得更加复杂。NPU及其他专用处理器通常在不同的电压等级和变化的功耗需求下运行,因此这种复杂性还体现在跨多个域的电源完整性问题上。
另一项挑战,是芯片中的机械应力,因为复杂结构在装配和运行过程中会经历热膨胀和收缩,产生应力诱导的参数漂移,从而影响可靠性和电气性能。
系统设计涵盖从纳米级晶体管到厘米级封装以及更广泛的范围,因此,多尺度物理挑战也变得越来越重要。应对广泛物理尺度范围的挑战,需要仿真工具的支持,例如新思科技RedHawk-SC电源完整性仿真软件、用于签核的新思科技Exalto芯片优化电磁建模软件、用于大型IP和3D集成电路(3D-IC)的新思科技PathFinder-SC静电放电可靠性签核,以及其他新思科技高性能计算(HPC)和数据中心解决方案。这些工具能够在处理不同物理尺度问题时无缝衔接,同时保持准确性和计算效率。
使用新思科技Redhawk-SC软件、Exalto软件和PathFinder-SC软件进行片上系统验证
虽然具有高性能芯片的服务器机房一直是关注焦点,但其实AI数据中心高达60%的功耗,是用于为这些芯片降温的系统。如果工程师可以减少服务器机房内的热量产生,那么将机房冷却到合适温度所需的功耗就会降低。
机架的配置方式以及空气或水在机架和机房中的流动情况,对能源消耗的影响显著。仿真软件可以对各种机架和服务器配置进行建模,使工程师能够找到综合考虑计算性能、热性能等方面需求的最佳方案。除了上述方案之外,工程师还可以对两相冷却和浸没式冷却等解决方案(单独或组合使用)进行仿真,以确定数据中心核心的最佳配置,从而优化计算性能、能耗、热输出、冷却系统的效率和成本。
然而,即便数据中心的每个元件都经过精心设计和构建,以最大限度地降低功耗和散热,数据中心运行时仍会产生热量。冷却系统可以将这些热量从服务器机房带走,而在一个设计精良的数据中心里,这些热量可以通过热交换和余热回收系统转化为电能——这些电能随后可以在数据中心内重复使用,替代原本需要从发电系统获取的电力。借助Ansys Mechanical结构仿真软件、Fluent软件和Thermal Desktop软件等仿真解决方案, 工程师能够探索对整个AI数据中心进行功耗优化的可能方案。
芯片级的不同热管理仿真(左)。液冷与风冷服务器机房的热管理仿真(右)。
没有哪家制造商或一位设计人员能够独立创建出优化AI数据中心所需的全部组件。芯片公司负责制造芯片,服务器与网络供应商负责构建使用这些GPU的系统,其他供应商则生产供暖、通风和空调(HVAC)系统、电力调节与变压系统、安防系统等。
AI数据中心的设计人员可以使用Ansys TwinBuilder——基于仿真的数字孪生平台,整合其他制造商和供应商提供的组件和设施的仿真模型,以创建数据中心的数字孪生。制造商和供应商可以将自己的模型保存为降阶模型(ROM)格式,以便AI数据中心设计人员能够直接运用其组件仿真模型开展工作。通过构建AI数据中心的数字孪生,设计人员能够对数据中心的各项性能(从计算性能到能耗)进行全面建模和优化。设计人员可以通过调整设计参数来仿真变更效果,例如,了解冷却基础设施中的某个元件变更对排放或功耗的影响——所有这些工作,在数据中心动工建造之前就可以开展。
一旦在数字孪生中完成最优设计建模,该数字孪生将成为数据中心实际部署及规模扩展的指导依据。数据中心建成后,数字孪生可与数据中心建立逻辑连接,以用于监测并管理性能指标。
AI驱动的未来带来了惊人的能源需求,但AI赋能的变革潜力也同样巨大。借助合适的工具,设计人员可以构建出足够强大的数据中心,以支撑AI驱动的未来,在确保正常运行时间和性能的同时,最大限度地降低功耗需求、减少能源浪费,并减轻对环境的负面影响。
Ansys Advantage博客(The Advantage Blog)由Ansys专家和其他技术专家撰写,让您随时了解Ansys如何为创新赋能,推动人类踏上伟大征程。