作者:Vijay Sellappan,应用工程师;Bhushan Desam,高级联盟和市场营销经理,NVIDIA公司,美国圣克拉拉。
ANSYS Fluent软件可支持GPU,帮助工程师充分满足项目进度要求,加速产品上市进程。
View PDF

ANSYS Fluent软件支持在NVIDIA®图形处理单元(GPU)上进行求解器计算,这有助于工程师减少探索多种设计备选方案所需的时间,从而优化产品性能,满足设计时限要求。在Fluent中集成AmgX(NVIDIA开发的一种GPU加速求解器库),就能实现上述目标。通过将GPU增加到现有的集群和工作站中,工程师可使求解时间缩短一半。除了加快仿真,使用GPU与使用纯CPU解决方案相比,还能降低能耗。

将GPU增加到现有的集群和工作站中,可使求解时间缩短一半。

激活GPU特性相当简便,但是否所有的Fluent仿真都能从使用GPU中受益呢?请继续阅读下文。

GPU和ANSYS HPC : 最近发布的所有ANSYS HPC产品(如ANSYS HPC、ANSYS HPC Pack和ANSYS HPC Workgroup等)均可支持GPU。此外,就许可而言,每个GPU都被视为一个CPU内核,因此用户通过GPU仿真就能获得更高的生产力。

适用于GPU加速的模型

用于Fluent仿真的代数多重网格(AMG)求解器具有非常大的计算强度,计算要求随着域中的单元数量增多而相应提高。单元数不足百万的问题无法通过GPU获得加速,因为与CPU之间往返传输的矩阵会造成通信开销。但是对包含成千万乃至上亿个单元的网格而言,就能获得显著的加速性能。因为与AMG求解器中的计算时间相比,此时的通信开销显得微不足道。

能够从GPU中受益最大的是耦合求解器还是非耦合求解器?只限流体的问题中,一般耦合求解器花费大约60%到70%的时间,利用AMG求解线性系统,此时选择GPU非常合适。因为非耦合求解器花在AMG上的时间仅占30%到40%,由于存储器传输会造成开销,因此GPU的优势不大。

用户可以在运行CPU的日志文件中加入下列命令,以确定Fluent计算中的AMG部分(从而判断是否适合使用GPU):/parallel/timer/usage

成功完成计算后,结果信息会显示在输出文件的末端。如本例所示,AMG部分占75%,因此是使用GPU的理想选择。LE wall-clock time per iteration:12.299sec(74.8%)

此外,由于刚性矩阵难以求解,因此需要在AMG求解器中进行更多次数的迭代,以成为GPU的理想选择。

汽车和飞机外部的空气动力计算就是具备所有这些因素的应用,它能明显地受益于GPU与ANSYS Fluent的结合功能。

提升仿真生产力

用于评估GPU的关键性能指标有每日作业吞吐量或按时间计算的加速因数。


这些指标取决于总体所得解的AMG部分和该部分在GPU上相关的加速情况。

下图说明了GPU在外部空气动力问题上的性能及其产生的价值。

为更加精确地衡量GPU的价值,用户必须考虑软硬件的系统成本以及总体的生产力提升。


Fluent卡车基准模型总共由1,400万个单元构成,但经重新配置后,可作为稳态压力耦合求解器问题使用。当在四节点集群上的64个Intel® Xeon®E5-2680 CPU内核上运行时,其每天能够实现完全收敛的工作数量大约为16个。在系统中加入8个NVIDIA Tesla® K40 GPU后,其每天能够实现完全收敛的工作数量则能增加到25个。


为检验GPU的性能和用于大规模CFD仿真的价值,使用该压力耦合求解器在稳态下仿真了一个具有1.4亿个单元的普通一级方程式汽车模型。性能评估依据每次迭代所耗用的时间,总共有1,000次迭代。加入GPU后,求解时间缩短了2.1倍,在增加系统成本55%的条件下生产力改善高达110%。


上图为24核纯CPU系统的瞬时功耗和进行相同工作的CPU+GPU系统的瞬时功耗对比。在2,651秒的用时内,CPU系统的平均功耗为471瓦,合计350瓦小时。CPU+GPU系统由于具备加速能力,因而完成工作仅用时1,302秒,虽然平均功耗为600瓦,但平均仅有217瓦小时。与纯CPU系统比,GPU系统耗电量下降38%,这对需要实现高能效目标的组织机构来说很有价值。

纯CPU系统(以包含存储器、高速互联和相关许可证的总成本为100%计),每日可完成16次卡车基准工作,以此计为100%工作量。添加8个GPU后,虽然系统总成本增加25%,但每天的吞吐量增加了56%。这体现了在Fluent中使用GPU进行空气动力计算的价值。

GPU为单相耦合流体问题提供的加速能力不仅只限于空气动力学仿真,其还可用于内部流。不过Fluent 15.0的GPU功能还不能用于为其它物理现象建模,比如详细的化学动力学、离散坐标辐射建模、多相流等。通过ANSYS和NVIDIA的持续协作,其中的部分特性将随着AmgX库的性能改进,一同提供在未来的版本中。

降低能耗

在大型CAE集群上运行仿真的企业需要降低能耗,以降低成本和/或满足更广泛企业可持续计划的要求。同时研究人员和工程师需要高水平的计算功能,从而为复杂仿真建模和探索广阔的设计空间做准备。针对改善单位功耗吞吐量和性能做了优化,因此GPU可以填补这个缺口。实际上GPU的大规模应用通常也包括超级计算机,以达到降低能耗成本的目的。同样的优势也适用于ANSYS Fluent仿真。

硬件要求

  • NVIDIA Tesla GPU可用于服务器与工作站;工作站可使用Quadro® GPU;
  • 配置Tesla GPU,比如Tesla K40、K80或高端的Quadro K6000;
  • 每个GPU需配有12GB到24GB内存的显卡,建议使用大容量双精度的;
  • 不建议使用GeForce® GPU、游戏级别显卡等。

GPU加速的仿真可缩短产品开发时间,为企业赢得竞争优势。

GPU的竞争优势

利用NVIDIA与ANSYS共同开发的、基于创新性GPU的AMG求解器,GPU能为ANSYS Fluent提供加速功能,支持将多个GPU用于解决需要高求解器计算能力的耦合流体问题。GPU在外部空气动力基准测试上表现出了显著的加速功能。这项功能可让工程师在相同时间内完成更多数量的仿真,另外还能在不使项目进度脱节的情况下完成更大型、更复杂模型的仿真。此外,与纯CPU系统相比,GPU能够在ANSYS Fluent中用更少的耗能完成相同工作,故能为大型企业节省能源。GPU加速的仿真可以缩短产品开发时间,这样企业就能在更短的时间内向市场交付更高质量的产品,从而为企业赢得竞争优势。