设计超级计算机

作者:Koichi Yoshimi和Hironori Kawaminami,日本富士通有限公司;Norman Chang,ANSYS半导体事业部副总裁兼高级产品战略师 

设计速度飞快的数据密集型超级计算机时,最大的挑战之一是为成千上万个计算内核供电并散热。从完全定义系统之前到最终验收的整个过程中,富士通一直利用 ANSYS功率与热学工具套件仿真新一代3D IC半导体设计。最终实现了更高的性能和更少的设计次数。

Save PDF 订阅
supercomp-main

 

Fujitsu SPARC64XIfx package 

位列超级计算领域前沿的富士通公司在高性能系统研发方面积累了长达30年的丰富经验,该公司与领先企业携手合作,利用超级计算技术来解决日趋复杂的社会、环境和商业挑战。富士通与RIKEN共同研发出K超级计算机,其在2011年的500强最佳超级计算机中占据榜首。

K超级计算机在2015年Graph 500强超级计算机排名中再次位列第 一;这项排名用来评定超级计算机 在网络安全、医疗信息、数据扩充、社交网络、符号网络以及大脑神经元回路建模等领域中处理复杂数据问题的能力。K超级计算机中的同款技术也被应用于 富士通的商用超级计算机产品PRIMEHPC FX10TM和FX100TM中。

富士通超级计算机包含数量巨大的计算内核——FX100扩展到了超过100,000个节点(每个节点由连接到公共存储器源的所有内核组成)。不过,为了满足不断增长的计算能力需求,富士通需要将更多处理器装入更小尺寸的外壳中,并降低功耗。以往,富士通利用最前沿的半导体工艺获得更高性能,然而,半导体工艺的扩展也即将终结。

几种很有前景的技术有望克服这一障碍,它们是非硅材料、非冯·诺依曼架构和3-D IC结构。富士通目前正在研究将3-D IC结构作为完美备选,用于实现所需的功耗、性能和尺寸目标。3-D IC结构无需工艺扩展即可提高电路密度并最小化线路长度,从而实现更快的设计周期和更低功耗。但是,使用3-D IC结构也存在很大的挑战,包括电源完整性、冷却、信号完整性,以及最重要的成本挑战。

3-D IC设计挑战

过去,工程师使用系统级热分析法预测整颗芯片的均匀温度。他们不得不使用较高的安全裕量来考虑实际芯片上的热梯度,这样就限制了能够实现的性能改善幅度。另外,由于电阻(R)和电迁移(EM)限值取决于温度,而缺少热梯度信息使工程师无法准确确定芯片中单根线缆的电阻(R)和电迁移(EM)限值。因此,工程师无法准确计算出流经每条线缆的IR(电压)降和电压中的 EM值。

Typical 3D IC
 
典型3-D IC的3-D模型

IR/EM是决定功率完整性的关键因素,所谓电源完整性就是将功率提供给芯片上每个互补金属氧化物半导体(CMOS)器件的能力。此外,工程师也无法预测其他芯片结构的效果,例如硅通孔(TSV)和 μBump,这些结构同样对功率、热和信号完整性有很大影响。

现在,富士通工程师利用ANSYS RedHawk将每层划分成由芯片热模型(CTM)构成的矩形单元,从而简化芯片设计。CTM中包含与温度相关的功率以及金属层密度方面的信息。这些信息根据详细设计(如果有)得到,或者在没有详细设计的情况下可从以前的设计中获得。CTM还包含有关各层之间热传递方面的信息。在RedHawk-GPS中可定义TSV布局,用于构建早期的电源和接地网络(包括TSV布置情况)。该模型可计算每个独立芯片的功率分布网络和温度特性。

确定TSV数量和布局对IR/EM的影响

TSV的布置也对功率和热完整性有很大影响,而这两个因素都需要在设计过程早期阶段加以考虑。富士通工程师使用RedHawk在设计过程初期阶段探索广泛的设计 空间——TSV可能的布局、硅插结构、有效的供电网络、重新分配层布线等。工程师通常无法在早期阶段获得封装细节,但是ANSYS Sentinel-TI让他们能够根据一些参数生成封装热模型,这些参数包括封装尺寸、每个晶片的CTM、μbump和C4凸点的位置等。Sentinel-TI可执行封装级的功率和热分析,并生成整个系统的功率和热学图。工程师将系统功率和热边界条件传输回RedHawk,再次针对每个芯片执行热感知型IR/EM分析,从而将其他芯片和封装的影响考虑在内。

NSYS RedHawk-GPS thermal model
 
ANSYS RedHawk-GPS中生成的 P/G/TSV结构和芯片热模型
IR drop
 
两种不同TSV布局的IR降:(左)TSV都在右侧,(右)TSV位于四周。当TSV位于四周时,IR降显著降低。

评估早期的TSV布局

富士通评估新一代设计的早期TSV布局,由于新一代设计没有详细的设计信息,因此在评估时需要用到上一代设计。他们将功率目标分配至每个逻辑区域,以满足新一代设计的更高密度。研究中,工程师考虑了两种不同的TSV布局,一种是完全位于逻辑区域的右侧,另一种则是遍布整个逻辑区域。除了上述分析内容外,工程师还要执行IR降分析,他们利用总功耗来计算恒定电流消耗,随后将其与功率分配网络的等效电阻相乘,从而得到电压降。结果表明,如果TSV只位于逻辑区域的右侧,那么芯片左侧的IR降和温度要高得多。然后,工程师在设计的四周添加更多的TSV,并跟踪整个芯片上相应的静态IR降和温度减少情况。

工程师在整个设计过程中对模型进行了更新,并利用模型研究芯片设计、TSV布局、凸点布局和封装设计的变化所产生的影响。这样,工程师能够从设计早期阶段到验收的整个过程中始终保持电源完整性、热完整性和信号完整性。工程师在对热完整性、电源完整性和信号完整性进行评估后,能够将静态IR降和动态压降分别改善62%和15%,同时确保热完整性。该工作流程可确保工程师一次性将功率、热和信号完整性处理到位,从而缩短成本高昂的设计周期。

Temperature simulation of die (top)
emperature simulation of die (bottom)
 
将TSV放在四周时顶部和底部晶片的温度情况。因为散热片在顶部,底部晶片更热,但其温度仍在可接受的范围内。

未来的3-D IC研发

就3-D IC的发展而言,对功率、热、时间和成本的验证将会比以往更加重要。ANSYS RedHawk和Sentinel让富士通工程师能够从设计早期阶段开始广泛探索3-D IC的设计空间。这样可在前期进行大量设计工作,有效减少未来3-D IC研发的设计成本。

与 ANSYS 取得联系

联系我们
联系我们