解决日趋复杂芯片的可扩展方法

作者:Anton Rozen,以色列特拉维夫Mellanox Technologies公司后端设计总监

日趋复杂的设计和多物理场挑战抑制了片上系统(SoC)设计团队工作效率的提升。Mellanox的工程师采用新的解决方案,利用大数据技术和灵活的计算资源来实现电子设计自动化。

Save PDF 订阅
Semiconductor

日趋复杂的设计和多物理场挑战抑制了片上系统(SoC)设计团队工作效率的提升。工程师希望电子设计自动化工具不仅可以减少运行时间,而且还能更灵活地进行严格检查和设计改进。Mellanox的工程师采用新的解决方案,利用大数据技术和灵活的计算资源来实现这一目标。

高速网络是数据中心连接的支柱。极致的带宽和超低延迟的网络解决方案对于新的数据中心时代来说至关重要,它可以高效地处理新兴AI、5G和自主应用领域呈指数级增长的数据。由于芯片尺寸及复杂程度会与日益紧迫的上市时间相冲突,这给开展网络片上系统(SoC)设计的企业带来了挑战。网格复杂性和门数量每年都在急剧增加,网络IC团队必须对尺寸为400–500mm或大于这一尺寸的芯片进行设计、分析和流片。

semiconductor design complexity

随着Mellanox将设计推入超深亚微米节点,设计复杂性以及对设计工具解决方案的灵活性和可扩展性的需求也有所增加

功率和热可靠性等各种多物理场效应之间更多的交叉⸺耦合给FinFET设计签核带来了严峻的挑战。尽管减小了设计裕量,且缩短了项目进度,但要想设计出功率大的复杂超大型芯片,克服上述挑战就显得极为重要。

面对这些复杂的需求,设计团队必须拥有能够同时提供容量、灵活性、速度和准确性的软件工具。

Mellanox不仅是端到端以太网和InfiniBand智能互联解决方案的领先供应商,而且也是服务器、存储和超融合基础设施服务的领先供应商,对面临的挑战和利弊的权衡有着直观的了解。设计团队必须最高效地利用计算资源和工程时间来对设计进行管理和验证。所以,团队使用了ANSYS RedHawk-SC软件。

寻求可视化

Mellanox团队需要快速的周转时间和精确的压降 精度,以确保其高度复杂的网络处理器的电源完整性 和可靠性。但他们也在寻找一些以往忽略的大型的高 度复杂性设计中的其它因素:分析的灵活性和速度。 因为设计已经从45nm节点的略多于1亿个nets发展到 16nm节点的近3.5亿个网格,Mellanox估计它将需要 在7nm节点处理近4.5亿个IC nets,这种类型的改进需 要工具容量来匹配。

Chip runtime

可扩展性比较:软件的发展如何极大地减少了日益复杂的SoC所需的运行时间

十年前,在45nm制程节点内部和周围,工具架构通常是单核的,团队一次只能使用一台可以同时处理多达10亿个电源和接地节点的机器(节点是提取的电源和接地网络中任意两个单元之间的连接点,这些单元可以是导线的寄生电阻、电感或电容,也可以是与导线相连的器件实例引脚。节点计数是功率完整性分析中常用的指标,用于预测设计大小,它可直接影响分析的运行时间和内存要求。)

那时候,工具容量是个问题。在对电源完整性和可靠性签核进行多次分析时,每次运行(串行而不是并行)时间可能超过24小时,这需要大型服务器和大量资源分配才能完成分析。更糟糕的是,系统有时会在管理复杂性方面出现问题,且发生崩溃,如果出现问题,那么必须重新开始分析。

为了应对这种复杂性,第二代产品出现了。这一新产品利用分布式计算,可以扩展到32台机器,且最多可以处理40亿个节点,在集成电路变得更加复杂之前,这种产品还算令人满意。

扩展至大数据需求

为了能提供深度信息且让团队能优化设计,Mellanox需要一种灵活的高容量解决方案,该解决方案应用范围可扩展至大数据挖掘和分析。工程师于2018年开始使用ANSYS RedHawk-SC。RedHawk-SC是基于ANSYS SeaScape构建的最新SoC电源完整性和可靠性签核平台,堪称全球首款专为电子系统设计和仿真精心研发的自定义设计型大数据架构。SeaScape提供每核可扩展性,灵活的设计数据访问,即时设计启动和许多其他功能。

ANSYS SeaScape big data elastic compute architecture

ANSYS SeaScape大数据弹性计算架构

为了获得成功,其中一项关键法宝在于RedHawk-SC的弹性计算功能。弹性计算有助于并行或串行处理场景,具体取决于可用的CPU内核数量。

SeaScape+架构的核心是弹性计算。由于数据可能分散在许多位置,因此SeaScape依赖于分布式数据或文件服务。最重要的是基于MapReduce概念的分布式数据分析层,这是所有大数据分析的基础。这在概念上将数据(映射)分割成名为碎片的小块,并对每个碎片进行分析。当服务器可用时,就可以接受分配的处理任务,可以根据需要将任务分配给许多的服务器。

电源问题

这些类型的网络处理器在总功耗和耗散方面面临一些挑战。与电池驱动型设计不同,Mellanox使用的设计类型的功耗可以超过200w。因此,工程师必须对设计进行全面分析,包括对精确的增量功率完整性和可靠性进行分析,同时在不影响精准度和时间的前提下考虑高功耗。

为了加速全芯片IR压降仿真,可以利用电网汇总方法来提取电力和地面网络的中低级别金属。该提取可用于全芯片仿真。从而使团队可以在单元级别工作,然后直接进入最高级别对全芯片设计进行全面分析。

power integrity simulation using ANSYS RedHawk-SC

使用ANSYS RedHawk-SC汇总方法进行电源完整性仿真的示例,用于提取电网中低级别的金属层,以进行快速增量式全芯片分析

进行全芯片平面运行会占用大量资源和时间。通过使用由大数据分析技术支持的增量分析,设计人员可以创建特定模块的详细视图并精简所有其他内容。这使设计人员能够更快地进行分析,并通过可视化更轻松、更快速地对工程变更指令(ECO)进行修正。

ANSYS RedHawk-SC凭借其弹性计算功能和支持大数据的分析,为工程师提供了克服一些先前挑战所需的可视化。RedHawk-SC能够自行维护其稳定性,对作业自行监控并在发生故障后重新完成作业,团队对这一点尤其表示赞赏。

此外,该团队还利用了RedHawk-SC的弹性计算及其支持MapReduce的分析来获得关键信息。MapReduce为设计人员提供了鸟瞰图,并非常顺利地瞄准热点,功能十分强大,比如在不到两分钟的时间内启动GUI查看全芯片数据库,以及轻松导航不同的区域,就像谷歌地图的功能一样。

此外,它还提供了更强大的计算灵活性。借助RedHawk-SC的弹性计算可扩展性,曾经需要大量计算资源的大型芯片区域可以分割成非常小的块进行分析。架构的性质决定了这些元素可以通过公司的计算资源进行分配。通过这种方式,它可以最大限度地利用硬件资源并优化成本。

Top-level flat run

顶层平面运行

Top-level incremental run

顶层增量运行

Scatter Plot for Static Voltage Comparison

静态电压比较的散点图

全芯片电压降分析与静态电压降增量分析显示出很好的相关性
Top-level flat run

顶层平面运行

Top-level incremental run

顶层增量运行

Scatter Plot for Static Voltage Comparison

动态电压比较的散点图

全芯片电压降分析与静态电压降增量分析显示出很好的相关性
Top-level flat run

顶层平面运行

Top-level incremental run

顶层增量运行

Scatter Plot for Dynamic Voltage Comparison

比较信号电磁干扰的散点图

全芯片平面数据与增量信号EM分析显示所有顶层信号网络都有很好的相关性

应对复杂芯片中的问题

随着网络IC设计的日益复杂,需要一种新方法来签核全芯片的电源完整性和可靠性。这意味着利用高度并行的计算概念来分析规模庞大的数据,以提高可视化、获得结果的时间以及整体设计中生产力和效率。

ANSYS RedHawk-SC的弹性计算可扩展性和大数据分析技术应用于全芯片电源完整性分析中,这使Mellanox在不到24小时内就能精准运行经过生产验证的大型设计。通过将增量电源完整性或可靠性与信号线电迁移分析相结合,可以将生产率提高三倍。

MELLANOX团队的经验增强了ANSYS REDHAWK-SC的显著特性,包括:

  1. 功能 – 能够运行大型设计,并能够在GUI中顺利进行查询,实现可视化。利用RedHawk-SC的弹性计算可扩展性可以在24小时内完成全芯片分析。
  2. 灵活性 – RedHawk-SC能够灵活地管理计算资源,为业界的EDA工具资源设置了新的有效级别。
  3. 速度和准确性 – 大数据分析技术能够加快顶层运行,不仅能缩短ECO环路,而且还能更快地进行ECO修复。借助RedHawk-SC 和可操作分析,生产效率显著提高了三倍,因为团队不仅可以并行运行,而且还可以了解全芯片环境文中的模块中电压降的影响。

资源
Cohen, R.; Rozen, A.; Abhijith, M.V.; Agarwal, R.; Ramachandran, S.; Johnson, S. "Fast and Accurate Incremental Power and Signal Integrity Analysis." www2.dac.com/56th/proceedings/posters/125_3.pdf (08/01/2019)

与 ANSYS 取得联系

联系我们
联系我们