三八资料网

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

三八资料网 门户首页 电子技术 查看内容

Empyrean ALPS-GT:首款商用模拟电路异构仿真系统

2020-6-25 20:35| 发布者: 南召修电视| 查看: 207| 评论: 0

摘要: 随着集成电路的工艺进入深亚微米(16nm及以下)阶段,电路设计规模急剧增加,设计工艺复杂度也不断提高。与此同时,产品上市周期变得越来越短,不仅仅要实现功能,还需要综合考虑功耗、时序、寄生参数等对电路的影响, ...
随着集成电路的工艺进入深亚微米(16nm及以下)阶段,电路设计规模急剧增加,设计工艺复杂度也不断提高。与此同时,产品上市周期变得越来越短,不仅仅要实现功能,还需要综合考虑功耗、时序、寄生参数等对电路的影响,后仿真验证任务变得愈加重要而艰巨,对设计验证效率的要求也越来越高。由于后仿电路的寄生器件规模急剧增加,设计工程师在使用传统SPICE仿真工具进行后仿真验证时遇到了前所未有的挑战。
这其中transient分析又是所有后仿真类型中最重要且最耗时的仿真任务。这一方面是因为很多先进工艺的电路性能光凭DC,AC,STB等耗时较短的静态分析或频域分析,不能够完全得出可靠的结论,而大量实践表面后仿transient分析往往是最精确、最接近流片实测结果的分析类型。另一方面,transient分析由于需要完整解决如下原理流程图中的双重迭代过程,即完成每个时间点求解的内迭代、和完成所有时间点求解的外迭代,所以也成为计算量最大、最为耗时的任务,这对仿真器的工作效率提出了前所未有的巨大挑战。



图1. Transient仿真的基本原理流程

从图1可以看出,transient后仿真的性能瓶颈首先在于器件计算(Model Evaluation)和矩阵求解(Matrix Solving)这两个过程,因为它们是整个流程中被反复调用、时间占比最重的过程。从数值计算的理论来讲,矩阵求解就是用数值计算的方法(包括牛顿迭代法等)来逼近矩阵的近似解的过程。经统计,在16nm以下的先进工艺节点模拟电路的后仿真中,器件计算和矩阵求解往往能占到整个transient仿真的60%以上,有些电路甚至能占到90%以上。所以,提高器件计算和矩阵求解的效率就成为加速先进工艺后仿真的重中之重。
另外,划分矩阵这一过程对于提高后仿效率来说也很关键,这是因为理论上来说,如果能将规模庞大的总矩阵合理划分成更多的小矩阵,并充分减低各个矩阵之间的耦合计算,那么就能将各个子矩阵更均衡地分配到更多的线程去进行仿真,提高并行算力利用率和多线程的线性加速比,以达到降低总仿真时间之目的。
虽然业内各大EDA公司都在纷纷推出或升级各自的后仿工具,以提高transient仿真的效率,但这些工具仍然不能满足业内的迫切需求。一方面是性能出现瓶颈,对一些transient后仿真电路需要几个星期甚至几个月的情形不在少数;另一方面,对于某些精度要求高,对寄生参数敏感的模拟电路,传统的后仿真工具为提高仿真速度而尽量采用一定程度上牺牲精度的寄生参数约简技术,导致仿真结果精度不满足要求。
事实上,目前市场上的SPICE仿真工具虽然算法各异,但都是基于CPU架构的软件算法。我们通过对比研究发现,由于CPU架构和运算单元的制约,其多线程的线性加速比已逼近上限,导致整体运算效率已无法再得到质的提升,以适应先进工艺设计的需求。受此限制,用户要么只能挑选部分PVT corner进行仿真,或通过子模块级仿真来推导芯片顶层的仿真结果,这为芯片的最终量产质量埋下了不可预知的风险;而通过寄生参数约简技术来加速的仿真结果精度却有可能无法满足验证要求。为此,华大九天在自有模拟仿真器ALPS的基础上,开发了EDA行业内第一款商用的基于GPU加速的模拟电路异构仿真系统Empyrean ALPS-GT:



图2. ALPS-GT的基本理念

我们认为,在如今IC工艺发展逐步放缓的后摩尔时代,GPU的运算单元由于采用了较CPU线程多两个量级以上的并行架构,其正在发挥越来越重要的延续算力增长的作用。而GPU 服务器经过算法优化,在特定的计算领域可以取代数十台商用 CPU 服务器,从而大幅提升应用程序吞吐量并节省成本。在许多传统CPU架构的计算任务遇到难以提升的性能瓶颈之时,GPU异构计算已经成为推动软件发展的必然趋势之一。

图3. GPU的算力显著高于CPU

采用GPU架构的ALPS-GT的价值在于确保True-Spice精度的同时,能够对模拟电路后仿真带来平均10倍以上的加速比。ALPS-GT的核心运算硬件是英伟达Telsa V100,这是一款已广泛应用于图像处理、高性能计算、深度学习等领域的利器。表1为CPU服务器常用的英特尔Platinum 8180与英伟达Tesla V100的算力比较。

Platinum 8180

Telsa V100

运算单元

28  physical cores

5376  FP64 cores

浮点计算能力

2T  flops

7T  flops

表1. 硬件运算能力对比

可以看出GPU相比CPU架构来说,无论在运算单元的数量还是总体浮点算力,均有明显优势。业内也早已有学术机构和公司进行过类似异构仿真的开发,但受限于无法充分利用GPU的并行算力的瓶颈等一系列原因,一直没有形成成熟的模拟仿真方案。
华大九天在模拟仿真领域有着长达10多年的技术积累,在CPU架构的时代,我们自研的仿真器ALPS通过独有的SMS(智能矩阵求解器,Smart Matrix Solver)技术,已能实现在复杂电路后仿真方面相较同类CPU仿真器的数倍提速。SMS的核心内容主要包括:
  • 独有的智能矩阵切分技术,相较于传统仿真器,能够将总矩阵切割成更多的子矩阵,分配到各个CPU核去进行仿真,以提高CPU核的平均利用率。

  • 包含较传统仿真器更多的Matrix solver供选择,对于每个子矩阵而言,自适应的选择特定的Matrix Solver可以得到更高的求解效率。当可供选择的Matrix Solver越多,那么每个子矩阵获得更高求解效率的概率也就越大。

新一代智能矩阵求加算法SMS-GT技术,其架构来源于CPU时代的SMS技术,并针对后仿真整体时间中占比最重的器件计算和矩阵求解两部分进行了优化和创新,以适配于GPU架构大量并行计算的特点。经实际对比,SMS-GT可以取得相较于直接使用硬件原厂求解器更高效的计算速度:

运行时间(ms)

加速比

NV  CUDA 求解器

SMS-GT  求解器

测例1

130

22

5.9X

测例2

116

46

2.5X

测例3

441

39

11.3X

测例4

171

48

3.6X

平均加速比

                                         5.8X

表2. 矩阵分解性能对比

(未完待续)

路过

雷人

握手

鲜花

鸡蛋

最新评论

  • 打磨型号的集成电路求助
  • 三菱变频器A540电路图(包含电源,驱动 保
  • 索尼KV-F29 、KV-K29 、KV-J29 型号图像暗
  • 上菱BCD-180W无霜电冰箱烧坏风扇电机故障检
  • 实战冰箱冰柜维修现场维修经验
  • 仿白金机维修及驱动板电路图参数
  • 高压放电拉弧点火模块
  • 户户通主芯片植锡成功
  • 第三代中9户户通机顶盒各种模块刷机串口,
  • 三代中9卫星接收机户户通刷机之签名小板基
门户最新文章

QQ|门户地图|手机版|小黑屋|家电维修论坛 ( 蜀ICP备14030498号 )

GMT+8, 2025-5-1 10:56

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

返回顶部