“仿得又快又准!” 浪潮信息助力中国电科院,元脑八路服务器支持电力实时仿真

查股网  2024-08-14 11:13  电科院(300215)个股分析

随着社会经济的发展,预计未来几年用电增长将维持在5%左右的中高速区间,而电力作为重要能源,需要高效管理,电力系统的全数字实时仿真平台,是提升电网快速响应的关键环节之一,它可以帮助国家电网公司各级调度计算分析人员协同开展重点活动前期、夏季用电高峰期等不同场景下电力运行的仿真分析,帮助电力系统运行管理人员及时、准确地分析和判断系统运行状态,制定保障电网安全高效运行的控制策略,因此仿真平台仿得又快又准是业务的关键。

中国电科院浪潮信息联合,基于元脑服务器TS860G7产品,为中国电科院电力系统全数字实时仿真(ADPSS)平台打造了更高性能、更稳定的算力平台,提供超强并行处理能力,实时效率跃升30%,让仿真平台为电力系统的稳定运行提供保障。

全数字实时仿真系统在新型电力系统构建中的算力挑战

国家电网作为守护国家能源安全及国民经济命脉的重要支柱,在以新能源为主体的新型电力系统构建中,面临着负荷需求的急剧增长和发电装机数量的逐年增加。随着1000kV特高压线路和智能变电站的密集投运,电网结构变得日益复杂,仿真系统的技术人员表示:电力系统作为科技发展的产物,不同时间下用电情况瞬息万变,电力系统是一个非常复杂的动态系统,如果要更高效地保障电网的稳定性,就需要通过实时仿真技术,对电网进行分析、掌握电网特性,最终为系统运行提供决策辅助,所以“仿得快、仿得准”是对实时仿真系统提出的要求,这才能更好地保障电网的安全稳定。

然而,在实施全数字实时仿真系统的过程中,算力支持面对三大挑战:

■ 仿真接入复杂度剧增:当前,新能源、虚拟电厂大规模并网显著增加了电网设备的基数与架构的复杂性,国家电网经营区覆盖了26个省(自治区、直辖市),输电线路长度超过150万千米,系统规模超过10万个三相节点。而超大型电力系统电磁暂态仿真平台仿真规模达到上万节点,这对实时仿真系统的兼容性和灵活性构成严峻考验。

■ 计算性能瓶颈:随着仿真需求的增大,大规模机电与电磁仿真案例的并发处理压力巨大,而超大型电力系统电磁暂态仿真平台相当于电力系统的‘作战沙盘’,无论技术人员身处北京电网中心、还是远在千里外的边陲区域,都需要借助仿真系统的能力对机电暂态、机电-电磁混合、全电磁暂态进行仿真分析帮助业务决策,所以实时仿真的效率需要不断提升,而现有的计算资源难以满足高效并行运算的需求,亟需计算能力的革新和升级。

■ 通信时延的敏感性:电网实时仿真的精确性依赖于对瞬态状态的精准捕捉,需要将电网仿真时间尺度细化至微秒级,任何内部通信微小的延迟都可能影响仿真的准确性,2017年时仿真平台的研发人员攻克了50微秒实时仿真步长的难题,意味着系统在1秒钟可内对华东电网6000个节点进行20000次计算,而当仿真步长越小时,仿真模型越准确,所以新算力平台,研究人员要求通信接口的响应时间严格控制在10微秒以内,以消除可能的仿真误差,保障仿真结论的准确性。

TS860G7为ADPSS仿真系统提供高性能、低延时算力支持

面对既要仿得快,又要仿得准的需求,中国电科院在为ADPSS仿真系统搭建核心算力平台时进行了严苛的选型,要求算力平台要具备更高性能、更低延迟、更可靠稳定的特性,能从容面对“多并发、低延时”的业务场景,有效地缓解现有系统的运行压力并减少系统响应时间。经过缜密细致的选型对比之后,中国电科院最终选择了浪潮信息元脑服务器TS860G7作为ADPSS仿真系统核心算力平台的IT设备,提供所需的算力。

ADPSS仿真系统在应用时面临不同的业务场景,包括场站级全电磁暂态仿真计算及半实物验证,和大型区域电网电磁暂态仿真计算及系统级试验验证,不同的作业规模也对应着不同的仿真需求和作业的数据量,而核心大型平台需要单硬件平台仿真数据量的规模需要达到50us仿真步长、不低于8000母线、不少于300台风机,业务场景有时需要一两百个处理器同时参与计算,每个处理器之间都有一定的数据通信量,如果应用传统的双路服务器,跨节点间的CPU访问,就要通过多机互联,而多机互联之间的通信一般通过InfiniBand 100G网卡来实现,这种通信网络延时开销较大,会影响整个业务性能,也就导致丧失了ADPSS仿真实时的能力。

TS860G7整机通过架构优化和全模块化设计,单机最大支持480核心,核心数提高114%。采用业界最优的高速连接器选型,首创线板方案并进行阻抗匹配,通过全互联拓扑架构,高速互联链路传输速率提升105%;同时TS860G7还支持PCIe5.0高速带宽,IO传输带宽提升6.3倍,可以很好地满足多任务的并行计算,高效地支撑千节点级机电和暂态实时仿真运算任务。

针对ADPSS仿真系统的低延时需求,TS860G7在整机的架构设计上实现业界最优的器部件布局和布线,减少信号衰减和串扰,提高信号通信性能,采用4组计算节点,每组两颗处理器并排,通过中置高速无源背板进行互联,采用反向设计思路巧妙利用工艺制程减小串扰影响,成本0增加的情况下实现布线密度和走线路径双优化,结合全频带的三维无源仿真,从而减少信号衰减,保障CPU的跨socket访问时延最低。同时采用IO balance连接模式,每颗CPU可直接访问所需支持的PCIe卡,相比于经过其他CPU通路二次连接的非Balance模式大幅降低延迟,提升性能;同时整机全PCIe5.0的链路设计可以将200GB IB卡的传输效率发挥到最 佳,实现不降级、不降速的传输效果。

此外,为了保障电力仿真系统高性能低延时的稳定运行,面对关键应用系统TS860G7提供更稳定的算力供给,在部件级、模块级、链路级、系统级四方面采用RAS设计,提供部件级到芯片级的冗余设计,保证数据在计算、存储、I/O等各个环节稳定可靠,而且TS860G7具备预警和修复故障的能力,可以预测并隔离修复包括内存、硬盘等高故障部件的健康状态,保障整机MTBF(平均无故障最大工作时间)达到20万小时以上。

通过以浪潮信息元脑服务器 TS860G7 为核心打造算力平台,中国电科院电力系统全数字实时仿真系统(ADPSS),极大增强了仿真系统的并行处理能力,实时计算集群的效率跃升30%,为处理复杂电网模型和大规模仿真任务提供了强大动力,升级后的系统在实时通信方面取得了突破,单节点内部及资源组间的通信抖动均被控制在5微秒以下,远低于行业标准,更高效地保证了大电网电磁暂态仿真精度。同时借助浪潮信息自研的智能运维工具,故障诊断与处理能力得到质的提升,运维效率提高了60%,运维团队能够更快识别并解决潜在问题,减少停机时间,确保仿真系统持续高效、稳定地运行。