中国电信实现千亿参数大模型500公里联合训练试商用
转自:经济参考网
近日,中国电信宣布成功完成业内首个1024卡千亿参数商用大模型分布式联合训练试商用。这一成果不仅标志着中国在智算网络领域的技术领先地位,更为AI基础设施的协同发展提供了“中国方案”。
据悉,此次试商用的核心挑战在于如何实现长距离、高带宽、低延迟的算力协同。中国电信组织旗下研究院、天翼云、北京公司深度协作,通过自主研发的“广域智联无损网络”技术,在天津武清至北京瀛海之间构建了一条长达500公里的真实光路环回网络,成功将千亿参数大模型的分布式训练性能提升至单数据中心效能的97%以上。
北京电信负责人王轶介绍,此次关键技术亮点为采用800G广域无损传输技术,带宽收敛比提升至32:1,解决了长距传输中因网络拥塞导致的丢包问题。“可以实现50毫秒,极速倒换。”该负责人表示,通过WSON(光波长保护)技术实现链路中断无感知切换,保障训练连续性与稳定性。
在此基础上,本次联合训练试商用还利用息壤智算平台,集成跨地域算网协同、自动并行、断点续训等功能,实现故障秒级定位与分钟级恢复,大幅提升商用模型的部署效率。
业内人士认为,当前,AI大模型训练对算力的需求呈指数级增长,但传统单数据中心模式受限于物理空间、能源成本与地域限制,难以满足需求。中国电信此次突破的核心价值在于,通过跨地域算力整合,将分散的数据中心转化为“虚拟超级计算机”,极大降低了训练成本,同时为“东数西算”工程提供了落地的技术路径。