上海人工智能实验室发布超大规模跨域混训技术方案
2025年07月21日 17:59
来源: 新华财经
东方财富APP

方便,快捷

手机查看财经快讯

专业,丰富

一手掌握市场脉搏

手机上阅读文章

提示:

微信扫一扫

分享到您的

朋友圈

  新华财经上海7月21日电 近日,上海人工智能实验室发布DeepLink超大规模跨域混训技术方案,支持千公里多智算中心跨域长稳混训千亿参数大模型,例如跨越1500公里连接上海和济南之间的智算中心,实现北京、上海与贵州等多地智算中心互联和大模型混训等。

  上海人工智能实验室介绍,随着人工智能研究及产业应用深化,算力需求持续增长,但国内的智算中心存在建设分散、采购芯片代次差异大、算力资源碎片化等情况,难以灵活、低成本的获取大算力。

  上海人工智能实验室攻克了大规模跨域异构集群调度、高性能通信协议整合、高可靠容错机制设计等技术难题,推出DeepLink超大规模跨域混训技术方案,以保障跨域智算集群的大模型长稳训练。

  针对远距离跨域混训存在的数据同步和稳定性难题,这一技术方案采用“3D并行+PS”架构,将超大规模任务分发到各个智算中心,通过算法换通信的方式减轻网络负担,为数据传输提供更宽松的时间窗口,普通专线即可满足通信带宽的要求。同时,在异地训练中,确保即使某个智算中心的节点发生故障也不影响整体训练。

  针对不同硬件显存容量和通信带宽参差不齐导致的异构混训效率低下难题,这一技术方案提出改进异构流水线并行策略,采用自研分布式并行框架动态调节不同硬件的任务量,解决异构芯片差异性带来的负载均衡和计算阻塞问题。联合团队基于现有通信协议构建适配层,成功突破了异构芯片互联效率低下的瓶颈。

  目前,上海人工智能实验室DeepLink开放计算体系已深度集成至联通、电信、商汤、仪电等智算平台,实现“1个平台+N种芯片+X个地域”稳定运行。

(文章来源:新华财经)

文章来源:新华财经 责任编辑:10
原标题:上海人工智能实验室发布超大规模跨域混训技术方案
郑重声明:东方财富发布此内容旨在传播更多信息,与本站立场无关,不构成投资建议。据此操作,风险自担。
举报
分享到微信朋友圈

打开微信,

点击底部的“发现”

使用“扫一扫”

即可将网页分享至朋友圈

扫描二维码关注

东方财富官网微信


扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500