提升大模型通信性能30% DeepSeek致谢腾讯大模型网络提速技术方案贡献

行情中心

指数期指期权个股板块排行新股基金港股美股期货外汇黄金自选股自选基金

数据中心

资金流向主力排名板块资金个股研报新股申购转债申购北交所申购 AH股比价年报大全融资融券龙虎榜限售解禁 IPO审核大宗交易估值分析

首页 > 财经频道 > 正文

提升大模型通信性能30% DeepSeek致谢腾讯大模型网络提速技术方案贡献

2025年05月12日 06:29

来源：深圳商报

小中大

东方财富APP

方便，快捷

手机查看财经快讯

专业，丰富

一手掌握市场脉搏

手机上阅读文章

提示：

微信扫一扫

分享到您的

朋友圈

　　【深圳商报讯】（记者陈姝）记者日前获悉，腾讯技术团队针对DeepSeek开源的DeepEP通信框架进行深度优化，使其在多种网络环境下均实现显著性能提升。经测试，优化后的通信框架性能在RoCE网络环境提升100%，在IB网络环境提升30%，为企业开展AI大模型训练提供更高效的解决方案。相关技术方案获得了DeepSeek公开致谢，称这是一次“huge speedup”代码贡献。

　　自今年2月DeepSeek开源包括DeepEP在内的五大代码库以来，该团队便向业界展示了如何利用有限的硬件资源实现接近万卡集群的性能。在这些技术中，DeepEP凭借突破性的方法提升了300%的通信效率，成功解决了MoE架构大模型对英伟达NCCL的依赖问题。

　　但该技术在成本较低、适用面更广的RoCE网络环境中表现不佳，限制了其在更广泛场景的应用。这一痛点引发了开源社区的持续讨论。

　　腾讯星脉网络团队基于在RoCE网络领域的深厚积累，在DeepEP开源后便展开技术攻关，发现两大关键瓶颈：一是对于双端口网卡带宽利用率不足，二是CPU控制面交互存在时延。

　　腾讯在RoCE网络优化方面的突破，首先体现在带宽分配的智能化，通过拓扑感知的多QP建链技术，智能分配数据流，优化了双端口网卡的带宽利用率，确保每条数据通道都能得到充分使用。此举有效避免了带宽浪费，为RoCE网络的性能提升提供了有力支撑。

　　其次，腾讯还着力解决了GPU通信中的CPU控制瓶颈问题。通过基于IBGDA技术的优化，腾讯使得“控制面”场景的操作也可以绕过CPU的“中转”，进一步降低了延迟和能耗，提升了整体通信效率。

　　同时，针对GPU直接“对话”时存在的传输顺序混乱难题，腾讯提出了“QP内时序锁”机制，使得多个GPU间的数据传输能够精准、按顺序完成，即使同时处理1000多个数据传输任务，DeepEP也能自动理顺先后顺序。

　　在腾讯的技术优化下，DeepEP不仅在RoCE网络实现性能翻倍，反哺到IB（InfiniBand）网络时更使原有通信效率再提升30%。

　　目前该技术已全面开源，并成功应用于腾讯混元大模型等项目的训练推理，在腾讯星脉与H20服务器构建的高性能环境中，这套方案同样展现出卓越的通用性。

（文章来源：深圳商报）

文章来源：深圳商报责任编辑：73

原标题：提升大模型通信性能30% DeepSeek致谢腾讯大模型网络提速技术方案贡献

郑重声明：东方财富发布此内容旨在传播更多信息，与本站立场无关，不构成投资建议。据此操作，风险自担。