华泰证券:DeepSeek开源Infra代码 全球模型的训练和推理效率有望迎来整体提升
2025年03月03日 12:22
来源: 财中社
东方财富APP

方便,快捷

手机查看财经快讯

专业,丰富

一手掌握市场脉搏

手机上阅读文章

提示:

微信扫一扫

分享到您的

朋友圈

  3月3日,华泰证券发表研究报告称:2月24日起DeepSeek连续6天开源,在之前放出的模型参数、技术报告基础上,再次发布了Infra层的核心代码,涉及MLA、通信-计算、矩阵乘法运算、专家负载、文件存取等模块优化,旨在提高模型本身和硬件的效率,且国产GPU适配进展顺利。据DeepSeek数据,若将Web、APP和API的所有用户请求均以R1定价计费,则每日总收入将为562,027美元,成本利润率为545%。若考虑V3定价、夜间打折等因素,付费token占比50%情况下我们测算成本利润率有望达到108%,优化效果明显。认为,模型层的持续优化,有望持续降低应用层成本、提高应用表现。

  DeepSeek在原先开源的基础上,再次开源Infra核心代码

  此前DeepSeek在核心的V3/R1模型上,已经开源了模型权重,使得全球用户均可自行下载、部署和推理,并且配备了较为详细的技术报告,帮助有技术积累的团队实现技术复现。DeepSeek本次开源直接公布了V3/R1模型Infra层面的核心优化代码,涉及MLA、通信-计算、矩阵乘法运算、专家负载、文件存取等优化,相当于为技术报告中的算法分析直接提供了代码实现,进一步降低了技术复现的难度,并且许多优化方法可以被借鉴到其他模型的训练中。认为,全球模型的训练和推理效率有望迎来整体提升。

  DeepSeek代码首先基于CUDA是效率考虑,而国产适配已见成效

  由于DeepSeek在早期模型训练中使用Nvidia系列显卡,因此上周开源的核心代码也几乎是在CUDA环境中进行优化的。例如,DeepSeek针对FlsahMLA、DeepEP、DeepGEMM等算法给出的推荐配置,为NvidiaHopperGPU和CUDA12.3及以上版本。认为,DeepSeek的优势在于对软硬件全局的理解,能够结合自身模型训练的需求,更好的调配CUDA算子。这种理解能力是可以迁移到国产芯片上的,例如FlashMLA已经推出了适配摩尔线程、海光、天数GPU的版本,且各国产GPU厂商也在自行做相应的代码适配。随着国产GPU生态的逐步完善,类似算法或均能够实现很好的迁移,甚至直接原生在国产GPU环境下。

  路径选择:海外大算力追寻边界突破,国内强优化追寻效率提升

  认为,目前国内外模型大厂,已经开始走分化的道路。1)海外仍然以大算力探求边界提升:近期以xAI和OpenAI为典型代表,xAI将GPU集群从10万卡扩展到20万卡,训练出Grok-3,性能超过了o3-mini,部分指标相比R1有约20%性能提升。OpenAI则发布了旗下参数最大的预训练模型GPT-4.5,与DeepSeek-V3在公开的测评结果上性能接近。2)国内在软硬件效率优化上更加领先:以DeepSeek开源周为例,释放了核心的软硬件优化代码,使得理论上的成本利润率达到545%,并且优化方法能够复用。认为,后续DeepSeek的迭代重点或将仍在软硬件和算法优化上。

(文章来源:财中社)

文章来源:财中社 责任编辑:43
原标题:华泰证券:DeepSeek开源Infra代码 全球模型的训练和推理效率有望迎来整体提升
郑重声明:东方财富发布此内容旨在传播更多信息,与本站立场无关,不构成投资建议。据此操作,风险自担。
举报
分享到微信朋友圈

打开微信,

点击底部的“发现”

使用“扫一扫”

即可将网页分享至朋友圈

扫描二维码关注

东方财富官网微信


扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500