做空英伟达的又一理由?蚂蚁集团发布最新AI成果:无需高端GPU,计算成本降低20%,训练1万亿Token只需508万元
2025年03月25日 18:42
来源: 每日经济新闻
140人评论
60
48
东方财富APP
Scan me!

方便,快捷

手机查看财经快讯

专业,丰富

一手掌握市场脉搏

手机上阅读文章
Scan me!

提示:

微信扫一扫

分享到您的

朋友圈

  炒股第一步,先开个股票账户

  长久以来,英伟达凭借高性能芯片构筑起“算力霸权”,在AI模型训练领域占据主导地位。这一局面在DeepSeek问世后遭遇到不小的冲击,如今又面临着新的挑战。

  3月初,由蚂蚁集团首席技术官何征宇带领的Ling团队发表了一篇技术成果论文。

  论文显示,该团队开发了两款百灵系列开源混合专家(MoE)模型Ling-Lite(总参数为16.8B)和Ling-Plus(总参数为290B)。相比之下,据《麻省理工科技评论》,GPT-4.5总参数为1.8T,DeepSeek-R1总参数为671B。

  而惊艳之处在于,Ling团队在模型预训练阶段使用较低规格的硬件系统,将计算成本降低约20%,训练1万亿Token成本从635万元降至508万元,最终取得了与使用高性能芯片(如英伟达H100、H800等)的模型相当的效果。

  蚂蚁集团有关人士告诉《每日经济新闻》记者,在模型训练过程中,他们既使用了国产芯片,也采用了英伟达芯片。

  但百灵系列混合专家模型的横空出世,让市场再次质疑英伟达的“算力信仰”。HuggingFace工程师Tiezhen Wang在社交媒体上表示,“做空英伟达的又一理由?”

  Tom's Hardware发表评论称,蚂蚁集团此次的技术突破清晰展现出中国正坚定地朝着技术独立方向迈进。

  针对此事,3月24日蚂蚁集团回应媒体称,蚂蚁针对不同芯片持续调优,以降低AI应用成本,目前取得了一定的进展,也会逐步通过开源分享。

图片来源:蚂蚁集团Ling团队最新论文

  蚂蚁重大突破:不使用高端GPU的情况下将计算成本降低20%

  目前,蚂蚁集团Ling团队的技术成果论文《每一个FLOP都至关重要:无需高级GPU即可扩展3000亿参数混合专家LING大模型》已发表在预印本平台arXiv上。

  蚂蚁Ling团队认为,正如DeepSeek开源发布中分析的“昼夜推理负载不均”问题,在推理服务高峰期,高性能资源同样面临短缺。在长期科研实践中,许多机构都持续面临着高端AI加速卡供应不足的问题。相比之下,性能较低的加速器更易获得,且单价更低。因此,模型需要能在异构计算单元和分布式集群间切换的技术框架,同时在AI Infra部分,在跨集群、跨设备的兼容和可靠层面进行性能优化。

  该团队的实验结果表明,参数规模为300B左右的混合专家模型可以在性能较低的设备上有效训练,并在性能上达到与同规模的其他模型相当的水平。

  以Ling-Plus模型为例,在实验中,该模型在五种不同硬件配置下完成9万亿Token的预训练任务。经测算,使用高性能硬件设备训练1万亿Token,预计成本高达635万元人民币,而使用低规格硬件系统,成本则可控制在约508万元,节省近20%。

图片来源:蚂蚁集团Ling团队最新论文

  在英语理解能力上,Ling-Lite模型在一项关键基准测试中的表现与Qwen2.5-7B相当,优于Llama3.1-8B和Mistral-7B-v0.3。

  在中文理解能力上,Ling-Lite和Ling-Plus模型表现明显优于海外模型Llama3.1-8B和Mistral-7B-v0.3。在部分基准测试中,Ling-Plus表现略优于DeepSeek-V2.5,与Qwen2.5-7B相当。

  在数学和代码基准测试方面,Ling-Lite的表现与Qwen2.5-7B-Instruct相当,优于Llama3.1-8B和Mistral-7B-v0.3。Ling-Plus的表现优于DeepSeek-V2.5,接近Qwen2.5-72B的水平。

图片来源:蚂蚁集团Ling团队最新论文

  在工具使用方面,大多数情况下,Ling-Plus和Ling-Lite在基准测试中均取得了最佳成绩。而工具使用对于大语言模型来说是一项重要且具有挑战性的任务。工具使用能力使模型能够作为AI代理工作、控制机器人系统并与众多软件工具集成。

  此外,在安全性方面,Ling-Plus和Qwen2.5-7B表现突出,而Ling-Plus在错误拒绝方面表现更佳。

  提高大模型的无害性(harmlessness)通常会导致其有用性(helpfulness)的降低。测试结果表明,Ling-Plus在安全性和错误拒绝之间整体平衡性上表现最佳

  据悉,蚂蚁百灵大模型Ling-Plus和Ling-Lite将计划开源,并应用于医疗、金融等行业领域。

  打破英伟达“算力霸权”?

  有分析称,百灵系列混合专家模型的推出标志着蚂蚁集团加入AI领域的竞赛。自DeepSeek展示出能够以远低于OpenAI和谷歌投入的数十亿美元成本训练出强大模型以来,这一竞争加速升级。

  此前,DeepSeek在技术论文中表示,DeepSeek-V3模型(总参数671B,激活参数37B)总训练成本为557.6万美元,完整训练消耗了278.8万个GPU小时,几乎是同等性能水平模型训练所需的十分之一,堪称“榨干”GPU,也因此引发了资本市场的恐慌。

  对此,英伟达CEO黄仁勋在公开场合多次赞美DeepSeek,但其认为,DeepSeek-R1等更高效的模型出现,反而会刺激计算需求增长。

  然而,蚂蚁集团正在探索一条新的路径——在无高端GPU的情况下扩展模型训练能力

  百灵系列混合专家模型的横空出世,让市场再次质疑英伟达的“算力信仰”。HuggingFace工程师Tiezhen Wang在社交媒体上表示,“做空英伟达的又一理由?”

图片来源:X

  著名硬件媒体Tom's Hardware指出,如果蚂蚁集团此次技术突破意味着实现了(与DeepSeek)类似的AI训练效率飞跃,这极有可能成为(中国)降低对西方技术依赖进程中的又一重要里程碑。

  蚂蚁集团有关人士告诉《每日经济新闻》记者,在模型训练过程中,他们既使用了国产芯片,也采用了英伟达芯片。

  Tom's Hardware发表评论称,蚂蚁集团此次技术突破清晰展现出中国正坚定地朝着技术独立方向迈进

  彭博资深商业智能分析师罗伯特·李(Robert Lea)同样指出,蚂蚁集团的研究展示了中国在AI创新方面的快速进步,也显示出本土企业正朝着AI自给自足的方向迈进。

  全新妙想投研助理,立即体验

(文章来源:每日经济新闻)

文章来源:每日经济新闻 责任编辑:3
原标题:做空英伟达的又一理由?蚂蚁集团发布最新AI成果:无需高端GPU,计算成本降低20%,训练1万亿Token只需508万元
郑重声明:东方财富发布此内容旨在传播更多信息,与本站立场无关,不构成投资建议。据此操作,风险自担。
举报
分享到微信朋友圈
Scan me!

打开微信,

点击底部的“发现”

使用“扫一扫”

即可将网页分享至朋友圈

扫描二维码关注

东方财富官网微信

还可输入
清除
提交评论
郑重声明: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。 《东方财富社区管理规定》
热门评论 查看全部评论
2025-03-25 19:34:54 来自 陕西
DeepSeek可以解决什么问题?全是从网络上乱七八糟有用没用只要是相关的大杂烩,答案是是而非。
置顶 删除 举报 评论 48
基民XxE2f6 : 这是买了多少英伟达,气成这样
2025-03-27 07:42:58 来自 湖南
删除 举报 评论 点赞
股友k7059230p3 : 你个!
2025-03-27 07:39:48 来自 浙江
删除 举报 评论 点赞
还有26条回复, 点击查看全部
2025-03-25 19:36:02 来自 河南
我们不需要GPU,我们用算盘就好
置顶 删除 举报 评论 41
青0976 : 你会打算盘吗?
2025-03-27 07:34:18 来自 江西
删除 举报 评论 点赞
基民i591u98696 回复 kwfh : 学学段永平,在120美元附近空,90美元附近多,利润肥厚
2025-03-25 22:39:18 来自 浙江
删除 举报 评论 点赞
还有1条回复, 点击查看全部
2025-03-25 19:37:58 来自 上海
算力是算力,训练成本跟算力有关系吗?你成本低就自己玩呗,ds牛b吹上天,问一个问题半天转不出来,什么问题?算力不够呗,这种猴子和酸葡萄的心态永远不会有进步,有本事你不用芯片来训练啊!
置顶 删除 举报 评论 32
n117913409284264 : 豆包都比它快[笑哭][笑哭]
2025-03-26 06:30:38 来自 湖南
删除 举报 评论 点赞
最爱食福建人 回复 肯定神 : 服务器不是算力,那你觉得服务器是什么?
2025-03-26 01:02:10 来自 广东
删除 举报 评论 点赞
还有10条回复, 点击查看全部
2025-03-25 20:01:24 来自 河南
不需要计算机,用算盘就可以了
置顶 删除 举报 评论 19
kwfh : 用数手指也比他准确,美国人工泡沫破产
2025-03-25 22:04:57 来自 广东
删除 举报 评论 点赞
谦虚谨慎的彭渊 : 算盘也不用,有珠心算
2025-03-25 21:41:16 来自 山西
删除 举报 评论 点赞
2025-03-25 19:42:08 来自 重庆
拿一篇论文碰瓷,哈哈哈哈,高级算法,用算盘就可以了
置顶 删除 举报 评论 14
全部评论
最新 最热 最早
2025-03-27 01:08:32 来自 广东
只看成本不讲效率就是耍流氓,骑自行车和开小车哪个成本高哪个快?
置顶 删除 举报 评论 1
2025-03-26 09:30:04 来自 浙江
为何不掐指一算?
置顶 删除 举报 评论 1
2025-03-26 08:25:56 来自 上海
垃ji产品是不需要多好的gpu的~
置顶 删除 举报 评论 1
2025-03-26 07:42:49 来自 山东
你个编辑大S,你家DeepSeek不用GPU?阿里最近被当枪使吗
置顶 删除 举报 评论 1
2025-03-26 06:51:28 来自 北京
目前所谓的人工智能其实就是百度搜索的app版本,真没觉得哪里智能了,它也只不过是帮你搜索一下网页找到答案而已
置顶 删除 举报 评论 4
加载更多
查看全部评论
热点推荐
3月30日晚间央视新闻联播要闻集锦
央视新闻客户端
4 人评论 2025-03-30

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500
搜索
复制