超越ChatGPT登顶 Deepseek被“挤”到宕机!或将推动AI应用爆发
2025年01月27日 23:08
来源: 科创板日报
17人评论
10
99+
东方财富APP
Scan me!

方便,快捷

手机查看财经快讯

专业,丰富

一手掌握市场脉搏

手机上阅读文章
Scan me!

提示:

微信扫一扫

分享到您的

朋友圈

  全新妙想投研助理,立即体验

  “正如大家没法猜到,做游戏显卡的英伟达,最后会成为AI界最重要的公司。大家也没法猜到,中国AI大模型的希望,可能就在炒股的公司身上。”一名金融科技业内人士表示。

  今日,国内AI初创公司DeepSeek出现了短时闪崩现象。据DeepSeek回应,其服务再次“宕机”,源自新模型发布后,用户访问量激增所致。

  这家由知名私募巨头幻方量化于2023年4月创立的大模型公司,近日正式发布推理大模型DeepSeek-R1。在国外大模型排名Arena上,DeepSeek-R1基准测试已经升至全类别大模型第三,其中在风格控制类模型(StyleCtrl)分类中与OpenAI o1并列第一。

  1月27日,DeepSeek应用登顶苹果美国地区应用商店免费APP下载排行榜,超越了ChatGPT。同日,苹果中国区应用商店免费榜显示,DeepSeek成为中国区第一。

  DeepSeek AI已经能思考了,这是质的飞跃。以前的模型在思考/推理方面不够稳定可靠,武汉大学计算机学院教授、中国人工智能学会心智计算专委会副主任委员蔡恒进如此评价DeepSeek。

  在DeepSeek引发业内震动的同时,以科技股为主的纳斯达克100指数期货跌幅达3%,原因是市场担忧DeepSeek的AI模型可能会扰乱科技行业。

  市场分析认为,DeepSeek R1的成功可能削弱了市场对英伟达AI芯片需求的预期。因为DeepSeek似乎以极低的成本构建了一个突破性的人工智能模型,并且无需使用顶尖芯片。这令人质疑对AI芯片投入数千亿美元支出的实际效用。

  此前有消息称,DeepSeek仅用2048颗英伟达H800 GPU和约550万美元,就训练出6710亿参数的开源大模型,是Llama-3405B超6000万美元训练成本的十分之一不到。

  不过,《科创板日报》记者了解到,550万美金只是DeepSeek-V3训练成本的一部分。根据DeepSeek的论文表述,这仅仅包括DeepSeek-V3的正式训练,不包括与架构、算法、数据相关的前期研究、消融实验的成本。而DeepSeek r1的真实算力成本投入远不止600万美元

  多名业内人士认为,OpenAI对大模型的前沿探索与DeepSeek的后发追赶,所需的算力原本就不是一个量级。创新和探索必然伴随着算力和各项成本的浪费,在确定性的路径上优化所付出的代价,与探索未知所付出的代价之间不宜简单对比。

  但是,DeepSeek大模型的推出,无疑展示了模型架构在算法和数据层面创新的价值。

  曾几何时,OpenAI的火爆来自“大力出奇迹”,即算力越大、数据越多,就能得到越强的大模型。这种“军备竞赛”型开发模式,带来了惊人的能源消耗和训练成本。受大模型训练的高昂成本拖累,OpenAI在2024年的亏损额可能达到50亿美元,预计到2026年其亏损将进一步攀升至140亿美元。

  “DeepSeek则带来了对算力/能耗的需求十余倍的降低。”蔡恒进强调。

  魔形智能创始人徐凌杰向《科创板日报》介绍,DeepSeek巧妙利用了多种优化手段来降低成本,其中包括采用低精度数据格式进行训练,复用和共享参数,以及通过MoE混合专家的架构动态激活部分参数

  除了降低AI大模型的硬件门槛和能源消耗,DeepSeek的成功,更重要的是为AI未来的应用落地铺平了道路。

  随着模型性能的逐步稳定和应用的陆续落地,未来算力的推理需求将超过训练需求。Arm基础设施事业部产品解决方案副总裁Dermot ODriscoll在接受《科创板日报》采访时就曾表示,接下来将看到更多关于AI推理领域的更多突破,即AI的实际应用。“这些创新将从数据中心延伸到边缘计算,再进一步扩展至终端设备。因此,下一轮创新的重点将从AI训练转向AI推理。这意味着在AI推理领域将迎来巨大的机遇。”

  “历史数据表明,10倍成本下降可激发百倍需求,当前模型推理成本已进入快速下降通道,或将推动AI应用爆发。”徐凌杰表示,“针对-V3模型(参数量6710亿),其推理采用创新两阶段架构:32张H800 GPU并行处理预填充任务,320张H800集群加速流式解码。为追求极致性价比,需将数百GPU通过超高速网络组成‘超节点’,这一需求正推动智算中心集群化的演进,加速AI算力基础设施升级。”

  目前,DeepSeek模型的端侧落地已在推进中。近日,AMD宣布将新的DeepSeek-V3模型集成到Instinct MI300X GPU上,该模型经过SGLang强化,针对Al推理进行了优化。而英特尔中国区技术部总经理高宇也表示:Deepseek-R1已经在AI PC上跑起来了!Flowy大模型AI PC应用平台现已支持在Intel Core Ultra AI PC上运行Deepseek-r。

  端侧大模型正开始在智能手机、智能汽车、PC等多种设备上崭露头角。然而,硬件资源限制、模型压缩等多重挑战始终困扰着端侧大模型。Deepseek r1端侧大模型的推出,有望为下游应用的繁荣带来了更大的空间,推动更多推理芯片的涌现,以及大模型应用生态的发展。

  想炒股,先开户!选东方财富证券,行情交易一个APP搞定>>

(文章来源:科创板日报)

文章来源:科创板日报 责任编辑:73
原标题:超越ChatGPT登顶 Deepseek被“挤”到宕机!或将推动AI应用爆发
郑重声明:东方财富发布此内容旨在传播更多信息,与本站立场无关,不构成投资建议。据此操作,风险自担。
举报
分享到微信朋友圈
Scan me!

打开微信,

点击底部的“发现”

使用“扫一扫”

即可将网页分享至朋友圈

扫描二维码关注

东方财富官网微信

还可输入
清除
提交评论
郑重声明: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。 《东方财富社区管理规定》
热门评论 查看全部评论
2025-01-27 23:31:26 来自 广东
别吹了,两天宕机n次的东西,你天天吹个什么劲
置顶 删除 举报 评论 7
快慢之道 回复 谁主沉浮5320 : 豆包是抖音大资金打造的,其次只有国内部分人用,DS是量化基金副业,刚刚登上苹果下载榜首!两个都好,但是就创新力和影响力来说DS秒杀豆包
2025-01-28 12:38:54 来自 安徽
删除 举报 评论 点赞
海阔天空重新再来 回复 谁主沉浮5320 : 豆包?跟在别人后面喝汤,模型什么的都是模仿GPT,真没啥意义
2025-01-28 05:10:34 来自 湖北
删除 举报 评论 点赞
还有5条回复, 点击查看全部
全部评论
最新 最热 最早
2025-01-28 07:24:05 来自 辽宁
量化打爆美市,让老美顶尖科学家自叹不如。
置顶 删除 举报 评论 点赞
2025-01-28 07:11:33 来自 浙江
直接说重点,利好应用端手机 机器人 智能汽车。
置顶 删除 举报 评论 点赞
2025-01-28 06:40:24 来自 江苏
医疗机器人大模型塞力医疗,卫宁健康,楚天科技
置顶 删除 举报 评论 点赞
2025-01-28 05:32:12 来自 山东
疯了,不正常了,感觉严重高估,有1块钱说有100
置顶 删除 举报 评论 点赞
2025-01-27 23:50:04 来自 广东
一周以后就知道谁是小丑了。
置顶 删除 举报 评论 3
加载更多
查看全部评论
热点推荐
证监会集中公布全国两会提案建议答复 透露这些信息
证券时报·e公司
2025-02-28

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500
搜索
复制