刚刚!DeepSeek硬核发布!英伟达亦借机突破
2025年02月27日 11:40
作者: 时谦
来源: 券商中国
39人评论
59
66
东方财富APP
Scan me!

方便,快捷

手机查看财经快讯

专业,丰富

一手掌握市场脉搏

手机上阅读文章
Scan me!

提示:

微信扫一扫

分享到您的

朋友圈

  炒股第一步,先开个股票账户

  DeepSeek又有大动作!

  开源周第三天,DeepSeek宣布开源Optimized Parallelism Strategies(优化并行策略)。

  Optimized Parallelism Strategies,该策略是为了提高计算效率、减少资源浪费并最大化系统性能而设计的并行计算方案。这些策略通过合理分配任务、协调资源利用和减少通信开销,实现在多核、分布式或异构系统中的高效并行执行。

  与此同时,英伟达开源了首个在Blackwell架构上优化的DeepSeek-R1,实现了推理速度提升25倍,并且每token成本降低20倍的惊人成果。这一新模型的推出,标志着英伟达人工智能领域的又一次重大进展。

  动作不断

  DeepSeek开源周第四天,今天早上,该公司再度开源优化并行策略,包括DualPipe、专家并行负载均衡器 (EPLB)、DeepSeek Infra 中的性能分析数据。优化并行策略需根据任务类型、数据规模、硬件环境灵活选择,平衡计算、通信和存储开销,最终实现高效、可扩展的并行计算。该策略是为了提高计算效率、减少资源浪费并最大化系统性能而设计的并行计算方案。

  最近,DeepSeek硬核不断。此前,该公司宣布将DeepEP向公众开放。在宣布后的约20分钟内,DeepEP已在 GitHub、微软(MSFT.US)等平台上获得超过1000个 Star收藏。

  据悉,DeepEP是MoE模型训练和推理的Expert Parallelism通信基础,可实现高效优化的全到全通信,以支持包括FP8在内的低精度计算,适用于现代高性能计算。DeepEP还针对从NVLink到RDMA的非对称带宽转发场景进行了深度优化,不仅提供高吞吐量,还支持流式多处理器数量控制,从而在训练和推理任务中实现高吞吐量性能。

  此外,2月26日,DeepSeek宣布即日起在北京时间每日00:30至08:30的夜间空闲时段,大幅下调API调用价格,其中DeepSeek-V3降至原价的50%,DeepSeek-R1更是低至25%,降幅最高达75%。该公司称,这一举措旨在鼓励用户充分利用夜间时段,享受更经济、更流畅的服务体验。

  英伟达亦借机突破

  近日,英伟达开源了首个在Blackwell架构上优化的DeepSeek-R1,实现了推理速度提升25倍,并且每token成本降低20倍的惊人成果。这一新模型的推出,标志着英伟达在人工智能领域的又一次重大进展。

  根据媒体报道,DeepSeek-R1的本地化部署已经引起广泛关注,英伟达也亲自下场,开源了基于Blackwell架构的优化方案——DeepSeek-R1-FP4。这一新模型在推理吞吐量上达到了高达21,088 token每秒,与H100的844 token每秒相比,提升幅度高达25倍。同时,每token的成本也实现了20倍的降低。

  英伟达通过在Blackwell架构上应用TensorRT DeepSeek优化,让具有FP4生产级精度的模型,在MMLU通用智能基准测试中达到了FP8 模型性能的99.8%。目前,英伟达基于FP4优化的DeepSeek-R1检查点已经在Hugging Face上开源,并且可以通过以下链接访问模型地址:DeepSeek-R1-FP4。

  在后训练量化方面,该模型将Transformer模块内的线性算子的权重和激活量化到了FP4,适用于TensorRT-LLM推理。这一优化使每个参数的位数从8位减少到4位,从而让磁碟空间和GPU显存的需求减少了约1.6倍。

  使用TensorRT-LLM部署量化后的FP4权重文件,能够为给定的提示生成文本响应,这需要支持TensorRT-LLM的英达GPU(如 B200),并且需要8个GPU来实现tensor_parallel_size=8的张量并行。这段代码利用FP4量化、TensorRT引擎和并行计算,旨在实现高效、低成本的推理,适合生产环境或高吞吐量应用。

  据报道,针对此次优化的成果,网友们表示惊叹,称「FP4 魔法让 AI 未来依然敏锐!」有网友评论道,这次的优化使得美国供应商能够以每百万token 0.25美元的价格提供R1,并认为「还会有利润」。

  如今,DeepSeek的开源活动持续进行。周一,DeepSeek 开源了 FlashMLA,这是专为英伟达Hopper GPU打造的高效MLA译码内核,特别针对变长序列进行了优化。周二则推出了DeepEP,这是一个为混合专家系统(MoE)和专家并行(EP)设计的通信库。周三开源的是 DeepGEMM,这是一个支持稠密和 MoE 模型的 FP8 GEMM 计算库,为 V3/R1 的训练和推理提供强大支持。

  总体而言,无论是英伟达开源的 DeepSeek-R1-FP4,还是 DeepSeek 开源的其他三个仓库,都是通过对辉达 GPU 和集群的优化,来推动 AI 模型的高效计算和部署。

  全新妙想投研助理,立即体验

(文章来源:券商中国)

文章来源:券商中国 责任编辑:43
原标题:刚刚!DeepSeek,硬核发布!
郑重声明:东方财富发布此内容旨在传播更多信息,与本站立场无关,不构成投资建议。据此操作,风险自担。
举报
分享到微信朋友圈
Scan me!

打开微信,

点击底部的“发现”

使用“扫一扫”

即可将网页分享至朋友圈

扫描二维码关注

东方财富官网微信

还可输入
清除
提交评论
郑重声明: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。 《东方财富社区管理规定》
热门评论 查看全部评论
2025-02-27 11:56:11 来自 江苏
下午又拉上去,成功洗盘。
置顶 删除 举报 评论 12
拿跟股线上楼梯 : 今天别想了
2025-02-27 12:59:45 来自 浙江
删除 举报 评论 点赞
全部评论
最新 最热 最早
置顶
2025-02-27 13:13:50 来自 上海
DeepSeek的开源活动旨在提高计算效率、减少资源浪费并最大化系统性能,推动AI模型的高效计算和部署。DeepSeek和英伟达的开源成果将有助于降低AI模型的成本和提高推理速度,进一步推动人工智能领域的发展。
取消置顶 删除 举报 评论 点赞
2025-02-27 17:38:30 来自 重庆
利好飞利信
置顶 删除 举报 评论 点赞
莲映雅盈 : 没关系
2025-02-27 17:45:49 来自 黑龙江
删除 举报 评论 点赞
2025-02-27 14:50:41 来自 陕西
都知道是吹上去的,所以跌了别抱怨,怪就怪自己手慢
置顶 删除 举报 评论 1
2025-02-27 14:04:10 来自 北京
如果有个公司有英伟达芯片加deep seek,那岂不是王炸
置顶 删除 举报 评论 1
木长生 : 那就把“中国的英伟达”(1%的英伟达)卖给幻方量化 [大笑][大笑][大笑]
2025-02-27 18:08:32 来自 湖北
删除 举报 评论 点赞
2025-02-27 13:36:54 来自 安徽
现代悖论:
大力发展AI、机器人,然后工厂企业为节省成本改用AI、机器人后裁员,悖论是工厂企业生产的产品或者服务还要卖给没有工作的人消费;人民呢从网上买东西,却想着去线下实体企业找一份好工作[大笑][大笑][大笑]
置顶 删除 举报 评论 3
加载更多
查看全部评论

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500
搜索
复制