刚刚！DeepSeek硬核发布！英伟达亦借机突破

行情中心

指数期指期权个股板块排行新股基金港股美股期货外汇黄金自选股自选基金

数据中心

资金流向主力排名板块资金个股研报新股申购转债申购北交所申购 AH股比价年报大全融资融券龙虎榜限售解禁 IPO审核大宗交易估值分析

首页 > 财经频道 > 正文

刚刚！DeepSeek硬核发布！英伟达亦借机突破

2025年02月27日 11:40

作者：时谦

来源：券商中国

39人评论

小中大

东方财富APP

方便，快捷

手机查看财经快讯

专业，丰富

一手掌握市场脉搏

手机上阅读文章

提示：

微信扫一扫

分享到您的

朋友圈

　　炒股第一步，先开个股票账户

　　DeepSeek又有大动作！

　　开源周第三天，DeepSeek宣布开源Optimized Parallelism Strategies（优化并行策略）。

　　Optimized Parallelism Strategies，该策略是为了提高计算效率、减少资源浪费并最大化系统性能而设计的并行计算方案。这些策略通过合理分配任务、协调资源利用和减少通信开销，实现在多核、分布式或异构系统中的高效并行执行。

　　与此同时，英伟达开源了首个在Blackwell架构上优化的DeepSeek-R1，实现了推理速度提升25倍，并且每token成本降低20倍的惊人成果。这一新模型的推出，标志着英伟达在人工智能领域的又一次重大进展。

　　动作不断

　　DeepSeek开源周第四天，今天早上，该公司再度开源优化并行策略，包括DualPipe、专家并行负载均衡器 (EPLB)、DeepSeek Infra 中的性能分析数据。优化并行策略需根据任务类型、数据规模、硬件环境灵活选择，平衡计算、通信和存储开销，最终实现高效、可扩展的并行计算。该策略是为了提高计算效率、减少资源浪费并最大化系统性能而设计的并行计算方案。

　　最近，DeepSeek硬核不断。此前，该公司宣布将DeepEP向公众开放。在宣布后的约20分钟内，DeepEP已在 GitHub、微软（MSFT.US）等平台上获得超过1000个 Star收藏。

　　据悉，DeepEP是MoE模型训练和推理的Expert Parallelism通信基础，可实现高效优化的全到全通信，以支持包括FP8在内的低精度计算，适用于现代高性能计算。DeepEP还针对从NVLink到RDMA的非对称带宽转发场景进行了深度优化，不仅提供高吞吐量，还支持流式多处理器数量控制，从而在训练和推理任务中实现高吞吐量性能。

　　此外，2月26日，DeepSeek宣布即日起在北京时间每日00:30至08:30的夜间空闲时段，大幅下调API调用价格，其中DeepSeek-V3降至原价的50%，DeepSeek-R1更是低至25%，降幅最高达75%。该公司称，这一举措旨在鼓励用户充分利用夜间时段，享受更经济、更流畅的服务体验。

　　英伟达亦借机突破

　　近日，英伟达开源了首个在Blackwell架构上优化的DeepSeek-R1，实现了推理速度提升25倍，并且每token成本降低20倍的惊人成果。这一新模型的推出，标志着英伟达在人工智能领域的又一次重大进展。

　　根据媒体报道，DeepSeek-R1的本地化部署已经引起广泛关注，英伟达也亲自下场，开源了基于Blackwell架构的优化方案——DeepSeek-R1-FP4。这一新模型在推理吞吐量上达到了高达21,088 token每秒，与H100的844 token每秒相比，提升幅度高达25倍。同时，每token的成本也实现了20倍的降低。

　　英伟达通过在Blackwell架构上应用TensorRT DeepSeek优化，让具有FP4生产级精度的模型，在MMLU通用智能基准测试中达到了FP8 模型性能的99.8%。目前，英伟达基于FP4优化的DeepSeek-R1检查点已经在Hugging Face上开源，并且可以通过以下链接访问模型地址：DeepSeek-R1-FP4。

　　在后训练量化方面，该模型将Transformer模块内的线性算子的权重和激活量化到了FP4，适用于TensorRT-LLM推理。这一优化使每个参数的位数从8位减少到4位，从而让磁碟空间和GPU显存的需求减少了约1.6倍。

　　使用TensorRT-LLM部署量化后的FP4权重文件，能够为给定的提示生成文本响应，这需要支持TensorRT-LLM的英达GPU（如 B200），并且需要8个GPU来实现tensor_parallel_size=8的张量并行。这段代码利用FP4量化、TensorRT引擎和并行计算，旨在实现高效、低成本的推理，适合生产环境或高吞吐量应用。

　　据报道，针对此次优化的成果，网友们表示惊叹，称「FP4 魔法让 AI 未来依然敏锐！」有网友评论道，这次的优化使得美国供应商能够以每百万token 0.25美元的价格提供R1，并认为「还会有利润」。

　　如今，DeepSeek的开源活动持续进行。周一，DeepSeek 开源了 FlashMLA，这是专为英伟达Hopper GPU打造的高效MLA译码内核，特别针对变长序列进行了优化。周二则推出了DeepEP，这是一个为混合专家系统（MoE）和专家并行（EP）设计的通信库。周三开源的是 DeepGEMM，这是一个支持稠密和 MoE 模型的 FP8 GEMM 计算库，为 V3/R1 的训练和推理提供强大支持。

　　总体而言，无论是英伟达开源的 DeepSeek-R1-FP4，还是 DeepSeek 开源的其他三个仓库，都是通过对辉达 GPU 和集群的优化，来推动 AI 模型的高效计算和部署。

　　全新妙想投研助理，立即体验

（文章来源：券商中国）

文章来源：券商中国责任编辑：43

原标题：刚刚！DeepSeek，硬核发布！

郑重声明：东方财富发布此内容旨在传播更多信息，与本站立场无关，不构成投资建议。据此操作，风险自担。

东方财富网

分享到微信朋友圈

打开微信，

点击底部的“发现”

使用“扫一扫”

即可将网页分享至朋友圈