DeepSeekV3发布外国专家：展示了资源受限下的研究力

行情中心

指数期指期权个股板块排行新股基金港股美股期货外汇黄金自选股自选基金

数据中心

资金流向主力排名板块资金个股研报新股申购转债申购北交所申购 AH股比价年报大全融资融券龙虎榜限售解禁 IPO审核大宗交易估值分析

首页 > 财经频道 > 正文

DeepSeekV3发布外国专家：展示了资源受限下的研究力

2024年12月27日 16:51

作者：罗亦丹

来源：新京报

小中大

东方财富APP

方便，快捷

手机查看财经快讯

专业，丰富

一手掌握市场脉搏

手机上阅读文章

提示：

微信扫一扫

分享到您的

朋友圈

　　新京报贝壳财经讯（记者罗亦丹）12月26日晚间，杭州深度求索人工智能基础技术研究有限公司推出全新系列模型DeepSeek-V3首个版本上线并同步开源。相比其他“AI六小虎”公司，深度求索较为低调，但DeepSeek模型由于其开源特性，以及更小的训练成本、更低的花费以及同样优越的性能，推出后在一天之内就受到了国外行业专家们的广泛赞誉。

　　12月27日，著名AI研究者、OpenAI创始成员之一的Andrej Karpathy评价DeepSeek-V3的表现时称，“今天，一家中国AI公司轻而易举地发布了一个前沿大语言模型，其仅使用2048块GPU训练了2个月，只花费了近600万美元。而作为参考，这种级别的能力本应该需要接近1.6万块的GPU集群，而目前正在部署的集群包含的GPU数量却接近10万块。例如，Llama 3405B模型使用了3080万GPU/小时，而DeepSeek-V3模型看起来更加强大，却仅使用了280万GPU/小时（计算量减少了约11倍）。如果此模型还能通过各项评估，那么这将是资源受限条件下研究与工程能力的高度令人印象深刻的展示。”

　　根据深度求索官方公布的信息，DeepSeek-V3 多项评测成绩超越了Qwen2.5-72B和 Llama-3.1-405B等其他开源模型，并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

　　此外，通过算法和工程上的创新，DeepSeek-V3 的生成吐字速度从20TPS大幅提高至60TPS，相比V2.5模型实现了3倍提升。定价方面，该公司的模型API服务定价为每百万输入tokens 0.5元（缓存命中）/ 2元（缓存未命中），每百万输出tokens 8元。