新版DeepSeek-V3登顶非推理模型榜单！每经记者实测编程能力 R2模型也要来了？ _ 东方财富网

行情中心

指数期指期权个股板块排行新股基金港股美股期货外汇黄金自选股自选基金

数据中心

资金流向主力排名板块资金个股研报新股申购转债申购北交所申购 AH股比价年报大全融资融券龙虎榜限售解禁 IPO审核大宗交易估值分析

首页 > 财经频道 > 正文

新版DeepSeek-V3登顶非推理模型榜单！每经记者实测编程能力 R2模型也要来了？

2025年03月25日 21:55

来源：每日经济新闻

小中大

4

46

东方财富APP

Scan me!

方便，快捷

手机查看财经快讯

专业，丰富

一手掌握市场脉搏

手机上阅读文章

Scan me!

提示：

微信扫一扫

分享到您的

朋友圈

　　全新妙想投研助理，立即体验

　　北京时间3月24日晚间，DeepSeek悄然将DeepSeek-V3模型的最新版本上传到了开源平台HuggingFace。

　　新模型的版本号为DeepSeek-V3-0324，参数为6850亿，较初代V3版本的6710亿有小幅增长。

　　尽管DeepSeek十分低调，但还是有不少人在第一时间就注意到了这一更新，并对其进行了测试。

　　根据社区测试反馈，DeepSeek-V3-0324最明显的变化是编程能力得到了极大的提升。众多开发者基于对新模型的综合体验判断，新模型的编程能力已经接近目前最强编程模型Claude 3.7 Sonnet。

　　3月25日，专业AI模型评测机构Artificial Analysis发布的最新排名显示，新版V3在基准测试中较老版V3跃升了7位，排名所有非推理模型中的第一名。

　　《每日经济新闻》记者实测后发现，DeepSeek-V3-0324的编程能力确实强大，但仍会出现幻觉问题。

　　有外媒推测：“V3新版本的推出时机和特点强烈表明，它将成为DeepSeek-R2的基础，后者是一款新的推理模型，预计在未来两个月内推出。这遵循了DeepSeek的既定模式，即基础模型比专门的推理模型早几周推出。”

　　机构：新版V3排名非推理模型第一

　　当地时间3月25日，专业AI模型评测机构Artificial Analysis在评测完新版V3后发推表示，这对开源来说是一个里程碑，因为这是开放权重模型首次成为领先的非推理模型。新版V3在他们的基准测试中跃升了7位，为所有非推理模型中的第一名。

图片来源：Artifical Analysis

　　虽然它在能力上仍落后于众多推理模型，但这并不能影响这一成就的重要性。因为非推理模型相较于推理模型在速度上具有优势，它可以立即回答，而无需花时间“思考”。

　　AI编码工具aider开发者保罗·高蒂尔对其进行了多语言基准测试，得分为55%，较上一个版本有显著提升。他认为，新版V3是仅次于Claude 3.7 Sonnet的非推理模型了，并且它比R1和o3-mini这样的推理模型更具竞争力，因为它的费用更便宜。

图片来源：X

　　开源大模型评测项目Kcores大模型竞技场的最新测试数据显示，新版V3的代码能力达到了328.3分，仅次于Claude 3.7 Sonnet（思考模型）和Claude 3.5（因不同测试之间题目不同，所以测试结果会有偏差）。

图片来源：Kcores大模型竞技场

　　在Kcores大模型中的四个测试中，新版V3都展示了出色的能力，特别是在九大行星模拟测试中，它是测试的25个模型中，唯一一个画了土星环的大模型。

图片来源：Kcores大模型竞技场

　　记者实测新版V3编程能力：完成度高，难掩幻觉问题

　　截至目前，DeepSeek并没有放出DeepSeek-V3-0324的跑分结果。

　　不过，广大网友对其进行了独立测试。在众多用户的体验中，最常被提到的就是新版V3的代码能力。

　　有网友同时比较了新版V3和R1之间的编程能力，要求：

　　创建一个包含CSS和JavaScript的单个HTML文件，以生成一个动画天气卡片。卡片应通过不同的动画直观地表示以下天气条件：

　　风：（例如，移动的云朵、摇曳的树木或风线）

　　雨：（例如，落下的雨滴、形成的水坑）

　　晴：（例如，闪耀的光线、明亮的背景）

　　雪：（例如，落下的雪花、积雪）并排显示所有天气卡片。

　　卡片应具有深色背景。在此单个文件中提供所有 HTML、CSS 和 JavaScript 代码。JavaScript 应包含一种在不同天气条件之间切换的方法（例如，一个函数或一组按钮），以演示每种天气的动画。

　　从下图可以发现，两者生成的效果可谓天差地别。

左侧为新版V3，右侧为R1 图片来源：X

　　每经记者也对新版V3进行了测试，请它生成一个可以互动的、介绍世界风光的网站前端。

　　DeepSeek的响应过程十分丝滑，只花了2分钟就完成了，生成的网站配有日间/夜间模式切换、评论区、评分系统、收藏系统和社媒分享系统。

　　不过需要指出的是，在一些细节上DeepSeek还是出现了幻觉问题，比如在介绍马丘比丘时配上了和其毫无相关的图片，在介绍长城时张冠李戴地配上了故宫的图片。但整体的网站完成度还是值得点赞的。

　　网友热评：对OpenAI如同噩梦，对DeepSeek-R2寄予厚望

　　还有网友综合体验下来表示，新版V3的提升幅度大约相当于Sonnet 3.5到Sonnet 3.6的提升。

　　有国外网友直呼，这对OpenAI来说就是一场噩梦。

图片来源：X

　　有外媒表示：“V3新版本的推出时机和特点强烈表明，它将成为DeepSeek-R2的基础，后者是一款新的推理模型，预计在未来两个月内推出。这遵循了DeepSeek的既定模式，即其基础模型比专门的推理模型早几周推出。”

　　Artificial Analysis表示，此版本可以说比R1更令人印象深刻，并且可能表明R2将是另一个重大飞跃。

　　Kocres联合创始人“karminski牙医”在测试完新版V3后表示：“DeepSeek-V3新版本的能力十分可怕，甚至这还都不是DeepSeek-V4，更不是DeepSeek-R2！我现在十分期待DeepSeek-R2的发布了！”

　　国外知名AI评论员“chubby”表示，这个小更新比预期的要大很多，因此我们对DeepSeek-R2寄予厚望。R2会成为有史以来最重要的开源推理模型。

　　有Reddit用户指出：“这与DeepSeek在圣诞节前后发布V3并在几周后发布R1的方式一致。据传R2将于4月发布。”

　　如果DeepSeek-R2遵循R1发布的轨迹，它可能会对OpenAI的下一个旗舰模型GPT-5构成直接挑战。此前，阿尔特曼在访谈中表示，GPT-5很快就会和大家见面。

　　想炒股，先开户！选东方财富证券，行情交易一个APP搞定>>

（文章来源：每日经济新闻）

文章来源：每日经济新闻责任编辑：73

原标题：新版DeepSeek-V3登顶非推理模型榜单！每经记者实测编程能力，R2模型也要来了？

郑重声明：东方财富发布此内容旨在传播更多信息，与本站立场无关，不构成投资建议。据此操作，风险自担。

举报

东方财富网

分享到微信朋友圈

Scan me!

打开微信，

点击底部的“发现”

使用“扫一扫”

即可将网页分享至朋友圈

扫描二维码关注

东方财富官网微信

网友评论

已有1人评论，共692人参与讨论

还可输入字

清除

提交评论

郑重声明： 1.根据《证券法》规定，禁止编造、传播虚假信息或者误导性信息，扰乱证券市场；2.用户在本社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》

热门评论查看全部评论

全部评论

最新最热最早

永远上不去的3100

2025-03-25 23:29:54 来自河北

其实就是高级版百度数据采集处理软件。搜索一大堆整合处理。

置顶删除举报评论点赞

沪深股市

沪股通

深股通

港股通(沪)

港股通(深)

热门资讯

焦点专题

民营企业座谈会召开

中央一号文件发布

视频

1
2
3
4
5
6
7
8
9
10
11
12

一键关注财经大咖

热点推荐

广汽集团：从未与恒大汽车或其他主体就南沙工厂收购事宜进行过任何形式的接洽

人民财讯

29 人评论 2025-03-26

扫一扫下载APP

东方财富产品

证券交易

关注东方财富

扫一扫下载APP

基金交易

关注天天基金

期货交易

信息网络传播视听节目许可证：0908328号经营证券期货业务许可证编号：913101046312860336 违法和不良信息举报:021-61278686 举报邮箱：jubao@eastmoney.com

沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号版权所有:东方财富网意见与建议:4000300059/952500

关于我们可持续发展广告服务联系我们诚聘英才法律声明隐私保护征稿启事友情链接

亲爱的市民朋友，上海警方反诈劝阻电
话“962110”系专门针对避免您财产被
骗受损而设，请您一旦收到来电，立即
接听。

网站首页加收藏

动态
个人
自选
消息
搜索

搜索

复制