最新全球模型榜单：阿里Qwen2.5-Max超DeepSeek V3！又一国产大模型海外出圈！

行情中心

指数期指期权个股板块排行新股基金港股美股期货外汇黄金自选股自选基金

数据中心

资金流向主力排名板块资金个股研报新股申购转债申购北交所申购 AH股比价年报大全融资融券龙虎榜限售解禁 IPO审核大宗交易估值分析

首页 > 财经频道 > 正文

最新全球模型榜单：阿里Qwen2.5-Max超DeepSeek V3！又一国产大模型海外出圈！

2025年02月04日 19:11

来源：财联社

6人评论

小中大

东方财富APP

方便，快捷

手机查看财经快讯

专业，丰富

一手掌握市场脉搏

手机上阅读文章

提示：

微信扫一扫

分享到您的

朋友圈

　　在东方财富看资讯行情，选东方财富证券一站式开户交易>>

　　今日（2月4日）凌晨，Chatbot Arena LLM Leaderboard更新了最新一期的榜单，不久前发布的Qwen2.5-Max直接冲进前十，超越DeepSeek V3, o1-mini和Claude-3.5-Sonnet等模型，以1332分位列全球第七名！同时，Qwen2.5-Max在数学和编程上排名第一，在Hard prompts方面排名第二。

　　Qwen-Max是阿里云通义团队对MoE模型的最新探索成果，新模型展现出极强劲的综合性能。在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等主流基准测试中，Qwen2.5-Max比肩Claude-3.5-Sonnet，并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

　　ChatBot Arena官方账号 lmarena.ai 对其评价称，阿里巴巴的Qwen2.5-Max在多个领域表现强劲，特别是在专业技术向的（编程、数学、有难度的提示词等）方面。

　　据了解，Chatbot Arena是由LMSYS Org推出的大模型性能测试平台，目前集成了190多种模型。该榜单采用匿名方式将大模型两两组队，交给用户进行盲测，用户根据真实对话体验对模型能力进行投票。因此Chatbot Arena LLM Leaderboard成为全球顶级大模型的最重要竞技场。

　　此前，Qwen2.5-72B-Instruct发布后也曾闯入Chatbot Arena榜单全球前十，是得分较高的中国大模型；Qwen2-VL-72B-Instruct闯入Vision榜单第九，是成绩优异的开源模型。

　　目前，企业可在阿里云百炼调用Qwen2.5-Max模型的API，开发者也可在Qwen Chat平台中免费体验Qwen2.5-Max。

　　Qwen2.5-Max发布后，在海外开发者中引发了大量关注。有网友在对比DeepSeek-V3 和 Qwen 2.5后，高度赞扬了Qwen2.5-Max的出色表现。