阿里千问发布最新旗舰模型Qwen3-Max-Thinking,性能据称超GPT-5.2
2026年01月27日 09:01
来源: 界面新闻
东方财富APP

方便,快捷

手机查看财经快讯

专业,丰富

一手掌握市场脉搏

手机上阅读文章

提示:

微信扫一扫

分享到您的

朋友圈

  界面新闻获悉,1月26日晚,阿里正式推出千问系列旗舰推理模型Qwen3-Max-Thinking。根据阿里公布的数据,该模型在19项权威基准测试中的表现媲美OpenAI的GPT-5.2-Thinking、谷歌的Gemini 3 Pro等国际顶尖模型,标志着国产大模型在高阶推理领域实现重要突破。

  该模型总参数量超万亿,预训练数据量达36T Tokens,经大规模强化学习打磨而成。相较于前代模型,其核心改进集中在两方面。

  一是自适应工具调用能力,可按需调用搜索引擎和代码解释器,现已上线Qwen Chat。与早期需要用户手动选择工具的方法不同,Qwen3-Max-Thinking能在对话中自主选择并调用其内置的搜索、记忆和代码解释器功能。这种能力让模型能像专业人士一样自主判断是否调用搜索、记忆或代码解释器,比如解答实时政策问题时自动检索最新信息,处理工程计算时启动代码工具验证结果,无需用户额外指令即可降低“幻觉”风险。

  Qwen3-Max-Thinking相关测试数据图片来源:千问

  另一个是测试时扩展技术(Test-Time Scaling),指在推理阶段分配额外计算资源以提升模型性能的技术。据称显著提升推理性能,在关键推理基准上超越Gemini 3 Pro。

  一般AI遇到难题,会同时想很多思路,很多是重复的,白白耗算力。该技术则通过“经验提取”式反思,避免传统模型并行推理的冗余计算,在相同算力下聚焦未解决难点,使GPQA科学知识测试得分从90.3提升至92.8,LiveCodeBench编程测试从88.0升至91.4。

  针对Qwen3-Max-Thinking的更多性能评估图片来源:千问

  在性能比拼中,该模型在被称为“人类最后的测试”的HLE工具调用基准中,以58.3分远超GPT-5.2-Thinking的45.5分和Gemini 3 Pro的45.8分;IMO级数学推理测试获91.5分登顶,预览版更曾拿下AIME 25与HMMT 25双满分。

  目前,普通用户可通过千问PC端、网页端免费体验,企业则能通过阿里云百炼获取API服务。

  1月21日,全球最大AI开源社区Hugging Face最新数据显示,阿里千问衍生模型数突破20万个,成为全球首个达成此目标的开源大模型;同时,千问系列模型下载量突破10亿次,平均每天被下载110万次,已完全超越美国Llama,稳居开源大模型全球第一。

  阿里CEO吴泳铭去年曾表示,公司正在积极推进三年3800亿的AI基础设施建设计划,并将会持续追加更大的投入。这一投入规模与谷歌、Meta和亚马逊等美股科技巨头的AI资本开支处于同一量级。

(文章来源:界面新闻)

文章来源:界面新闻 责任编辑:6
原标题:阿里千问发布最新旗舰模型Qwen3-Max-Thinking,性能据称超GPT-5.2
郑重声明:东方财富发布此内容旨在传播更多信息,与本站立场无关,不构成投资建议。据此操作,风险自担。
举报
分享到微信朋友圈

打开微信,

点击底部的“发现”

使用“扫一扫”

即可将网页分享至朋友圈

扫描二维码关注

东方财富官网微信


扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500