阿里千问最强推理模型问世：采用全新测试时扩展机制性能比肩GPT-5.2

行情中心

指数期指期权个股板块排行新股基金港股美股期货外汇黄金自选股自选基金

数据中心

资金流向主力排名板块资金个股研报新股申购转债申购北交所申购 AH股比价年报大全融资融券龙虎榜限售解禁 IPO审核大宗交易估值分析

首页 > 财经频道 > 正文

阿里千问最强推理模型问世：采用全新测试时扩展机制性能比肩GPT-5.2

2026年01月27日 10:35

来源：澎湃新闻

小中大

东方财富APP

方便，快捷

手机查看财经快讯

专业，丰富

一手掌握市场脉搏

手机上阅读文章

提示：

微信扫一扫

分享到您的

朋友圈

　　阿里正式发布千问最强AI（人工智能）模型。

　　1月26日晚间，阿里正式发布预告已久的千问旗舰推理模型Qwen3-Max-Thinking。据介绍，该模型创下数项权威评测全球新纪录，性能媲美GPT-5.2、Gemini 3 Pro，成为迄今为止最接近国际顶尖模型的国内最强AI大模型。通义团队还为其引入了两项核心创新：自适应工具调用能力和测试时扩展技术（Test-Time Scaling）。

　　从参数来看，千问新模型总参数超万亿（1T），预训练数据量高达36T Tokens，是目前阿里规模最大、能力最强的千问推理模型。该模型进行了更大规模的强化学习后训练，并通过推理技术的系列创新，最终完成模型性能的大幅飞跃。

　　此前，预览版Qwen3-Max-Thinking已斩获数学推理AIME 25和HMMT 25的国内首个双满分。在此基础上，阿里通义团队进行了更大规模的强化学习后训练，全面提升了正式版Qwen3-Max-Thinking性能。

　　在多项关键性能基准测试中，千问表现超过了GPT-5.2、Claude Opus 4.5和Gemini 3 Pro等顶尖模型，刷新科学知识（GPQA Diamond）、数学推理（IMO-AnswerBench）、代码编程（LiveCodeBench）等多项关键性能基准测试的全球纪录。

千问在多项关键性能基准测试中的表现。来源：阿里云

　　据介绍，在关键的模型推理能力提升中，千问新模型采用了一种全新的测试时扩展机制。业界普遍的推理时计算，只会简单增加并行推理路径，重复推导已知结论，造成冗余推理效率低下；而千问采用的这一新机制，可对此前推理的结果进行“经验提取”式的提炼，并据此进行多轮自我迭代，在相同的上下文中实现更高效的推理计算，获得更智能的推理结果。

　　此外，Qwen3-Max-Thinking还大幅增强了自主调用工具的原生Agent能力。具体而言，通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练。模型能够自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能，提供和专业人士一样水平的回答。同时，模型幻觉也大为降低。

　　目前，普通用户可以通过千问PC端和网页端试用模型，开发者可在QwenChat上免费体验Qwen3-Max-Thinking模型，企业可通过阿里云百炼获取新模型API服务。据了解，千问APP也即将接入新模型，所有用户都可免费体验。

　　阿里Qwen大模型的研发始于2022年，已经成为全球排名第一的开源大模型。大模型Qwen3-Max发布于2025年9月，是通义千问家族中最大、最强的基础模型。

　　26日当天，阿里巴巴美股（NYSE:BABA）跌1.07%收于每股171.38美元，总市值4091亿美元；港股（9988.HK）27日盘前涨超2%。