谷歌Gemini 2.5 Pro上线即“屠榜”！每经记者实测：可轻松模拟火星登陆，快速制作小游戏，但审美能力有待提升

行情中心

指数期指期权个股板块排行新股基金港股美股期货外汇黄金自选股自选基金

数据中心

资金流向主力排名板块资金个股研报新股申购转债申购北交所申购 AH股比价年报大全融资融券龙虎榜限售解禁 IPO审核大宗交易估值分析

首页 > 财经频道 > 正文

谷歌Gemini 2.5 Pro上线即“屠榜”！每经记者实测：可轻松模拟火星登陆，快速制作小游戏，但审美能力有待提升

2025年03月26日 19:21

来源：每日经济新闻

小中大

东方财富APP

方便，快捷

手机查看财经快讯

专业，丰富

一手掌握市场脉搏

手机上阅读文章

提示：

微信扫一扫

分享到您的

朋友圈

　　在东方财富看资讯行情，选东方财富证券一站式开户交易>>

图片来源：谷歌博客

　　当地时间3月25日，谷歌正式揭开其下一代AI模型系列——Gemini 2.5的神秘面纱，宣称这是其迄今为止“最智能的AI模型”。

　　首个发布的版本被命名为Gemini 2.5 Pro Experimental（以下简称“Gemini 2.5 Pro”）。谷歌表示，Gemini 2.5 Pro支持100万个token的上下文窗口，这意味着AI模型能一次性处理相当于两本《红楼梦》字数的文本量。

　　该模型一经发布，便在各大基准测试上全面“屠榜”，在所有测试中都稳居第一名的位置，包括常见的编程、数学和科学基准测试。

　　谷歌Deepmind首席技术官Koray Kavukcuoglu在博客中写道：“现在，通过Gemini 2.5，我们结合了显著增强的基础模型和改进后的后续训练，实现了全新的性能水平。未来，我们将把这种思维能力直接构建到我们所有的模型中，使其能够处理更复杂的问题，并支持更强大、更具情境感知能力的智能体。”

　　《每日经济新闻》记者（以下简称“每经记者”）也在第一时间对Gemini 2.5 Pro进行了测试，测试包括数学、火星登陆模拟测试、网页开发和小游戏制作。

　　测试结果显示，该模型在科学类问题和编程方面实力强大，用户只要会打字，就能进行编程。而且，生成速度极快，质量良好。与每经记者之前测试的多款大模型相比，Gemini 2.5 Pro在测试过程中几乎没有出现bug。不过，在网页设计审美和玩家体验等方面，该模型还有提升的空间。

Gemini 2.5 Pro上线即“屠榜”

　　当地时间3月25日，谷歌宣布推出全新AI模型系列——Gemini 2.5。谷歌首席科学家Jeff Dean表示，Gemini 2.5是该公司最智能的模型，具有令人印象深刻的高级推理和编码能力。

　　Gemini 2.5系列属于“思考模型”，这意味着该模型在生成最终回应之前，能够进行内部的“思考”或推理过程。谷歌表示，这种能力旨在显著提升模型的性能表现和答案的准确性，是谷歌在强化学习、思维链提示技术领域长期深耕，以及对早期 “思考” 模型（如 Gemini 2.0 Flash Thinking ）持续探索的重要成果。

　　Gemini 2.5 Pro是这一系列模型的首发产品。谷歌表示，Gemini 2.5 Pro支持100万个token的上下文窗口，这意味着它一次性能处理相当于两本《红楼梦》字数的文本量。并且，谷歌承诺，Gemini 2.5 Pro很快将支持两倍的上下文窗口（即200万个token）。

　　目前，Gemini 2.5 Pro已在Google AI Studio和Gemini应用中推出，向Gemini Advanced用户开放，并将很快在Vertex AI上推出。

　　一经发布，Gemini 2.5 Pro便以出色的性能吸引了外界的广泛关注。谷歌在博客中强调，Gemini 2.5 Pro在一系列行业基准测试中达到了“最先进水平”（state-of-the-art），包括常见的编程、数学和科学基准测试。

　　在“人类的最后考试”测试中，它获得了18.8%的最高分数，这是目前为止所有未使用（外接工具）的大模型中最好的成绩。“人类最后的考试”是一个由全球近千名专家共同设计的多模态基准测试，旨在评估大型语言模型的能力极限。该测试包含3000道涵盖数学、人文学科和自然科学等多个领域的前沿问题。

“人类的最后考试”测试图片来源：谷歌官网

　　在专注于人类理解的大模型竞技场测试中，Gemini 2.5 Pro也以创纪录的优势拔得头筹，创下了历史最大的分数跨越，比Grok-3和GPT-4.5高出40多分。

图片来源：大模型竞技场

　　具体来看，在代号为“nebula”的测试中，Gemini 2.5 Pro横扫所有类别，夺得第一，独揽数学、创意写作、指令遵循、长查询和多轮对话这五大领域的冠军；

图片来源：X平台截图

　　在人类偏好测试中，Gemini 2.5 Pro同样是在所有类别中问鼎榜首，只在困难提示和编码领域与Grok-3/GPT-4.5拿到并列冠军。

人类偏好测试图片来源：大模型竞技场

　　在网页开发领域，Gemini 2.5 Pro也是脱颖而出，在WebDev Arena上排名第二，它较上一代Gemini有了巨大的飞跃，超越了Claude 3.5 Sonnet，是第一款能与Claude抗衡的模型，但仍低于Claude 3.7 Sonnet。

WebDev Arena测试图片来源：大模型竞技场

　　在Vision Arena（视觉竞技场）测试中，作为多模态模型的Gemini 2.5 Pro也处于领先的位置。

Vision Arena测试图片来源：大模型竞技场

记者实测：编程方面实力强大，但审美及玩家体验待提升

　　每经记者第一时间对Gemini 2.5 Pro进行了测试，测试包括数学、火星登陆模拟测试、网页开发和小游戏制作。

　　数学问题

　　每经记者抛出的是一个博士资格考试的群论数学问题：有多少个147阶的非同构群？

　　Gemini 2.5 Pro在数量和具体的非同构群上都给出了完美的解答。值得一提的是，此前记者也用这一问题对其他大模型进行了测试，Grok3、o3-mini和DeepSeek-R1都或多或少出现了错误，不是数量没找对，就是具体的非同构群出错。

　　火星登陆模拟

　　接下来，每经记者测试的是Gemini 2.5 Pro在数学和物理方面的综合能力。测试选择的是马斯克的经典问题：绘制一个登陆火星并返回的火箭轨道图。

　　Gemini 2.5 Pro给出了一个完成度超高的动态图像，包含任务天数、具体轨道示意图等要素。并且，它还称，这只是一个简单版本，如果允许它接入天体数据库的话，它还可以制作一个更准确的版本出来。

　　网页开发

　　在前端设计方面，每经记者要求它设计一个有互动性的世界风光介绍网站。

　　Gemini 2.5 Pro输出了一个完整的网站，并且带有景点介绍和互动地图探索相关功能。但是，在具体细节上，它犯了很多小错误，例如，景点介绍的图片不仅单一，而且还都是不相关的内容。此外，整体网页设计的色调也不甚美观。

　　小游戏制作

　　最后，每经记者让Gemini 2.5 Pro制作一个类似于flappy bird的小游戏，标准是卡通画风，背景要随游玩时间变换，玩家主角要是一个小飞象，要有有趣的玩法创新。

　　在短暂的思考后，Gemini 2.5 Pro输出了完成这个游戏需要的500多行代码。这一游戏非常完美地契合了每经记者给出的描述，并且对玩法创新的模糊描述也给出了良好的回应，自行思考出了无敌道具玩法，吃下金花生就可以在短时间内无敌。

　　更重要的是，这一游戏并没有出现任何bug，只需要复制粘贴就可以流畅运行。

　　在此前的大模型测试中，第一次的输出结果或多或少会出现一些bug，影响游戏体验。不过，还是要指出的一点是，Gemini 2.5 Pro只考虑了背景变化的要求，却没注意到其生成的游戏背景图案中，云朵变化速度过快，太费眼睛。

　　综上，每经记者认为，Gemini 2.5 Pro在科学类问题和编程等硬实力上实力满满，但在审美和玩家体验等软实力上还有一点欠缺。

　　想炒股，先开户！选东方财富证券，行情交易一个APP搞定>>

（文章来源：每日经济新闻）

文章来源：每日经济新闻责任编辑：91

原标题：谷歌Gemini 2.5 Pro上线即“屠榜”！每经记者实测：可轻松模拟火星登陆，快速制作小游戏，但审美能力有待提升

郑重声明：东方财富发布此内容旨在传播更多信息，与本站立场无关，不构成投资建议。据此操作，风险自担。

东方财富网

分享到微信朋友圈

打开微信，

点击底部的“发现”

使用“扫一扫”

即可将网页分享至朋友圈

扫描二维码关注

东方财富官网微信

网友评论

还可输入字

| 注册

清除

提交评论

郑重声明： 1.根据《证券法》规定，禁止编造、传播虚假信息或者误导性信息，扰乱证券市场；2.用户在本社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》

热门评论查看全部评论

全部评论