检验大模型数学推理能力司南发布全新评测指标与评测集

行情中心

指数期指期权个股板块排行新股基金港股美股期货外汇黄金自选股自选基金

数据中心

资金流向主力排名板块资金个股研报新股申购转债申购北交所申购 AH股比价年报大全融资融券龙虎榜限售解禁 IPO审核大宗交易估值分析

首页 > 财经频道 > 正文

检验大模型数学推理能力司南发布全新评测指标与评测集

2024年12月25日 23:10

来源：界面新闻

小中大

东方财富APP

方便，快捷

手机查看财经快讯

专业，丰富

一手掌握市场脉搏

手机上阅读文章

提示：

微信扫一扫

分享到您的

朋友圈

　　近日，大模型开放评测体系司南（OpenCompass）推出评测指标G-Pass@k及数学评测集LiveMathBench，旨在检验大模型的数学推理能力，加速大模型在高难度推理场景中的落地应用。基于最新提出的评测集及指标，OpenCompass团队对主流通用大模型、数学大模型及强推理模型进行了多轮评测并观察到：闭源、开源模型均无法进行稳定的复杂推理；增大参数规模对推理能力提升有限；强推理模型的性能潜力和实际表现之间存在显著的差距，亟待解决在实现最佳性能的同时保持稳定性。

（文章来源：界面新闻）

文章来源：界面新闻责任编辑：137

原标题：检验大模型数学推理能力，司南发布全新评测指标与评测集

郑重声明：东方财富发布此内容旨在传播更多信息，与本站立场无关，不构成投资建议。据此操作，风险自担。

东方财富网

分享到微信朋友圈

打开微信，

点击底部的“发现”

使用“扫一扫”

即可将网页分享至朋友圈