今天,上海人工智能实验室向社会用户开放了实验室开发的“书生·浦语”大模型,并在这个大模型界面上发布了强推理模型InternThinker(书生思想者)。InternThinker模型具有长思维能力,并能在推理过程中进行反思和纠正,从而在数学、代码、推理谜题等多种复杂推理任务上取得更优结果。
据介绍,上海人工智能实验室一直在开展强推理模型的原创研究,探索出一条高效构建高质量思维链的路径。在训练数据侧,实验室在国内率先开发出大规模合成数据技术;在任务场景侧,InternThinker模型在数学、代码、推理谜题等多种场景中,都能展现出较强的推理能力,并具备一定的任务泛化性。
InternThinker研发团队针对专业任务构建了大规模的沙盒环境。
为高效提升模型的推理能力,实验室研发团队采用了更接近人类学习方式的路径。人在学习解决复杂推理任务时,并非从海量的样本中学习单点知识,而是学习一种思维模式——在解决问题的过程中,通过回忆相关知识点,对正确的解题过程进行理解、记忆,对错误解题等过程进行反思和修正。这种人类学习的能力被称为“元认知”能力。“元认知”理论认为,通过显式地引导和感知人在解决问题过程中的思维模式,可提升复杂任务的学习和解决效果。
受这一理论的启发,研发团队设计了一系列“元动作”来引导模型解决问题的过程,如对问题的理解、知识回忆、规划、执行、反思、总结等。InternThinker在面对复杂任务时,会显式且动态地选择“元动作”,再进一步展开相关动作的具体思维过程。通过这种设计,研发团队利用部分训练任务,可强化模型对关键“元动作”组合的使用,显著提升模型学习效率。
在未经“元动作”引导和学习的情况下,模型在解决问题时多采用链式推理策略,难以解决更加复杂的任务并进行自我纠错。经过“元动作”的引导和学习后,模型能够在解决复杂任务时自发使用“回忆知识—解答”“执行—反思”等策略组合。
面对丰富多样的推理任务,如何准确地获得过程和结果反馈尤为关键。为此,研究人员针对专业任务构建了大规模的沙盒环境(为运行中的程序提供的隔离环境),为可形式化验证的推理任务提供反馈信号。通过自动化专家模型、人机协同策略生成等方法,他们构建了50种以上不同逻辑思维方式的推理任务思考过程,将执行专业任务的能力融合到InternThinker中。
这个强推理模型解决复杂问题的能力如何?上海人工智能实验室展示了多个案例。
“袋子A中装有2张10元纸币和3张1元纸币,袋子B中装有4张5元纸币和3张1元纸币。现随机从两个袋子中各取出两张纸币,则A中剩下的纸币面值之和大于B中剩下的纸币面值之和的概率是多少?”面对这道“烧脑”的概率问题,采用链式思维策略的推理模型给出了4/7这一错误答案,而InternThinker采用“元动作”引导的多样策略,经过问题理解、回忆知识、思路规划、执行、反思检查等多个推理步骤,得出了9/35这一正确答案。
InternThinker与其他推理模型解答概率问题的过程比较
在解答今年全国高中生数学竞赛联赛题目、Leetcode(面向全球信息技术人才的技能成长平台)本月发布的代码编写赛题、填字游戏等“烧脑”题目时,InternThinker也有很好表现。
InternThinker解答今年9月全国高中生数学竞赛联赛一道题目的过程
(文章来源:上观新闻)