阶跃星辰李璟：2025年将是Agent落地元年推理能力和多模态是研究重点

行情中心

指数期指期权个股板块排行新股基金港股美股期货外汇黄金自选股自选基金

数据中心

资金流向主力排名板块资金个股研报新股申购转债申购北交所申购 AH股比价年报大全融资融券龙虎榜限售解禁 IPO审核大宗交易估值分析

首页 > 财经频道 > 正文

阶跃星辰李璟：2025年将是Agent落地元年推理能力和多模态是研究重点

2025年03月12日 13:20

来源：科创板日报

小中大

东方财富APP

方便，快捷

手机查看财经快讯

专业，丰富

一手掌握市场脉搏

手机上阅读文章

提示：

微信扫一扫

分享到您的

朋友圈

　　《科创板日报》3月12日讯（记者陈美）近日，“陆家嘴金融沙龙”第二期在上海浦东陆家嘴圆满举行。本期沙龙围绕“资本市场大时代：AI+千行百业”这一主题，展开深度研讨与交流。参会嘉宾、国内知名AI大模型公司上海阶跃星辰副总裁李璟发表了关于AI大模型发展的演讲，探讨了Agent在当前科技趋势下的重要性与应用前景。

　　“从今年1月份已经感受到大模型行业的热潮。”李璟谈到，对于AGI的发展过程，有三个阶段的理解。一是模拟设计阶段，这一阶段模型主要对语料进行表征模仿训练，包括视频、声音、语言、图像、4D时空等。

　　二是模型解决问题阶段，在这一阶段中，目前以强化学习范式为核心的模型登上舞台，最近大火的DeepSeek-R1，更早时间的AlphaGo系列学术成果，背后都是强化学习。“在这一阶段中，强逻辑推理时代将带来很多Agent的诞生。”

　　三是归纳阶段，模型可以达到人一样的智能。苹果砸到牛顿头上砸出万有引力定律，模型也应该能自主探索科学规律；在归纳阶段，AI可以主导一系列模型创新。

　　“就发展方向来看，近期强化学习以及新的RAG范式模型成为热议焦点。”李璟表示，作为科技从业者，更关注深度求索背后的DeepSeek-R1 Zero，这是一种纯强化确定框架模型范式。

　　在视觉推理能力的前沿探索方面，人形机器人对视觉推理能力有极高需求。但当前视觉模型仍处于类似强化学习之前的GPT范式中，未能很好地解决“理解与生成统一”的问题。“对于人类而言能轻易完成的任务，如统计照片中的人数、描述特定位置人员穿着等，现有模型存在一定难度。一旦模型探索出视觉推理能力，这将极大推动人形机器人等产业的应用。”

　　除了偏推理范式的模型，多模态感知也十分关键。李璟认为，人类是多模态动物，具备语言、视觉、听觉、嗅觉等多种感知方式，能天然进行多模输入交互。“以当前最强的图片理解模型为例，在模拟人形机器人场景中，要求机械手在维持桌面整洁的同时取出书籍。多模态模型能够给出良好反馈，展现出一定的推理能力，尽管多模态模型仍处于早期阶段，但已彰显多模交互在理解上的强大感知能力。”

　　在视频理解方面，这是一项颇具挑战的任务。对于无字幕和配音的视频，多模态理解模型能够发挥作用。在终端场景中，语音交互也是重要的交互入口。

　　“过去的三段式语音模型，即先语音转文字，再经大模型处理得到文字回复，最后转换成语音，存在诸多弊端”，李璟解释称，为解决这些问题，业界推出了生成、理解一体化方案，输入输出均为语音。

　　基于行业的变化，2025年将是令人兴奋的Agent落地元年。在李璟看来，Agent的实现主要依赖两大能力：一是多模态交互能力。过去一年，声音和视觉等多模态交互取得了显著进展。二是慢思考的推理能力。以强化学习为代表的强推理模型的出现，推动了这一技术的良好发展。“基于这两种能力，我们坚信今年将是Agent落地的关键一年。”

　　在Agent的实际应用方面，李璟表示，看好两个领域：一是终端领域，在与一些手机厂商的合作中，看到了下一代终端的潜力。二是金融行业。除手机终端外，金融业也是Agent的天然落地场所。金融行业需要深度思考和准确信息，这是单一大模型范式难以解决的。

（文章来源：科创板日报）

文章来源：科创板日报责任编辑：43

原标题：阶跃星辰李璟：2025年将是Agent落地元年推理能力和多模态是研究重点

郑重声明：东方财富发布此内容旨在传播更多信息，与本站立场无关，不构成投资建议。据此操作，风险自担。

东方财富网

分享到微信朋友圈

打开微信，

点击底部的“发现”

使用“扫一扫”

即可将网页分享至朋友圈