阶跃星辰李璟:2025年将是Agent落地元年 推理能力和多模态是研究重点
2025年03月12日 13:20
来源: 科创板日报
东方财富APP

方便,快捷

手机查看财经快讯

专业,丰富

一手掌握市场脉搏

手机上阅读文章

提示:

微信扫一扫

分享到您的

朋友圈

  《科创板日报》3月12日讯(记者陈美)近日,“陆家嘴金融沙龙”第二期在上海浦东陆家嘴圆满举行。本期沙龙围绕“资本市场大时代:AI+千行百业”这一主题,展开深度研讨与交流。参会嘉宾、国内知名AI大模型公司上海阶跃星辰副总裁李璟发表了关于AI大模型发展的演讲,探讨了Agent在当前科技趋势下的重要性与应用前景。

  “从今年1月份已经感受到大模型行业的热潮。”李璟谈到,对于AGI的发展过程,有三个阶段的理解。一是模拟设计阶段,这一阶段模型主要对语料进行表征模仿训练,包括视频、声音、语言、图像、4D时空等。

  二是模型解决问题阶段,在这一阶段中,目前以强化学习范式为核心的模型登上舞台,最近大火的DeepSeek-R1,更早时间的AlphaGo系列学术成果,背后都是强化学习。“在这一阶段中,强逻辑推理时代将带来很多Agent的诞生。”

  三是归纳阶段,模型可以达到人一样的智能。苹果砸到牛顿头上砸出万有引力定律,模型也应该能自主探索科学规律;在归纳阶段,AI可以主导一系列模型创新。

  “就发展方向来看,近期强化学习以及新的RAG范式模型成为热议焦点。”李璟表示,作为科技从业者,更关注深度求索背后的DeepSeek-R1 Zero,这是一种纯强化确定框架模型范式。

  在视觉推理能力的前沿探索方面,人形机器人对视觉推理能力有极高需求。但当前视觉模型仍处于类似强化学习之前的GPT范式中,未能很好地解决“理解与生成统一”的问题。“对于人类而言能轻易完成的任务,如统计照片中的人数、描述特定位置人员穿着等,现有模型存在一定难度。一旦模型探索出视觉推理能力,这将极大推动人形机器人等产业的应用。”

  除了偏推理范式的模型,多模态感知也十分关键。李璟认为,人类是多模态动物,具备语言、视觉、听觉、嗅觉等多种感知方式,能天然进行多模输入交互。“以当前最强的图片理解模型为例,在模拟人形机器人场景中,要求机械手在维持桌面整洁的同时取出书籍。多模态模型能够给出良好反馈,展现出一定的推理能力,尽管多模态模型仍处于早期阶段,但已彰显多模交互在理解上的强大感知能力。”

  在视频理解方面,这是一项颇具挑战的任务。对于无字幕和配音的视频,多模态理解模型能够发挥作用。在终端场景中,语音交互也是重要的交互入口。

  “过去的三段式语音模型,即先语音转文字,再经大模型处理得到文字回复,最后转换成语音,存在诸多弊端”,李璟解释称,为解决这些问题,业界推出了生成、理解一体化方案,输入输出均为语音。

  基于行业的变化,2025年将是令人兴奋的Agent落地元年。在李璟看来,Agent的实现主要依赖两大能力:一是多模态交互能力。过去一年,声音和视觉等多模态交互取得了显著进展。二是慢思考的推理能力。以强化学习为代表的强推理模型的出现,推动了这一技术的良好发展。“基于这两种能力,我们坚信今年将是Agent落地的关键一年。”

  在Agent的实际应用方面,李璟表示,看好两个领域:一是终端领域,在与一些手机厂商的合作中,看到了下一代终端的潜力。二是金融行业。除手机终端外,金融业也是Agent的天然落地场所。金融行业需要深度思考和准确信息,这是单一大模型范式难以解决的。

(文章来源:科创板日报)

文章来源:科创板日报 责任编辑:43
原标题:阶跃星辰李璟:2025年将是Agent落地元年 推理能力和多模态是研究重点
郑重声明:东方财富发布此内容旨在传播更多信息,与本站立场无关,不构成投资建议。据此操作,风险自担。
举报
分享到微信朋友圈

打开微信,

点击底部的“发现”

使用“扫一扫”

即可将网页分享至朋友圈

扫描二维码关注

东方财富官网微信


扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500