商汤发布多模态推理大模型,可生成6万字长思维链,10秒解说视频亮点
2025年04月10日 23:44
来源: 上观新闻
10人评论
25
5
东方财富APP
Scan me!

方便,快捷

手机查看财经快讯

专业,丰富

一手掌握市场脉搏

手机上阅读文章
Scan me!

提示:

微信扫一扫

分享到您的

朋友圈

K图 00020_0

  全新妙想投研助理,立即体验

  AI似乎已让人陷入审美疲劳。去年12月,在OpenAI举行的ChatGPT两周年发布会上,人们并没有等来新一代大模型GPT-5,号称世界上参数最大的Grok-1也没有赢得足够的掌声。原因可能是撞上了“数据墙”。

  有数据表明,互联网上可用的人类文本数据将在2028年消耗殆尽。但这并不意味着知识被耗尽,人类社会的更多知识存在于图片、声音和视频等多模态之中。

  今天的商汤技术交流日上,商汤科技发布了“商汤日日新 SenseNova V6(简称日日新V6)”,它具备最长64K思维链、多模态深度推理、全局记忆等能力,支持10分钟的视频推理及深度推理。

  “文字并非与AI交互的最终形态,更自然的交互是无处不在的多模态。”商汤科技联合创始人、大模型首席科学家林达华说。AI2.0时代的游戏规则,似乎变了。

多模态长思维链重塑AI“智力”

  俗话说“一图胜千言”,许多用文字难以描述的事情,一张图就懂了。显然,声音、图片和视频等多模态是人类智能的核心要素,每个人从出生起就通过眼睛从外部世界获取知识,到了一定年龄才会去学习文字。

  日日新V6的核心突破是构建出多模态长思维链。当你向它发送一段语音、一张图片或一段视频,思维链主引擎就开始工作了。它会调用商汤10年间在多模态上积累的各种能力,给出反馈并不断循环,直到输出高质量多模态长思维链。“这条思维链最长可达64K,相当于在得到答案前,大模型已思考了6万字。”商汤科技董事长兼首席执行官徐立说。

  多模态对于提升大模型“智力”如此重要,但想要落地却并不容易。在预训练过程中,如果将不同数据流一股脑儿喂给大模型,容易“消化不良”。商汤掌握了不同数据流之间的桥接方法,走通了多模态预训练这条路。

  另一个难点在于。视频输入相对于文字的数据量暴增。徐立表示,即使以每秒一帧的频率采集视频数量,输入量也是文字的400倍。商汤通过多维信息压缩解决了多模态视频输入的长上下文问题,率先在国内突破长视频理解的上限,可支持10分钟的视频理解及深度推理。

“日日新”模型走向“日日用”

  发布会上,徐立将更多时间留给了应用场景。购物比价、店铺经营、游戏解说、文化商旅、具身智能、情感陪伴……一个个鲜活场景轮番登场,让人惊呼AI应用将深入生活的方方面面。

  最大的受益群体可能是家长,因为多模态大模型可以辅导功课和讲故事了。以往AI在辅助作业方面最大的应用是拍照搜题,但这并不能让孩子学会解题思路。日日新V6能找到孩子在解题过程中出错的那个环节,并像老师一样针对错误予以讲解。

  睡前给孩子读绘本也是一些家长的“必修课”,可是有些绘本文字不多,需要家长自己理解后转述给孩子。这个工作也能交给日日新V6,它拥有强大的“看图说话”能力,几张图就能编出一个有趣的故事,有时还能给出意想不到的结局。

  视频博主的生态也将由此改变。现场展示了热门游戏《黑神话悟空》的打斗片段,日日新V6不仅能将打斗中的精彩时刻剪辑出来,还能配上解说词:“当BOSS纵身跃下,长矛划出完美抛物线,玩家立即后撤步拉开距离,这是防止被连击的核心操作……”,这一切在10秒内完成。

  如果将这一能力移植到旅游,将带给人全新体验。上海西岸文化产业投资发展有限公司副总经理蔡彭菲介绍,上海西岸未来将营造AI2.0文旅体验。比如,获取信息不必扫二维码,只要将手机对准目标,AI就能自动“开讲”;将游玩时长、个人兴趣输入大模型,它会主动生成导览路线;旅游中“随手拍”也不妨扔给大模型,让它为你剪出精彩瞬间……

多模态模型迈向舞台中央

  生成式AI爆发后,多模态大模型早已成为人们追求的方向。谷歌认为,只有从头开始的多模态才能构建出超越前代的先进模型。这意味着它天生地可以读取和输出不同模态内容,还具备强大的多模态推理能力和跨模态迁移能力。

  这被称为“原生融合多模态技术”,被认为是AI未来发展的必由之路,也是商汤始终坚持的研发重点。林达华表示,一流企业需要有引领能力,而非紧跟热点。

  2023年4月,商汤首次推出商汤日日新SenseNova大模型体系。经过5个版本迭代,去年7月推出的日日新5.5版本成为国内首个对标GPT-4o的多模态实时交互大模型,实现了语音、视频和语言模型的原生融合。日日新V6pro在多模态推理能力上相较5.5版本提升104%,纯文本能力提升55%。

  自去年10月,商汤科技确立了“大装置-大模型-应用”三位一体核心战略后,其发展策略似乎变了。徐立也坦言,过去商汤的场景大多较为宏大,比如城市管理、智能工业、电网,而此次发布会则显得更有人情味。这是因为当时的模型只能针对单一任务实现闭环价值,随着大模型变得更加通用,反而让它走到更多人身边,变成“日用品”。

  大模型赛道风起云涌,3个月不创新格局就会变。可以预见,手握多模态的交互入口,商汤已在AI应用新一轮爆发来临之前领先“一个身位”。

(文章来源:上观新闻)

文章来源:上观新闻 责任编辑:137
原标题:商汤发布多模态推理大模型,可生成6万字长思维链,10秒解说视频亮点
郑重声明:东方财富发布此内容旨在传播更多信息,与本站立场无关,不构成投资建议。据此操作,风险自担。
举报
分享到微信朋友圈
Scan me!

打开微信,

点击底部的“发现”

使用“扫一扫”

即可将网页分享至朋友圈

扫描二维码关注

东方财富官网微信

还可输入
清除
提交评论
郑重声明: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。 《东方财富社区管理规定》
热门评论 查看全部评论
全部评论
最新 最热 最早
2025-04-11 09:46:14 来自 山西
业绩才是王道,其它都是浮云。
置顶 删除 举报 评论 点赞
2025-04-11 08:44:30 来自 广东
商汤缺少一位跟雷军一样流量高手创始人。
置顶 删除 举报 评论 2
SZGM168 回复 股友nAxZ3d : 也要有位能吹的创始人,股票才能受到关注和青睐。
2025-04-11 09:21:46 来自 广东
删除 举报 评论 点赞
股友nAxZ3d : 雷军的产品都是消费品,面相普通大众。商汤的客户,主要是大客户,技术壁垒才是关键
2025-04-11 09:16:27 来自 江苏
删除 举报 评论 点赞
2025-04-11 07:44:56 来自 广东
好的孵化一大堆,就是需要时间。
置顶 删除 举报 评论 点赞
2025-04-11 07:20:14 来自 上海
可以用于军事情报分析
置顶 删除 举报 评论 1
2025-04-11 07:16:04 来自 广东
Ai能修门锁、换轮胎、种树吗?仅是将一些已发生的陈年旧事,重新组织交给你。
置顶 删除 举报 评论 点赞
加载更多
查看全部评论

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500
搜索
复制