昨天上午,商汤科技在2024世界人工智能大会上发布了国内首个“流式交互”多模态大模型“日日新5o”,并在现场进行一系列演示,展示了它对标GPT-4o的各种能力:能看懂现实世界,包括人、物、文字等符号;能听懂用户的话语,并根据其中的指令对现实世界进行识别,再向用户反馈;能看书识字,概括书本所讲的内容……
商汤科技董事长兼首席执行官徐立介绍,这种“流式交互”大模型在整合跨模态信息的基础上,将大语言模型、语音模型、图像理解模型“三合一”,从而能够实现没有时延地在声音、文本、图像和视频等各种模态之间自由切换,为用户流畅地“解读”现实世界。
商汤研发人员认为,“流式交互”大模型的潜在应用场景有很多,比如在教育领域,它可以为儿童讲解绘本,为他们解算术题;在养老领域,它可以与老年人聊天,提供情绪价值。随着人形机器人和“具身智能”的兴起,机器人的“大脑”和“五官”也需要这类大模型,从而更有效地识别周边环境,成为人类的得力助手。
“日日新5o”的各种功能离不开基模型“日日新5.5”的支撑。今年4月发布的“日日新5.0”是国内首个对标GPT-4 Turbo的大模型,经过两个多月技术迭代,“日日新5.5”实现了多项功能升级,综合性能较“日日新5.0”平均提升30%,在数学推理、英文能力、指令跟随等能力上明显增强,交互效果和多项核心指标可比肩GPT-4o。
在发布“日日新5.5”基模型和“日日新5o”多模态大模型的同时,商汤也发布了“日日新5.5-lite”端侧模型。这类模型可以部署在智能手机、平板电脑、车载电脑、VR(虚拟现实)一体机等各种设备端,与云端大模型相比,响应速度更快,所需算力资源更少,是实现大模型落地应用的重要产品。徐立表示,“日日新5.5-lite”可支持写作、百科知识等多种业务方向,同时支持端侧快速部署和云端调用。
(文章来源:解放日报)