自去年以来,国内涌现出众多的通用大模型和垂类大模型,据不完全统计,目前国内公布的大模型数量已超过300个,大模型行业呈现出“百模大战”的格局。如今,大模型有了哪些新升级和新应用?今天,记者从正在东莞举行的华为开发者大会2024上了解到,华为常务董事、华为云CEO张平安发布盘古大模型5.0,在全系列、多模态、强思维三个方面全面升级。他表示,在过去的一年中,盘古大模型已在30多个行业、400多个场景中落地,在政务、金融、制造、医药研发、煤矿、钢铁、铁路、自动驾驶、工业设计、建筑设计、气象等领域发挥着巨大价值。华为云盘古大模型5.0还新增盘古钢铁大模型、盘古高铁大模型、盘古具身智能大模型、盘古工业设计大模型、盘古安全大模型及盘古媒体大模型等盘古行业大模型,以解决更多行业难题。
从全新发布的盘古大模型5.0中,可以发现其多模态新应用,更加精细化。
![](https://np-newspic.dfcfw.com/download/D24715399975701857628_w1080h810.jpg)
全新应用:人形机器人可以递水、击掌
随着华为云盘古大模型5.0发布,搭载盘古能力的人形机器人也同步亮相。盘古大模型能够让机器人完成10步以上的复杂任务规划,并且在任务执行中实现多场景泛化和多任务处理。同时盘古大模型还能生成机器人需要的训练视频,让机器人更快地学习各种复杂场景。
乐聚人形机器人夸父成功进行了识别物品、问答互动、击掌、递水等互动演示。
在这背后,是大模型的多模态能力以及思维能力的快速提升,使机器人能够模拟人类常识进行逻辑推理,并在现实环境中高效精准地执行任务,从而有效解决了复杂环境感知与物理空间认知的难题。而通过集成多场景泛化和多任务处理能力,盘古大模型赋予机器人前所未有的适应性和灵活性。
全新应用:数字人参会还能多语言精准匹配口型
需要参加会议时,但遇到无法开摄像头的情况如何解决?让数字人帮你参会!
在AI翻译方面,华为云盘古大模型对云会议系统进行了升级。通过基于大模型的语音复刻、AI文字翻译以及TTS技术,实现了语音的同声传译。这使得不同国家的人在云视频会议中可以畅快地使用母语交流。
在不方便开摄像头时,用户还可以通过数字人参会,并通过口型驱动实现数字人以各种语言说话都能精准匹配口型,如同本人说话一般,效果自然。
在这背后,是在语音生成方面的进展。盘古大模型通过AI原声译制与视频生成能力,实现了将原片译制成不同语言的视频,并保留原始角色的音色、情感和语气。更为重要的是,盘古还能同步生成新的口型,确保不同语言对应的口型一致,这也能使跨语言沟通更加自然流畅。
升级背后:云服务的持续优化加速了AI大模型开发
大模型的发展,离不开算力的支持。目前,华为云已经在贵安、乌兰察布和芜湖,构建了三大AI算力中心,以支持大家打造自己的百模千态。一年以来,华为云对昇腾AI云服务进行持续优化。目前昇腾AI云服务已全面适配行业主流的100多个大模型,以云服务的方式协助客户开发,训练,托管和应用模型。
据了解,随着大模型的发展演进,不同参数规格的模型形成了矩阵,适配了不同的业务场景。比如盘古大模型5.0包含十亿级参数的Pangu E系列可支撑手机、PC等端侧的智能应用;百亿级参数的Pangu P系列,适用于低时延、高效率的推理场景;千亿级参数的Pangu U系列适用于处理复杂任务;万亿级参数的Pangu S系列超级大模型能够帮助企业处理更为复杂的跨领域多任务。此外,聚焦自动驾驶、工业制造、建筑等多个行业场景,可生成更加符合物理规律的多模态内容,更符合行业需求。复杂逻辑推理是大模型成为行业助手的关键。据悉,此次盘古大模型5.0将思维链技术与策略搜索深度结合,极大地提升了数学能力、复杂任务规划能力以及工具调用能力。
文、图/广州日报新花城记者:陈薇薇
(文章来源:广州日报新花城)