日前,全国首个官方“大模型标准符合性测试”结果公布。百度文心一言、腾讯混元大模型、360智脑、阿里云通义千问四款国产大模型首批通过测试,符合《人工智能大规模预训练模型第2部分:评测指标与方法》语言大模型的相关技术要求,通用性、智能性等维度达到国家相关标准。截至发稿,百度、阿里云、腾讯云和360均已官宣该消息。
四家大模型率先通过测试
据悉,“大模型标准符合性评测” 由中国电子技术标准化研究院发起,旨在建立大模型标准符合性名录,引领人工智能产业健康有序发展。该评测对外征集了学术界、产业界几十家头部单位意见,围绕多维度展开,涵盖语言、语音、视觉等多模态领域,是基于官方大模型测试基准的权威评测。
记者查询公开资料获悉,今年8月31日,全国信息技术标准化技术委员会人工智能技术委员会秘书处就发布了启动大模型标准符合性评测的通知。通知明确,将基于大模型测试基准,开展模型的理解能力、生成能力、安全性等维度评测,为评估大模型能力水平提供全面的测试报告。
在12月22日举行的全国信息技术标准化技术委员会人工智能分委会全体会议上,“大模型标准符合性测试”结果公布,百度文心一言、腾讯混元大模型、360智脑、阿里云通义千问四家大模型率先通过测试。
中国信息通信研究院有关负责人此前曾表示,大模型作为产业智能化基座,在识别、理解、决策、生成等任务中表现出泛化性、通用性、迁移性潜力,与实体经济深度绑定,在金融、工业、能源等领域进一步落地,持续释放技术红利。然而,当前大模型产品种类繁多、实际生产价值难以量化、能力判断标准尚未统一,亟需通过标准符合性验证等手段进行全面评价,推动产业高质量发展。业内人士分析,通过国家标准符合性测试,意味着相关大模型在通用性、智能性等方面达到国家标准,未来可以在更广泛的场景中应用,满足不同行业和用户的需求。
四家大模型各有千秋
记者梳理发现,首批通过“大模型标准符合性测试”的大模型,均有各自的特点与优势。
百度文心一言是中国市场第一个公开发布的基于大语言模型的生成式人工智能产品。自今年3月16日发布以来,其基础模型目前已经迭代到文心大模型4.0版本。在10月举行的百度世界大会上,百度创始人李彦宏表示,文心4.0是迄今为止最强大的文心大模型,实现了基础模型的全面升级,在理解、生成、逻辑和记忆能力上都有着明显提升,综合水平“与GPT-4相比毫不逊色”。
基于百度在搜索业务上的多年积累,文心一言在自然语言问答、文本写作、创意内容生成等方面有比较突出的表现。百度集团副总裁吴甜在近期的一场公开演讲中介绍,文心一言从数万亿数据和数千亿知识中融合学习,训练出优秀的基础模型,采用有监督精调、人类反馈强化学习、提示等技术进一步优化,具备知识增强、检索增强和对话增强的特色技术优势。
阿里云通义千问是四家大模型中唯一的开源大模型。据阿里云介绍,通义千问大模型在全球拥有广泛的开发者用户和企业客户,其性能表现及安全性得到了大范围的公开检验。12月1日开源后,通义千问72B在10个权威基准评测中创下开源模型最优成绩,并力压Meta公司的开源大模型Llama2登顶海外最具权威性的AI开源社区HuggingFace排行榜,此后又登上国内上海人工智能实验室OpenCompass榜首,成为业界公认的性能最强开源大模型。
据了解,阿里云已开源通义千问18亿、70亿、140亿、720亿参数的4款大语言模型。阿里云首席技术官周靖人曾表示,开源生态对促进中国大模型的技术进步与应用落地至关重要,通义千问将持续投入开源,希望成为“AI时代最开放的大模型”,与伙伴们共同促进大模型生态建设。
腾讯混元大模型是四家中发布时间最晚的,于今年9月7日的2023腾讯全球数字生态大会上才正式亮相。据介绍,混元大模型拥有超千亿的参数规模、超2万亿tokens的预训练语料,具备强大的中文创作能力,复杂语境下的逻辑推理能力以及可靠的任务执行能力。
值得注意的是,腾讯与其他大模型厂商相比,更强调行业应用和落地。在9月正式发布混元大模型以前,腾讯云早在6月就召开了发布会,正式公布行业大模型研发进展,并发布面向B端客户的腾讯云MaaS(Model as a Service,模型即服务)解决方案。据介绍,腾讯云MaaS的技术底座是一系列的行业大模型,包括金融、政府、文旅、传媒、教育等。基于这些基础模型,腾讯云的客户只要加入自己的场景数据,就可以生成契合自身业务需要的“专属模型”。
360智脑大模型则侧重于安全性。360表示,公司自研的360智脑大模型拥有千亿级参数规模,具备生成创作、多轮对话、逻辑推理等十大核心能力、数百项细分功能,覆盖大模型应用全场景,综合能力位列世界大模型第一梯队,并依托360在安全领域的积累和优势,成为全国首个原生安全的大模型。
据360近日最新发布,360集团与统信软件于近日达成战略合作,将发挥各自优势,构建安全可控企业级大模型。据360介绍,双方联合打造的企业大模型将重点解决大模型安全可信可控等问题,360智脑大模型现拥有国内最为完善的安全机制,能够把大模型在网络安全、数据安全、算法安全、生成内容安全的风险降到最低。
(文章来源:证券时报)