2023年,大模型狂奔一年后,很快就遇到了瓶颈。Scaling law(指随着参数量的增加,模型性能也将提高)的存在,让大模型的能力似乎没有了上限,但是,用于训练大模型的数据和算力却十分有限。
DeepMind在题为“Training Compute-Optimal Large Language Models”的论文中深入地探究了Scaling问题,最终得出结论:对模型进行其本身参数量20倍token数量的训练才较为充分。
目前,已知闭源模型中训练token数最多的是GPT4,约为20T;开源模型中训练token数最多的是LLaMA3,为15T。照此计算,如果一个5000亿参数的Dense模型要达到相同的训练效果,则需要训练token数为107T,而这,已远超当前业界拥有的数据量。
不过,对于数据问题,业界已经找到了一条解决路径——使用合成数据。有预测数据显示,到2030年,人工智能使用的合成数据将超过真实数据,这将大大缓解数据短缺的问题。
然而,即便有了足够多的训练数据,算力挑战仍然严峻。有测算数据显示,训练一个5000亿参数规模的Dense模型,基础算力设施投入约为10亿美元,若无故障运行21个月,电费约为5.3亿元。这样的算力投入,现阶段也只有极少数企业能够承担。
在此背景,业界也不得不去探索效率更高的模型架构,而MoE(Mixture of Experts,混合专家模型)架构的出现,让业界看到了希望。
更先进的模型架构
今年,已有多个大模型厂商完成架构升级,并发布了基于MoE架构的大模型,从测试数据来看,新架构下的大模型性能有了明显提升。5月28日,浪潮信息也发布了“源2.0-M32” 开源大模型,这是包含了32个专家(Experts)的MoE大语言模型。
浪潮信息人工智能首席科学家吴韶华向21世纪经济报道记者表示,源2.0-M32凭借特别优化设计的模型架构,在仅激活37亿参数的情况下,取得了和700亿参数LLaMA3相当的性能水平,而所消耗算力仅为LLaMA3的1/19。
MoE架构本质上是一种更高效的Scaling技术,它能通过多个专家模型来处理输入数据的不同任务。
简单来说,MoE架构的核心逻辑就是将输入数据分配给最适合处理该数据的专家。而且这种架构允许模型通过增加专家的数量来扩展,从而提高了模型处理特定任务的能力。
吴韶华表示,门控功能“稀疏性”的引入让MoE在处理输入数据时只激活使用少数专家模型,大部分专家模型处于未激活状态。换言之,只有擅长某一特定领域的模型会被派遣,为用户提供最专业的服务,而其他模型则原地待命,静待自己擅长的领域到来。
这种“稀疏状态”是混合专家模型的重要优势,也进一步提升了模型训练和推理过程的效率。除此之外,MoE模型的另一个显著优势是,它们能够在远少于稠密模型所需的计算资源下进行有效的预训练。
“这意味着在相同的计算预算条件下,可以显著扩大模型或数据集的规模。特别是在预训练阶段,与稠密模型相比,混合专家模型通常能够更快地达到相同的质量水平。”吴韶华说。
中信证券在一份研报中指出,随着大模型体量增长,多模态能力和推理效率成为业界竞争新焦点。Dense架构在处理图像、视频等非结构化数据时效率较低,预计未来1-2年MoE等新型架构将成为主流。
要性能,更要效率
在采访过程中,吴韶华反复强调“模算效率”。他表示,浪潮信息在大模型的探索过程中,一直都在追求更高效的智能涌现。
其以2021年发布的源1.0大模型为例称,当时源1.0的训练算力效率就达到了44.8%,而GPT-3大模型在其V100 GPU集群上的训练算力效率仅为21.3%。
所以这次发布“源2.0-M32”大模型,浪潮信息也是希望在有限的算力和训练Token资源条件下,寻找到一条更可行的路径,从而实现能耗更低、推理和训练效果更优的大模型开发。
需要指出的是,在MoE架构的基础上,浪潮信息在算法层面也做了进一步创新,比如其采用了一种新型算法结构——基于注意力机制的门控网络(Attention Router)。
吴韶华称,当前流行的MoE结构大都采用简单的调度策略,其本质是将token与代表每个专家的特征向量进行点积,随后挑选点积结果最大的专家,这种情况忽略了专家之间的相关性。
而浪潮信息提出的新算法结构,会关注专家模型之间的协同性度量,在计算过程中可以将输入样本中任意两个token通过一个计算步骤直接联系起来,解决了传统的门控机制中,选择两个或多个专家参与计算时关联性缺失的问题,从而使得专家之间协同处理数据的水平大为提升。
基于这些创新,源2.0-M32的性能在MATH(数学竞赛)、ARC-C(科学推理)等榜单上超越了拥有700亿参数的LLaMA3大模型。而在相同智能水平下,源2.0-M32又显著降低了模型训练、微调和推理所需的算力开销。
据吴韶华透露,在模型推理运行阶段,源2.0-M32处理每token所需算力为7.4GFLOPs,而LLaMA3-70B所需算力为140GFLOPs。在模型微调训练阶段,对1万条平均长度为1024 token的样本进行全量微调,源2.0-M32消耗算力约0.0026PD(PetaFLOPs/s-day),而LLaMA3消耗算力约为0.05PD。
事实上,在大模型落地的起步阶段,市场需要的不仅仅是模型能力,更需要性价比。吴韶华也表示,“在保证模型智能高水平的基础上,有效降低模型落地的算力门槛,才能加速智能技术在千行百业的普及和应用。”
(文章来源:21世纪经济报道)