更高效的Scaling技术：MoE架构为何获得大模型厂商青睐？丨GAI进化论

行情中心

指数期指期权个股板块排行新股基金港股美股期货外汇黄金自选股自选基金

数据中心

资金流向主力排名板块资金个股研报新股申购转债申购北交所申购 AH股比价年报大全融资融券龙虎榜限售解禁 IPO审核大宗交易估值分析

首页 > 财经频道 > 正文

更高效的Scaling技术：MoE架构为何获得大模型厂商青睐？丨GAI进化论

2024年05月29日 18:09

作者：白杨

来源： 21世纪经济报道

小中大

东方财富APP

方便，快捷

手机查看财经快讯

专业，丰富

一手掌握市场脉搏

手机上阅读文章

提示：

微信扫一扫

分享到您的

朋友圈

　　2023年，大模型狂奔一年后，很快就遇到了瓶颈。Scaling law（指随着参数量的增加，模型性能也将提高）的存在，让大模型的能力似乎没有了上限，但是，用于训练大模型的数据和算力却十分有限。

　　DeepMind在题为“Training Compute-Optimal Large Language Models”的论文中深入地探究了Scaling问题，最终得出结论：对模型进行其本身参数量20倍token数量的训练才较为充分。

　　目前，已知闭源模型中训练token数最多的是GPT4，约为20T；开源模型中训练token数最多的是LLaMA3，为15T。照此计算，如果一个5000亿参数的Dense模型要达到相同的训练效果，则需要训练token数为107T，而这，已远超当前业界拥有的数据量。

　　不过，对于数据问题，业界已经找到了一条解决路径——使用合成数据。有预测数据显示，到2030年，人工智能使用的合成数据将超过真实数据，这将大大缓解数据短缺的问题。

　　然而，即便有了足够多的训练数据，算力挑战仍然严峻。有测算数据显示，训练一个5000亿参数规模的Dense模型，基础算力设施投入约为10亿美元，若无故障运行21个月，电费约为5.3亿元。这样的算力投入，现阶段也只有极少数企业能够承担。

　　在此背景，业界也不得不去探索效率更高的模型架构，而MoE（Mixture of Experts，混合专家模型）架构的出现，让业界看到了希望。

　　更先进的模型架构

　　今年，已有多个大模型厂商完成架构升级，并发布了基于MoE架构的大模型，从测试数据来看，新架构下的大模型性能有了明显提升。5月28日，浪潮信息也发布了“源2.0-M32” 开源大模型，这是包含了32个专家（Experts）的MoE大语言模型。

　　浪潮信息人工智能首席科学家吴韶华向21世纪经济报道记者表示，源2.0-M32凭借特别优化设计的模型架构，在仅激活37亿参数的情况下，取得了和700亿参数LLaMA3相当的性能水平，而所消耗算力仅为LLaMA3的1/19。

　　MoE架构本质上是一种更高效的Scaling技术，它能通过多个专家模型来处理输入数据的不同任务。

　　简单来说，MoE架构的核心逻辑就是将输入数据分配给最适合处理该数据的专家。而且这种架构允许模型通过增加专家的数量来扩展，从而提高了模型处理特定任务的能力。

　　吴韶华表示，门控功能“稀疏性”的引入让MoE在处理输入数据时只激活使用少数专家模型，大部分专家模型处于未激活状态。换言之，只有擅长某一特定领域的模型会被派遣，为用户提供最专业的服务，而其他模型则原地待命，静待自己擅长的领域到来。

　　这种“稀疏状态”是混合专家模型的重要优势，也进一步提升了模型训练和推理过程的效率。除此之外，MoE模型的另一个显著优势是，它们能够在远少于稠密模型所需的计算资源下进行有效的预训练。

　　“这意味着在相同的计算预算条件下，可以显著扩大模型或数据集的规模。特别是在预训练阶段，与稠密模型相比，混合专家模型通常能够更快地达到相同的质量水平。”吴韶华说。

　　中信证券在一份研报中指出，随着大模型体量增长，多模态能力和推理效率成为业界竞争新焦点。Dense架构在处理图像、视频等非结构化数据时效率较低，预计未来1-2年MoE等新型架构将成为主流。

　　要性能，更要效率

　　在采访过程中，吴韶华反复强调“模算效率”。他表示，浪潮信息在大模型的探索过程中，一直都在追求更高效的智能涌现。

　　其以2021年发布的源1.0大模型为例称，当时源1.0的训练算力效率就达到了44.8%，而GPT-3大模型在其V100 GPU集群上的训练算力效率仅为21.3%。

　　所以这次发布“源2.0-M32”大模型，浪潮信息也是希望在有限的算力和训练Token资源条件下，寻找到一条更可行的路径，从而实现能耗更低、推理和训练效果更优的大模型开发。

　　需要指出的是，在MoE架构的基础上，浪潮信息在算法层面也做了进一步创新，比如其采用了一种新型算法结构——基于注意力机制的门控网络（Attention Router）。

　　吴韶华称，当前流行的MoE结构大都采用简单的调度策略，其本质是将token与代表每个专家的特征向量进行点积，随后挑选点积结果最大的专家，这种情况忽略了专家之间的相关性。

　　而浪潮信息提出的新算法结构，会关注专家模型之间的协同性度量，在计算过程中可以将输入样本中任意两个token通过一个计算步骤直接联系起来，解决了传统的门控机制中，选择两个或多个专家参与计算时关联性缺失的问题，从而使得专家之间协同处理数据的水平大为提升。

　　基于这些创新，源2.0-M32的性能在MATH（数学竞赛）、ARC-C（科学推理）等榜单上超越了拥有700亿参数的LLaMA3大模型。而在相同智能水平下，源2.0-M32又显著降低了模型训练、微调和推理所需的算力开销。

　　据吴韶华透露，在模型推理运行阶段，源2.0-M32处理每token所需算力为7.4GFLOPs，而LLaMA3-70B所需算力为140GFLOPs。在模型微调训练阶段，对1万条平均长度为1024 token的样本进行全量微调，源2.0-M32消耗算力约0.0026PD(PetaFLOPs/s-day)，而LLaMA3消耗算力约为0.05PD。

　　事实上，在大模型落地的起步阶段，市场需要的不仅仅是模型能力，更需要性价比。吴韶华也表示，“在保证模型智能高水平的基础上，有效降低模型落地的算力门槛，才能加速智能技术在千行百业的普及和应用。”

（文章来源：21世纪经济报道）

文章来源：21世纪经济报道责任编辑：3

原标题：更高效的Scaling技术：MoE架构为何获得大模型厂商青睐？丨GAI进化论

郑重声明：东方财富发布此内容旨在传播更多信息，与本站立场无关，不构成投资建议。据此操作，风险自担。

东方财富网

分享到微信朋友圈

打开微信，

点击底部的“发现”

使用“扫一扫”

即可将网页分享至朋友圈