更高效的Scaling技术:MoE架构为何获得大模型厂商青睐?丨GAI进化论
来源:米乐6 发布时间:2024-08-06 16:52:55
-
2023年,大模型狂奔一年后,很快就遇到了瓶颈。Scaling law(指随着参数量的增加,模型性能也将提高)的存在,让大模型的能力似乎没有了上限,但是,用于训练大模型的数据和算力却十分有限。
目前,已知闭源模型中训练token数最多的是GPT4,约为20T;开源模型中训练token数最多的是LLaMA3,为15T。照此计算,如果一个5000亿参数的Dense模型要达到相同的训练效果,则需要训练token数为107T,而这,已远超当前业界拥有的数据量。
不过,对于数据问题,业界已经找到了一条解决路径——使用合成数据。有预测多个方面数据显示,到2030年,人工智能使用的合成数据将超过真实数据,这将大大缓解数据短缺的问题。
然而,即便有了足够多的训练数据,算力挑战仍然严峻。有测算多个方面数据显示,训练一个5000亿参数规模的Dense模型,基础算力设施投入约为10亿美元,若无故障运行21个月,电费约为5.3亿元。这样的算力投入,现阶段也只有极少数企业能够承担。
在此背景,业界也不得不去探索效率更加高的模型架构,而MoE(Mixture of Experts,混合专家模型)架构的出现,让业界看到了希望。
今年,已有多个大模型厂商完成架构升级,并发布了基于MoE架构的大模型,从测试数据分析来看,新架构下的大模型性能有了明显提升。5月28日,浪潮信息也发布了“源2.0-M32” 开源大模型,这是包含了32个专家(Experts)的MoE大语言模型。
首席科学家吴韶华向21世纪经济报道记者表示,源2.0-M32凭借特别优化设计的模型架构,在仅激活37亿参数的情况下,取得了和700亿参数LLaMA3相当的性能水平,而所消耗算力仅为LLaMA3的1/19。
MoE架构本质上是一种更高效的Scaling技术,它能通过多个专家模型来处理输入数据的不同任务。
简单来说,MoE架构的核心逻辑就是将输入数据分配给最适合处理该数据的专家。而且这种架构允许模型通过增加专家的数量来扩展,来提升了模型处理特定任务的能力。
吴韶华表示,门控功能“稀疏性”的引入让MoE在处理输入数据时只激活使用少数专家模型,大部分专家模型处于未激活状态。换言之,只有擅长某一特定领域的模型会被派遣,为用户更好的提供最专业的服务,而其他模型则原地待命,静待自己擅长的领域到来。
这种“稀疏状态”是混合专家模型的重要优势,也逐步提升了模型训练和推理过程的效率。除此之外,MoE模型的另一个显著优势是,它们能够在远少于稠密模型所需的计算资源下进行相对有效的预训练。
“这意味着在相同的计算预算条件下,可以显著扩大模型或数据集的规模。尤其是在预训练阶段,与稠密模型相比,混合专家模型通常能够更快地达到相同的质量水平。”吴韶华说。
中信证券在一份研报中指出,随着大模型体量增长,多模态能力和推理效率成为业界竞争新焦点。Dense架构在处理图像、视频等非结构化数据时效率较低,预计未来1-2年MoE等新型架构将成为主流。
在采访过程中,吴韶华反复强调“模算效率”。他表示,在大模型的探索过程中,一直都在追求更高效的智能涌现。
其以2021年发布的源1.0大模型为例称,当时源1.0的训练算力效率就达到了44.8%,而GPT-3大模型在其V100 GPU集群上的训练算力效率仅为21.3%。
所以这次发布“源2.0-M32”大模型,浪潮信息也是希望在有限的算力和训练Token资源条件下,寻找到一条更可行的路径,以此来实现能耗更低、推理和训练效果更优的大模型开发。
需要指出的是,在MoE架构的基础上,浪潮信息在算法层面也做了进一步创新,比如其采用了一种新型算法结构——基于注意力机制的门控网络(Attention Router)。
吴韶华称,当前流行的MoE结构大都采用简单的调度策略,其本质是将token与代表每个专家的特征向量进行点积,随后挑选点积结果最大的专家,这样的一种情况忽略了专家之间的相关性。
而浪潮信息提出的新算法结构,会关注专家模型之间的协同性度量,在计算过程中可以将输入样本中任意两个token通过一个计算步骤直接联系起来,解决了传统的门控机制中,选择两个或多个专家参与计算时关联性缺失的问题,从而使得专家之间协同处理数据的水平大为提升。
基于这些创新,源2.0-M32的性能在MATH(数学竞赛)、ARC-C(科学推理)等榜单上超越了拥有700亿参数的LLaMA3大模型。而在相同智能水平下,源2.0-M32又明显降低了模型训练、微调和推理所需的算力开销。
事实上,在大模型落地的起步阶段,市场需要的不单单是模型能力,更需要性价比。吴韶华也表示,“在保证模型智能高水平的基础上,大大降低模型落地的算力门槛,才能加速智能技术在千行百业的普及和应用。”