一文看懂MoE的前世今生 大模型的未来它说了算

出品|网易科技《态度》栏目

作者|薛世轩

编辑|丁广胜

所有的创新都有其现实驱动力。

在互联网巨头的世界,这一驱动力就是成本。

“降本增效” 的逻辑贯穿着技术演进的始终, 大模型 架构也不例外。

目前,大模型的发展已经到了一个瓶颈期,包括被业内诟病的逻辑理解问题、数学推理能力等,想要解决这些问题就不得不继续增加模型的复杂度。

如何平衡大模型的训练难度和推理成本成为摆在各位玩家面前的难题。

而模型的日渐成熟为开发者们重新指引了前进的方向—— 通过改变模型底层架构,换一种耗能低且训练和推理效果好的模型架构进行大模型开发。

一、MoE的 前世今生 :老树又冒新芽

MoE(Mixture-of-Experts,专家混合),首次出现于1991年的论文中,其前身是“集成学习”(Ensemble Learning), 作为一种由专家模型和门控模型组成稀疏门控制的深度学习技术 ,MoE由多个子模型(即专家)组成,每个子模型都是一个局部模型,专门处理输入空间的一个子集。

“分而治之” 的核心思想指导下,MoE 使用 门控网络 来决定每个数据应该被哪个模型去训练,从而减轻不同类型样本之间的干扰。

通俗来讲,MoE就像复仇者联盟,每个子模型(专家)都是一个超级英雄,门控网络则是尼克·弗瑞,负责协调各个超级英雄,决定在什么情况下召唤哪位英雄。门控网络会根据任务的特点,选择最合适的专家进行处理,然后将各位专家的输出汇总起来,给出最终的答案。

门控功能“稀疏性” 的引入让MoE在处理输入数据时只激活使用少数专家模型,大部分专家模型处于未激活状态。换言之,只有擅长某一特定领域的超级英雄会被派遣,为用户提供最专业的服务,而其他超级英雄则原地待命,静待自己擅长的领域到来。这种“稀疏状态”作为混合专家模型的重要优势,进一步提升了模型训练和推理过程的效率。

一文看懂MoE的前世今生,大模型的未来它说了算?

MoE发展至今,离不开两个研究领域对其所做的巨大贡献: 专家作为关键组件与条件计算。

前者让MoEs成为更深层次网络的组成部分,让MoEs可以灵活的作为多层网络中的某个层级存在,实现模型的大规模化与高效率并存;后者通过动态激活或关闭输入每一层级的数据从而实现数据的高效处理。

MoE的加入让整个神经网络系统就像一个大型图书馆,每层都有不同类型的书籍和专业的图书管理员,门控系统(图书馆的智能导引系统)会根据读者的不同需求,将他们引导至最合适的楼层(多层网络中的某一层级),而这一过程也不断根据数据特点进行实时动态处理。

一文看懂MoE的前世今生,大模型的未来它说了算?

MoE虽然能够高效地进行预训练并且在推理速度上超越密集型模型,但同时也 面临一些挑战

稀疏专家模型领域的权威研究人员Barret Zoph、Irwan Bello等人指出,每个encoder(光栅)的专家虽然学习到了一部分token或简单的理论,但decoder(译码器)专家并没有展现出专业化的特征;专家虽训练了一个多语言模型,但是并没有发现某一个专家精通某种单一语言。

简言之,这也道出了目前MoE在微调过程中面临的泛化的困难以及可能出现的过拟合困境。

不过综合来看,大模型结合混合专家模型的方法属于老树发新芽,随着应用场景的复杂化和细分化,大模型越来越大,垂直领域应用更加碎片化,想要一个模型既能回答通识问题,又能解决专业领域问题,MoE无疑是一种性价比更高的选择。

二、拓展?颠覆?MoE与Transformer的“夺嫡之争”

Google于2017年在其论文Attention Is All You Need中首次提出了当下大火的大语言模型—— Transformer :主要用于处理序列到序列(Seq2Seq)的任务。虽然它在长距离依赖捕捉与并行化处理等方面具有显著优势,但由于 缺乏循环结构 ,使得要想通过Transformer训练AI大模型需要花费大量算力资源且耗时更长。

以GPT为例,其所使用的Transformer的解码器部分在训练过程中每天约消耗超50万度电力,训练成本更是以万亿美元为单位计数。如此巨额的开销自然不是追求“降本增效”的互联网公司所希冀的。

大模型底层架构的更新已势在必行。

搭载MoE架构的可持续新模型逐渐成为大模型开发者的新宠。

2023年12月,Mistral AI 开源了基于 MoE架构的模型Mixtral 8x7B,其性超越包括 GPT-3.5在内的众多参数更多的模型,显示了MoE架构在大模型研究中的潜力。

一文看懂MoE的前世今生,大模型的未来它说了算?

据NVIDIA高级研究科学家Jim Fan预测,经过训练的MoE大模型性能很有可能无限接近GPT-4。

不止于此,谷歌基于MoE架构成功开发了GLaM的语言模型;Snowflake采用MoE架构发布了大型语言模型Snowflake Arctic;昆仑万维发布的基于MoE架构的大语言模型“天工2.0/3.0”等等。

实践证明,MoE已经成为高性能AI大模型的必选项。

三、大模型的技术性创新:巨头发难下的无奈之举

AI大模型的迭代离不开高效的算力芯片,而英伟达的市场行为通常能够左右AI领域大模型开发者的策略。

奔走在大模型研发前线的开发者们深谙这一法则。所有鸡蛋不能放在同一个篮子里,既要提防英伟达“坐地起价”,又要着手开发能够进一步“降本增效”的大模型,将主动权重新掌握在自己手中。

这种策略是正确的。

2022年底,受禁售传闻等多因素叠加影响,英伟达中国特供版A100一周内涨价超30%,间接导致定制版A800价格飙升至10000美元以上。而随后发布的H100芯片更是在eBay上被炒到超4万美元一枚,且价格仍一路攀升。

高昂的芯片价格压的大模型公司喘不过来气,是继续承担激增的成本还是从大模型底层架构入手另寻他法成为他们必须进行的抉择。

毋庸置疑的是,他们善用技术,当资本与之抗衡时,技术就成为他们最有力的武器。

要想摆脱大模型训练与研发过程中可能存在的断档问题, 开发者能做的只有通过大模型技术层面的持续破壁以对冲成本激增所带来的不稳定因素。

四、MoE:前路坦荡但也风雨交加

2017年,谷歌首次将MoE引入自然语言处理领域,通过在LSTM层之间增加MoE实现了机器翻译方面的性能提升。

2020年,Gshard首次将MoE技术引入Transformer架构中,并提供了高效的分布式并行计算架构。

2021年1月,谷歌的Swtich Transformer和GLaM则进一步挖掘MoE技术在自然语言处理领域中的应用潜力,实现了优秀的性能表现。

2021年6月,V-MoE将MoE架构应用在计算机视觉领域的Transformer架构模型中,同时通过路由算法的改进在相关任务中实现了更高的训练效率和更优秀的性能表现;

2022年,LIMoE作为首个应用了稀疏混合专家模型技术的多模态模型,模型性能相较于CLIP也有所提升。

2023年,Mistral AI发布的Mistral 8x7B模型由70亿参数的小模型组合起来的MoE模型,直接在多个跑分上超过了多达700亿参数的Llama 2。

2024年2月,昆仑万维正式发布了搭载新版MoE架构的大语言模型“天工2.0”,并面向全体C端用户免费开放。同年4月,“天工3.0”正式开启公测。

2024年4月,MiniMax 发布的基于万亿 MoE 模型的abab 6.5可以1秒内处理近3万字的文本,并在各类核心能力测试中接近GPT-4、Claude-3、 Gemini-1.5等世界上领先的大语言模型

MoE的征途仍在继续。

它自诞生以来便一路高歌,为大模型开发公司进一步“降本增效”的同时实现了大模型训练成本与训练效率之间的动态平衡。

但任何技术的普及与在地化应用从来并非坦途。

根植于MoE架构底层框架之上的训练复杂性、专家模型设计合理性、稀疏性失真、对数据噪声相对敏感等技术难关也都在制约着MoE架构在大数据模型中的发挥。

尽管AI领域的大模型开发者已经利用MoE架构成功研发了多款高效的大模型工具。但,任何技术都不可避免地掣肘于时代背景与现有知识框架,当新技术的发展触碰到了其自身所能达到的边界,这将会倒逼大模型开发者着眼于更开阔的路径,在创新与突破中实现大模型的技术革新与产品升级。

利用MoE,但不止于MoE。


毫末布局大模型、智算中心 自动驾驶新基建如何筑成?

2023伊始,先是开年毫末智行举办HAOMOAIDAY,放出自动驾驶行业最大智算中心,再有小鹏、理想新春全员信剑指城市导航辅助驾驶,随后是对话式AI大模型ChatGPT火遍全网,自动驾驶AI技术再次成为顶流。

无论是自动驾驶的“进城”,还是ChatGPT的“进化”,其背后都是对数据、算力需求指数级增长的态势以及对大模型的训练。当需求上来了,智算中心作为自动驾驶的“新基建”也就被业界越来越多的提及。

智算中心即智能计算中心,是基于人工智能理论,采用领先的AI计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施,换句话说,智算中心其实是一个算力的供应和生产平台。那为什么有了它“自动辅助驾驶”就可以变为“自动驾驶”了?

“降服”自动驾驶边际成本 自动驾驶智算中心“专云专用”

有人说,智算中心是自动驾驶发展的助推器,因为自动驾驶算法模型训练是机器学习的典型场景之一,其视觉检测、轨迹预测与行车规划等算法模型需要同时完成高并发的并行计算,对算力有着极高的需求,而智算为提高算法模型的成熟度提供了巨大的算力。

在自动驾驶领域,说起智算中心,还得先提特斯拉。2017年,Transformer网络出现后,奠定了当前大模型领域主流的算法架构基础,随后,2020年,特斯拉将Transformer大模型引入自动驾驶领域中,是AI大模型应用于自动驾驶的开端。在这之后,特斯拉开始着手打造属于自己的AI计算中心——Dojo,总计使用了1.4万个英伟达的GPU来训练AI模型。为了进一步提升效率,特斯拉在2021年发布了自研的AI加速芯片D1,并计划将25个D1封装在一起组成一个训练模块(Training tile),然后再将训练模块组成一个机柜(Dojo ExaPOD)。最近一期的特斯拉AI DAY上,马斯克称将于2023年一季度部署完成特斯拉超级计算机群组ExaPOD。

国内方面,2022年8月,小鹏汽车和阿里云合建了当时国内最大的自动驾驶智算中心“扶摇”,专门用于自动驾驶模型训练,算力规模达600PFLOPS,相当于每秒可以完成60亿亿次浮点运算。不过这个记录仅仅维持了4个多月。

今年1月,毫末智行联合火山引擎,共同推出自动驾驶行业最大的智算中心MANA OASIS(雪湖·绿洲),每秒浮点运算达67亿亿次,存储带宽每秒2T,通信带宽每秒800G。吉利也在1月28日上线了吉利星睿智算中心,目前已接入智能驾驶和车联网实验数据近百PB,在线车辆的并发计算支持达百万辆。

从现有情形来看,成本和需求两重因素,是智算中心的诱人之处。

成本层面,算力作为自动驾驶的基本要素,需要更高性能的智算中心来完成训练、标注等工作。以毫末的MANA OASIS为例,通过部署Lego高性能算子库、ByteCCL通信优化能力,以及大模型训练框架,软硬一体,毫末把算力优化到极致。在训练效率方面,基于Sparse MoE,通过跨机共享,轻松完成千亿参数大模型训练,且百万个clips(毫末视频最小标注单位)训练成本只需百卡周级别,训练成本降低100倍。

搭建高效、低成本的数据智能体系是自动驾驶技术健康发展的基础,也是自动驾驶系统能够不断迭代前行的重要环节,更是自动驾驶商业化闭环的关键所在。

小鹏汽车董事长何小鹏曾表态,“如果现在不以这样的方式(智算中心)提前储备算力,那么今后5年内,企业算力成本会从亿级,加到数十亿级。”

如果持续使用公有云服务,边际成本不断上涨只是一方面,更重要的是,智算中心可以让自动驾驶企业实现“专云专用”。自动驾驶的开发包括从数据采集到数据筛选、打标、模型训练、回放性验证、仿真测试等等环节。而云计算的本质是租赁计算设备,云服务商的设备都是统一采购,为了获得更多客户,这些设备都具备很大的通用性,设备内部使用的CPU、GPU/AI加速器、内存的型号与规格都相对固定,很难与车企和自动驾驶公司的算法形成最佳匹配。并且,云服务厂商对自动驾驶算法的了解程度不高,不可避免的会在调度算力时出现损耗和效率不高的问题。所以,从需求的角度来看,智算中心似乎可以成为自动驾驶和车企的托底神器。

同样以毫末为例,有了MANA OASIS的加持,毫末MANA五大模型全新亮相升级,车端感知架构实现跨代升级,毫末的技术栈布局继续保持完整领先的态势,尤其在感知、认知等层面领跑行业,引领大模型、大算力、大数据发展方向,冲刺进入自动驾驶3.0时代。

拿数据采集、筛选和标注来说,自动驾驶系统在前期开发阶段,需要采集大量的道路环境数据,以此让车辆像人类驾驶员一样快速准确地识别车道、行人、障碍物等驾驶环境中的关键信息。唯一的办法是,通过在海量数据基础上不断的重复训练与验证,车辆对道路环境的认知水平逐渐趋近于真实情景,判断的准确性在这一过程中不断提升。

不仅如此,车企收集到的数据还需要进行模型训练,算法通过在数据上进行运算产生模型,而智算中心将是驱动大模型和海量数据训练的加速器。基于Sparse MoE,毫末根据计算特点,进行稀疏激活,提高计算效率,实现单机8卡就能训练百亿参数大模型的效果,实现跨机共享exper的方法,完成千亿参数规模大模型的训练,训练成本降低到百卡周级别;毫末设计并实现了业界领先的多任务并行训练系统,能同时处理图片、点云、结构化文本等多种模态的信息,既保证了模型的稀疏性、又提升了计算效率;MANA OASIS训练效率提升了100倍。

毫末智行CEO顾维灏也在详细阐释了建设智算中心的底层逻辑:“自动驾驶对智算中心的第一要求肯定是算力。智算中心的超大算力代表了有多少的AI工程师在这个练武场中能够做出什么大模型,能训练多少大模型。”

智能辅助驾驶“进城” MANA OASIS帮助毫末解决了哪些难题?

现在很多车企和自动驾驶技术企业已经开始把打造智算中心当成下一阶段竞争重点。今年1月的HAOMO AI DAY上,毫末智行董事长张凯给出了2023年自动驾驶行业趋势的十大新预测,超算中心赫然位列其中,“超算中心会成为自动驾驶企业的入门配置。”

事实上,当下,随着新能源汽车品牌普遍已经把高速公路场景下的辅助驾驶列为标配,赛场已经悄然从高速路转向城市。与高速导航辅助驾驶相比,城市行车涉及了红绿灯、十字路口、行人电动车、遮挡、固定障碍物、频繁刹停起步等一系列难题,复杂度又提升了好几个数量级。

如果仅用实测车辆去挑战这些城市场景无法穷尽的Corner Case,成本、安全性、时间都将成为企业发展的壁垒。由此,虚拟仿真就成为了解决部分成本及场景多样性的关键,其中,大规模的长尾场景需要数据中心提供充足的算力支持。同时,仿真场景对现实的回归过程,同样需要巨大的算力提供支持。

在MANA OASIS的加持下,毫末的数据智能体系MANA五大模型全新亮相升级。而在五大模型助力下,MANA最新的车端感知架构,从过去分散的多个下游任务集成到了一起,形成一个更加端到端的架构,包括通用障碍物识别、局部路网、行为预测等任务,毫末车端感知架构实现了跨代升级。这也意味着毫末的感知能力更强,产品力更强,向全无人驾驶加速迈进。

首先是视觉自监督大模型,让毫末在中国首个实现4D Clip的自动标注。毫末利用海量videoclip,通过视频自监督方式,预训练出一个大模型,用少量人工标注好的clip数据进行Finetune(微调),训练检测跟踪模型,使得模型具备自动标注的能力;然后,将已经标注好的千万级单帧数据所对应的原始视频提取出来组织成clip,其中10%是标注帧,90%是未标注帧,再将这些clip输入到模型,完成对90%未标注帧的自动标注,进而实现所有单帧标注向clip标注的100%的自动转化,同时降低98%的clip标注成本。毫末视频自监督大模型的泛化性效果极佳,即使是在一些非常困难的场景,例如严重遮挡的骑行者,远处的小目标,恶劣的天气和光照,都能准确地完成自动标注。

其次是3D重建大模型,助力毫末做数据生成,用更低成本解决数据分布问题,提升感知效果。面对“完全从真实数据中积累corner case困难且昂贵”的行业难题,毫末将NeRF技术应用在自动驾驶场景重建和数据生成中,它通过改变视角、光照、纹理材质的方法,生成高真实感数据,实现以低成本获取normal case,生成各种高成本corner case。3D重建大模型生成的数据,不仅比传统的人工显式建模再渲染纹理的方法效果更好、成本更低。增加NeRF生成的数据后,还可将感知的错误率降低30%以上,且数据生成可实现全程自动化,无需任何人工参与。

多模态互监督大模型则可以完成通用障碍物的识别。毫末在成功实现车道线和常见障碍物的精准检测后,针对城市多种异形障碍物的稳定检测问题,毫末正在思考和探索更加通用的解决方案。目前,毫末的多模态互监督大模型,引入了激光雷达作为视觉监督信号,直接使用视频数据来推理场景的通用结构表达。该通用结构的检测,可以很好地补充已有的语义障碍物检测,有效提升自动驾驶系统在城市复杂工况下的通过率。

动态环境大模型,可以精准预测道路的拓扑关系,让车辆始终行驶在正确的车道中。在重感知技术路线下,毫末为了将对高精地图的依赖度降到最低,面临着“道路拓扑结构实时推断”的挑战。为此,毫末在BEV的feature map(特征图)基础上,以标精地图作为引导信息,使用自回归编解码网络,将BEV特征,解码为结构化的拓扑点序列,实现车道拓扑预测。让毫末的感知能力,能像人类一样在标准地图的导航提示下,就可以实现对道路拓扑结构的实时推断。

毫末认为,解决了路口问题实际就解决了大部分城市NOH问题。目前在保定、北京,毫末对于85%的路口的拓扑推断准确率高达95%。即便是非常复杂、非常不规则的路口,毫末也能准确预测,比老司机还老司机。

人驾自监督认知大模型在今年2月已经被正式升级为DriveGPT,这也是全球首个自动驾驶认知大模型。它能让毫末的驾驶策略更加拟人化,安全及顺畅。目前,毫末DriveGPT已完成模型搭建和第一阶段数据的跑通,参数规模可对标GPT-2的水平。接下来,DriveGPT将持续引入大规模真实接管数据,通过人驾数据反馈的强化学习,来不断提升测评效果,同时也将DriveGPT作为云端测评模型,用来评估车端小模型的驾驶效果。

仿真测试能有效缩短技术和产品开发周期,降低研发成本。业内典型的长尾场景问题不够丰富,现实中可遇而不可求的极端场景,利用仿真平台可以便捷生成。由于仿真测试中的模拟环境需要实现多模态融合,以支持传感器模组的复杂性,因而也需要大算力的支持。

除了毫末,特斯拉超算中心拥有近2万张GPU,对自动驾驶训练效率产生立竿见影的效果,最大限度地提升了自动驾驶系统的开发效率;大陆集团的高算力集群,将开发周期从几周缩短至几个小时,使自动驾驶得以在中短期商业计划中落实;机器学习时间的缩短加快了新科技进入市场的速度;“扶摇”支持小鹏自动驾驶核心模型的训练时长从7天缩短至1小时内,大幅提速近170倍……

当前,一个不争的事实就是,在自动驾驶领域具有长期规划的车企,无论是造车新势力还是传统品牌,或者技术供应商,都在搭建自己的超算中心,以掌握稳定的算力资源,缩短开发周期,加快自动驾驶产品的上市。相反,如果没有超算中心,那么自动驾驶训练速度将明显放缓,自动驾驶企业间的差距也将愈发明显。

用智算中心打造数据护城河 数字新基建逐步成为发展“标配”

自动驾驶发展至今,业界发现乘用车智能辅助驾驶是最有可能大规模铺开的商业场景。据高工智能汽车研究院数据显示,2022年中国市场(不含进出口)乘用车前装标配搭载L2级辅助驾驶的搭载率,已经连续第二个月超过30%。智研咨询数据显示,预计到2025年,全球新车L2自动驾驶的渗透率可达53.99%。

今年,城市导航辅助驾驶也开启了量产的征程。西部证券预测,2023~2025年,国内市场上搭载城市导航辅助驾驶的车型将分别达到70万、169万和348万辆,占比将分别达到17%、40%和70%。

在城市导航辅助驾驶落地加速的背景下,更容易复制、拓展的重感知的方案,受到了更多关注。在重感知技术路线下,面对“道路拓扑结构实时推断”的挑战,毫末的选择是在特征图基础上,以标精地图作为引导信息,使用自回归编解码网络,通过结构化的拓扑点序列解码,实现车道拓扑预测。由此不难看出,业界逐渐达成共识的重感知路线,相比高精地图方案,更依赖算力加持。

人工智能是创新的加速器,智算中心则可以为各类技术创新提供支撑。一方面,智算中心可以为构建安全可信、可复用的技术研发环境提供算力设施支撑,为各领域科技研发提供智能计算服务,加速科技研发的进程;另一方面,智算中心是新一代信息技术的集成应用载体,智算中心的快速建设推广与规模化应用将推动通信服务网络、大数据、人工智能等技术的快速迭代,从而促进技术创新。自动驾驶数据是片段式的,特点是小文件多,达到百亿个,而且训练需要交换的数据多,智算中心可以提供充足的带宽,并且可以让自动驾驶模型拥有更好的并行计算框架,在训练的时候把硬件资源都利用起来。

2020年4月20日,国家发展改革委首次明确新型基础设施的范围,其中就包括以智能计算中心为代表的算力基础设施。2023年1月10日,国家工业信息安全发展研究中心推出《智能计算中心2.0时代展望报告》,指出经过5年多发展,智算中心正由1.0粗放扩张阶段走向2.0精细规划阶段。

根据相关统计和测算,目前全国超过30个城市在建或筹建智算中心,未来5年我国智能算力规模年复合增长率将达52.3%。智算中心的创新发展,将进一步为人工智能夯实“算力底座”,成为带动人工智能及相关产业快速发展的新引擎。

“我们测算,智算中心带来的成本优化是惊人的,将达到亿元级别。”这是今年1月,张凯提出的预测。从目前及未来的规划量产规模来看,毫末自建智算中心可节约巨额成本;同时,其带来的效率提升也非常明显。

人工智能发展很快,新的算法层出不穷,需尽快引入新的技术和模型,与此同时,数据是智能化发展最大的驱动力,也占据了大量成本构成。用自建智算中心来打造数据护城河,不仅能够完善产业智能生态,更能让企业在智能化方面占据先发优势,智算中心作为数字新基建,未来势必将引领自动驾驶技术持续迭代升级。

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://srwj168.com.cn/keji312/1103.html
超全新晋 网红城市 打卡攻略!速度收藏
登陆 写真 台湾Z世代 于忙碌假期中感受发展信心