5000亿参数!传微软准备推出自研大模型

5月7日消息,美国时间周一,有报道称 微软 正在训练名为MAI-1的内部 人工智能 语言模型,其规模可与 谷歌 和的大模型相媲美。

根据两名微软员工的说法,MAI-1模型由最近微软挖来的谷歌DeepMind联合创始人、人工智能初创公司Inflection前首席执行官穆斯塔法·苏莱曼(Mustafa Suleyman)负责。

据悉,微软还未明确MAI-1模型的确切用途,具体取决于模型效果如何。报道称,微软可能会在本月晚些时候召开的Build开发者大会上预览这款新模型。

微软对此拒绝发表评论。

据报道,MAI-1规模将比微软之前训练的小型开源模型“大得多”,这意味着其也会更加昂贵。

上个月微软推出了一款名为Phi-3-mini的小型人工智能模型,希望用有成本效益的产品吸引更多客户群体。

微软向OpenAI投资了上百亿美元,并在旗下生产力软件中部署OpenAI的人工智能技术,从而在生成式人工智能领域的早期竞赛中取得了领先地位。

据报道,为了提升该模型,微软已经配置了装备了 英伟达 GPU的大型服务器集群,并储备了大量数据。

报道称,MAI-1将有大约5000亿个参数。相比之下,OpenAI的GPT-4据称有1万亿个参数,Phi-3 mini有38亿个参数。

今年3月份,微软任命苏莱曼为新成立的消费级人工智能部门负责人,同时还聘用了Inflection的几名员工。

报道补充说,新模型并不是源自Inflection,但可能用到了这家创业公司的训练数据。(辰辰)


GTC2024:理想汽车怎么玩儿转大模型

在英伟达GTC2024的AI 驱动汽车科技创新发展的会议上,理想汽车智能空间算法首席科学家陈伟介绍了理想智能座舱领域人机交互方面的进展。

陈伟介绍了理想智能座舱人机交互的技术理念,基于大模型Mind GPT的新型的空间交互技术和产品,Mind GPT背后的AI工程架构是如何实现的。

以下是陈伟演讲内容整理,在不影响原意的基础上略有整理和删减。

注:关注“智车引擎”公众号,并回复数字“4”,将获得本场讲演的PDF。

人机交互的技术理念

人机交互的界面,我们认为正在从二维的平面走向物理世界下面三维的空间。在这样的三维空间下,人与机器之间的交互方式,正在从人适应机器转变为机器来主动适应人,那么只有这样才能让人与机器之间的交互更加自然。

而在我们整个的空间加交互的架构下面,融合了语音、视觉、触控等多模态的感知信息,致力于为用户提供可以媲美人与人交互的自然的交互体验。那么承载整个三维空间交互的AI助手就是理想同学,我们期待理想同学能够成为每一个车主家庭的数字成员,让车内每个人都能够轻松的使用AI。

在李想同学背后涵盖了从感知智能到认知智能的多项AI的技术,覆盖了感知、理解、表达三大的能力。其中借助全车麦克风以及摄像头的强大的传感器,理想同学具备了听、看和触摸的多模态感知能力。

而在端和云强大算力的加持下,理想同学能够充分的理解语言、理解用户、理解世界,并给出自然而且有价值的回答。最后借助智能空间的全景声以及多屏显示的能力,理想同学的回复信息得到了充分的表达,为用户提供了沉浸式的交互体验,不断加强人与车的情感连接。目前,以感知和表达的代表的感知智能已经走向了成熟,但是理解代表的认知智能能在发展中,直到22年年底的时候,大模型的出现带来了一次认知技术上面的变革。

众所周知,人工智能的三要素是数据算法和算力。

伴随着互联网、移动互联网、车联网的兴起,整个网络积累的海量的数据可以用于AI大批量的学习。截止到2023年的时候,全球已经有55亿的移动用户,同时在过去10余年中,以英伟达的GPU为代表的人工智能处理的能力在惊人的增长,令人震撼的是过去10年的算力已经增长了1000倍,这种进步并不来自于摩尔定律的预测,而是来自于全新的结构性的变化。

同时 AI算法伴随着深度学习的兴起,迎来了新一轮的技术浪潮。2016年AlphaGo战胜人类是人工智能发展历史上的里程碑的事件,之后2017年transformer的提出奠定了如今基础的神经网络架构。

随后 open AI陆续推出了GPT1一直到GPT3,那么模型的规模在急速的扩大,一直到2022年11月基于大模型GPT3.5的Chat GPT震惊了全世界。大模型的兴起变革了AI模型的训练范式,带来了新一轮的认知革命,也迎来了通往通用人工智能的曙光。那么整个AI在经历了计算智能、感知智能的突破以后,迎来了认知智能技术上的爆发,经历了2023年大模型技术井喷式的发展之后,行业现在也逐步开始共识,基于大语言模型,Agent的技术将是走向AGI的关键路径之一。

那么大语言模型对于理想这边智能空间的空间交互也非常的关键,李想同学的智能化水平的提升也急需借助于大语言模型和Agent的技术来实现整个产品体验上新的突破。

为此,我们在2023年6月份发布了我们的多模态认知大模型——MindGPT。结合我们多模态感知技术和大语言模型MindGPT,我们全面升级了空间交互的能力,基于多模态感知能力,我们可以充分的感知整个智能空间的各种模态的信息,并且把它转化为了人类的语言。

我们基于自研的Taskfomer结构设计了面向Agent的大模型MindGPT。那么基于MindGPT就可以更好的对人类语言进行理解进行反馈,更好的完成人与机器之间的交互。

那么接下来我就分别和大家介绍一下在空间交互这个体系下面的两个核心技术,一个是多模态感知,一个是MindGPT。

在多模态感知方向上,感知技术现在已经逐渐在从小模型+流水线级联的方式,升级为了端到端的大模型。我们在内部我们这样的端到端的感知类的大模型称之为MindGPT—MP是multi model perception的简称。

那么为了打造面向智能空间的空间动态感知的技术,我们在信号、语音、视觉这样感知领域都实现了技术的创新和突破。那么这里面也列出了我们在过去的一年间发表的一些论文,大家也可以参考。

MindGPT—MP使用了海量的视听数据,进行了自监督学习和多任务的精调,借助整个全车麦克风以及前后排的摄像头,理想同学能够同步感知多路音频和视觉的信号,经过信号的分离、增强、编码、融合等前处理的技术以后,可以让车内的用户定位和人声分离都更加的精准。理想同学就能像人一样边看边听边听边看,同时能够实现更强的多语种、多多语言、多方言、多任务的感知能力。

理想同学在交谈的过程中能够快速准确的知道谁在说、在说什么内容,情绪怎么样,发生了哪些有趣的事儿?

我希望和大家介绍一下我们在多模态交互上面的一些能力,我们也陆续发布了多个创新的多模态感知能力。

第一个是多模态的指代,我们希望在车里面能够产生开窗、开灯,打开屏幕、控制座椅这样的一些小需求的时候,不用让用户说非常冗长的话,也不用担心用户一直想不起来这个东西叫什么,而出现了交互上的坎坷,我们可以用更加简单省力的指代的方式,用一个手指来指代,比如说这个那个来完成。

目前指代的方向其实覆盖了全车的各个方向,同时理想同学也能看得懂指代更多的人和物品,那么接入更多的空车和体验上的交互,比如说可以说把那个屏打开,那么理想同学就会自己学习,因为你是要打那个方向上的屏幕,他会更加熟悉车里的每一个地方,更好的熟悉每个家人的需求。

那么第二个多模态的可辨析的说,理想同学可也能够读懂电影海报内容,可以随意表达。孩子即便不认识字,也可以根据海报内容描述自己想要的内容,那么最后快速的实现对于和车之间的交互。

最后其实就是我们的方言自由说,在这种方言自由说的能力下面,我们现在可以用一个模型就能实现这种9种这种多方言的自由感知。

MindGPT能做什么?

以MindGPT为核心,我们逐渐构建了感知、规划、记忆、工具、行动的完整的Agent的能力,其中MindGPT基座模型使用了自研的Taskformer的结构,那么我们在整个MindGPT的训练中进行了充分的自监督学习,然后在整个学习世界知识的同时,我们也重点在车载场景的15个重点领域进行了知识的加强。在这个基础上,其实基于我们整个在车载场景里面重要的三个大的场景和领域,用车出行和娱乐。

我们使用了sft和rlhf这样一系列的训练以后,能够覆盖在这三大场景里面的大概110多个领域,大概有1000多种的专属的能力,能够让MindGPT具备了理解生成、知识记忆和推理这三大的能力。

MindGPT作为整个大模型的控制器,它可以连接外部的Model Zoo和APIZoo,那么通过大模型对于用户输入的理解和思考,有条理的进行任务的规划,独立的完成自己擅长的部分,同时能够调度外部的API和专用模型,解决自己不擅长的部分,持续能够拓宽大模型能力的覆盖。比如说其实我们也使用了RAG的技术,能够通过大模型去连接搜索的能力,然后通过搜索增强就能够时刻获取更新更准确的信息了。

同时 MindGPT也建设了记忆网络。因为李想同学是希望能够面向全家人服务全家人的,那么所以理想同学应该理解和明白会懂每一位家人。那么因此记忆非常重要,我们可以让两个同学能够基于和之前不同的人之间的历史的对话,能够记住用户的偏好和习惯,同时理解每一个用户目前的状态,从而让理想同学和人之间的交互更加个性化,也更加理解用户。

那么最后MindGPT的在线强化学习能力,能够基于用户的反馈和纠偏,不断能够迭代自身的能力,让理想同学越用越好用。

2023年12月份的时候,我们的MindGPT也参加了行业权威的中文大模型评测,C-Ezal和CMMLU,并且在这两个榜单上取得了双榜第一的成绩。而也就在2023年的12月份,我们通过理想的OTA5.0向用户推送了全新的MindGPT。

MindGPTMind上线以后的理想同学在用车、娱乐和出行等多个场景里面,都展现了非常强的人机交互能力。

大模型的工程化

在大模型工程侧,我们主要分为两部分,一部分是大模型的训练,另外一部分是大模型的推理。

大模型的训练平台liPTM LLM pretrain Model的平台实现大模型的密集训练,基于大模型推理引擎LisaRT-LLM模型,它的推理服务实现了大模型的落地应用,这两部分的工作都基于英伟达GPU来完成的。

那么接下来其实就会重点介绍一下里PTM和LisaRT-LLM我们这两部分的工作。

首先想介绍一下我们整个的推理的服务,那么也就是MindGPT的云服务的这种架构,我们针对整个大模型的特点,设计了整个端云融合的MindGPT的推理服务体系,那么在整个架构图里面字底向上其实包括了针对业务场景优化的类似LisaRT-LLM的大模型的推理引擎。

第二就是和LisaRT-LLM结合的大模型的调度和推进的平台。那么这个平台其实整个在服务上面的设计,就是希望它能够做到推理服务的编排、请求的调度、模型部署这样的一些能力,能够结合模型的类型业务的场景,包括Continuous Batching的这样的一些因素能够实时将生成的这种请求调度是最新的一些推理的后端,实现最优的性能和吞吐。

第三部分,其实是Taskformer中控服务,那么这个服务其实就实现了整个大目前用户所必需的一些数据库的集成检索,增强规划和记忆的能力。那么再往上其实就是我们的SCI SDK,那么有了这样的SDK以后,就更好的去服务我们的应用的集成,在这个 SDK里面其实它有本地端的AI能力业务,我们直接云端的能力,那么它实现了端云一体化的模型能力的输出。

为了支撑整个百亿千亿级的MindGPT大模型的高效迭代,你看我们也自研了TB级吞吐的大数据的数据系统LiARK。

那么基于LiARK,就会支撑我们的这种千亿级参数这个大规模的训练系统LiPTM。为了加速整个大模型数据集的高效生产,我们其实组合了像CPU GPU的能力,然后构建了高性能的分布式的数据的任务的集群,来处理这种海量的原始数据。因为对于训练来说,其实除了整个算力之外,其实数据本身以及数据的传输也是非常重要的。

那第二件事其实就是为了加速整个千亿级大模型的高效训练,我们在使用了这种比较领先的模型结构和高性能的训练算子以及高效的训练策略的同时,其实也实现了4D的并行训练的模式,这4D就包括了像数据并行、 TCL并行、流水线并行和序列并行这样的一些训练模式,那么有了这些模式以后才能有机会及我们的算力的设备及我们的GPU去完成更大规模的大模型的训练。

千亿级的这种大模型的这种训练里,PTM它其实在整个训练速度和效率上,其实目前我们达到了还算不错的效果。目前在基座的这个训练阶段,训练速度我们用像TOKEN/秒或者是sample/秒来评估的话,那么在适配的相同的模型架构以后,在相同的训练集下,训练过程中的速度就像图中所示,那么是HF的transformer的5.12倍,高于DeepSpeed的transformer的1.6倍和ColossalAI的相对于HF的3.25倍,就是相对来说我们对于HF transformer的这个效果的相对的提升来说,也是最高的。

在SFT阶段整个训练速度,在适配的相同模型结构以后,在相同训练集下面,整个训练的过程也如图所示,它是这个目前行业里面就是最好开源能力的3倍以上;在强化学习RHF训练速度上面是DeepSpeed大概3.1倍左右;从吞吐力上,在适配的相同模型结构以后,在相同训练集下面TFlOPS相比DeepSpeed也要快一些。这是在整个训练的过程中,其实整个对标的情况。

当然就这块我觉得不管是目前开源的社区,还是各个公司大家自己预训练的平台上,整个进步都是非常快的。我们这块其实整个的这种迭代速度也在持续的根据我们的模型结构做更深入的进行训练的这种优化和定制。

我们其实也在做这个大模型落地应用的推理的工作,那么最核心的其实就是这个自研了LisaRT-LLM大模型的推理引擎,这一块的话其实就可以完成像百亿千亿级的参数量大模型的落地。

首先就是对于GPT这种结构的模型,我们其实跟进了一些这个行业先进的一些推理加速的方案,比如说像FusedMHA或FlashAttention这样的方案,把核心算子优先加速起来,同时就是为了提升整个吞吐力的话,我们其实使用了Continuous Batching这样的方式去提升整个服务的并发量,然后最后再通过像tppp这种结合的方式,实现整个单卡或多卡的这种模型的并行,然后来应对这种千亿级参数量的这种大模型最终的落地。

我们也结合了我们MindGPT的业务场景和英伟达在英伟达这个 SRT-LLM的这个团队,我们做了非常深入的合作,进一步来提升了这个性能,然后降低推理成本。

我们主要做的工作就包括了三部分。

第一个就是说我们就是设定了比较明确的优化目标,就是能够在产品性能要求的情况下,一般来说我们就是整个Prefill延迟大概控制在了500 500毫秒以内,然后然后我们解码的速度控制在了20~30token/秒左右,然后尽量的去把我们的服务吞吐量去撑上。

第二件事其实就是我们也在围绕MindGPT的业务场景做了定制的优化,比如说现在缓存通用的一些泡沫的结果,做一些像Prefuse的一些catch什么的,然后根据这个生成的文本长度和性能要求,针对不同的垂域去选择对应的调度优化的策略。

第三个其实就跟英伟达SRT-LLM团队的这种合作,在一些核心算子,我们可以用TRT-LLm的这个能力直接来实现,那么这块其实对我们的助力也非常大。

通过这个上述的LisaRT-LLM的优化方案以后,其实我们在2023年Q4完成MindGPT推理服务的成功的落地。这块也是伴随着整个OTA在李想同学中这个MindGPT的上线来一起完成的。这块当时我们也在跟业界的优秀的开源的LLM的推理引擎做了性能的对比,那么测试的方法其实就是使用了线上的真实数据,然后固定QPS来做压测,然后在Prefill在500毫秒以内,然后解码速度在20Token/秒以上,这样的性能要求下,大概去测试一下整个推理服务最大的吞吐量。

那么图上的这个推理框架大的分别就是TGI的V1.1.0、vLLM的2.0和LisaRT-LLM10月份的版本。

那么这三个比完了以后,其实整个可以看到基于目前就是理想同学的场景,就我们实际车载的场景来看的话,其实测试结果在a800上面,LisaRT-LLM的这个吞吐率相比vLLM大概有1.3倍以上的提升。

这张图就可以看到就是这三个推理框架Prefill的延迟,随着QPS的压力增大以后的变化曲线,我们可以看到Prefill Latency这个纵坐标,当小于500毫秒的时候能达到的最大QPS,因为超过500毫秒,用户能够明显感受到就会响应非常的慢,就很难达到我们产品上的需求了。

因此就是从这个曲线可以看到,就在这种场景下,这个LisaRT-LLM也具备具备了相对较高的并发的负载的能力。

什么是大语言模型

大语言模型是基于海量文本数据训练的深度学习模型。

大语言模型(LLM)不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。大语言模型(LLM)是基于海量文本数据训练的深度学习模型。

2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处,更加深入地理解人类语言的复杂性。

大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟,它将不断拓展其应用范围,为人类提供更加智能化和个性化的服务,进一步改善人们的生活和生产方式。

大语言模型发展历史

2020年9月,OpenAI授权微软使用GPT-3模型,微软成为全球首个享用GPT-3能力的公司。2022年,Open AI发布ChatGPT模型用于生成自然语言文本。2023年3月15日,Open AI发布了多模态预训练大模型GPT4.0。

2023年2月,谷歌发布会公布了聊天机器人Bard,它由谷歌的大语言模型LaMDA驱动。2023年3月22日,谷歌开放Bard的公测,首先面向美国和英国地区启动,未来逐步在其它地区上线。

2023年2月7日,网络正式宣布将推出文心一言,3月16日正式上线。文心一言的底层技术基础为文心大模型,底层逻辑是通过网络智能云提供服务,吸引企业和机构客户使用API和基础设施,共同搭建AI模型、开发应用,实现产业AI普惠。

2023年4月13日,亚马逊云服务部门在官方博客宣布推出Bedrock生成式人工智能服务,以及自有的大语言模型泰坦(Titan)。

以上内容参考网络百科-大语言模型

华为盘古大模型如何赋能自动驾驶?

盘古大模型主要是帮助自动驾驶提升数据闭环。

华为盘古大模型开始赋能自动驾驶。

近日,华为云智能驾驶创新峰会上,基于盘古大模型,华为发布自动驾驶领域四个场景大模型。分别是,场景生成大模型、场景理解大模型、预标注大模型、多模态检索大模型。与此同时,华为方面称,基于盘古大模型3.0,华为云还可以帮助企业打造自己的自动驾驶大模型。

事实上,自2017年谷歌发布Transformer网络结构,成为大模型发展源头技术后,大模型技术在自然语言理解、计算机视觉、智能语音等方面都取得了突破。中国自2020年也进入大模型快速发展期,出现了文心一言、通义千问、星火认知等一批预训练大模型。

那么,与其他大模型相比,华为盘古大模型有什么不同?“3.0”又是什么架构?它在自动驾驶领域主要有哪些作用,又面临哪些挑战呢?

盘古大模型3.0是什么?

华为盘古大模型布局已久,其负责人是华为云AI首席科学家田奇。

田奇曾于2008至2009年,从大学调至微软亚洲研究院多媒体计算组进行研究工作。2018 年,田奇加入华为担任首席科学家,负责华为云相关业务。

2020年,在田奇带领下,华为启动盘古大模型启动研发,并于2021年4月正式发布,到2022年聚焦行业应用落地。今年7月7日,华为开发者大会(Cloud)期间,盘古大模型3.0正式发布。

盘古大模型3.0是一个完全面向行业的大模型系列,包括“5+N+X”三层架构。

Δ 华为云盘古大模型架构

其中,L0层是指基础大模型,包括NLP(自然语言处理)大模型、CV(计算机视觉)大模型、多模态大模型、科学计算大模型和预测大模型五个基础大模型。

华为在这五大发展方向中的成熟度是不同的。与风头正劲的ChatGPT在NLP领域比较强势不同,盘古大模型的初衷主要是服务B段的客户,因此更聚焦比较成熟的CV领域。

L1层指N个行业大模型,华为云可以提供使用行业公开数据训练的行业通用大模型,包括政务、金融,制造,矿山,气象等大模型;也可以基于行业客户的自有数据,在盘古大模型的L0和L1层上,为客户训练自己的专有大模型。

L2则提供了更多细化场景的模型,是在L1基础上结合行业细分场景得到的推理模型,包括政务热线、网点助手、先导药物筛选、传送带异物检测、台风路径预测等具体行业应用或特定业务场景,提供“开箱即用”的模型服务。

整体来看,盘古大模型分为三个训练阶段:一是预训练,利用海量数据进行预训练得到通用基础模型,二是微调,针对下游行业具体任务,结合行业数据进行微调;三是大模型迭代,结合不断产生的新数据和之前训练使用的数据,实现大模型的终身学习。

在此之下,盘古大模型3.0还具备自研和解耦两大特征。

自研方面,根据华为云CEO张平安此前介绍,“华为自研的AI根技术,在最底层构建了以鲲鹏、升腾为基础的AI升腾云算力底座。并在升腾之上,提供了计算框架CANN……升腾云的效能不仅不落后,反而领先于业界主流GPU,盘古大模型训练效率对比业界主流GPU平均提升1.1倍。”

解耦,是盘古大模型3.0的另一个关键词。设计上,盘古大模型采用完全的分层解耦设计。合作伙伴可以基于此为自己的大模型加载独立的数据集,也可以单独升级基础模型,又可以单独升级能力集。

与此同时,在L0和L1大模型的基础上,华为云还为客户提供了大模型行业开发套件,通过对客户自有数据的二次训练,客户就可以拥有自己的专属行业大模型。此外,根据客户不同的数据安全与合规诉求,盘古大模型还提供了公用云、大模型云专区、混合云多样化的部署形态。

如何赋能自动驾驶?

具体到自动驾驶领域,盘古大模型3.0当下的主要作用是提升数据闭环。

数据闭环核心目的,是不断将高价格数据从原始数据中提取出来后,输送给算法做训练,最终不断完善算法,解决各种corner case(长尾场景)。

方式则是从车端提取数据做初期整理,然后进行场景化管理,再进行数据标注、训练、仿真,最后回给采集需求。其中,每一个过程都有大数据可以发力的机会点。

Δ 华为云盘古大模型赋能场景理解

首先是场景理解,这主要是为了提取自动驾驶高价值数据。

当下,随着高速NOA、城市NOA的不断推进,自动驾驶公司或车厂每年积累的数据不断增加,甚至达到百TB级别,其中真正能够送去做算法训练的不到百分之十,如何高效从原始数据中把需要的数据筛选出来非常重要。

根据华为方面透露,一些企业已经有大量的数据积累,传统的方式需要人工回看,再进行打标、分类组织起来。这样的速度是比较慢的,因此容易造成前端数据积压。大模型的机会点在于,可以自动理解视频当中的内容进行自动打标签,并形成产品化管理,为提取高价值场景做自动筛选。

其次是数据标注,正如上文所说,一些企业每年有上百TB数据需要标注,每年在此之中的花费可能为千万甚至上亿元,且效率还不能满足数据供给需求。大模型的机会点在于,它具有高精度优势,可以完成2D、3D的高精度标注,最高可以降低90%标注量。

一般来说,在华为做完预标注后,会与车企、标注第三方公司合作,在此基础上进行进一步处理。在华为看来,这意味着车企的任务从标注变成了质检,可以有效降低成本,并提升30%到40%的效率提升。

Δ 华为云盘古大模型赋能预标注

再此是场景生成,这一部分的主要目的是使感知模型的长尾问题能够自动生成补齐。一般情况下,当算法团队发现其算法在某些长尾问题下完成度不高时,会提出corner case收集需求。

此前主要是两种方式去进行采集,一是出采集任务,到真实场景里去采集,但corner case往往可遇不可求,很难真的碰到并被收集,效率低下;另一种则是传统3D建模的方式,这非常依赖3D建筑工程师的人工经验,且由于精度不够,当需要输出感知模型进行训练时,往往不足以支撑,导致模型精度下降。

这其中,大模型的机会点是,从实车数据学习如何生成新视频,同时处理重建和渲染,生成数据可用于感知算法训练;重建各类障碍物构建素材库,根据需要构造corner case,增强数据完备性;针对天气、昼夜、季节等环节因素对已有场景进行变换,构造corner case。华为提供的方式是,基于神经网络做实车场景,并进行重建跟渲染。

总之,根据华为云EI服务产品部部长尤鹏的说法,华为云通过盘古大模型赋能自动驾驶开发平台,可以实现三层加速:

通过数智融合架构打破数据、AI资源管理边界,在一个平台即可完成开发、测试、交付上线工作,让业务创新提效2倍,实现数据加速;

借助盘古大模型在认知、感知、决策、优化等全领域的能力,车企可以快速基于盘古训练出自己需要的模型,实现算法加速;

基于升腾AI云服务,可针对自动驾驶300+算法进行优化,60+实现精度性能提升,可以做到千卡训练数月不中断,实现算力加速。

还有哪些挑战?

未来很丰满,但当下盘古大模型的应用还处于比较早期阶段,至少在自动驾驶领域如此。

根据华为方面介绍,目前上述三种华为自动驾驶相关大模型中,只有场景理解大模型已有客户(比亚迪)合作落地。其他场景有一些联创项目,正在计划落地中。

与此同时,大模型也面临成本压力。

有数据显示,大模型的训练成本很高很高,GPT-3训练一次的成本可能在1200万人民币。而华为方面,在训练千亿参数的盘古大模型时,也调用了超过2000块的升腾910,进行了超过2个月的训练,价格不菲。

因此,大模型运用于自动驾驶时要求算力所带来的成本,以及如何分配算力成本也是量产面临的关键问题。

华为方面以高精地图类比称,高精地图对于自动驾驶的加持作用是毋庸置疑的,但近期多家车企提出了“无图”方案,除了政策原因外,成本问题是很大的因素。

实际上,GPT-3出现之后也给了业界一个很大的启示,是否还要继续这样“暴力美学”地走下去。

学界有观点认为,大模型在现在的参数基础上再指数级增加对模型的性能边际效应已经减弱了,那么这就需要一些降本的方法:Open AI团队选择的方式是做精准高质量的标注。

华为也有自己的思考。

一方面选择小样本训练,通过自监督的方法,以更少的标注数据来做训练,以降低成本。

另一方面,盘古大模型的三层架构也能在结构上实现降本。L0层是通识性的大模型,具备鲁棒性和泛化性;大模型训练好了之后不用再重复训练,只需在L1和L2层做适应性训练,成本关系是上一层的5-10%。

除此之外,大模型落地还面临数据复用、云端和车端不同芯片匹配、数据脱敏后鲜艳度等一系列问题待讨论。

可以预见,无论是华为,还是其他公司关于大模型的探索还在起步阶段,还需要很长时间去落地、验证。(完)

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://srwj168.com.cn/keji312/6957.html
中信证券 合成生物学板块收入和利润增长亮眼 行业估值明显低于
改造 外国人常用APP亟需 适外化