从车端到云端 算力竞逐

算力在最近几年成为热点,汽车行业也概莫能外。但凡有新车型发布,几乎都会提到其搭载芯片的算力。国内外整车企业争相对算力进行大举投入,甚至自研相关芯片。近日,马斯克就在社交媒体上表示,2024年特斯拉将投资100亿美元用于人工智能的训练和推理。

算力究竟是什么,又为何受到如此关注?

算力,即计算的能力。作为智能的要素和底座,算力将成为推动汽车智能化、汽车行业数字化的重要力量。在今天大模型发展趋势下,这种重要性表现得更加突出。

过去几年,车端算力芯片受到行业高度关注。随着汽车智能化的竞争重点从算法转向数据和算力,云端算力将成为车企未来几年竞争的关键。

今天,汽车与算力两个产业正进行着交流和碰撞。未来的汽车将越来越依赖计算能力。而我国新能源智能汽车产业的蓬勃活力,也将有力带动算力产业发展。

何为算力

算力,即计算的能力,一般用于表示某个设备或系统的计算性能。从智能驾驶计算芯片,到用于算法训练的超大规模集群,这些设备或系统都在提供着不同种类、不同规模的算力。算力无处不在,已成为推动经济和社会发展的关键生产力。

算力原本只是超算领域关注的对象,代表着人们对计算极致能力的不懈追求。深度学习技术的兴起带来了人工智能的热潮。人们把算力、算法和数据归结为智能的三大要素。由此,算力一词开始备受关注。

算力有多种表征指标,包括每秒百万次指令数(MIPS)、每秒浮点操作数(FLOPS)、每秒定点操作数(OPS)等。比如,一颗人工智能计算芯片的算力是256 TOPS,一台超级计算机的算力是1 EFLOPS。

算力的基础是各类高性能计算芯片。最重要和为人熟知的计算芯片是CPU(中央处理器)和GPU(图形处理器)。CPU是计算设备的运算和控制核心,适合处理逻辑复杂的串行任务。GPU早期主要用来加速图像计算任务,由于其更加侧重计算而非逻辑控制,并能很好地支持并行计算,成为目前提供算力的主要芯片。

汽车算力:从车端到云端

当前,电动化、智能化已成为汽车产业的发展趋势。人们对汽车的关注点从油耗转向动力电池的续航里程,从发动机的加速性能转向芯片的算力。不论是电子电气架构、还是智能驾驶等解决方案,很大程度上都需要考虑算力的分布和有效利用。算力已成为智能汽车的核心要素。

提到车端算力,最具代表性的可能是汽车智能驾驶芯片。当前主流的车端智能驾驶芯片算力已达数十到数百TOPS。车端算力芯片的主要供应商包括英伟达、Mobileye、高通等。近年来,国内也涌现出地平线、黑芝麻等一批企业。

车端算力芯片存在多种技术架构。高端芯片一般基于通用GPU架构,提供较高的通用算力,以适应不同模型与解决方案。中低端芯片多以ASIC(专用集成电路)为主,与算法深度绑定,更加追求功耗、性能和成本的平衡。

相比车端计算芯片,云端芯片需要承担复杂的训练任务和海量的数据处理,且对功耗和成本的要求相对车端宽松,其算力更为强劲,计算架构以通用GPU为主。在数据中心算力芯片领域,英伟达公司占据着绝对的龙头地位。

云端算力的供给主要有三种模式。

第一种是汽车企业自建算力中心。例如谷歌、特斯拉等头部企业通过自建专有计算集群的方式,提升自身业务运行效能。部分企业还会根据自身业务特点,研发专用芯片,以降低算力成本。

第二种是智能计算云服务。例如亚马逊、阿里云等云计算企业以云服务模式向汽车企业提供算力资源及技术服务。

第三种是公共智能计算中心。公共智能计算中心以地方政府主导建设为主,主要支撑当地汽车企业、科技企业、科研机构和高校的人工智能技术与应用创新。

三、云端算力成为汽车企业竞争的关键

随着新一代人工智能技术的快速发展和突破,算力需求呈爆发式增长。根据Jaime Sevilla等人的研究,机器学习所需算力的增长可以分为前深度学习时代、深度学习时代和大规模时代三个阶段。在2010年之前,模型训练所需算力增长基本符合摩尔定律,大约每20个月翻一番。自2010年左右深度学习问世以来,模型训练所需算力快速增长,大约每6个月翻一番。特别是到2015至2016年左右,大模型的出现使得训练所需算力规模提升了1到2个数量级。

人工智能模型训练所需算力增长趋势

算力增长的背后,是模型和训练数据规模的增长。从 2016年到2020年,模型的参数量大概每18个月增长40倍;而同期英伟达GPU的计算增长速度仅为每18个月1.7倍。当前大模型的训练需要数以千计的GPU芯片组成大规模计算系统。

依靠大算力来推动人工智能发展,是当今人工智能发展的重要特征。强化学习先驱理查德·萨顿(Richard Sutton)在其博客文章《苦涩的教训》中指出,“回顾70年来的人工智能研究,从中得出的最重要的经验是,基于计算力的通用方法,是最有效的方法。”今天,这个通用方法就是深度学习,计算力就是以通用GPU为代表的高性能算力。

当前,BEV+Transformer感知架构已成为行业主流,以数据驱动成为系统迭代的关键手段。智能驾驶的技术路径已日渐清晰,算法已逐渐趋同。汽车企业的比拼更多是产品落地和快速迭代,是工程化、产品化和成本控制的能力,是更为流畅的用户体验。在这个过程中,算法更新的速度已经放缓,算力成为竞争的关键。

汽车与算力,相向而行

在汽车与算力领域,有两家具有全球影响力的企业,那就是特斯拉与英伟达。

从电动汽车到自动驾驶,特斯拉一路引领行业创新的方向。一直以来,特斯拉坚持依靠算力和数据提升其自动驾驶能力。凭借前瞻的眼光和强大的工程能力,特斯拉不仅自研车端自动驾驶芯片和云端数据中心芯片,还投资、设计并建造自有数据中心,其算力规模位居全球前列,预计到今年底会达100 EFLOPS。

相比特斯拉,英伟达在汽车行业的知名度似乎略逊一筹,但其实际影响力可能有过之而无不及。凭借其领先的GPU芯片和CUDA平台,英伟达处于全球智能计算生态的核心,对于自动驾驶算法和芯片的发展走向拥有巨大的影响力。其最新的DRIVE Thor芯片,采用与云端芯片相同的架构,为下一步车云协同建立了基础。

从特斯拉与英伟达的相互跨界,我们可以看到汽车与算力两个产业正在发生的交流与碰撞。

汽车的数字化和智能化,是汽车吸收引进包括人工智能在内的多种数字技术过程,是汽车企业打造创新的产品和商业模式的过程,需要汽车、信息通信、互联网等多个行业进行充分合作。在这其中,算力作为智能的基础底座,将成为推动汽车智能化和汽车行业数字化的重要力量。

经过多年不懈努力,我国在新能源智能网联汽车赛道上取得了一定领先优势。从全球产业链来看,我国在动力电池、传感器、网络通信、智能化应用等领域均具备较强竞争力,但在智能化底层的计算领域,我国仍然处于跟随地位,面临卡脖子问题。

汽车产业是十万亿量级的产业,涵盖了众多的人工智能应用场景,也是智能计算芯片的广阔市场。更为重要的是,电动化和智能化带来的汽车架构的变革,对计算芯片、基础软件、车内车外通信都提出了新的需求,给国产企业带来了难得的创新产品和拓展生态的机会和空间。

汽车与计算都是横跨制造与信息服务的庞大产业。汽车产业正在经历数字化的洗礼,向着高端制造和服务业迈进;计算产业正在寻求新的应用载体和平台,并争取实现自主可控。两个行业彼此交流、相互促进,必将有力带动我国数字经济发展,更好地服务人类未来美好生活。


特斯拉 FSD 入华前的最大伏笔,已经在北京车展埋下了

4 月 28 日下午,就在北京车展的流量盛宴逐渐走向尾声的关头,特斯拉 CEO 马斯克出现在北京,开启了他的突然而又短暂的访华之旅。而在关于马斯克此次访华目的的诸多猜测中,一个最受关注的议题是:特斯拉 FSD 入华。

一时之间,北京车展的聚光灯,又突然转向了特斯拉 FSD 和它背后的智能驾驶。

但其实,众多玩家在智能驾驶领域的诸多动态,从一开始就是本次北京车展的重头戏,并且扮演着非常重要的角色——只不过在车圈大佬们的流量光环下,被一时忽视。

但实际上,北京车展可以看做是中国智能驾驶产业发展的一个关键转折点。

一方面,从技术上来说,端到端已经成为高阶智能驾驶进一步演进的行业共识,并且已经有类似于华为、小鹏、蔚来、理想这样的玩家推进落地。

另一方面,从商业落地的维度上看,智能驾驶进一步从高价位段车型不断向低价位渗透,呈现出走向普及的「科技平权」之势。

端到端已成共识,并走向应用

从技术维度上,端到端无疑是本次北京车展期间各个玩家在智能驾驶领域合力推进的最热门方向,并且已经颇有成果。

其中一个受人关注的重磅玩家是华为。

4 月 24 日,在北京车展前一天,华为在智能汽车解决方案发布上,宣布了它的乾昆 ADS 3.0。

具体来说,在感知方面,乾昆 ADS 3.0 抛弃了以往的 BEV + GOD(通用障碍物识别)方案,而是基于 GOD 大网实现了从简单「识别障碍物」到深度「理解驾驶场景」的跨越式进步。

同时,在决策和规划方面,乾昆 ADS 3.0 全新架构采用 PDP(预测决策规控)网络实现预决策和规划一张网,从而实现类人化的决策和规划,行驶轨迹更类人,通行效率更高。

通过这样的方式,ADS 3.0 在技术架构方面实现了端到端架构。

基于此架构,乾昆 ADS 3.0 能够实现车位到车位智驾领航 NCA 功能,同时也能够在智能泊车方面实现离车即走,而泊车代驾也走向全场景商用——从实际落地的角度来看,乾昆 ADS 3.0 预计今年下半年就会推送给用户。

继华为之后,小鹏汽车在 4 月 25 日北京车展首日的发布会上发布了端到端大模型,并且在小鹏 X9 上开始公测。

具体来看,在感知层面,小鹏将感知大模型进行了升级,推出了行业首个量产的 2K 纯视觉占用网络,根据小鹏方面的说法,这个网络能够实现裸眼 3D 的效果,跟激光雷达一样强大。

而从控规的角度,小鹏也正是发布了行业首个基于神经网络的规控大模型 XPlanner,它将大量的数据来通过一个神经网络来进行训练,在数据和算力的加持下,拥有快速迭代的能力。

除了华为和小鹏之外,理想汽车在北京车展期间宣布推出 AD Max 3.0 进阶版,并介绍了一些面向用户的功能。虽然理想汽车并没有介绍这背后的技术逻辑,但是,据 42 号车库了解,理想汽车也已经在高阶智能驾驶的研发层面全力投入到端到端大模型。

另外,根据蔚来智能驾驶研发副总裁任少卿在接受外界采访时发布的信息,蔚来在端到端方面也已经探索很久,并且今年就会推出相关的东西。

当然,除了以上的重要玩家之外,类似于英伟达、地平线这样的底层算力提供商也在端到端上达成了共识。

比如说,在北京车展开幕前一天的媒体沟通会上,英伟达全球副总裁、汽车事业部负责人吴新宙明确表示,端到端大模型是自动驾驶三步曲的最终一步;他还强调,能够把端到端模型做好的企业,一定也需要非常好的第二代甚至第一代的自动驾驶堆栈型,而且端到端的发展需要一定的时间来成长,从而变得更加强大。

但吴新宙强调,端到端自动驾驶一定会到来。

另外,作为国内智能驾驶芯片领域的重要玩家,地平线在北京车展发布征程 6 系列的同时,也在反复强调:端到端已经成为高阶智驾算法技术竞逐的焦点,而地平线专为大参数 Transformer 而生的新一代智能计算架构 BPU 纳什,将加速端到端和交互博弈算法的应用普及。

总体可见,在特斯拉的引领带动作用之下,中国智能驾驶产业的核心玩家们,已经就端到端架构作为高阶智能驾驶领域的未来演进方向达成了高度共识,并且已经开始逐步走向落地。

算力追逐战,从车端卷向云端

基于整个智能驾驶行业正在对端到端架构进行拥抱的大背景,再结合本次北京车展上各家的动态来看,一个非常明显的趋势是:整个智能驾驶行业对于算力的追逐,已经从车端卷向云端。

先来看车端算力。

其实从车端的角度长期来看,自从 2023 年以来,整个智能驾驶行业在商用落地的过程中,已经呈现出明显的车端算力回落——不过,在本次北京车展上,这个趋势得到更加明显的体现。

比如说,在本次北京车展期间,地平线发布了最新一代的智能驾驶计算方案征程 6 系列,它包括 6 个版本,算力覆盖范围从低阶智驾市场的 10+ TOPS 到高阶智驾市场的 560 TOPS。

其中在高阶智驾市场,地平线的征程 6P 拥有 560 TOPS 的算力——但是从地平线的商业落地版图来看,该版本并非是要承担走量任务。相反,从地平线公布的信息来看,超过 50 家生态伙伴选择了算力为 80 TOPS 和 128 TOPS 的征程 6 E/M 版本,而且其量产和落地的速度会更快。

另外一个关键角色,是英伟达。

在本次北京车展期间,英伟达并没有开设一个单独的展台,但是却在进一步扩大它在中国智能驾驶市场的商业落地版图。其中,继与理想、极氪、比亚迪、广汽、小鹏等车企达成相应合作之后,英伟达又在北京车展期间与奇瑞和极越就 DRIVE Thor 达成了合作。

而关于 DRIVE Thor,一个不可忽略的事实是:在英伟达官网的宣传页面中,其算力标准已经从 2022 年 9 月最初宣布之时的 2,000 TOPS 调整为最新的 1,000 TOPS。

英伟达官方还表示,在提供性能的同时,它也能够有效地降低系统成本。

所以,很明显,在包括端到端在内的现有智能驾驶技术框架之下,除了车企本身,即使是类似于地平线和英伟达这样的车端算力供应商,也已经停止内卷。

然而,基于端到端的技术体系,整个智能驾驶领域的算力追逐战,已经从车端卷向云端。

比如,华为智能汽车解决方案 BU 靳玉志在车展前的发布会上表示,在 ADS 3.0 架构的背后,是华为云强大的 AI 能力对于云端训练的支持。他表示,由于端到端对于大量数据的训练需求,ADS 每天要学习超过 3,000 万公里的训练历程,每 5 天要进行模型的迭代,这背后需要大量的算力进行支持。

他强调,到 6 月份,华为用于 ADS 训练的算力将达到 3.5 E FLOPS。

与此同时,小鹏汽车也在北京车展的发布会上表示,针对基于神经网络的规控大模型 XPlanner,它需要通过大量的包括人、车、交通、天气等数据进行训练;而小鹏汽车将在今年晚些时候投入大量的训练算力进行训练,其规模是「中国汽车行业里接近于最多的训练算力」。

实际上,除了华为和小鹏之外,蔚来、理想、极越等智能驾驶领域的重要玩家,也都在通过各种各样的方式去进行云端算力的布局——其中有意思的是,蔚来在 4 月 30 日发布的最新数据显示,其在智能驾驶的端云算力最高达到 230.29 EOPS。

另外,关于自动驾驶的发展对于云端算力的依赖,英伟达全球副总裁、汽车事业部负责人吴新宙也明确表示:作为一个不可避免的未来,未来的 AI 汽车会比现在的自动驾驶开发简单很多,更多地集中在云端。

在技术向上中,继续向下落地

随着 2024 年的到来,无论是小鹏、蔚来、理想、问界这样的车企,还是华为、英伟达、地平线这样的方案提供者,所有玩家其实都需要面临一个无比关键的问题:到底该如何落地?

在本次北京车展中,这个问题其实已经得到了一定的解答。

一方面,从高阶智能驾驶的维度上来看,各家的策略都非常清晰,那就是继续做好智能驾驶这个产品本身,然后使之走向更多的用户群体。

比如说,4 月 23 日,在北京车展正式开幕之前,余承东发布了问界新 M5,它拥有三个版本,但都标配了华为高阶智能驾驶 ADS 2.0(且拥有升级到 ADS 3.0 的能力)。

与此同时,虽然余承东一再表示售价低于 30 万的华为高阶智驾其实都是亏本销售,但是问界新 M5 依旧选择了 24.98 万元的起售价,将华为高阶智能驾驶的入手门槛降低到 25 万元以下。

这样做,只有一个原因:通过更大规模的走量来摊薄成本。

除了华为之外,小鹏在北京车展宣布 XPlanner 时,其实也是在努力为 X9 这款车呐喊助威;理想汽车则展台上不谈技术,只谈用户能够通过 OTA 体验到的功能……甚至连英伟达这样的巨头,也部分出于成本考量,将 DRIVE Thor 的算力进行了缩减。

另外一方面,当我们把智能驾驶作为一个产品属性去看待的时候,它在走向市场的过程中,已经出现了明显的分化——但这种分化,在北京车展期间变得更加鲜明。

比如说,地平线最新发布的征程 6 系列,其旗舰版本被用来配合地平线最新发布的全场景智能驾驶解决方案 SuperDrive,来作为「样板间」,这固然有其意义。

但作为一个务实的企业负责人,余凯瞄准的其实是征程 6 E/M 版本所面向的更走量、更广泛的大众市场。

同时,一直在智能驾驶领域高举高打的华为,也在推出 ADS 3.0 的同时,也非常不失时机地推出了ADS SE 版本。官方表示,ADS SE 版本支持高速轻松开、泊车可见即可泊的基础智能泊车能力,其目的是「让更多的用户享受到科技平权与普惠的智驾体验」。

而结合华为在北京车展展台上的展车来看,可以预见的是,深蓝汽车未来发布的新车型将会搭载 ADS SE 版本——也就是说,华为 ADS SE 所搭载的车型,可能会下探到 20 万以下的价格区间。

而瞄准这个价格区间的关键玩家,不仅仅是华为。

毕竟,北京车展期间,还有一个不可忽视的重大动态是小鹏汽车的 MONA。在发布会上,何小鹏对于 MONA 的定义是「全球 AI 智驾的普及者」。

结合小鹏汽车已经发布的 2K 纯视觉占用网络和 XPlanner,以及 MONA 项目在 15 万级别的定位,几乎可以确认,MONA 已经做好去掉激光雷达的准备。

当然,如果把目光投向更广泛的玩家视野,还有一个典型的案例是:就在 4 月 29 日,黑芝麻智能宣布,旗下华山 A1000 芯片搭载亿咖通·天穹 Pro 智能驾驶计算平台成功助力领克 08 实现高速 NOA 的智驾功能升级。

所以,在智能驾驶纷纷追求量产落地的当下,更多车企、方案商和芯片供应商,也都在不遗余力地进入到智能驾驶的落地节奏中。

写在最后

纵览本次北京车展,无论是由马斯克突击到访而引起广泛议论的「FSD 入华」,还是华为、小鹏、蔚来、理想和英伟达、地平线等玩家的诸多动态,都在一定程度上指向了智能驾驶产业发展的一个处境。

那就是:智能驾驶已经处在技术突破和商业落地的关键十字路口。

毕竟,从技术的维度上来说,尽管端到端已经成为大趋势,而且大模型的加持给了它更大的成长空间,但从如今的实际产品体验来说,包括特斯拉在内,没有哪一家车企有足够的底气去大声告诉消费者「自动驾驶已经实现」,并且可以为此承担全部责任。

正如吴新宙所说,即使是端到端,也需要一定的时间来成长。

但是,如果我们用发展的眼光来看待,在 AI 技术的驱动下,智能驾驶本身确实已经在数年内发生了巨大的改变,而类似于自动泊车、高速领航辅助驾驶等功能也已经在用户的使用场景中体现出相应的产品价值——而智驾能力,也由此正逐渐成为用户购车决策中的重要一环。

从这个角度来看,智能驾驶的商业落地,不仅仅是各大玩家在多年的投入之后寻求商业回报的必然结果,也是整个汽车行业在电动化、智能化的产业革命中不断寻求技术和和产品突破的主动选择。

有意思的是,在这一轮产业革命中,身为智能驾驶先驱者和引领者的美国企业特斯拉,反而是在大洋彼岸的中国,才能够找到它在智能驾驶领域的追随者、学习者和有力竞争者——而在北京车展期间,我们也看到,对于「特斯拉 FSD 入华」一事,类似于小鹏汽车这样的中国玩家也表达了欢迎。

所以,从这个角度来看,若有一天特斯拉 FSD 入华成功,则本次北京车展期间发生的与智能驾驶相关的一切,可以说都是这件事情得以发生的最佳铺垫。

长安如何用启源构建新动能丨汽车产经

8月27日,以“数智启源·美好跃迁”为主题的长安启源日在重庆长安科技园举行,长安启源正式发布。长安汽车董事长、党委书记朱华荣在现场分享了“启源”诞生的始末。

他说,启源是长安汽车向数智汽车时代转型的集大成者,将顺应时代潮流引领行业变革,以数智进化携手用户向美好跃迁,驱动长安汽车向智能低碳出行科技公司迈进。

到2030年,长安汽车将累计投入2000亿元,新增超1万人的科技创新团队,打造世界级汽车品牌,实现长安汽车集团销售500万辆,长安系品牌将达到400万辆,其中长安启源150万辆。

启源背后的SDA架构

未来,长安启源将以极致的智能体验、三电技术、设计美学开启全新产品序列——包括A系列、Q系列以及数智新汽车产品E0系列。到2025年,长安启源将面向全球推出10款全新数智进化新汽车,同时,还将推出深蓝汽车6款、阿维塔4款,共计20余款产品。2023年内,长安启源将陆续发布长安启源A05、A06、A07、Q05产品,为消费者带来品质舒适新选择。

据介绍,基于“分层解耦”的思想,SDA 架构分为L1-L6六层架构,其中L1~L3层奠定了汽车的传感、控制与执行能力,L4~L6层的算力、算法和数据决定了汽车的智能化水平。具有“硬件可插拔、场景可编排、生态可随需、系统自进化”的技术特征。

对于长安而言,不仅当下及未来的新能源车型,如深蓝SL03、S7,以及长安Lumin等都基于这一架构打造;与此同时,它也是长安全力推进“软件定义汽车”的具体实践方案。

在长安方面看来,“智能电动车是一种新的生产力,从生产力和生产关系来讲,(它的发展)一定要改变(汽车产业的)生产关系”。

具体到SDA架构上。长安作为特斯拉之后全球第二个在MCU上量产应用的整车企业,SDA架构带来的不仅是领先的车型和技术,更有与消费者沟通方式、服务方式的改变。

“SDA软件驱动架构实现了‘三大目标’:集中化的电子电气架构、服务化的软件架构和标准化、抽象化的硬件架构。”

在去年SDA第一次与外界见面时,朱华荣曾这样说道:“未来SDA架构将实现‘两大预期’——全生命周期的持续服务;实现端云一体的自我进化。”

具体来说,全生命周期服务是指基于智能汽车的的新汽车商业模式(比如车企与消费者直通直连,提供内容运营、主动服务等数字化产品),将贯穿于买车、用车的整个生命周期;

端云一体化,则是指车端和云端的算力协同。根据长安的构想,在标准化架构下,大规模的智能汽车车端算力可形成算力池,从而使车企同时有可能成为算力供应商;另一方面,云端算力则将通过车端数据驱动,实现各类算法、应用的迭代更新。

而在具体制造层面,长安还计划推动SDA未来在机械和能源层的硬件通用率达到80%以上,而电子电气架构、操作系统、应用软件和云端大数据层的平台化则达到90%以上。

如此一来,硬件高度通用,车企不仅可以收集到更多标准的车内外感知数据,从而形成“数据规模优势”;还可以在制造过程中实现规模效益。

<span style=font-size: 17px; outline: currentcolor none 0px; max-width: 100%; letter-spacing: 0.544px; text-decoration-style: solid; text-decoration-color: #; box-sizing:

自动驾驶革命:解密端到端背后的数据、算力和AI奇迹

作者|毫末智行数据智能科学家 贺翔

编辑|祥威

最近,特斯拉FSD V12的发布引发了业界对端到端自动驾驶的热议,业界纷纷猜测FSD V12的强大能力是如何训练出来的。从马斯克的测试视频可以大致归纳一下FSD V12系统的一些核心特征:

这些特征如此炫酷,引领着自动驾驶技术风向。那么究竟什么是端到端自动驾驶,如何实现端到端自动驾驶呢?笔者作为自动驾驶领域的从业人员,将从实战应用的角度出发,探讨端到端如何落地。

一、自动驾驶的传统做法

从第一性原理来讲,自动驾驶就是一个序列到序列的映射过程,输入的是一个传感器信号序列,可能包括多个摄像头采集到的视频、Lidar采集到的点云、以及GPS、IMU等各类信息,输出的是一个驾驶决策序列,例如可以是驾驶动作序列、也可以输出轨迹序列再转为操作动作。

这个过程与大部分AI任务基本一致,这种映射过程就相当于一个函数 y = f(x)。但是实现这种函数往往难度比较大、任务极其复杂,对于这种复杂的任务,一般可以通过2类方式来解决:

传统分治法

分治法是将自动驾驶任务进行切分,定义多个子任务,每个子任务负责解决驾驶过程的某些特定问题,再进行系统集成来完成整个自动驾驶任务。传统上,这些子任务包括:

以网络的Apollo为例,整体系统架构如图所示,可见,要完成复杂的自动驾驶任务,需要先完成大量相对简单的子任务,这些子任务可以先进行独立开发测试,然后再将这些子任务集成到一个系统里进行验证。这种方式通过把复杂的任务切分、简化、分而治之,大幅度降低了系统开发难度,同时可以针对每个模块都的输入输出进行白盒化分析,系统具备很好的可解释性,这对自动驾驶而言至关重要,一旦发生事故,必须要进行深入分析,找到原因。

但是,这种方式也有明显的弊端,例如模块太多、集成困难、错误累加等等,同时由于系统设计时引入了太多的人为先验经验,导致自动驾驶能力上限比较低,系统的泛化性比较差,对于没有见过的场景往往无法处理。

二、「端到端」技术兴起

相比之下,端到端自动驾驶不进行任务切分,希望直接输入传感器数据、输出驾驶决策(动作或者轨迹),从而抛弃传统自动驾驶里的感知、预测、规划、控制等各类子任务。这种方式有明显的优势,例如:

一个典型的端到端自动驾驶系统如图所示:

输入:大部分自动驾驶汽车都装载了相机、Lidar、毫米波雷达等各类传感器,采集这些传感器的数据,输入深度学习系统即可。

输出: 可以直接输出转向角、油门、刹车等控制信号,也可以先输出轨迹再结合不同的车辆动力学模型,将轨迹转为转向角、油门、刹车等控制信号。

可见,端到端自动驾驶系统就像人类的大脑,通过眼睛、耳朵等传感器接受信息,经过大脑处理后,下达指令给手脚执行命令,整个系统简单的都没啥可介绍的……。但是这种简单也隐藏了巨大的风险,例如可解释性很差,无法像传统自动驾驶任务一样将中间结果拿出来进行分析;对数据的要求非常高,需要高质量的、分布多样的、海量的训练数据,否则AI就会实现废品进废品出。

与传统的自动驾驶方式对比可见,同样的输入、同样的输出,传统自动驾驶包含多个任务(多个模块),但是端到端只有一个任务。此处容易产生一个误区,即认为传统的自动驾驶是多模块的、端到端自动驾驶是单模块的,把分模块与分任务的概念搞混了。

传统的自动驾驶是分任务的,必然是多个模块。端到端自动驾驶可以用单模块来实现,当然也可以用多模块来实现,其区别在于是否端到端训练。分任务系统是每个任务独立训练、独立优化、独立测评的,而端到端系统是把所有模块看成一个整体进行端到端训练、端到端测评的。

例如2023年CVPR best paper提出的UniAD就是一种分模块端到端训练方式,这种方式通过端到端训练避免了多任务训练的融合难题实现全局最优,又保留了分模块系统的优势、可以抛出中间模块的结果进行白盒化分析,反而更具灵活性对部署也更友好,如图所示:

分任务的自动驾驶系统更像model centric系统,开发者通过不断优化各个模型来提升各个任务的效果。而端到端自动驾驶则更像data centric系统,通过对数据的调优来提升系统效果。

早年,由于自动驾驶积累的数据还非常少,端到端系统的效果往往比较差。最近几年,随着带高阶辅助驾驶功能的量产车大规模落地,通过海量量产车可以采集到丰富的驾驶数据,覆盖各类场景,再加上最近几年AI算力的蓬勃发展,端到端自动驾驶在海量数据、海量算力的加持下,取得了突破性进展。

以特斯拉为例,通过遍布全球的几百万辆量产车,可以采集到足够丰富、足够多样的数据,再从中选出优质数据,在云端使用数万张GPU、以及自研的DOJO进行训练和验证,使得端到端自动驾驶能够从paper变成product。

到 2023 年初,特斯拉就声称已经分析了从特斯拉客户的汽车中收集的 1000 万个视频片段(clips),特斯拉判断完成一个端到端自动驾驶的训练至少需要100万个、分布多样、高质量的clips才能正常工作。

特斯拉通过分布在全球的几百万量产车,基于影子模式,每当自动驾驶决策与人类司机不一致时,就会采集并回传一个clip,已经累积了200P以上的数据,不管是数据规模、数据分布还是数据质量上都遥遥领先。为了能在云端处理这些数据,当前特斯拉拥有近10万张A100,位居全球top5,预计到今年底会拥有100EFlops的算力,并针对自动驾驶自研了Dojo,在算力上同样遥遥领先。

在2022年,毫末智行也开始了对端到端自动驾驶以及自动驾驶大模型的探索,走过了一条从看图说话到完型填空到写小作文的道路。

最早,毫末将端到端自动驾驶简单地定义为一个看图说话任务,希望输入一串图片、输出一串驾驶决策,这种方式与机器翻译输入一串中文输出一串英文非常类似,所以可以选择端到端的序列模型,通过对输入图片进行编码,再解码输出驾驶决策。

但是训练之后,发现难以找到足够的数据来训练模型,因为手里采集到的数据绝大部分驾驶行为都是雷同的,例如大部分都是直行,能用的数据不到2%。虽然项目效果未达预期,但是训练过程发现端到端训练需要消耗大量的算力,于是又开始着手解决算力问题,并且在2022年底跟火山引擎合作落地了业界领先的智算中心,等2023年大模型爆发再加上美国的制裁,算力市场已经一卡难求了,这也算一个意外收获。

三、端到端自动驾驶的挑战

从特斯拉的开发经验来看,端到端自动驾驶真不是一般的企业能玩的,其所需的数据规模、算力规模远远超出国内企业的承受能力。除了成本高昂,端到端自动驾驶的技术难度也非常高,想要从实现从paper到product落地,相当于跨越从二踢脚到登月的难度。

端到端训练首先需要解决数据问题。早年自动驾驶企业大多依赖采集车采集数据,这种数据是不真实的、分布有偏的、低质量的,只能做个demo,难以进行大规模端到端训练。最近几年,随着量产车的规模化落地,业界很多公司都开始转向采用量产车通过影子模式采集数据,但这种模式依然面临艰巨的挑战。首先是采集策略问题,即如何平衡数据的长尾问题(有效性)和数据的规模问题(成本),如果采集策略比较宽松,我们往往发现采集回来的数据大部分是废品数据,根本没有使用价值,如果采集策略过于严格,又担心丢失大量有价值的数据。其次是数据的质量问题,如何定义数据质量是个艰巨的产品问题,如何精准地挑选出高质量的数据又是一个复杂的技术问题。然后是数据分布问题,如何从海量clips中提取有效的特征、如何统计数据的分布、应该考虑哪些维度,都需要大量的工作。对大部分自动驾驶企业,还会面临严重的数据泛化问题,因为不同的车型传感器配置差异巨大,采集的数据往往难以复用,而国内车企普遍车型众多,最后很可能是采了一堆数据放在那没法使用,看起来是数据资产,其实都是存储成本。毫不夸张地说,数据会占据端到端自动驾驶开发中80%以上的研发成本。

在美国多轮制裁之下,国内采购GPU难上加难,大部分企业手里拥有的算力资源非常有限,拥有超过1000张A100的企业寥寥无几,甚至全国加起来都没有特斯拉一家企业多。如何在算力受限的情况下,进行端到端自动驾驶的研发,是一个值得深入讨论的问题。

即使有了数据、有了算力,如何设计合适的自动驾驶算法来进行端到端训练,依然没有统一的答案。业界做过很多的尝试,包括模仿学习、强化学习等等。模仿学习是模仿人类专家的行为,从中学习最优策略,例如可以挑选一批高质量的驾驶行为数据来训练模型。强化学习则是通过与环境的交互和奖罚不断试错进行学习,可以设定一个奖励机制,例如更少的碰撞、更高的效率等,在仿真环境里进行大规模试错。

端到端自动驾驶的评估也是一个十分困难的问题。自动驾驶测评分为2类:闭环评估和开环评估,主要区别在于闭环评估可以接受到反馈信号从而形成反馈闭环。开环评估可以对不同的任务通过输入输出来进行评估,例如单独评估感知、预测、规划的效果,并与真实数据或者标注数据进行对比,传统的自动驾驶可以通过开环评估迭代。而端到端自动驾驶则难以进行开环评估,甚至也有人认为开环评估的端到端自动驾驶根本没有意义。闭环评估一般通过在仿真引擎构建的虚拟世界里建立反馈闭环,但是仿真不真是业界一大难题,很难推广到现实世界中的各种场景。例如在接近大货车时,即使自动驾驶能完美地通过,乘客往往也会有严重的恐慌心理,这种心理很难模拟。而如果采用实车闭环测评,一方面测评成本太高,另一方面危险场景的hard case使用实车测评危险太大。

如前文所述,可解释性是端到端自动驾驶的一个弱点。尤其是对于单模块端到端自动驾驶模型,实现可解释性极为困难,虽然可以将注意力权重可视化来提供部分解释性,但可靠性和实用性仍然十分有限,难以对事故、售后定责等问题给出有效的证据。对于分模块的端到端系统,虽然可以将中间结果抛出以提供更多的信息,但是这种信息往往是神经网络的隐层特征,跟直观的、真实的证据链还是有一定的差距,难以跟客户解释清楚。

终于在云端完成了端到端自动驾驶的训练了,仿真效果也很好,最后是如何把这套系统搬到车上并且高效的运行。云端系统为了处理数以百万计的clips,一般都采用复杂的网络结构、巨大的网络参数(高达10亿甚至更多),再用成千上万张A100进行训练。但是车端往往只有非常低的算力、非常低的功耗,却要求极高的帧率(每秒处理的图片数量)、极低的延迟,这导致端到端自动驾驶上车十分困难,只有经过大规模的量化剪枝等提效手段之后才有可能。

这些最难的部分,特斯拉还没公开谈过是如何解决的。今年的特斯拉AI Day,大家可以期待一下特斯拉的端到端如何破解以上难题。在这之前,笔者谈一下毫末是如何做的。

四、自动驾驶端到端的探索

为了降低训练难度,毫末考虑将端到端大模型进行拆分,分为2个阶段,一个阶段解决感知问题(看懂世界),一个阶段解决认知问题(驾驶决策),这样做的好处有2个:

在感知阶段,主要任务是把视觉信号转为感知结果,可以利用海量的带高清视频的采集数据和量产车回传的各类corner case视频来训练。而在认知阶段,则根据感知结果来进行驾驶决策,不需要输入视频,只需要输入感知结果和驾驶行为即可,这种数据可以通过量产车进行大规模定向采集。通过这种拆解,既降低了任务的难度,又能充分利用不同的数据。

对于感知大模型,毫末从第一性原理出发,认为要实现端到端自动驾驶,感知就必须跟人类一样,同时具备识别二维纹理和三维结构、认识万物这三个条件,并且最好是纯视觉的。基于这样的原则,我们建立了自监督感知大模型,将车载摄像头的二维视频数据进行编码,然后通过NeRF渲染来预测视频的下一帧图像,构建了4D特征空间。再通过多模态技术将视觉信号与文本信号对齐,实现识别万物。

对于认知大模型,输入的是感知结果、输出的是驾驶决策,由于感知结果和驾驶决策都是结构化文本,其处理的都是文本符号,我们自然而然地想到了引入NLP相关的技术。

在2023年之前,BERT模型在互联网领域取得了非常成功的应用,于是我们尝试将BERT类的掩码模型引入自动驾驶认知模型,通过量产车回传海量的数据对。这样输入历史10秒的、再用掩码盖住未来几秒的司机驾驶动作,然后让模型来预测驾驶动作,如果模型预测对了,就说明模型学会了开车,我们称之为完形填空。

但是训练效果并没有达到预期,分析后发现,与NLP任务完全不同,NLP通过mask部分单词,然后结合上下文可以把词猜出来,确实是完形填空。但是自动驾驶场景下,mask历史动作是毫无意义的,只能mask未来动作,即只有上文没有下文,这其实是写作文,大家都知道写作文的难度比完形填空高太多了。

而且,人类驾驶汽车不仅依赖历史感知结果,还更多的依赖对未来的预判,老司机往往对未来几秒的交通环境有非常好的预判,例如隔壁车道的车会不会突然变道、路边的行人会不会横穿马路等。基于这种预判,老司机再采取合理的驾驶动作。这种预判,从模型上讲就是一种生成式模型。于是我们将算法调整为GPT生成式模型,将历史感知结果使用BEV方式表达出来,再将BEV序列输入模型,让模型预测几秒钟之后未来世界可能发生的变化,这样就构建一个自回归的生成式模型,如下图所示:

然后,将感知和认识进行联合训练就可以实现端到端自动驾驶了。但是,我们发现仅通过这种方式进行训练,想要达到非常好的驾驶效果,需要的数据规模、算力规模都极为庞大,我们根本无法承受。

例如,在传统的分任务自动驾驶范式下,感知算法识别塑料袋后,可以人为设计一个塑料袋可以压过去的驾驶策略,这样训练成本很低,但是在端到端范式下想要让自动驾驶识别塑料袋并学习到塑料袋是可以压过去,需要大量数据进行训练,成本极高,这也是特斯拉手握数万卡的原因之一。

塑料袋、泡沫等软性材质是可以压过去的、交警的手势优先级是高于红绿灯的、救护车是要避让的,这些其实都属于人类社会的世界知识,这些知识都是人类经过长期学习之后获得的。

传统的基于人工策略的自动驾驶成本很低,就是因为通过人工策略直接把人类社会积累的知识用在了自动驾驶上,省去了训练成本。但是驾驶知识包罗万象,如果要基于人类知识为世间万物定制各类策略,也是一件不可能的事情。

那如何既能利用人类社会沉淀的知识,又能降低端到端自动驾驶的训练成本呢?考虑到大语言模型中压缩了几乎全人类的知识,如果能将跟驾驶决策相关的知识提取出来,应该能大幅度降低训练成本。

于是,毫末在端到端自动驾驶中又引入了大语言模型,通过感知大模型识别万物后,将这些信息输入LLM,通过LLM来提取世界知识,并作为辅助特征来指导驾驶决策。如图所示,这个系统极为复杂,算力消耗非常大,目前还只能在云端运行,未来几年将加快向车端的落地。

五、未来趋势

过去一年,大语言模型的发展思路给端到端自动驾驶很多启发,在模型、数据上都值得借鉴。

在自然语言处理领域,Chatgpt作为基础模型展示了极强的泛化能力。最近,学术界的研究在语言-视觉大模型上也取得了突破性进展,这种基础模型无疑会让自动驾驶如虎添翼。

特斯拉、Wayve等公司也提出将World Model作为自动驾驶基础模型的思路。World model是一种基于视频来预测未来世界的模型,例如特斯拉的world model可以根据prompt给出的动作来做出反馈,并生成未来的世界图像,而且能保证多视角、时序的一致性。

大语言模型压缩了人类的大部分知识,当然也包括驾驶知识。可以通过与LLM进行交互,提取驾驶常识。例如传统的占用

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://www.srwj168.com.cn/keji312/9285.html
开发商月之暗面 Kimi智能助手 后者估值或提高至30亿美元
PC全家桶装上GPT 微软向苹果开火!AI