怎么就被特斯拉搞出来了 GPT 时刻智能驾驶的

特斯 FSD V12 走通了大数据、大模型、大算力，成为彻头彻尾的端到端学习。

作者 | 周永亮 编辑 | 靖宇

5 月 15 日，针对特斯拉 FSD（Full-Self Driving，全自动驾驶）付费选装率仅 2% 的消息，特斯拉 CEO 马斯克在 X 平台上回复称，实际情况远远超过了这个数字。

这一回应是针对知名特斯拉投资者加里·布莱克对未来 FSD 接受率的质疑而作。根据信用卡数据提供商 YipitData 提供的数据，在试用了一个月 FSD 的美国特斯拉车主中，只有 2% 的用户选择继续订阅该服务，远低于预期的 6%。

布莱克认为，这可能是因为 FSD 服务的附加值不高，或者订阅价格（每月 99 美元）过高。他呼吁特斯拉需认真评估这些因素，以更好地迎合车主需求。

与此同时，马斯克 4 月底访华，引发了关于特斯拉 FSD 在中国落地的讨论。不过，据中国日报报道，尽管特斯拉提出在中国推出「无人驾驶出租车」，但中国政府尚未完全批准 FSD 在中国全面落地，可能会先支持其在国内进行测试和示范。

那么，处于风口浪尖的特斯拉 FSD 实际体验如何？是否会再次引发鲶鱼效应？

智能驾驶的

ChatGPT 时刻

随着新能源汽车进入智能化下半场，智能驾驶一直是行业追逐的技术制高点之一。人们不仅关注驾驶场景通过率和通勤效率，还更加关心智能驾驶是否更加人性化。

之前特斯拉 FSD 的 V11 版本，和很多智能驾驶系统一样，速度控制生硬，处理突发情况时会突然刹车或加速，带有明显的机械感。尤其是在狭窄路段或恶劣天气等特殊情况下，这种生硬的速度控制会让用户感到不安。

但现在，特斯拉 FSD V12 的出现改变了这一格局。体验过特斯拉 FSD V12 的知乎博主「EatElephant」表示，它最大优势之一是其拟人化的能力。V12 版本的最大提升在于速度和转向控制的顺畅度。乘客即使在后排坐着，也几乎感觉不到在红绿灯启停和路口转弯时的任何顿挫感。

第二，V12 在处理一些非结构化场景（比如缺少车道线与交通规则的约束）有了很大的提升，比如在转弯的时机和幅度、减速的具体程度等方面。例如，在 V11 版本中，当车辆在直行时遇到前方远处左转的车辆时，智能驾驶系统的反应是明显减速。虽然这样可以规避碰撞风险，但减速的幅度通常过大，导致明显的顿挫感，也增加了被后车追尾的风险。

而在 V12 版本中，面对类似情况，系统似乎能够更准确地判断前方车辆的行驶路线和速度。因此，它可以以非常合适的速度减缓，让车上乘客几乎感觉不到，同时又留出足够的安全距离，避免了不必要的不舒适感和后方车辆的追尾风险。

第三， V12 应对各种场景的能力显著提升，大大减少需要人工干预的次数 。比如，特斯拉 FSD V12 不仅能够识别并绕过路面上的铁皮等障碍物，还能在道路施工时根据引导标识在临时开辟的道路上行驶，就像人类司机一样灵活应对。即使需要驶向对向车道，也能够不受逆行标识和中心黄线的限制。在夜间行驶时，它能够像人类一样先右转驶入两辆靠边的停车之间巧妙的避让对向来车，待对向来车驶离后再向左打方向盘继续前进，展现出了出色的驾驶技能。

试驾时的场景，蓝色为导航路线，绿色为 V12 自主变动的路线 | 图片来源：知乎博主「EatElephant」

同时，知乎博主「EatElephant」还提到，FSD V12 展示了一些类似智慧涌现的能力。在测试中，车辆遇到这样一个难题：路口前有一个车道，V12 无法使用倒车档完成掉头。在乘客等待时，V12 发现了一个小停车场，果断改变路线绕过，尝试代替标准掉头。尽管最后出口处系统提示接管，但这一行为是自动驾驶技术中的一次重大突破，因为通常系统会严格遵循导航路线，自行偏离导航的行为几乎不可接受。

这些进步也体现在人工干预的次数。相比之前版本， V12.3 版本在城市环境下的无关键接管行驶里程大幅增加，从约 100 多英里（约合 160 公里）提升到了 386.7 英里（约合 622 公里） 。

相比之下，同济大学教授、汽车学院副院长熊璐曾表示，北京、上海、广州等地的自动驾驶企业， 平均每百公里需要接管 3.5 次到 10 次不等，基本上每行驶十几或几十公里就需要人工接管一次 。

目前，特斯拉 FSD 或许正迎来自己的「ChatGPT 时刻」，尽管仍存在一些不足之处。例如系统在驾驶时有时会让人感觉距离路边太近，让人有些担心；对来车的识别和避让不够及时，比如遇到消防车时的反应不够灵敏；对一些特殊路标或车道的识别可能出现错误，对于坑洼的识别和避让也有些问题。

不过，这并不妨碍特斯拉大幅增加对智能驾驶的投入。据了解，到今年年底，特斯拉计划在自动驾驶技术上累计投入达到 100 亿美元。考虑到 2016 年至 2023 年的总支出在 20 亿美元左右，这意味着今年特斯拉在智能驾驶上的支出将达到 80 亿美元左右。这是一笔巨额投资，表明特斯拉对进一步提升 FSD 技术的决心。

FSD V12 是如何炼成的？

特斯拉 FSD V12 的体验显著提升背后，是其技术路径逐渐收敛的结果。

自从 2020 年推出 FSD 功能以来，特斯拉一直在引领智能驾驶技术发展方向。与传统的依赖激光雷达和高精度地图的方法不同，特斯拉坚持采用了纯视觉技术，使得车辆能够更好地理解周围环境。

2022 年特斯拉 AI Day 上的占据栅格技术框架 | 图片来源：特斯拉

在随后的两年中，特斯拉通过一系列活动，如 AI Day 等，公布了大量关于 FSD 技术的方案。这些方案涉及到数据闭环、共享主干网络、BEV 感知以及占据网络等概念。尽管这些技术处于行业领先地位，但之前的版本一直受到用户诟病，认为其用户体验改进不够明显。

然而，随着 FSD 的发展到 V12 阶段，情况发生了变化。与 FSD 11 相比，FSD V12 最大的变化在于采用了端对端神经网络技术（End-to-End Neural Network, E2E NN）。这种技术使系统能够更好地理解和处理复杂的驾驶环境，减少驾驶员的干预，提高了自动驾驶的精准度和自动化程度。

以往，FSD 的基本流程通常包括感知、决策和执行三个阶段。在早期版本中，感知阶段需要通过视觉或雷达获取周围物体信息，并对其进行识别和分类，而决策阶段则依赖于预先编写的控制规则。

特斯拉 FSD 车辆变道 | 图片来源：特斯拉

然而，在 FSD V12 中，采用了端对端神经网络技术，这些步骤发生了革命性的变化：感知阶段不再需要手动识别和分类物体，决策阶段也不再需要预先编写的控制规则。系统只需要通过大量视频输入来让神经网络学习，就能够在不同情况下做出正确的决策。这使得特斯拉在 FSD V12 中能够减少大量代码，使系统更加轻便、灵活，同时即使在没有网络连接的情况下，也能够在陌生的环境中正常运行。

马斯克去年底曾表示，特斯拉的 FSD Beta V12 从头到尾没有编程 ，没有程序员写一行代码来识别道路、行人等概念，全部交给了神经网络自己思考，C++代码只有 2000 行，而 V11 有 30 万行。

其实，端到端模型并不是一个新概念，早在之前就有人提出过。然而，许多人对神经网络的可解释性和可靠性一直存在疑虑。尽管端到端系统提高了模型的能力上限， 但也放大了神经网络作为「黑盒」的不可解释性问题，这会给研发迭代和问题解决带来 巨大挑战 。所以，很多公司不敢轻易尝试。

特斯拉 FSD 让大家看到端到端模型的潜力。当然，这个过程并不是一蹴而就的。特斯拉一直在自动驾驶技术中，强调端到端的「纯度」。从 V10.9 版本开始，他们去掉了车道线感知的后处理代码，改为由模型直接输出车道线。在 AI Day 上，特斯拉也展示了如何将学习型轨迹生成和神经网络决策模型引入规划控制模块。

然而，特斯拉的技术更新主要集中在技术栈的中上游，如感知和预测，而控制行车功能的决策规划模块却很少改变。这导致用户体验的改善不够显著。

V12 的重大突破在于打通了整个技术栈的最后一环（决策规划），使系统能够进行端到端数据驱动，最终实现了更自然、更智能的驾驶行为。

随着 V12 采用了端到端技术架构，直接优化了规划控制输出，因此用户体验的改善将会更加迅速。5 月初，马斯克宣布，特斯拉的 FSD 系统即将迎来三大更新版本，分别为 V12.4、V12.5 和 V12.6。

其中，V12.4 版本预计将在 5 月中旬推出，该版本将全面更新模型训练，以提高系统的准确性和可靠性。其次，针对用户反馈的加速过猛和刹车过急问题，V12.4 以及后续版本将重点优化驾驶舒适度，从而提升乘客的驾乘体验。

回到本文开头，马斯克造访中国，似乎正在让 FSD「落地中国」这件事变得更具可信性。甚至，外网盛传比亚迪和特斯拉在 FSD 将展开合作的消息，更将 FSD 入华的潜力获得更大的释放——世界上最大的两家新能源车公司的合作，会产生怎样的结果？

如果传言成真，特斯拉 FSD 是否会改变当前智能驾驶领域的局面？中国车企的智能驾驶「故事」又将如何继续发展呢？

这大概是所有人都会幻想，却不太敢问的问题。

极客一问

你认为 FSD 落地中国

的传言会成真吗

特斯拉可以自动驾驶吗？

特斯拉汽车配备了自动驾驶辅助系统，可以控制车辆的速度，实现自动转向和变道。但是，这并不意味着特斯拉汽车已经完全实现了全自动驾驶，驾驶员仍然需要时刻保持注意，并在必要时接管驾驶权。以2021款特斯拉Model3标准续航后驱升级版为例，该车采用了先进的电动驱动技术，包括磷酸铁锂电池、电动机总功率为202kw、电动机总扭矩为404nm等，同时配备了固定齿比变速箱和双叉臂式独立前悬架、多连杆式独立后悬架等高性能悬挂系统。这些技术使得特斯拉汽车在保持出色的驾驶性能的同时，也能提供更为智能和安全的驾驶体验。

具身智能时代呼唤“端到端”

“随着模型能力的迭代，以及模型从语言模型逐渐变成一个加上生成、多模态理解的能力，相信在今年年底、明年可能会期待有质变的产生，从务实的角度来看，大模型目前阶段只是一个初步的阶段。”

文丨智驾网王欣

一辆搭载着FSD V12.3.1 Beta的特斯拉穿梭在旧金山市闹区的傍晚，依靠纯视觉端到端的方案完成了从车位驶出到目的地停靠路边的丝滑操作。

马斯克几乎会以每两周的节奏对FSD进行一次“大改”，直到这次FSD V12.3.1 Beta的更新。

3月25日，马斯克向全体特斯拉员工发了一封邮件，要求必须为北美地区提车的客户展示并安装激活FSD V12.3.1 Beta，并在交车前让客户进行短暂的试驾。希望让人们意识到FSD确实有效。

紧接着，马斯克又随即公布特斯拉基于纯视觉方案的端到端自动驾驶泊车功能将在这几日推送，在Twitter上对FSD不惜溢美之词的进行宣扬：开特斯拉用FSD，几乎哪儿都能去。

新版本发布后，海外媒体平台充斥着该版本的测试视频，不少网友对FSD V12.3.1在北美城市道路中的驾驶能力表达了赞叹：Tahts so cool！

作为引领自动驾驶风向标的特斯拉，已经将端到端自动驾驶的热流从北美流入了国内，又从舆论场的角逐带到了今年3月15日-17日召开的电动汽车百人会的产业演讲中来（以下简称：百人会）。

端到端的风暴，在中国正式打响了“第一枪“。

纯视觉在端到端中的“AB”面

随着高速NOA走向城市NOA，自动驾驶系统的复杂程度在大幅提升，数百万行的C++代码对人工编写规则方式带来巨大的成本。

这时，完全基于人工智能和神经网络的感知模块不会存在因为手动编写规则引发效率低下的困惑，所以现如今的行业风向走到基于大模型的端到端自动驾驶。

多家企业在今年百人会论坛中亮相了行业成果的殊荣，各家对于感知的技术路线看法也各有千秋。

去年，商汤的端到端自动驾驶大模型UniAD入选了2023年CVPR最佳优秀论文。

绝影是商汤智能汽车的板块，商汤绝影智能汽车事业群总裁王晓刚在百人会上表示：“端到端的自动驾驶UniAD，是今年我们自动驾驶最大的突破，从高速到城区的领航，在这里可以看到场景日益复杂，需要大量的工程师每天去解决层出不穷的各种case。端到端自动驾驶是数据驱动，能够为我们高效地解决城区的领航，提供更加高效实践的路径。”

与传统的的单模态模型相比，多模态大模型的优点在于它可以从多个数据源中获得更丰富的信息，从而提高模型的性能和鲁棒性。

王晓刚还提到，商汤进一步提出了多模态大模型自动驾驶方案，这种方案的输入，除了各种感知传感器，系统的信息以外，还允许人机交互，通过自然语言作为输入。当自动驾驶时觉得旁边大车有压迫感，如果想要离它远一点，或者想超车，都是可以通过语言模型进行交互。

另外，输出的时候不但可以输出感知，还可以输出规控，还可以对自动驾驶做出的决策有解释性。

毫末智行CEO顾维灏也发表了对多模态大模型的看法，基于毫末的的DriveGPT，顾维灏表示，DriveGPT最核心的能力是基于持续的多模态的视觉识别大模型。

“我们把它用Token化的表达方式进行训练，再进行三维化，这是我们做大模型很重要的技术基础。”

DriveGPT是毫末智行研发的垂直领域大模型，在视觉大模型基础上，毫末又构建了多模态大模型，用以实现感知万物识别的能力。

顾维灏表示：“多模态放到视觉大模型里面，就会让视觉三维的渲染、标注、识别，能够提前自动化地理解这个照片里面，或者是说前融合后的数据里面究竟这个桌子和讲台是怎么样来分割的，所以加入了多模态大模型。在认知模型里面，我们又加入了大语言的模型。大语言模型它不仅仅是自然的交互，它还有很多知识的理解。”

网络和火山更强调座舱大模型，共识是：认为座舱大模型天生是多模态的场景。

网络的语音和大模型的一体化方案已经在极越车上落地，网络智能云汽车行业解决方案总经理肖猛认为，2024年是座舱大模型的元年。

同时，极越还是目前国内唯一采用纯视觉自动驾驶方案落地的车企，基于网络Apollo纯视觉高阶智驾能力和安全体系赋能，极越完成OCC（Occupancy Network，占用网络）升级，已形成“B.O.T”（BEV+OCC+Transformer）完整技术体系。

与传统的视觉方案相比，OCC的一个显著优势在于它能够处理未知或不常见的物体，降低了因未识别物体而可能引发的意外情况的风险。OCC还能够以厘米级的精度对障碍物进行三维建模。

3月26日，极越在其AI DAY2024技术大会上，发布了OTA V1.4.0新版软件，升级涉及智能驾驶、智能座舱、智能互联、三电等诸多领域，共计升级200多项功能。

当OCC对应在PPA（点到点领航辅助）功能上，就能使车辆拥有更合理的路线规划，并实现更流畅的变道和绕行。

火山引擎汽车行业总经理杨立伟在谈到大模型在各个行业应用时，发现汽车行业一个非常大的特点。

他表示：“手机目前交互形态还是基于触摸屏幕，通过屏幕来交互的产品形态，所以这也是为什么我们看Siri和手机里面的语音助手做的不好，我相信座舱内有非常便利的空间，目前没有大模型的时候，我们座舱的语音交互的时长和频率已经非常高，座舱是天生多模态的场景，机器想要跟人有互动更好，大模型更像一个人机交互的操作系统和人机交互的智能品。这样的话没有多模态的能力是不行的。”

端到端是自动驾驶研究和开发领域的一个活跃研究方向，这是不争的事实，但端到端自动驾驶技术尚未成熟，跟随特斯拉FSD V12的后来者虽多，但对于任何一家具备研发自动驾驶技术能力的企业来说，光是从普通架构切换到端到端技术的单项成本就颇高。

杨立伟坦诚地表达了这一观点：大模型现在在整个汽车行业的应用还是偏早期阶段。“刚才我们还在讨论，目前是量的提升，没有到质变，随着模型能力的迭代，以及模型从语言模型逐渐变成一个加上生成、加上多模态理解的能力，我相信在今年年底、明年可能会期待有质变的产生，从务实的角度来看，大模型目前阶段只是一个初步的阶段。”

感知固然重要，它提供了必要的信息输入，是司机的“眼睛与耳朵”，与它同样重要的，还有被业界及科研机构不断研究的认知，涉及到规划、决策和应对复杂或紧急情况的能力，相当于司机的“大脑”。

而只有当大模型作为自动驾驶的驾驶员，在认知层面远超于人类时，才能做出超出人类的决策能力，这时，感知、认知会不断迭代，甚至超出人类认知的上限，自动驾驶才会迎来真正所谓的GPT、IPhone时刻。

北京大学计算机学院教授黄铁军在百人会上对当下自动驾驶发展阶段进行了总结：

第一个阶段：只关心感知精度，缺乏认知的阶段，现在大部分车还处于这一阶段，就是L2、L3还很难，因为你只关心感知，不关心认知，这是肯定有问题的。

第二个阶段：特斯拉的FSD，但是他也不是真正的大模型，他只是用了Transformer，还是学人类的驾驶行为。但未来一定是对世界的深度认知，加上很强感知的时代。

不过目前，基于纯视觉方案的端到端自动驾驶，仍被很多主机厂认为是跨越鸿沟的必经之路。

因为不需要大量的人工策略、只需要采集足够多的优质驾驶数据来训练即可，可以通过规模化的方式不断扩展数据来不断提升系统的能力上限。

但这种简单也隐藏了巨大风险。

完全基于视觉的端到端自动驾驶不具备传统自动驾驶系统的“透明性”，传统自动驾驶即模块化方法，端到端自动驾驶是一体化方法，不产生中间结果，直接通过图像输入，直接输出控制信号，但这种技术路线也存在彻底黑盒，解释性差的问题。

同时，端到端模型的训练需要处理大量的数据，包括多模态视觉数据和车辆控制信号等。

当大模型训练的“暴力美学”应用在自动驾驶上

端到端可以类比做GPT-4语言模型，通过收集海量的数据加上训练而实现的。

以特斯拉为例，通过遍布全球的几百万辆量产车，可以采集到足够丰富、足够多样的数据，再从中选出高质量数据，在云端使用数万张GPU、以及自研的DOJO进行训练和验证，使得端到端自动驾驶能够从paper变成product。

OpenAI的秘诀一直以来是屡试不爽的Scaling Law——当数据和算力足够多，足够大，就会产生智能涌现的能力。

直到Scaling Law在这次百人会中被诸多次提及，意味着自动驾驶的成熟需要“暴力美学”来催化，而背后是高昂的算力支出来支撑。

黄铁军在百人会上明确强调了大模型未来超越人类的关键不是靠概率，靠的正是对海量语料，数据背后精确的理解。

顾维灏表示，伴随着人工智能和大模型的发展，自动驾驶迎来了第三个阶段：数据驱动的时代。

或许可以这么理解：大部分代码都不是工程师来写，这些工程师从第二个阶段的“软件驱动的时代”来到了第三个阶段的“数据驱动时代”，解放了过去写软件的双手，所有的工程师都是在准备数据、准备环境、训练模型、检验最后的结果、调整结构、调整参数等工作。

最近一段时间的发展，顾维灏认为或许是自动驾驶的3.0时代。“每一个时代里面的感知、认知和模型是什么样方式来实现的，都完全不一样。”他说。

智能驾驶1.0 时代，是以硬件驱动为主；2.0 时代，是以软件驱动为主；3.0 时代，则是数据驱动为主的大模型时代。

“端到端一定是未来很重要的方向，但它不会这么快到来，”顾维灏表示。他认为还需要几年的发展。“把过去的离散的部分逐渐地聚集化、模型化，把感知的模型聚集到一块，把认知的模型聚集到一块，控制的模型聚集到一块，然后再来实践车端模型和云端模型的联动。”

在 3.0 时代中，顾维灏指出端到端是最重要的方向，目前行业的发展趋势是一个从分散到聚集的过程。

在谈到算力需求时，王晓刚认为，过去发展的过程当中，从2012年AlexNet出现，深度学习神经网络大规模的应用，对于算力的需求是上千倍的提升。随着ChatGPT、GPT-4，甚至更大规模的大模型，我们有上亿倍算力需求的提升。

如何分配技术和下一代技术算力的精力、资源也是一针见血的问题。

网络智能驾驶事业群组首席研发架构师王亮在百人会活动上接受媒体采访时透露：“我们选择纯视觉路线，放弃了激光雷达把它拿掉也是资源的原因。我们希望把所有算力、数据、处理资源、人才、模型参数规模都给到纯视觉</stron

清华邓志东教授：大模型助力自动驾驶特斯拉至少领先行业三年

自动驾驶加速发展，产业链将洗牌。

作者|Juice

编辑|志豪

自动驾驶在走过低谷之后，正开始重新攀登高峰。

从去年开始，国内自动驾驶市场的整体表现并不算好，大额融资变得寥寥，而技术上的突破也并不明显，整个行业走向了低谷。

但今年，这一趋势发生了很大的变化。

从政策角度来讲，工信部等四部委联合发布《关于开展智能网联汽车准入和上路通行试点工作的通知》，正式对L3/L4自动驾驶的准入与上路进行了具体的规范，为L3/L4向商业化、规模化迈进进行了政策法规的创新引领与适度超前部署。

▲《关于开展智能网联汽车准入和上路通行试点工作的通知》

而从技术层面来看，以ChatGPT为代表的通用人工智能技术正在给自动驾驶的发展注入新活力。传统的小模型、小数据弱人工智能方法正被换挡，通过大模型来布局自动驾驶的路径越发明显。

其中最典型的玩家当属特斯拉，通过端到端的大模型技术，其在自动驾驶方面的最新产品FSDV12在海外的表现已经非常稳定了，引进国内也指日可待，届时，特斯拉在自动驾驶领域可能会再次化身为鲶鱼，搅起新的风暴。

▲特斯拉FSD Beta在不同环境下的示意图

从用户接受度的维度来看，现阶段，部分新购车的用户尤其是新能源汽车的车主对于智能辅助驾驶NOA的接受程度已经越来越高了，完成了初步的用户教育，这也为自动驾驶的真正规模化落地提供了可能性。

可以说自动驾驶的发展正进入一波全新的发展周期。

而在大好形势下，我们也应该清晰地认识到，自动驾驶的发展也还有一些难题需要解决，比如说大模型如何为自动驾驶赋能？放开L3/L4准入政策后，怎样才能真正实现产品落地？多种技术路线之争应该如何决断？

如果不能很好地回答这些问题，那对于自动驾驶的发展来说仍然会产生不小的影响。为了更好得到这些问题的答案，车东西特地采访了国内人工智能和自动驾驶领域的先行者——清华大学计算机系长聘教授，博士生导师，清华大学人工智能研究院视觉智能研究中心主任邓志东教授。

邓志东教授是国内最早一批开始从事人工智能研究的专家之一，同时在2009年就开始了自动驾驶的研发与实践，也属于最早的一批研究者，因此在这两方面无疑有着足够的积累和发言权。

另外预告一下，邓志东教授将参加12月19日由智一科技旗下智能汽车产业新媒体车东西联合硬科技讲解与服务平台智猩猩在深圳发起主办的2023全球自动驾驶峰会，并在主会场开幕式带来主题报告《大型视觉语言模型助力自动驾驶产业落地》。另外，李弘扬、李志琦等学者以及来自智行者、元戎启行、Nullmax等企业的众多大咖也已确认参会演讲或参与圆桌讨论。欢迎大家报名，线下参会交流。

ChatGPT是分水岭人工智能发展提速

在人工智能领域，邓志东教授绝对算得上是老资历了，1992年在清华博士后期间就开始投身到了人工神经网络的研究方向。

当时研究的主要是人工神经网络与非线性系统学等，这些在当时还处在非常早期的阶段，人工神经网络模型还在缓慢的量变过程中，没有达到质变。

人工智能产业从2012年开始起步，十几年间，真正落地的产品并不算多，一些落地的产品主要为人脸识别、机器翻译与语音识别等，但机器翻译的“机器”味道似乎还比较浓，整个行业并未闭环一个良好的产业逻辑。

2022年，很多行业内的从业人员对于（弱）人工智能产业能否真正落地产生了怀疑。

而ChatGPT无疑是一个划时代的产品，大模型在某种意义上把人工智能这个产业又重新救活了。

▲ChatGPT聊天页面

不过大模型并不算是一个全新的概念。预训练与微调的范式，2015年前后就出现了，2017年Transformer问世后就开始有了大模型。事实上，2020年出现了两个重要的AI进展，一个是OpenAI推出的GPT-3，另一个则是谷歌的AlphaFold2，这两项成果被普遍认为是人工智能领域六十多年来产生的“诺奖级”成果。

事实也确实如此。AlphaFold 2就成为了今年诺贝尔奖的候选成果之一，虽然最终没有获奖，但是这一成果和GPT-3基础大模型之重要性，可谓不言而喻。

这些大型语言模型与以往最大的不同之处在于，已开始出现了一些认知能力，这是此前不曾有过的，人工智能确实更聪明了。从目前的视角回头来看，2022年11月30日ChatGPT惊艳问世之前的人工智能十年，应该叫做弱人工智能时代，当时一个模型只能解决一个任务。

当时是小数据、小模型，通常需要标签进行完全的监督学习，而且也还没有摆脱机器性。

现在最大的不同就是模拟并构建了人类语言模型与世界知识模型，开始运用人类的语言思维来理解和学习了。这是一个非常大的突破，语言实际上属于高级文明，不仅可帮助人类沟通交流，而且还便于记载文明，促进人类知识传承，让下一代人站在人类知识总和的肩膀上前行。

相比于人类，机器对人类知识的传承效率更高，可以在短短数年时间内学完人类整个一般性的文本知识，甚至还能记忆得更加准确。

大模型的发展离不开Transformer的出现，2017年6月12日谷歌的NLP研发人员在进行神经机器翻译的时候提出了Transformer这种可规模化的新一代神经网络模型。

▲八位在谷歌工程师率先提出Transformer

邓志东教授认为，Transformer的诞生并不是突然出现的，当时行业内已有很多人都在研究LSTM模型的注意力机制，包括怎么使用多层的编码器，怎么使用多个解码器层，怎么去做隐含的特征表达等等，实际已经有了Transformer的雏形。

但是这样的突破性创新或许只能出现在巨头企业里，原因是相比于LSTM，Transformer更加复杂“冗余”了，这就需要更多的GPU算力，显然当时只有头部企业才能有足够的算力去考虑或支撑这样的研究。

不过，Transformer诞生之初还仅是为了做机器翻译，后来才开始用来做文本语言大模型。OpenAI在2015年12月正式成立，初心就是要实现通用人工智能（AGI），而这一使命或愿景也是十分大胆的，此前极少有人敢提及这一观点。

▲OpenAI初始成员

实际上，OpenAI的核心团队都是硅谷非常成功的人士，新的阶段有了更加宏大的目标。

OpenAI早期并没有做出什么重要的成果，回过头去看，初期的GPT-1和GPT-2都没有太大的意义，不具有明显的优势，直到GPT-3的出现。

这主要跟模型的架构有关系，BERT等编码器架构的模型文本阅读理解与特征表达能力会比较强，但是生成能力相对较差，反过来，GPT等解码器架构的模型生成能力比较强，但阅读理解能力比较差，OpenAI正是选择了后一种技术路线。

后来通过Transformer神经网络规模的不断增加，特别是与GPU算力的交替跃升之后，才通过大型语言模型的自监督学习与构建，获得了非常大的性能提升。

随着算力和数据的不断扩增，人工智能的能力也在不断提升。现在GPT-4 Turbo甚至已经可以开始利用外部工具了，包括可以调用很多Action来完成任务，这也是一个非常大的突破。

▲OpenAI CEO山姆·奥尔特曼发布GPT-4 Turbo

但也应该明确的一点是，通用人工智能的发展还刚刚拉开序幕，一切才刚刚开始。

从这个角度来看，我们正处在一个非常幸运的时代，还有大量机会见证通用人工智能更多的发展变化。

大模型赋能智能驾驶特斯拉是先行者

从仅十年人工智能的发展角度来看，有三个人的作用非常突出，一个是图灵奖得主杰弗里·辛顿，另外两个则是辛顿的博士生，一个是前一段时间OpenAI“政变”的核心人物伊利亚·苏茨克维（Ilya Sutskever），另一个则是亚历克斯·克里切夫斯基（Alex Krizhevsky）。AlexNet就是以后者的名字命名的，而伊利亚作为OpenAI的联合创始人与首席科学家，则在GPT的发展过程中做出了很大的贡献。

除此之外，特斯拉AI与Autopilot 视觉主管，斯坦福李飞飞教授的博士生Andrej Karpathy，曾是OpenAI的创始成员及研究员之一，2017年至2022年则成为特斯拉人工智能与自动驾驶的灵魂人物。

▲Andrej Karpathy（左）与马斯克（右）在特斯拉AI DAY上演讲

Karpathy在特斯拉负责人工智能与AutoPilot期间，于2020年主持将特斯拉EAP的所有底层代码都进行了Transformer重写，这与他的OpenAI工作经历不无关系。

也是在那个时候，马斯克才正式对外喊出了要推出FSDBeta。

所以特斯拉较早就知道要用大模型来落地自动驾驶。为了更好地支撑多模态大模型的发展，特斯拉还专门研发了Dojo超算，也购置了大量的A100。

▲Dojo超算机柜

目前人类已经进入到了互联网和移动互联网时代，每天都有海量的数据涌现，因此必须要采用自监督或者无监督的学习方法，这就对数据本身的质量具有非常之高的要求。

而特斯拉既是一家人工智能算法与算力公司，也是一家自动驾驶公司，更是一家主机厂，不但具有足够多的数据，也拥有足够强的算力支撑，并且已经在大模型算法方向上走了较长时间了。

BEV+Transformer算法的使用，不用激光雷达也可以进行纵向距离的测算与补全，这也是一个创新性的做法。

大型语言模型的使用对于自动驾驶的性能提升非常明显，例如，通过视觉语言大模型就可以直接阅读理解道路交通场景，并生成详细的文本描述。

当大模型人工智能获得了道路交通场景的感知能力之后，再配合类似于Q*之类的深度强化学习算法进行决策与规控，特别是利用多模态大型语言模型进行端到端的整体贯通之后，甚至直接通过交互就可进行智能体学习，这就和人一样，只要经过一些驾驶技能的培训与操练就能够上路了。

目前产业界和学术圈对于特斯拉FSDV12都很期待，这一版本正是用彻底的端到端思路来实现高阶智驾的，跟人类一样，输入是不断涌入的图像帧视频，输出就直接是转向、制动与加速这三个模拟量。

这个过程中会存在较多的问题，例如中间的感知、预测、决策与规控过程其实是不透明的，另外就是如何处理边缘事件？现在看来，特斯拉可能通过视觉大模型与超级算力有效地解决了后面这个问题。这可能是因为他们已拥有了足够多的高质量训练数据，或多模态大模型出现了超强的零样本泛化能力。

另外特斯拉已经从2020年就开始做这个事情了，而且作为头部造车新势力，也积累了世界上最多的数据，而国内则在今年3月之后才开始加速布局，中间的差距至少有三年，所以在短时间内很难去超越特斯拉。

▲特斯拉基于视觉数据构建3D空间

国内的智驾玩家中，华为投入了大量的人力与资源进去，技术扎实，目前走得比较靠前。而网络、<a href=target=_blank

特斯拉可以自动驾驶吗？

具身智能时代呼唤“端到端”

清华邓志东教授：大模型助力自动驾驶特斯拉至少领先行业三年

相关文章