CVPR‘24 与任务无关的多模态数据也能提升Transformer性能

万万没想到, 与任务无直接关联的多模态数据也能提升Transformer模型性能

比如训练一个图像分类模型,除了标注好类别的图像数据集,增加视频、音频、点云等模态数据,也能显著提升模型在图像分类上的性能。

这样一来,在AI训练阶段就可以减少与特定任务直接相关的标注数据需求,可以节省大量成本,或在数据有限的任务上提供新解决思路。

这个神奇的发现来自 港中文MMLab和腾讯AI Lab 的合作研究,相关论文已被CVPR 2024接收,引起广泛关注。

从无关数据中学习有用知识

具体来说,团队提出了一种称为 多模态通路 (Multimodal Pathway)的新框架。

该框架允许Transformer模型在处理特定模态的数据时,同时利用其他模态中的无关数据进行训练,从而在不增加额外推理成本的前提下显著提升模型性能。

多模态通路的核心技术是 跨模态重参数化 (Cross-Modal Re-parameterization)*。

这一技术的创新之处在于,它通过结构上的智能重组,使得模型能够在保持原有计算成本的同时,增加从其他模态学习的能力。

对于已经被广泛运用到多模态特征提取的Vision Transformer,团队关心的是这些神经网络中的主要线性层。

具体来说,这一技术在模型的每一个线性层中引入了辅助模态的权重,这些权重通过可学习的参数进行调节,从而在不增加推理时间的情况下,实现模态间的知识迁移。

如图所示,比如有不同模态的两个线性层 FC和FC’ , 那么跨模态结构重参数化就是要通过构建一个运算完全等价的线性层来承载两个模态的运算,在这里直接将来自不同模态的两部分权重 (W和W’) 做线性组合来平衡两个模态的权重对于目标模态的贡献。

实验结果:跨模态增益挖掘Transformer潜力

在论文中,研究团队详细介绍了他们的实验设计和结果。

在图像识别、点云处理、视频理解和音频分析等多个任务上应用了多模态通路技术,观察到 多模态通路能够在12种不同的模态相互帮助的关系中实现一致的性能提升

例如,在ImageNet图像识别任务中,结合了点云数据的多模态通路Transformer模型,比传统的Transformer模型在识别准确率上提高了0.7%。

与MAE预训练方法的各种改进相比,该方法无需高昂的计算成本来预训练1600 Epoch,而是直接在下游任务中微调,就能显著地提升模型性能。这充分展示了多模态学习在处理大规模复杂数据集时的强大潜力。

研究人员还发现, 跨模态知识迁移的效果不仅与模型参数规模有关,还可能与层次表示 (Hierarchical Representation) 能力密切相关 。也就是越擅长学习层次化的抽象表示的模型,迁移效果就越好。

更值得注意的是,该方法有效地证明了即使毫不相关的多模态数据之间,仍能存在着明显的多模态增益效果,这充分说明我们现在对多模态学习的理解与认知还有很大的提升空间。

总的来说,这项研究不仅能够启发多模态学习在学术领域的发展,也为工业界提供了新的思路。通过利用现有的海量数据资源,即使这些数据与当前任务不直接相关,也能够为AI模型的训练带来积极的影响。

这种方法为数据资源有限或难以标注的领域提供了新的解决方案,特别是在自动驾驶、医疗影像分析、自然语言处理等技术要求极高的领域,多模态通路技术的应用前景广阔。

此外,这一研究还揭示了AI跨模态学习的新机制,推动了学界对于不同数据模态间交互和协同处理的深入理解。研究团队表示,未来他们将探索将多模态通路技术应用于卷积神经网络(CNN)和其他跨架构的AI系统,以进一步挖掘这一技术的潜力。

论文地址:https://arxiv.org/abs/2401.14405项目网页:https://ailab-cvc.github.io/M2PT/开源代码:https://github.com/AILab-CVC/M2PT讲解视频:https://www.bilibili.com/video/BV1Sm41127eW/


"深度学习多模态训练,怎么解决不同模态之间差异的问题? "

语音和文本之间的模态差异虽大,但利用训练过的Tokenizer将所有未标注的语音和文本转换到相同的离散表示空间。这样,两种模态亦能在预训练中通过共享接口自然地交互。

如今,人工智能技术已经能够通过语音识别与语音合成实现两者的相互转换。随着自监督表征学习分别在自然语言处理(NLP)与语音领域取得了显著进展,研究者们开始关注语音和文本的联合预训练方法。

近期,微软亚洲研究院与微软云计算平台 Azure 语音组的研究员们提出了文本数据增强的语音预训练模型SpeechLM。神经科学研究显示,人类在接收语音和文字信息时会使用不同的大脑皮层分别预处理语音和文本,然后再将预处理的结果投射至同一个被称为Broca and Wernicke的区域提取语义等信息。受此启发,研究员们开始使用音素单元(phoneme unit)或隐藏单元(hidden unit)作为共享的语义接口[LZ1] 来桥接语音和文本模态。该接口具有很强的可解释性和可学习性。通过这个共享的语义接口,SpeechLM可以利用额外的文本数据来提升语音预训练模型的性能。在典型的语音-文本跨模态任务(如语音识别、语音翻译)和语音表征学习基准数据集SUPERB [1]上,SpeechLM表现优异。图1展示了在LibriSpeech数据集中使用不同数量的文本数据后,SpeechLM显示出的语音识别性能。仅仅使用少量文本数据(10K个文本句子)的SpeechLM显著地超越了之前的SOTA模型。目前,该模型已经在GitHub开源,并将集成到 Hugging Face框架中供研发者参考。

回首语音和语言联合训练

与NLP不同,语音信号是连续的,因此很难直接找到类似于BERT预训练的预测标签。想要解决这个问题,就需要一个Tokenizer将连续的语音特征映射至离散的标签。受文本预训练方法BERT的启发,语音表示学习模型HuBERT [2]利用MFCC特征或者Transformer中间层表示的k-means模型作为Tokenizer,将语音转换为离散的标签,通过迭代的方法进行模型预训练。

以往的联合预训练方法大多简单地让语音和文本共享神经网络的模型参数。这种训练方法不能保证语音和文本在同一语义空间内,存在迁移干扰和容量稀释的问题。为了缓解这两个问题,SLAM [3]和mSLAM [4]利用额外有监督的语音识别任务来增强语音与文本的一致性。然而,这些方法仍然无法使用相同的建模单元对未标注的语音和文本数据进行建模。虽然MAESTRO能够在RNN-T框架下通过模态匹配算法从语音和文本模态中学习共享表示,但该算法只能在成对的语音-文本数据上进行优化。

SpeechLM的目标就是利用文本数据来改善语音表征的学习。不同于之前的研究,SpeechLM能够利用训练过的Tokenizer将所有未标注的语音和文本转换到相同的离散表示空间。这样,两种模态亦能在预训练中通过共享接口自然地交互。

构建语音和文本的共享桥梁

语音和文本之间的模态差异极大。首先,语音信号比文本数据具有更多更丰富的信息,如韵律、音色、情感等。其次,语音是由一连串音素组成的连续信号,通常表示为连续平滑的波形,而文本是由词语、字词或字符表示的离散数据。第三,语音表示比文本表示更长,例如,一秒16KHZ的语音包含个采样点和几个单词。因此,如何弥合语音和文本之间的模态差异是构建两者桥梁的关键。

为了解决这一问题,研究员们探索使用了一个定义好的离散标签来桥接语音和文本,将语音和文本映射到共享离散空间中进行联合预训练。利用音素单元或者隐藏单元作为语音和文本之间的桥梁具有以下优点:

(1)将语音和文本分别对齐成共享的中间表示比直接对齐两者更容易

(2)可以充分利用额外的未标注数据来提升对齐学习

(3)可以利用更细粒度的对齐信息(例如帧级别对齐)来促进联合建模。

研究员们定义了两套不同的离散Tokenizer来实现这个目的,分别将语音文本映射到基于音素单元的表示空间和基于隐藏单元的表示空间。音素单元Tokenizer使用混合ASR模型,将未标记的语音序列转录成帧级别的音素单元,并通过词典转换未标记的文本。而隐藏单元Tokenizer使用基于HuBERT的k-means模型将语音聚类为隐藏单元,并利用非自回归模型将未标记的文本转换为隐藏单元。所有的Tokenizer模型都是用无监督数据或少量ASR数据训练获得的,并在预训练前离线使用,不直接参与预训练过程。

EMAN:自监督和半监督学习的指数移动平均归一化

引领自监督与半监督学习新纪元:指数移动平均归一化(EMAN)的革命性突破

在深度学习的探索领域,Cai等人在2021年的CVPR大会上,提出了一个颠覆性的创新——指数移动平均归一化(EMAN),它为自监督和半监督学习模型的性能提升带来了显著的飞跃。传统的批量归一化(BN)遇到的cross-sample依赖问题,在EMAN面前得到了有效缓解,教师网络的泛化能力因此得到了显著提升。

EMAN的独特之处在于,它不再受限于每批次数据的计算,而是通过教师网络中的指数移动平均策略,动态调整数据归一化,这与标准BN的固定计算方式形成了鲜明对比。在使用仅有1%的ImageNet标签数据时,EMAN能将自监督模型的性能提升4-6个点,半监督模型更是提升7个点。即使在10%的标注数据下,EMAN也能稳定地提升1-2点和2点的性能,这在不同方法、网络结构、训练时长和数据集上都得到了一致验证,彰显了EMAN的强大适应性和有效性。

图1:对比标准BN,EMAN在EMA-teacher架构中如虎添翼,教师模型不再受反向传播的限制,通过EMAN的指数移动平均更新,强化了模型的全局视野。

图2:在FixMatch框架中,EMAN同样展现出卓越的性能,弱增强视图与强增强视图的处理,得益于EMAN的归一化策略,让模型在半监督学习中更稳健。

算法1的展示,揭示了EMAN背后简洁而强大的逻辑,它像一把钥匙,打开自监督和半监督学习的新大门。一系列图表和表格,如图3、表1-8,详尽地展示了EMAN在ImageNet上的卓越表现,无论是训练精度曲线,还是对比其他归一化方案和模型的对比结果,都强有力地证明了EMAN的卓越性能。

EMAN的出现,如同一颗璀璨的星星,照亮了自监督与半监督学习的夜空,它以一种直观、高效的方式解决了关键问题,推动了人工智能领域的技术进步。在多模态人工智能的探索中,EMAN无疑是重要的一笔,为人类文明的智能进化贡献了力量。

探索更多可能,一起迎接AI的明天!^_^↑

关注“多模态人工智能”公众号,获取更多前沿科技资讯!^_^↑

年内落地BEV,大算力芯片准备好了吗?

讲述 | 余轶南

编辑 | Amy

编者注:

本文是HiEV出品的系列直播「硬核拆解BEV」第二期,地平线副总裁兼软件平台产品线总裁余轶南博士分享的内容梳理。

第三期商汤绝影量产行车智能驾驶研发负责人蒋沁宏分享的《BEV三大关键:数据、迁移和芯片部署》将在6月1日(周四)晚8点开播。

目前,自动驾驶最主流的传感器是摄像头,头部的一些主机厂也开始把摄像头作为主传感器。摄像头的优点在于:

近50年,计算机视觉整体上是step by step的发展模式。说到这里,不得不提马尔计算理论(Marrs computational theory),是关于对象识别的计算机视觉理论。

该理论指提取从图像到图像的一些基本要素,称之为2.5维要素图,最后根据2.5维表象形成信息,计算三维模型表征的一种逻辑。

这一逻辑到今天依然成立,但是表达方式可能不再是step by step模块化方式,它更多地使用神经网络来去替代。

在过去,我们在研究计算机视觉的过程中,有使用到行人检测算法、人脸检测算法、车辆检测算法,现在这些都被统筹到了神经网络算法当中。

一、深度学习成为主力,神经网络取代手工代码

从2012年开始,也就是在NIPS上发表Convolution Neural Network(卷积神经网络)论文作为起点,深度学习开始成为计算机视觉的主力算法。

这个算法有一个非常典型的特点,在规范了整个输入和输出以后,整个网络内部是如何抽取这些经验要素,以及最后如何处理这些经验要素,组成语义信息输出,其实是通过前向传播之后再后向传播的学习方式,而不是过去人工的方式,这样大大地简化了设计工作量,从而可以在更大规模、更加复杂的任务上得到更好的效果。

今天对自动驾驶来说,不仅包括视觉感知,还包括局部定位、对目标长短期的行为预测、自车的规划和控制,而这些都可以使用神经网络完成,我们将其 定义为软件2.0。

和上一代相比,软件2.0最大的区别在于,它可以 通过神经网络的设计替代过去通过人工来手写代码的方式完成任务。因此这对软件工程师或者代码量的要求,从比例上是开始缩减的,但是网络规模上不断增大。

对自动驾驶来讲,今天大部分的感知,或者称之为“大感知”、“广义感知”,都是通过数据来驱动的。

除感知以外,定位融合、地图定位融合、规划控制等,也都在从基于规则、手写代码实现的软件1.0方案,一步步转向数据驱动。

二、GPT启示下的端到端模型训练

去年至今,发生了一场新的 通用AI革命,即以大规模训练模型引领的各种各样的GPT,形成多种模型。

而对于整个GPT模型来说,这跟之前深度学习的训练方式存在一定的差别,GPT主要是通过海量数据预训练,加少量数据监督学习,然后强化学习,这三阶段去完成。那我们把它映射到自动驾驶的这个系统里面,可以看到:

不过训练是分阶段训练,不是一上来就大规模训练。在软件2.0的驱动下,整个自动驾驶算法的架构也产生了很大的变化,包括感知、定位融合、规划控制,分模块设计。

目前对于使用深度学习形成端到端的过程,行业已经形成共识:

无论是摄像头还是雷达,地图或者其他信号包括导航,都可以通过一种编码的方式 Token化,比如卷积神经网络就可以认为是一种编码器,不同的传感器将它编码成想要的信息。

同时,各种控制命令、信号都可以编码,例如地图格式的转换,最后把这些信息形成一个完整的对外输出的Token,输出给认知和决策层。

模型主要网络也可以是Transformer类,或者类似的,最后通过decoding层直接生成最终的信号,给到车辆执行器。

在过去一年,地平线的同事以第一作者的身份,在 CVPR 发表了一篇文章 《基于 Transformer框架实现自动驾驶端到端深度学习算法》,提到的架构如上所述。这样的架构兼具可解释性以及最终端到端的效果,在一些公开实验上,已经看到了很好的潜力和表现。

这篇论文发表的时候附带一个范例,有意思的是,虽然在整个训练过程中没有显性地给出红绿灯或者其他交通规则形式,但在整个大规模训练后,汽车可以根据红绿灯状态启停,这一过程中信息其实不在训练数据里,而是数据标注里。

整个大模型其实对场景常识的认知是能够自动通过预训练和参考过程学习。大家可能会问这样的算法架构模型这个规模有多大?

其实,目前整个自动驾驶模型,例如我们常见的这种大语言模型还是小得多,我们整个GPT语言模型想取得不错的效果,所需的数据训练量在几个T级别。但是随着算力增长,计算效率提升,不断增大算力,效果还会继续提升的。目前来讲,整个transformer都是 T级起步,10T~20T,最大可能要几百个T。

未来网络越来越大,这些都依赖 硬件基础设施。

对于云端来说,我们可以通过并行计算集群,实现大规模算力需求,但在车端,受限于车端面积、散热功耗等一系列约束条件,可能需要使用单芯片或者双芯片来实现算力,所以对端上单芯片算力、算效要求其实非常大。

而随着整个大算力需求增长,可以发现卷积神经网络和Transformer在架构上最大的区别还在于 带宽的分配。

相比于卷积神经网络来说,如果卷积神经网络常见的带宽和计算的比通常是1:100到1:1000,而到Transformer这样的架构,通常计算带宽的需求和算力的需求比例大概是1:1到1:10。

未来架构里,芯片带宽可能会成为新的核心瓶颈。

从征程5到征程6,这两大芯片都大幅度提高了片上带宽以及带宽相比算力的比值,从而能更好地支持BEV加transformer等更大模型的方案。

BEV感知方面,这其实是相对于刚刚提到的端到端里第一个能够落实到量产的计算平台上的,最重要的一个感知算法。

第一,过去我们都是先在2D图像里做目标的检测,然后把它通过摄像头投射到3D里,这种技术的好处是整个计算非常直观。但整个投影过程都是使用软件的方式,没办法形成端到端。

而BEV相比于这个传统方案最大区别就是,它可以看到整个状态,通过一个上帝视角,对全局状态有一个更好的感知和预测能力,更有全局意识。

基于BEV多模态前、中融合比较能够容易地去融合多模态的传感器,不同角度的摄像头我们都可以通过一个全新网络来对它进行编码,然后编码之后把它投影到BEV视角下的形式。

而激光雷达天然就具备3D的视角空间,所以我们可以让激光雷达通过一些方式在3D空间形成一个特征,然后就比较容易做特征级别的对齐,在特征级拼接形成多模态。

相似的技术也可以用于超声波、毫米波,在BEV空间编码,之后进行加工,最终形成 感知结果。这种中融合的方式很容易去做多模态的传感器融合,相较于后融合,整个架构更加简单,易于训练。

三、基于征程5的BEV感知

在征程5上,我们已经实现一套 基于BEV的时空融合。

除了这个空间和多模态以外,还有时间融合的框架,可以把多个摄像头、多种传感器,包括时间融合到整个框架里。这里面又可以分为输入层,包括不同的传感器,例如前视、周视、鱼眼、激光雷达等。

通过BEV模型对整个图像进行编码,投影到BEV的空间,雷达链路也是一样的,之后再通过时空维度转换,把这些东西集中表达,最后通过一个神经网络和transformer架构合成,到输出层直接输出。

输出包括 3D检测、物体跟踪状态、轨迹,以及车道线目标,车位静态障碍物以及占用网络及整个3D物体,整个端到端的系统可以从感知的目标检测到预测,再到轨迹到预测,全部都可以输出。

这里面很多是我们实际场景的实验结果,都是实车测试的:

还有就是对所有目标物都可以预测行为轨迹,这种行为预测方法可以让我们提前对目标物进行行为预测,对其他车辆行驶路径可以预判,从而对自车行为进行干预。

另外,算法也可以实现相对复杂场景下的自动驾驶,例如左拐,右拐并线以及匝道口的博弈、汇出和对路边静止车辆自动规避和避让。

四、连线互动:BEV对芯片带来的挑战

此环节包含主持嘉宾周琳、元戎启行副总裁刘轩、复睿智行CTO 周轶以及直播观众与余轶南博士的探讨。

Q:特斯拉最近公布将在V12版本上推出端到端的技术,像transformer还是有很大容错率的,自动驾驶对安全性要求很高,基于transformer大模型,我们可以通过哪些途径提高安全性?

A:安全的确是我们在自动驾驶上面临的一个很大问题,自动驾驶安全可以分为两个方面:

不同场景下失效概率其实很低,我们所要确保的是不同场景失效概率尽可能低。如果某种场景下的失效概率是10的负6次方,甚至到10的负9次方,那从统计上来说,系统是安全的。当然我们仍需要关注这种场景下失效的危险和风险是什么。如果失效后仅仅是需要安全停车,那么风险很小。

如果失效后会发生严重的碰撞和事故,那么这种场景需要我们全行业一起去一步步地解决。失效问题一方面通过理论推导和实验解决,一方面需要通过实践去检验具体场景下的状态。

Q:您刚刚介绍了在征程5上面的方案,地平线芯片目前已经支持了BEV的方案,之前是不支持的。那这个转变是基于什么样的契机呢?

A:最重要的一点是芯片算力足够支撑这样的算法和计算规模。BEV算法其实在2015、2016年在学术界已经被提出来了,那时我们的效果和2D效果还是有不少差距的。

随着近几年芯片算力的提升,端到端系统算力指数级线性增加,有效算力增加。

Q:现在业内有很多BEV方案,不同方案需要不同的算子,而基于深度学习的方案需要其他算子,那地平线对这些算子是都可以支持还是支持其中一部分?支持的力度和广度怎么样?

A:大部分的算子都是支持的,最大的区别在于架构算力效率。如果整个计算是比较规整的,那效率很高,如果计算本身的跳变,例如内存里的跳变,这个不规整性比较强的话,整个计算的效率就低。

学术界的算法是多种多样的,但是产业界各家产品的BEV架构其实就两种,这两种模式算法其实各家做得都差不多,原因是在产品上要追求的不光是普通的实现,还有计算的效果。

在这样的算力下,最大化计算结果是怎样的,以及帧率的约束,包括像素分辨率的约束,大家基本是趋同的。所以学术圈的算法很热闹,产业界还是殊途同归的。

Q:无论是transformer、占据网络、BEV技术还是没有解决z轴上的一些问题,学术界和工业界对3D占据网络还是比较感兴趣的,这方面未来的规划是怎样的?

A:我们最近的量产项目已经上了占用网络、3D感知、预测这些功能,但我们发现如何使用这些算法是巨大的问题。

因为传统算法,主要是规控算法如何在规控层面使用BEV的点列,因为过去像我们L2这样的系统,例如车道都是用三次方程的表达形式,但这种方式在城区这种场景下是完全不可以的,所以需要退回到最原始的表达方式,也就是点列的方式,但是点列对于规控需要如何使用呢?这就是一个新问题。

Q:您刚刚讲到占用网络如何使用的问题,那今天不光是每一个格被占用,同时每一个格x、y、z三个方向的速度如何,这些信息需要综合起来,需要整个规控系统转化为数据驱动,或者是优化搜索的系统,只有这样才能使用。

您刚刚提到规控是很重要的模块,那么地平线有没有针对规控有更特别的设计和优化?

A:从神经网络的角度来讲,我个人认为,大部分的算法尤其是在后端,基本都趋于transformer加Token这种表达方式。其次,我们对transformer架构做了很多工作,例如我们的一篇文章,就有提到其实对整个后端,包括对目标、地图的编码以及对轨迹预测、使用,规控算法的使用来说,全是用一种方法调整去实现的。

我们在一两年前开始做下一代芯片,也是征程5的下一代芯片整个算力规划的时候,我们的判断是,感知未来自芯片算力上的规模需求可能只占1/3,甚至更少,剩下2/3或者1/3用来做什么,需要做环境理解。

环境理解不是指感知的环境,感知部分其实已经把所有的车道线、道路边缘等全部识别了,那环境理解最重要的是理解环境要素之间的关系。例如红绿灯和十字路口的关系,这些需要感知和大量数据分析推理而来。

对道路的表达形式已经开始变成点列,其实无非就是要在这些点位之间表达二阶关系。对规控来说,其实就是要去讲清楚自车形式轨迹,轨迹与轨迹之间也是有关联的。从这个角度来讲,其实所有后端的架构都可以被统一。

Q:刚刚聊到芯片算力,那目前地平线的合作伙伴也用了通用的芯片,那么从你们的角度出发,基于征程5的BEV方案,相较于友商的芯片方案,性能上相比怎么样?

A:这个问题需要深度横评,因为我刚刚讲到算力飙升只是代表了加阵列的数量以及整个计算的主频,就相当于我有那么多计算单元,但是怎么把它用起来,怎么把计算结果保存,整个流程如何进行其实是很难确定的。

而每家芯片这部分的技术都是核心,很难通过理论分析实现,尤其是作为第三方也很难评测。最好的方式就是像手机跑分一样评测。

Q:我们的目标平台是征程5,那在我们开发过程中,怎么保证我们未来转到征程5不会做太多额外工作?

A:整个芯片来讲:

第一,兼容大部分芯片,能够使用我们的编程接口,能扩大一些自定义;

第二,假设我们今天已经有一个结构,那我们可以通过工具链里的工具来适配;

第三点,我们不但能去推动性能上的提升,还能告诉我们网络设计者整个神经网络节点信息,提供改进空间。

如果芯片的实际使用效率很低,这其实是一种巨大的浪费。

Q:在BEV时代,还是需要大量的数据标注,那地平线是如何降低人工标注数据在整个训练环节中的依赖?

A:我们讲软件2.0,讲端到端的网络,包括我们现在讲的大规模训练,里面最大的挑战不光来自模型结构本身,其实很大的挑战来自怎么去准备训练。

过去我们可以在2D空间对图片做手工标注,很小的一张图的成本就有好几千,但我们也可以通过一些大模型去做,我们通过人工的方式做,把成本控制住,做一套完整的自动化工序。

目前友商有去下载一些模型,使用公开的数据,呈现的效果很好,但是这些东西放到实际的系统上去应用并不可行,因为里面缺少一套完整的端到端的系统。

我们就做了这样一套系统,后续会命名,这套系统包括大规模数据标志、自动化标志、大模型的训练和评测,这样整个云端系统才能在后台、在前台的BBA层真正发挥作用。

Q:车展上我们公司发布了基于毫米波雷达加整个视觉的网络算法,但我们认为这种算法只是解决了空间探测能力问题,但实际在自动驾驶中,像您刚刚说的语音识别,对不同目标行为预测,在自动驾驶中可能比感知更重要一点。那怎样把网络跟语音信息在同一个结构里展现出来,然后让规控做得更好?是只用传统网络做?还是把这两个结合做?

A:最大的挑战不在于网络本身,最大的问题在于数据怎么标注,因为需要做大规模数据训练,所以整个数据散度以及规模都是比较大的。在我看来,今天能把这些事情做好的公司不多。

另外还需要大规模数据采集,采集所有量产车的数据,还需要比较廉价的数据采集方式获取数据,根据数据去做一些增强,从而生成我们所需的标准。

这个过程需要清洗数据,具体的行为方式很像做众包地图,但跟众包地图不完全一样,因为需要发现更多动态信息、关联信息,这个过程是需要自动化的。学术界有一些算法可以去做这些事情,这也是我们下一步需要攻克的。

Q:关于地平线征程5甚至征程6芯片,如何对transformer进行硬加速?

A:这方面的网络结构并不复杂,主要还是用一些传统的算子,我们本身就是支持的,问题的核心是

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://m.srwj168.com.cn/keji312/2888.html
美国经济报告现分歧 市场看跌者遭受打击
16系列上减小MagSafe的厚度 节省成本 苹果将在iPh