无需3D数据也能训练港中文联手华为推3D驾驶场景生成模型港科&amp

无需采集3D数据，也能训练出高质量的3D自动驾驶场景生成模型。

这是来自香港中文大学、香港科技大学和华为诺亚方舟实验室的最新研究成果——针对自动驾驶街景的可控3D场景生成方法“MagicDrive3D”。

此前，采用常见的2D自动驾驶数据集来生成3D街景的方法不是没有，但受采集角度所限，生成结果的可控性和几何一致性无法同时满足。而现在，MagicDrive3D通过结合可控生成与场景重建解决了这一限制。

不仅支持多条件控制，还突破了原始数据的局限，即使在原始图像不一致的情况下，也能建立出连贯的高质量模型。

即使场景中有很多物体，生成结果依然真实可靠：

而且支持天气情况的文本控制，可以一键从晴天切换到雨天：

道路结构、物体位置都能够精确控制（随机保留50%车）：

还可以一键实现白天与夜晚的转换（随机保留25%车）：

总之，这项成果解决了自动驾驶等无边界场景下3D场景的高质量模型开发难题，可以有效帮助BEV分割等下游感知任务。

常规驾驶数据即可实现可控场景生成

3D自动驾驶场景生成应用广阔，然而目前3D资产的生成方法通常局限于以物体为中心的生成场景，对于自动驾驶中无界限的大场景生成缺乏探索。

但从应用的角度来说，可控的生成方法在下游应用中价值更高，针对这个痛点，MagicDrive3D提出了一种新颖的框架，在常规的自动驾驶数据集上即可训练出3D场景生成模型，而且支持多种条件控制！

MagicDrive3D继承了前一代MagicDrive诸多优点，其多条件控制可以实现场景、背景和前景的多层次街景图像编辑，用来生成更多的自动驾驶3D场景。

△MagicDrive3D 的多视角渲染能力

而且生成的场景支持多相机视角的渲染，例如全景图渲染：

在目前应用最广泛的nuScenes数据集上，MagicDrive3D在视频生成和场景生成两方面相比于baseline，均表现出明显优势。

△MagicDrive3D的生成效果评估

此外，MagicDrive3D生成的图片还可以直接用于数据增强，可以在BEV分割任务中提升相机参数的鲁棒性。

△MagicDrive3D的生成数据在下游任务的效果

那么，MagicDrive3D究竟是如何做到的呢？

先合成，再重建

随着扩散模型的发展，图片、视频生成的方法层出不穷，但是受限制于现有的数据采集形式，这些方法只能生成固定的相机视角，对场景几何缺乏建模（geometry-free），因而无法拓展到更多视角。

能够支持多视角的重建方法，虽然能够提供几何一致性的保证（geometry-focused），却又受到了真实采集的数据（静态、多视角数据）的限制，常见的自动驾驶数据集根本无法满足这些要求。

为了填补这部分空白，MagicDrive3D提出了一个将视角合成方法与场景重建方法相结合的框架。

该框架充分利用前者的可控性以及后者的几何一致性，实现了接受多种控制条件的3D街景场景合成。

△MagicDrive3D的方法框架

具体来说，MagicDrive3D首先训练了一个细粒度可控的视频生成模型，不仅能够通过语义信息控制，视频中每个视角的相机参数都经过统一坐标系编码，使得生成的多视角视频具备更强的几何一致性。

接着，为了提供更强的几何一致性保证以及多视角渲染，MagicDrive3D提出可形变的高斯泼溅作为场景的3D表征，结合单目深度点云进行重建。

最终得到的驾驶场景能够合理的反应各种控制条件，并且支持任意相机视角的精确渲染。

总的来说，MagicDrive3D带来了一个全新的、高效的可控3D场景生成框架，不仅成功解决了无界限的3D场景生成难题，其可控性更为多种下游任务提供了支持。

相比前序工作MagicDrive，MagicDrive3D不仅提供了多视角渲染能力，生成的场景几何信息也为更多样的场景编辑提供可能。

随着质量和真实性的提升，生成数据将得到更广泛的应用，为自动驾驶技术的发展注入更多活力。

论文地址：

https://arxiv.org/abs/2405.14475

项目主页：

https://gaoruiyuan.com/magicdrive3d/

「大模型+大算力」加持，通用人工智能和智能驾驶双向奔赴

开年以来 ChatGPT、GPT-4 的相继面世再度掀起计算机科学领域通用人工智能（AGI）研究热潮，也不断刷新我们对 AI 的认知。

作为具有人类水平表现的大型多模态模型，GPT-4 被视为迈向 AGI 的重要一步，标志着创新范式的深度变革和生产力的重新定义，也必将带来更多元的产品迁移。

截至目前，全球已经有超百万家初创公司声称使用这一秘密武器来创造新产品，而这些产品将彻底改变从法律到股票交易，从游戏到医疗诊断的近乎一切领域。

尽管其中很多是营销泡沫，但与所有技术突破一样，总会存在炒作周期和意想不到的远期效果。

事实上在另一边，进入 2023 年智能汽车领域同样十分热闹。

智能化已然成为上海车展全场关注的最大焦点，除了激光雷达等关键传感器的单点式突破，各大巨头也纷纷展示智能驾驶全产品矩阵，城市场景辅助驾驶量产落地加速推进。

更加值得注意的是，BEV、大模型、超算中心等计算机热词正在与自动驾驶、行泊一体、城市 NOA 等智驾焦点火速排列组合，颇有相互交融、双向奔赴的味道。

在这背后，一方面是近年来智驾、智舱持续升级对 AI 在汽车场景落地的数据、算法、算力不断提出更高要求，另一方面，AGI 的重大突破也已将触角伸向智能汽车，将其视为实现闭环应用的重要场景，很多企业布局已经相当高调。

日前，商汤科技 SenseTime 举办技术交流日活动，分享了以「大模型+大算力」推进 AGI 发展的战略布局，并公布该战略下的「日日新 SenseNova」大模型体系。

在「大模型+大算力」加持下，本次上海车展商汤绝影驾、舱、云一体产品体系已全栈亮相，近 30 款合作量产车型集中展出，商汤也再度分享了智能汽车时代的 AGI 落地新思考。

本次上海车展亮相的部分绝影合作车型展示

算法：AI 正式步入大模型时代

如商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚所言，「AGI 催生了新的研究范式，即基于一个强大的多模态基模型，通过强化学习和人类反馈不断解锁基模型新的能力，从而更高效地解决海量的开放式任务。」

通用大模型并非为自动驾驶而生，或为满足自动驾驶的特定任务需求而设计。但智能驾驶开发的诸多新需求已在推动算法从专用小模型向通用大模型快速演进。

首先是应对海量数据处理和 Corner Case 问题的迫切需求。

对于感知系统低频出现但至关重要的小目标及带来的潜在安全隐患，算法开发需要面对海量数据，传统的 AI 小模型将难以同时处理大数据量和高复杂度的任务。通用大模型则可用在长尾目标的初筛过程，并叠加语料文字处理得到很好的效果。

再比如智驾算法开发对自动化数据标注、降低人工成本的诉求。相比于人工标注，通用大模型将自动化对海量数据完成标注任务，大幅降低标注数据获取的时间成本和本身的金钱成本，从而缩短研发周期、提升成本效益。

处于类似的考量，近年来国内外巨头企业已围绕大模型纷纷展开各自智驾布局。

继 Google 于 2017 年提出将 Transformer 结构应用在 CV 领域图像分类，大模型已在 GPT-2、GPT-3、BERT 等当中不断证明实力，特斯拉率先站台 Transformer 大模型征战图像视觉。

国内企业也紧随其后：

毫末智行已宣布自动驾驶认知大模型正式升级为 DriveGPT，网络表示利用大模型来提升自动驾驶感知能力并将大模型运用到数据挖掘，华为也已宣布加入大模型争霸赛，自研「盘古」即将对外上线。

作为行业领先的人工智能公司，商汤在大模型领域可谓乘风破浪，过去一两年则全面将大模型能力在各业务线 20 多个场景落地，包括智能驾驶。

商汤「日日新 SenseNova」大模型体系背后是大模型研发中深厚的积累。商汤有自己的全栈大模型研发体系，其中就包括针对大模型的底层训练及实施过程中的各种系统性优化。

例如，商汤近期向社区发布的用于真实感知、重建和生成的多模态的数据集 OmniObject3D 中包含 190 类 6000 个物体，数据质量非常高。

再比如，商汤在 2019 年就已首次发布 10 亿参数的视觉大模型，到 2022 年参数规模已达到 320 亿，这也是世界上迄今为止最大的视觉模型。

此外，商汤也在智驾领域持续展示大模型能力。2021 年开发的 BEV 感知算法在 Waymo 挑战赛以绝对优势取得冠军，2021 年 BEV Former 的 Transformer 结构至今仍是行业最有影响力的 BEV 工作，今年开发的 UniAD 是业内首个感知决策一体化的端到端自动驾驶解决方案。

在技术实力的另一端是量产进度。商汤也给出了自己的智能驾驶量产公式：

自动驾驶技术能力=场景数据 x 数据获取效率 x 数据利用效率² =场景数据 x 数据获取效率 x 先进算法 x 先进算力。

而先进的算法大模型不仅将通过跨行业数据汇聚提升驾驶场景数据资源，通过数据闭环开发模式和自动数据标注提升数据获取效率，更将大幅提升感知精度和感知丰富度进而成倍提升数据利用效率。

依托原创 AI 算法和模型积累，商汤领先的 BEV 感知算法推进国内首批量产应用，并采用 Domain Adaption 算法有效解决跨域泛化问题。商汤首创的自动驾驶 GOP 感知体系将目标数据获取的人力成本降低 94%，实现低成本的车端模型开发，目前也已投入量产应用。

算力：智能汽车时代的重要基础设施

随电子电气架构技术由分布式不断向集中式演进，大算力芯片成为新型电子电气架构实现的物理基础。

近年来车端芯片算力发展突飞猛进，如英伟达规划中的 Atlan 单颗芯片算力超 1000TOPS，THOR 单颗算力超 2000TOPS，将大幅提升单车感知决策能力。

而在云端，AGI 在自动驾驶、网联等场景的泛化应用将提出比车端指数级更高的算力要求——从数据标注到模型训练，从场景仿真到算法迭代。

算力将是智能汽车时代的新型基础设施。

在此背景下，近年来主流企业纷纷开启双线并行探索，车端自研算力平台，云端建立超算中心。而进入大模型时代后，数据量随着多模态的引入也将大规模增长，因此必然也会导致 AGI 对算力需求的剧增。

可以看到，英伟达车端云端同步布局并将提供端到端的全栈式 AI 加速计算解决方案，特斯拉也早在 2021 年 8 月发布自研云端超算中心 Dojo。

据近期报道，埃隆·马斯克也将成立一家人工智能公司来与 OpenAI 竞争，已购买数千个英伟达 GPU 并一直招募 AI 研究人员和工程师。

国内方面，吉利、蔚来、特斯拉、毫末智行、小鹏等企业也已跟进布局云端算力集群，投入巨大以提升智驾开发算力储备。

对于商汤来说，如果说大模型将是支撑智能驾驶的上层建筑，那么大算力就是数字基座。

商汤科技董事长兼 CEO 徐立表示，目前大模型对基础算力、基础设施的需求非常旺盛，基础算力对并行效率的要求也非常高，但真正好用的基础设施其实十分稀缺。

出于这一原因，商汤历时五年自建了业界领先的 AI 大装置 SenseCore，完成 2.7 万块 GPU 的部署并实现 5.0 exa FLOPS 的算力输出能力，是亚洲目前最大的智能计算平台之一，可同步支持 20 个千亿规模参数量的超大模型同时训练。

位于上海临港的 AIDC 人工智能计算中心将为智能汽车的数据存储、标注、脱敏、仿真训练、算法迭代到部署的闭环提供算力支持，打通基于数据驱动的算法生产全流程，加速高级别智能驾驶技术的 AI 模型生产和持续迭代，推动实现规模化量产。

在 AIDC 的基础上，AI 大装置也将提供支持大模型生产的一系列服务：

如此规模的算力设施即使特斯拉同期也尚难以望其项背，也必将推动大模型的高效闭环。

「大模型+大算力」推动智能汽车行业整体进程

汽车行业正在面临百年未有之大变革。尽管此次以「大模型+大算力」推进 AGI 发展是商汤提出的战略布局，但事实上，这一理念早已在行业层面达成共识。

基于感知、决策规控和 AI 云三大核心能力，商汤「大模型+大算力」已赋能绝影驾、舱、云三位一体产品体系量产落地：

除智能驾驶领域的全栈能力和行泊一体量产解决方案外，「大模型+大算力」也正在助力商汤打造智能座舱跨场景生态。

车展期间，与商汤「日日新 SenseNova」大模型体系深度融合的绝影未来展示舱升级亮相，语言大模型「商汤商量 SenseChat」以及 AIGC 文生图平台「商汤秒画 SenseMirage」也已上车，多点融合重构人车交互方式，打造第三空间。

以「商量」为例，作为千亿级参数的自然语言处理模型，其使用大量数据训练并充分考虑中文语境，展示出出色的多轮对话和超长文本的理解能力。

商汤也展示了语言大模型支持的诸多汽车场景创新应用，如在行车过程中化身「邮件助手」自动提炼关键信息，作为「会议助理」自动生成会议纪要，大大节省用户行车时处理工作的时间和精力，为未来出行的应用场景拓展带来丰富的想象空间。

此外，以人工智能大模型开发、生产、应用为核心，一站式

3D建模需要学多久可以学会？

截至2020年，3D建模在经常进行系统培训的情况下需要的时间在6个月-12个月之间，具体时间是因人而异的。

零基础学习3D建模，需要一个完整的3D建模课程设计，一个好的课程设计大致应该包含4个方面的内容，时间在6个月-12个月之间：

1、一个月预科班基础课，

虽然零基础可以学习3D建模，并不代表着可以不重视基础。所以学习的第一步是要巩固自己的美术基础，最快的练习方式是直接在PS手绘板上进行临摹，一个月一般临摹40个左右的肩甲类、图表类小物件，数量就可以达标了。

2、三个月专业基础课，

专业基础课主要是在预科班的基础上学习美术基础，3Dmax基础，UV拆分和摆放，贴图绘制基础，三个月高强度的训练，对3D建模的整个制作流程已经非常熟悉了。

3、三个月项目实战训练，

美术基础、软件基础、UV、贴图整个3D建模的流程都学完以后，开始进行项目实战训练，开始针对不同类型的3D建模进行训练，每个项目实战的案例都不是随意选择的，每个案例都有一定的侧重点和训练方向，每种材质都学习训练过后，到真正的公司项目上才能游刃有余。

4、公司真实项目实训，

如果有机会到公司的真是项目上进行实训一个月左右，在项目导师的带领下，逐渐去适应项目的节奏，效率，工作要求和标准，那掌握的速度就非常快了。

注意事项：

1、要想学会操作3D建模就必须要熟练地使用电脑，鼠标和键盘的灵活度是必须要的，因为在接触3D建模后，很多指令都需要用到快捷键。

2、3D建模是比较难学的，3D建模的最大特点是它的渲染功能，是其他软件不能比的。自学的路很难也很花时间和精力，真心想学的话最好报个班。

N-Shot Learning：用最少的数据训练最多的模型

作者 | Heet Sankesara

翻译 | 天字一号（郑州大学）、邺调（江苏科技大学）

审校 | 唐里、Pita

如果将AI比作电力的话，那么数据就是创造电力的煤。

不幸的是，正如我们看到可用煤是消耗品一样，许多 AI 应用程序可供访问的数据很少或根本就没有数据。

新技术已经弥补了物质资源的不足；同样需要新的技术来允许在数据很少时，保证程序的正常运行。这是正在成为一个非常受欢迎的领域，核心问题：N-shot Learning

1. N-Shot Learning

你可能会问，什么是shot？好问题，shot只用一个样本来训练，在N-shot学习中，我们有N个训练的样本。术语“小样本学习”中的“小”通常在0-5之间，也就是说，训练一个没有样本的模型被称为 zero-shot ，一个样本就是 one-shot 学习，以此类推。

1-1 为什么需要N-Shot？

我们在 ImageNet 中的分类错误率已经小于 4% 了，为什么我们需要这个？

首先，ImageNet 的数据集包含了许多用于机器学习的示例，但在医学影像、药物发现和许多其他 AI 可能至关重要的领域中并不总是如此。典型的深度学习架构依赖于大量数据训练才能获得足够可靠的结果。例如，ImageNet 需要对数百张热狗图像进行训练，然后才能判断一幅新图像准确判断是否为热狗。一些数据集，就像7月4日庆祝活动后的冰箱缺乏热狗一样，是非常缺乏图像的。

机器学习有许多案例数据是都非常稀缺，这就是N-Shot技术的用武之地。我们需要训练一个包含数百万甚至数十亿个参数（全部随机初始化）的深度学习模型，但可用于训练的图像不超过 5 个图像。简单地说，我们的模型必须使用非常有限的热狗图像进行训练。

要处理像这个这样复杂的问题，我们首先需要清楚N-Shot的定义。

对我来说，最有趣的子领域是Zero-shot learning，该领域的目标是不需要一张训练图像，就能够对未知类别进行分类。

没有任何数据可以利用的话怎么进行训练和学习呢？

想一下这种情况，你能对一个没有见过的物体进行分类吗？

夜空中的仙后座（图源： https:// www -registration /constellation/cassiopeia）

是的，如果你对这个物体的外表、属性和功能有充足的信息的话，你是可以实现的。想一想，当你还是一个孩子的时候，是怎么理解这个世界的。在了解了火星的颜色和晚上的位置后，你可以在夜空中找到火星。或者你可以通过了解仙后座在天空中基本上是一个畸形的W这个信息中识别仙后座。

根据今年NLP的趋势，Zero-shot learning 将变得更加有效（ /ten-trends-in-deep-learning-nlp/#9-zero-shot-learning-will-become-more-effective）。

计算机利用图像的元数据执行相同的任务。元数据只不过是与图像关联的功能。以下是该领域的几篇论文，这些论文取得了优异的成绩。

在one-shot learning中，我们每个类别只有一个示例。现在的任务是使用一个影像进行训练，最终完成将测试影像划分为各个类。为了实现这一目标，目前已经出现了很多不同的架构，例如Siamese Neural Networks（ https:// www /~rsalakhu/papers/），它带来了重大进步，并达到了卓越的结果。然后紧接着是matching networks（xi /pdf/），这也帮助我们在这一领域实现了巨大的飞跃。

小样本学习只是one-shot learning 的灵活应用。在小样本学习中，我们有多个训练示例（通常为两到五个图像，尽管上述one-shot learning中的大多数模型也可用于小样本学习）。

在2019年计算机视觉和模式识别会议上，介绍了 Meta-Transfer Learning for Few-Shot Learning（xi /pdf/ 181 ）。这一模式为今后的研究开创了先例;它给出了最先进的结果，并为更复杂的元迁移学习方法铺平了道路。

这些元学习和强化学习算法中有许多都是与典型的深度学习算法相结合，并产生了显著的结果。原型网络是最流行的深度学习算法之一，并经常用于小样本学习。

在本文中，我们将使用原型网络完成小样本学习，并了解其工作原理。

2. 原型网络背后的思想

上图为原型网络函数的示意图。编码器将图像进行编码映射到嵌入空间（黑圈）中的矢量中，支持图像用于定义原型（星形）。利用原型和编码查询图像之间的距离进行分类。图源： https:// www /paper/Gaussian-Prototypical-Networks-for-Few-Shot-on-Fort/feaecb5f7a8ddb7c0b480f55d098a6a7/figure/1

与典型的深度学习体系结构不同，原型网络不直接对图像进行分类，而是通过在度量空间（）中寻找图像之间的映射关系。

对于任何需要复习数学的人来说，度量空间都涉及距离的概念。它没有一个可区分的起源点。相反，在度量空间中，我们只计算一个点与另一个点的距离。因此，这里缺少了矢量空间中加法和标量乘法（因为与矢量不同，点仅表示坐标，添加两个坐标或缩放坐标毫无意义！）请查看此链接，详细了解矢量空间和度量空间之间的差异 /questions/1 149 40/what-is-the-difference-between-metric-spaces-and-vector-spaces。

现在，我们已经学习了这一背景，我们可以开始了解原型网络是怎样不直接对图像进行分类，而是通过在度量空间中寻找图像之间的映射关系。如上图所示，同一类的图像经过编码器的映射之后，彼此之间的距离非常接近，而不同类的图像之间具有较长的距离。这意味着，每当给出新示例时，网络只需检查与新示例的图像最近的集合，并将该示例图像分到其相应的类。原型网络中将图像映射到度量空间的基础模型可以被称为Image2Vector模型，这是一种基于卷积神经网络（CNN）的体系结构。

现在，对于那些对 CNN 不了解的人，您可以在此处阅读更多内容：

简单地说，他们的目标是训练分类器。然后，该分类器可以对在训练期间不可用的新类进行概括，并且只需要每个新类的少量示例。因此，训练集包含一组类的图像，而我们的测试集包含另一组类的图像，这与前一组完全不相关。在该模型中，示例被随机分为支持集和查询集。

很少有镜头原型ck被计算为每个类的嵌入式支持示例的平均值。编码器映射新图像（x）并将其分类到最接近的类，如上图中的c2（图源：xi /pdf/ 1703 .05 175 ）。

在少镜头学习的情况下，训练迭代被称为一个片段。一个小插曲不过是我们训练网络一次，计算损失并反向传播错误的一个步骤。在每一集中，我们从训练集中随机选择NC类。对于每一类，我们随机抽取ns图像。这些图像属于支持集，学习模型称为ns-shot模型。另一个随机采样的nq图像属于查询集。这里nc、ns和nq只是模型中的超参数，其中nc是每次迭代的类数，ns是每个类的支持示例数，nq是每个类的查询示例数。

之后，我们通过“image2vector”模型从支持集图像中检索d维点。该模型利用图像在度量空间中的对应点对图像进行编码。对于每个类，我们现在有多个点，但是我们需要将它们表示为每个类的一个点。因此，我们计算每个类的几何中心，即点的平均值。之后，我们还需要对查询图像进行分类。

为此，我们首先需要将查询集中的每个图像编码为一个点。然后，计算每个质心到每个查询点的距离。最后，预测每个查询图像位于最靠近它的类中。一般来说，模型就是这样工作的。

但现在的问题是，这个“image2vector”模型的架构是什么？

论文汇总 Image2Vector 向量的结构

对于所有实际应用中，一般都会使用 4-5 CNN 模块。如上图所示，每个模块由一个 CNN 层组成，然后是批处理规范化，然后是 ReLu 激活函数，最后通向最大池层。在所有模块之后，剩余的输出将被展平并返回。这是本文中使用的网络结构（xi /pdf/ 1703 .05 175 ），您可以使用任何任何你喜欢的体系结构。有必要知道，虽然我们称之为Image2Vector模型，但它实际上将图像转换为度量空间中的64维的点。要更好地了解差异，请查看 math stack exchange（ /questions/ 64 5672/what-is-the-difference-between-a-point-and-a-vector）。

负log概率的原理，图源：现在，已经知道了模型是如何工作的，您可能更想知道我们将如何计算损失函数。我们需要一个足够强大的损失函数，以便我们的模型能够快速高效地学习。原型网络使用log-softmax损失，这只不过是对 softmax 损失取了对数。当模型无法预测正确的类时，log-softmax 的效果会严重惩罚模型，而这正是我们需要的。要了解有关损失函数的更多情况，请访问此处。这里是关于 softmax 和 log-softmax 的很好的讨论。

Omniglot数据集中的部分示例（图源 /brendenlake/omniglot）

该网络在 Omniglot 数据集（ /brendenlake/omniglot）上进行了训练。Omniglot 数据集是专门为开发更类似于人类学习的算法而设计。它包含 50个不同的字母表，共计1623 个不同的手写字符。为了增加类的数量，所有图像分别旋转 90、 180和 270 度，每次旋转后的图像都当做一个新类。因此，类的总数达到了 64 92（1，623 + 4）类别。我们将 4200 个类别的图像作为训练数据，其余部分则用于测试。对于每个集合，我们根据64个随机选择的类中的每个示例对模型进行了训练。我们训练了模型 1 小时，获得了约 88% 的准确率。官方文件声称，经过几个小时的训练和调整一些参数，准确率达到99.7%。

是时候亲自动手实践了！

您可以通过访问以下链接轻松运行代码：

代码 /Hsankesara/Prototypical-Networks

运行 /run?template= /Hsankesara/Prototypical-Networks

让我们深入学习一下代码！（向左←滑动可查看完整代码）

以上的代码是 Image2Vector CNN结构的一个实现。它的输入图像的维度为28*28*3，返回特征向量的长度为 64 。

上面的代码片段是原型网中单个结构的实现。如果你有任何疑问，只需在评论中询问或在这里创建一个问题，非常欢迎您的参与和评论。

网络概述。图源：代码的结构与解释算法的格式相同。我们为原型网络函数提供以下输入：输入图像数据、输入标签、每次迭代的类数（即 Nc ）、每个类的支持示例数（即 Ns ）和每个类的查询示例数（即 Nq ）。函数返回 Queryx ，它是从每个查询点到每个平均点的距离矩阵， Queryy是包含与 Queryx对应的标签的向量。 Queryy存储 Queryx的图像实际所属的类。在上面的图像中，我们可以看到，使用3个类，即 Nc ＝3，并且对于每个类，总共有5个示例用于训练，即 Ns ＝5。上面的s表示包含这15个（ Ns * Nc ）图像的支持集， X表示查询集。注意，支持集和查询集都通过 f ，它只不过是我们的“image2vector”函数。它在度量空间中映射所有图像。让我们一步一步地把整个过程分解。

首先，我们从输入数据中随机选择 Nc 类。对于每个类，我们使用random_sample_cls函数从图像中随机选择一个支持集和一个查询集。在上图中，s是支持集，x是查询集。现在我们选择了类（ C1 、C2和 C3），我们通过“image2vector”模型传递所有支持集示例，并使用get_centroid函数计算每个类的质心。在附近的图像中也可以观察到这一点。每个质心代表一个类，将用于对查询进行分类。

网络中的质心计算。图源：在计算每个类的质心之后，我们现在必须预测其中一个类的查询图像。为此，我们需要与每个查询对应的实际标签，这些标签是使用get_query_y函数获得的。 Queryy是分类数据，该函数将该分类文本数据转换为一个热向量，该热向量在列点对应的图像实际所属的行标签中仅为“1”，在列中为“0”。

之后，我们需要对应于每个 Queryx 图像的点来对其进行分类。我们使用“image2vector”模型得到这些点，现在我们需要对它们进行分类。为此，我们计算 Queryx 中每个点到每个类中心的距离。这给出了一个矩阵，其中索引 ij 表示与第 i个查询图像对应的点到第 j类中心的距离。我们使用get_query_x函数构造矩阵并将矩阵保存在 Queryx 变量中。在附近的图像中也可以看到同样的情况。对于查询集中的每个示例，将计算它与 C1、C2和 C3之间的距离。在这种情况下， X 最接近 C2，因此我们可以说 X 被预测属于 C2类。

以编程方式，我们可以使用一个简单的ARMmin函数来做同样的事情，即找出图像被预测的类。然后使用预测类和实际类计算损失并反向传播错误。

如果你想使用经过训练的模型，或者只需要重新训练自己，这里是我的实现。您可以使用它作为API，并使用几行代码来训练模型。你可以在这里找到这个网络。

3. 资源列表

这里有些资源可以帮你更全面的了解本文内容：

4. 局限性

尽管原型网络的结果不错，但它们仍然有局限性。首先是缺乏泛化，它在Omniglot数据集上表现很好，因为其中的所有图像都是一个字符的图像，因此共享一些相似的特征。然而，如果我们试图用这个模型来分类不同品种的猫，它不会给我们准确的结果。猫和字符图像几乎没有共同的特征，可以用来将图像映射到相应度量空间的共同特征的数量可以忽略不计。

原型网络的另一个限制是只使用均值来确定中心，而忽略了支持集中的方差，这在图像有噪声的情况下阻碍了模型的分类能力。利用高斯原网络（xi /abs/ 1708 .02 73 5）类中的方差，利用高斯公式对嵌入点进行建模，克服了这一局限性。

5. 结论

小概率学习是近年来研究的热点之一。有许多使用原型网络的新方法，比如这种元学习方法，效果很好。研究人员也在探索强化学习，这也有很大的潜力。这个模型最好的地方在于它简单易懂，并且能给出令人难以置信的结果。

/n-shot-learning/

本文由雷锋字幕组成员翻译，雷锋字幕组是由AI爱好者组成的字幕翻译团队；团队成员有大数据专家、算法工程师、图像处理工程师、产品经理、产品运营、IT咨询人、在校师生；志愿者们来自IBM、AVL、Adobe、阿里、网络等知名企业，北大、清华、港大、中科院、南卡罗莱纳大学、早稻田大学等海内外高校研究所。了解字幕组请加微信 ~