尝试突破注意力机制 物理传热启发的视觉表征模型vHeat来了

本文作者为VMamba的原班人马,其中第一作者王兆植是中国科学院大学和鹏城实验室的2022级联合培养博士生,共同一作刘悦是中国科学院大学2021级直博生。他们的主要研究方向是视觉模型设计和自监督学习。

如何突破 Transformer 的 Attention 机制?中国科学院大学与鹏城国家实验室提出 基于热传导的视觉表征模型 vHeat 。将图片特征块视为 热源 ,并通过预测 热传导率 、以 物理学热传导原理 提取图像特征。相比于基于Attention机制的视觉模型, vHeat 同时兼顾了:计算复杂度(1.5次方)、全局感受野、物理可解释性。

vHeat-base 模型在高分辨率图像输入时,throughput、GPU 显存占用、flops 分别是 Swin-base 模型的3倍、1/4、3/4,在图像分类、目标检测、语义/实例分割等基础下游任务上达到了先进的性能表现。

CNN 和视觉 Transformer(ViT)是当前最主流的两类基础视觉模型。然而,CNN的性能表现受限于局部感受野和固定的卷积核算子。ViT 具有全局依赖关系的表征能力,然而代价是高昂的二次方级别计算复杂度。我们认为 CNN 和 ViT 的卷积算子和自注意力算子都是特征内部的像素传播过程,分别是一种信息传递的形式,这也让我们联想到了物理领域的热传导。于是我们根据热传导方程,将视觉语义的空间传播和物理热传导建立联系,提出了一种 1.5 次方计算复杂度的视觉热传导算子(Heat Conduction Operator, HCO),进而设计出了一种兼具低复杂度、全局感受野、物理可解释性的视觉表征模型 vHeat。HCO 与 self-attention 的计算形式和复杂度对比如下图所示。实验证明了 vHeat 在各种视觉任务中表现优秀。例如 vHeat-T 在 ImageNet-1K 上达到 82.2% 的分类准确率,比 Swin-T 高 0.9%,比 Vim-S 高1.7%。性能之外,vHeat 还拥有高推理速度、低 GPU 显存占用和低 FLOPs 这些优点。在输入图像分辨率较高时,base 规模的 vHeat 模型相比于 Swin 达到 3 倍吞吐量、1/4 的GPU显存占用和 3/4 的 FLOPs。

方法介绍

vHeat 采用多层级的结构实现,如下图所示,整体框架与主流的视觉模型类似,其中的 HCO layer 如图 2 (b) 所示。

实验结果

ImageNet分类

通过对比实验结果不难看出,在相似的参数量和 FLOPs 下:

同时,由于 vHeat 的 O (N^1.5) 低复杂度和可并行计算性,推理吞吐量相比于 ViTs、SSM 模型有明显的优势,例如 vHeat-T 的推理吞吐量为img/s,比 Swin-T 高,比 Vim-S 高,也比 ConvNeXt-T 高,同时拥有更好的性能。

下游任务

在 COCO 数据集上, vHeat 也拥有性能优势:在 fine-tune 12 epochs 的情况下,vHeat-T/S/B 分别达到 45.1/46.8/47.7 mAP,超过了 Swin-T/S/B 达 2.4/2.0/0.8 mAP,超过 ConvNeXt-T/S/B 达 0.9/1.4/0.7 mAP。在 ADE20K 数据集上,vHeat-T/S/B 分别达到 46.9/49.0/49.6 mIoU,相比于 Swin 和 ConvNeXt 依然拥有更好的性能表现。这些结果验证了 vHeat 在视觉下游实验中完全 work,展示出了能平替主流基础视觉模型的潜力。

分析实验

有效感受野

vHeat 拥有全局的有效感受野,可视化对比的这些主流模型中只有 DeiT 和 HiViT 也具备这个特性。但是值得注意的是,DeiT 和 HiViT 的代价是平方级的复杂度,而 vHeat 是 1.5 次方级的复杂度。

计算代价

上图从左到右分别为 vHeat-B 与其他 base 规模下的 ViT-based 模型的推理吞吐量 / GPU 显存占用 / 计算量 FLOPs 对比。可以明显看出,由于 O (N^1.5) 的计算复杂度,vHeat 相比于对比的模型有更快的推理速度、更低的显存占用以及更少的 FLOPs,并且在图像分辨率越大时,优势会更为明显。在输入图像为 768*768 分辨率时,vHeat-B 的推理吞吐量为 Swin-B 的 3 倍 左右,GPU 显存占用比 Swin-B 低,FLOPs 比 Swin-B 低。vHeat 与 ViT-based 模型的计算代价对比,展示出其处理高分辨率图像的优秀潜质。


检出限和检测下限的区别

一、性质不同1、检出限:是生物样品按照分析方法的要求进行提取处理并检测,能区分于噪声的最低检出浓度。 2、检测下限:是在限定误差能满足预定要求的前提下,用特定方法能够准确定量测定被测物质的最低浓度或含量。 二、特点不同1、检出限:是产生一个能可靠地被检出的分析信号所需要的某元素的最小浓度或含量。 2、检测下限:测定限则是指定量分析实际可以达到的极限。 因为当元素在试样中的含量相当于方法的检出限时,虽然能可靠地检测其分析信号,证明该元素在试样中确实存在,但定量测定的误差可能非常大,测量的结果仅具有定性分析的价值。 测定限在数值上总应高于检出限。 扩展资料:检出限过去也称为检出极限,检测限,测定极限,波动浓度极限等,建议统一称检出限,以其简短且较直观。 文献中检测极限、文献中检测限、文献中检测器检测限实际上都是检出限。 为避免引起混淆或歧义,笔者建议,应遵照全国自然科学名词审定委员会公布的《化学名词》的规定,逐步用检出限代替检测极限、检测限、检测器检测限等称谓,作为过渡,确有必要使用检测极限等称谓时应列出其计算方法。 参考资料来源:网络百科-检出限参考资料来源:网络百科-测定下限

注塑用LLDPE力学性能哪种好?

注塑用LLDPE的拉伸性能与LDPE性比,拉伸数量、拉伸屈服强度大,特别是拉伸断裂强度和断裂伸长率大,一般可从应力-应变曲线面积求出断裂时所需要的能量,以此作为树脂刚性的指标。 很明显,LLDPE的刚性好,这可认为是由于LLDPE分子中系链分子多的缘故。 刚性与密度的关系:密度越低,刚性越差(即更柔软)。 就同一密度来说,LLDPE的耐冲击强度较大,比C4更多的C6、C8共聚单体聚合物冲击强度更高。 LLDPE薄膜的物理机械性能明显优于LDPE,其柔软性,韧性,耐寒性,耐穿刺性均优于LDPE。

知识在头脑中可能以多种不同的方式得到表征,包括哪些

表征(representation)是信息在头脑中的呈现方式。 根据信息加工的观点,当有机体对外界信息进行加工(输入、编码、转换、存储和提取等)时,这些信息是以表征的形式在头脑中出现的。 表征是客观事物的反映,又是被加工的客体。 同一事物,其表征的方式不同,对它的加工也不相同。 例如,对文字材料,着重其含意的知觉理解和对字体的知觉就完全不同。 由于信息的来源不同,人脑对它的加工也不同。 信息的编码和存储有视觉形象形式和言语听觉形式,抽象概念或命题形式。 那些具有形象性特征的表征,也称表象,它只是表征的一种形式。 表征是认知心理学的一个重要术语,也是这一研究方向的重要研究课题之一。 表征(Representation) 又称心理表征或知识表征。 认知心理学的核心概念之一,指信息或知识在心理活动中的表现和记载的方式。 表征是外部事物在心理活动中的内部再现,因此,它一方面反映客观事物,代表客观事物,另一方面又是心理活动进一步加工的对象。 表征有不同的方式,可以是具体形象的,也可以是语词的或要领的。 关于表征目前存在着很大的争论,主要有以下几种假说。 A.帕维奥的双重代码假说认为,人们具有言语和表象两个平行的认知编码系统,言语系统加工离散的语言信息,表象系统则对具体的客体或事件的信息进行编码,存贮,转换和提取。 另一种相对应的学说是单一的命题表征假说,它认为无论是抽象的住处还是形象的信息都是由命题组成的概念系统存贮的,人们之所以具有表象,那是命题或概念的激活所致。 此外,还有多种编码说。 斯诺格拉斯提出的多水平模型认为,在不同的认知阶段有不同的表征,即知觉阶段对物理特征的表征,工作记忆阶段对言语表象和视觉表象的表征,以及长时记忆阶段的命题表征或语义表征。 总的说来,人的内部表征主要是住处在长时记忆中存储的方式问题。 关于这个问题的讨论仅仅还是开始,还有很长的路要走。 这方面的研究有一定的困难,首先是我们对视觉表象这类问题还不十分清楚,因为信息存储的内部结构不能直接为人所观察。 其次是我们不能像计算机那样把解题过程打印出来,只能通过间接的办法进行研究。 目前采用的研究手段主要是通过计算机模拟的方法来研究表征,假设表征的方式是一张有许多节点的图画。 这看起来是心理学上联想主义的古老看法,但是,把这一假设与计算机联系起来,就可以使研究更加细致。

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://srwj168.com.cn/keji312/19673.html
公然干涉中国内政 美国务院称对中方官员实施新的签证限制 外交
内蒙古启动治理草原超载过牧专项行动