超越CVPR2024方法 DynRefer在区域级多模态识别任务上 多项SOTA

机器之心发布

机器之心编辑部

本文作者来自于中国科学院大学LAMP实验室,其中第一作者赵毓钟是中国科学院大学的2023级博士生,共同一作刘峰是中国科学院大学2020级直博生。他们的主要研究方向是视觉语言模型和视觉目标感知。

简介

DynRefer 通过模拟人类视觉认知过程,显著提升了区域级多模态识别能力。通过引入人眼的动态分辨率机制,DynRefer 能够以单个模型同时完成区域识别、区域属性检测和区域字幕生成(region-level captioning)任务,并在上述任务都取得 SOTA 性能。其中在 RefCOCOg 数据集的 region-level captioning 任务上取得了 115.7 CIDEr,显著高于 RegionGPT,GlaMM,Osprey,Alpha-CLIP 等 CVPR 2024 的方法。

动机

区域级多模态任务致力于将指定的图像区域转换为符合人类偏好的语言描述。人类完成区域级多模态任务时具有一种分辨率自适应能力,即关注区域是高分辨率的,非关注区域是低分辨率的。然而,目前的区域级多模态大语言模型往往采用固定分辨率编码的方案,即对整张图像进行编码,然后通过 RoI Align 将区域特征提取出来。这种做法缺乏人类视觉认知系统中的分辨率自适应能力,对关注区域的编码效率和能力较低。为了实现高精度的区域级多模态理解,我们提出了一种动态分辨率方案来模拟人类视觉认知系统,如下图所示。

图 1:传统的区域级多模态方法(左)与 DynRefer 方法(右)的比较。

方法

图 3:DynRefer 网络结构

实验

Region-level Captioning

在区域字幕生成任务,DynRefer 以更小的模型(4.2B v.s. 7B),在 RefCOCOg 和 VG 两个数据集上、在 METEOR 和 CIDEr 两个指标上都显著超过了 CVPR 2024 中的众多方法,如 RegionGPT,GlaMM,Alpha-CLIP 和 Osprey 等,展现出 DynRefer 巨大的性能优势。

Dense Captioning

在密集字幕生成任务,在 VG1.2 数据集,DynRefer 相较之前的 SOTA 方法 GRiT 提升了 7.1% mAP。

Open Vocabulary Attribute Detection

在区域属性检测任务,DynRefer 也取得了 SOTA 的性能。

Open Vocabulary Region Recognition

在区域识别任务,DynRefer 比 CVPR 24 的 RegionGPT 提升了 15% mAP 和 8.8% Accuracy,比 ICLR 24 的 ASM 高 15.7% mAP。

消融实验

可视化

下面几张图展示了 DynRefer 的推理结果,DynRefer 可以用一个模型同时输出区域字幕、标签、属性和类别。


What is love?

什么是爱

Love is any of a number of emotions related to a sense of strong affection[1] and attachment. The word love can refer to a variety of different feelings, states, and attitudes, ranging from generic pleasure (I loved that meal) to intense interpersonal attraction (I love my wife). This diversity of uses and meanings, combined with the complexity of the feelings involved, makes love unusually difficult to consistently define, even compared to other emotional states.

As an abstract concept, love usually refers to a deep, ineffable feeling of tenderly caring for another person. Even this limited conception of love, however, encompasses a wealth of different feelings, from the passionate desire and intimacy of romantic love to the nonsexual emotional closeness of familial and platonic love[2] to the profound oneness or devotion of religious love.[3] Love in its various forms acts as a major facilitator of interpersonal relationships and, owing to its central psychological importance, is one of the most common themes in the creative arts.

怎么做百度推广效果好?

网络推广是网络国内首创的一种按效果付费的网络推广方式,简单便捷的网页操作即可给企业带来大量潜在客户,有效提升企业知名度及销售额。 每天有超过1亿人次在网络查找信息,企业在网络注册与产品相关的关键词后,就会被主动查找这些产品的潜在客户找到。 想要网络的推广有效果,能够超越竞争对手,我先说一下排名位置的重要性!1、网络推广的排名位置很符合28定律,无论您是是否认同,但是现在在我看来确实是这样。 首先关键词排在第一位和排在第五位的效果对比就会看出差距不是几十倍,是赚钱和赔钱的区别。 2、在第一位花费是在第五及以下的位数的4倍及以上,从第五位开始基本没有客户点击,更不要说会下单了,在加上产品质量的原因,价格因素,企业自身的因素之后会很难成交.3、成交量对比在前三位的话费比较高但是只要坚持四个月,就有出现盈利,相反如果在第五位以后就很难在有成交虽然每个月的话费少但是几乎没有盈利,只是将网络推广的费用慢慢消耗掉而已!长此以往就会感觉网络的推广少钱多,效果少,投入产出少!4、所以在做网络推广之前要了解好第一位的话费情况,然后尽量排名靠前,经过三个月左右潜伏期后就有出现盈利。 但是大多数人没有真没多的预算,在三个月之前就放弃了,这就是没有效果的原因!

怎么做百度推广才有效果?

说实话,本人没做过网络推广,不过我想应该是吸引眼球,能够引起热议的话题,越多人关注效果就越好呗!网络推广是网络国内首创的一种按效果付费的网络推广方式,简单便捷的网页操作即可给企业带来大量潜在客户,有效提升企业知名度及销售额。 每天有超过1亿人次在网络查找信息,企业在网络注册与产品相关的关键词后,就会被主动查找这些产品的潜在客户找到。 网络依托在全国建立的60个客服中心,为客户开展多种形式的培训会议,全力帮助企业提升网络营销能力。 网络推广 客户培训1.网络营销专家培训会——新手上路零障碍 培训对象:初次使用网络推广的客户。 培训内容:系统使用、效果优化、案例分析与讲解。 2.网络推广经验技巧座谈会——进步零障碍 培训对象:有一定网络推广经验、希望成为搜索营销专家的客户。 培训内容:案例分析、理论讲解。 3.客户拓展会——搜索营销精英俱乐部 培训对象:搜索营销资深人士。 培训内容:了解网络文化、网络系列企业管理课程。 4.客户团拜会——年度总结会 会议对象:网络推广重点客户。 会议内容:分享网络的成长,整理使用网络推广的经验及问题。 对于首次开户的客户,需要一次性缴纳5600元,其中5000元是客户预存的推广费用,600元是服务费。 开通服务后,客户自助选择关键词设计投放计划,当搜索用户点击客户的推广信息查看详细信息时,会从预存推广费中收取一次点击的费用,每次点击的价格由客户根据自己的实际推广需求自主决定,客户可以通过调整投放预算的方式自主控制推广花费。 当帐户中预存推广费用完后,客户可以根据情况进行续费。 网络公司将于2010年1月26日推出全新离线管理利器:网络推广助手。 网络推广助手是一款免费的账户管理软件,它独有的批量编辑、快速定位、离线操作、自由备份功能,能够帮助您高效安全的管理网络推广账户。 网络推广助手适用于任何类型的网络推广账户,尤其适用于账户结构复杂、关键词较多的情况。 网络商桥是网络为推广客户提供的一款免费网站商务沟通工具,可设置多达10个网站、100个客服同时接待网站访客,实时监控网站访客地域来源、关键词来源、浏览行为, 精确定位真实访客,方便您与潜在客户、顾问之间7×24小时全天候的沟通,让温康为您线上线下业务不断,潜在商机随时掌握。 ——网络百科

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://srwj168.com.cn/keji312/33434.html
双冠王!北京这所中学DI全球赛再创佳绩
接地气才能聚人气 央广时评·法治网事② 上网 搬 普法