考考大模型视频理解能力 中科院人大百川提出新基准合成框架

测试Gemini1.5 Pro、GPT-4o等多模态大模型的新基准来了,针对 视频理解 能力的那种。

直接在视频内容中插入多个无关的图像或文本“针”,严格评估模型对时间理解的能力。

来看下面的栗子。

比如插入密码词“Alice”,让模型找到这个密码词;插入苹果图片,让模型解答这个水果是什么;又或者插入多个“针”,询问模型插入针的顺序是什么。

这就是来自中科院、人大、百川的研究团队联合提出的利用 合成视频 构建视频理解测试基准的方法。

此外,使用与现实视频内容相对应的查询-响应对可能存在数据泄露风险,影响基准测试的公平性,使用 合成视频生成方法 可以有效避免这一问题。

研究团队利用VideoNIAH方法制作了一个能够有效评估视频模型的细粒度理解能力和时空建模能力,同时支持长上下文评估的合成视频理解基准,包含1350个样本。

随后对Gemini1.5 Pro、GPT-4o、GPT-4-turbo以及其它开源模型进行了测试,并分析了一系列结果。

研究团队发现,即使是GPT-4o等最先进的专有模型,在需要检测和追踪视频中特定空间区域内的“针”等 计数任务 上的表现也不理想;在 排序任务 上,专有模型与开源模型之间的性能差距尤为显著……

VNBench更多细节以及更多实验结果我们接着往下看。

用VideoNIAH构建新基准

随着视频中心的MLLMs模型的提出,需要有更全面的基准测试来评估这些模型在视频理解方面的能力,包括 细粒度理解 时空建模 以及 长上下文处理 等。

传统的视频基准测试通常需要基于目标能力精心选择视频,并进行繁琐的查询-响应对标注 ,以匹配特定视频内容。这个过程不仅挑战重重,而且资源消耗巨大。

为了开发和评估视频理解模型,需要一个既能够扩展到不同视频源和长度,又能够高效运行的基准测试框架。

研究团队提出了VideoNIAH。

如前文所述,VideoNIAH(Video Needle In A Haystack)创新性地将测试视频内容与其查询-响应对解耦,通过在原始视频中插入无关的图像/文本“针”(needles),并仅从这些针生成注释。

利用VideoNIAH,研究者们构建了一个全面的视频基准测试VNBench,包括检索、排序和计数等任务。VNBench能够有效评估视频模型的细粒度理解能力和时空建模能力,同时支持长上下文评估。

VNBench的特点主要表现在以下三个方面:

“针”类型 (Needle Type) 的多样性

视频”干草堆” (Video Haystack) 的多样性

查询(Query)的多样性

通过这些设计,VNBench能够全面地评估视频理解模型在多样化的视频内容和查询条件下的性能,为视频理解技术的研究提供了一个有力的基准测试工具。

实验及分析结果

在论文中,通过VNBench对视频理解多模态大语言模型(MLLMs)进行了一系列评估,分析结果揭示了以下几个关键点:

首先是 专有模型与开源模型的性能差异

专有模型(如Gemini 1.5 Pro和GPT-4系列)在大多数VNBench任务上的表现优于开源模型。这表明专有模型可能拥有更优越的视频理解能力,这可能归功于更大的模型参数和更全面的训练过程。

其次是 任务难度与模型表现

模型在单针短依赖任务(检索任务)上的表现普遍优于多针长依赖任务(排序和计数任务)。这表明当前的视频模型在处理需要长期依赖信息的任务时仍然面临挑战。

排序任务的性能差距 方面,在排序任务上,专有模型与开源模型之间的性能差距尤为显著。大多数开源模型在排序任务上几乎无法完成任务,这可能是由于它们在训练过程中忽视了时间序列建模的能力。

然后是 计数任务的困难 。即使是最先进的专有模型,在计数任务上的表现也不理想。特别是在需要检测和追踪视频中特定空间区域内的“针”时(Counting-E-2任务),所有模型的表现都很差,这表明当前的视频模型在理解和建模视频中的细粒度时空关系方面仍有不足。

此外, 视频上下文长度的影响 方面,随着视频处理时长的增加,开源模型的性能显著下降,而专有模型由于具有更长的上下文处理窗口,性能波动不大。这表明当前模型在处理长视频内容时的能力有限。

“针”位置的影响 方面,通过改变“针”在视频中的位置,研究发现专有模型由于其较长的上下文窗口,能够准确回忆所有插入的信息,而开源模型则表现出在长序列中对中间信息的回忆不足。

这些分析结果不仅揭示了当前视频理解模型的优势和局限性,而且为未来的研究提供了宝贵的见解,有助于指导视频理解技术的发展和改进。

论文链接:https://arxiv.org/abs/2406.09367项目链接:https://videoniah.github.io/


遥感图像地形纠正的定义

地形纠正我觉得可能是几何纠正吧,也就是地理坐标的纠正。 由于遥感平台位置和运动状态变化的影响,地形的起伏的影响,地球表面曲率的影响,大气折射的影响,地球自转的影响,造成遥感影像地物的位置和实际地理位置有一定偏差。 遥感图像几何纠正基正方法:1 选择控制点(控制点在图像上有明显的清晰的识别标志,上的地物不随时间而变化,在同一地形高度上进行,均匀地分布且数量一定) 2建立纠正模型(如三次多项式法可以纠正非线性误差,有20个未知数,至少需要10个控制点) 3通过模型确定纠正后新像元位置 4通过重采样确定像元的亮度值(最临近法(不破坏原图像但有梯度斑点效应),双线性内插法(破坏了原始数据),三次卷积法(也破坏了原始数据)) 5几何纠正的精度取决于:模型的选择,地面控制点的数量,地面控制点的空间分布,采集地面控制点的精度,参考地图自身的精度。

3d打印机打印出一件物体大约需要多久

3D打印机根据所打印物件的大小,小的只需几分钟,大的时间长一些,如打印一幛房子需几天时间。 3D打印机是快速成形技术的一种机器,目前有比普通打印机打印速度快100倍的快速3D打印机,也有同时使用10种不同材质的打印物体的合成型的3D打印机。 3D打印(3DP)即快速成型技术的一种,它是一种以数字模型文件为基础,运用粉末状金属或塑料等可粘合材料,通过逐层打印的方式来构造物体的技术。 3D打印通常是采用数字技术材料打印机来实现的。 常在模具制造、工业设计等领域被用于制造模型,后逐渐用于一些产品的直接制造,已经有使用这种技术打印而成的零部件。 该技术在珠宝、鞋类、工业设计、建筑、工程和施工(AEC)、汽车,航空航天、牙科和医疗产业、教育、地理信息系统、土木工程、枪支以及其他领域都有所应用。 2016年4月19日,中科院重庆绿色智能技术研究院3D打印技术研究中心对外宣布,经过该院和中科院空间应用中心两年多的努力,并在法国波尔多完成抛物线失重飞行试验,国内首台空间在轨3D打印机宣告研制成功。 这台3D打印机可打印最大零部件尺寸达200×130mm,它可以帮助宇航员在失重环境下自制所需的零件,大幅提高空间站实验的灵活性,减少空间站备品备件的种类与数量和运营成本,降低空间站对地面补给的依赖性。

下列生物学研究所选择的技术(方法)正确的是(  )A.通过建立不同体积的琼脂块模型来探究细胞大小与

A、探究细胞大小与物质运输的关系可通过建立不同体积的琼脂块模型来进行,A正确;B、调查蝗虫等活动能力强、活动范围广的动物的种群密度时,一般采用标记重捕法,B错误;C、选体群体中发病率较高的单基因遗传病来调查遗传病的发病情况,C错误;D、制作小生态瓶时,应该盖上瓶盖,置于散射光下,因此不需向瓶内通气,D错误.故选:A.

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://m.srwj168.com.cn/keji312/33411.html
杨元庆 推动人工智能普及最佳路径是打造更多AI终端设备
1342万考生填报志愿这件事 AI搜索可帮了大忙