无论真实还是AI视频 都能重建恢复4D动态可渲染场景 摩斯卡

雷嘉晖,美国宾夕法尼亚大学计算机系博士生 (2020 - 今), 导师为 Kostas Daniilidis 教授,目前主要研究方向为四维动态场景几何的建模表示和算法以及应用。他在计算机视觉和机器学习顶会 (CVPR、NeurIPS、ICML、ECCV) 以第一或共一作者身份发表文章 7 篇。此前他本科 (2016-2020) 以专业第一名的成绩毕业于浙江大学控制系,竺可桢学院混合班。

从任意单目视频重建可渲染的动态场景是计算机视觉研究领域的一个圣杯。本文中,宾夕法尼亚大学和斯坦福大学研究团队尝试向这一目标迈进一小步。

互联网上有海量单目视频,其中蕴含了大量物理世界的信息,但三维视觉仍缺乏行之有效的手段,将三维动态信息从这些视频中提取出来,从而支撑未来三维大模型建模及理解动态物理世界。尽管重要,这个反问题极具挑战性。

其一,真实拍摄的二维视频往往缺乏多视角信息,因此不能利用多视角几何进行三维重建,甚至在很多情况下无法通过已有软件(如 COLMAP)求解相机位姿和内参。

其二,动态场景的自由度极高,其变形和长时间信息融合的四维表示仍然不成熟,使这一困难的反问题更加复杂。

本文提出了一种 新颖的神经信息处理系统 —— 摩斯卡 (MoSca) ,只需提供一连串视频帧图片,无需任何额外信息,即可从 SORA 生成的视频、电影电视剧片段、互联网视频和公开数据集的单目野生 (in-the-wild) 视频中重建可渲染的动态场景。

ArXiv地址:https://arxiv.org/pdf/2405.17421

代码 (近期将开源):www.github.com/JiahuiLei/MoSca

项目网站: www.cis.upenn.edu/~leijh/projects/mosca/

视频 (bilibili): www.bilibili.com/video/BV1uU411o75P/?vd_source=177d8c87be5e898a43e8937dbef9bed4

方法概览

为了克服上述的困难,摩斯卡首先利用了存储在计算机视觉基石模型 (foundation models) 中的强先验知识将问题解空间缩小。

具体而言,摩斯卡利用了单目有尺度的深度估计 (mono metric-depth) 模型 UniDepth、 视频任一点长时间跟踪 (track any point) 模型 CoTracker、光流估计 (optical flow) 模型 RAFT 计算出的对极几何误差 (epipolar error), 以及预训练语义模型 DINO-v2 提供的语义特征。详参论文 3.1 章节.

我们观察到,大多数真实世界的动态变形本质上都是紧凑和稀疏的,其复杂度往往远低于真实几何结构的复杂度。比如,一个硬物体的运动可以用旋转和平移表示,一个人的运动大致可以用多个关节的旋转平移近似。

基于这一观察,本文提出了一种 新颖的紧凑动态场景表示 —— 四维运动脚手架 (4D Motion Scaffold) ,将上述基石模型输出从二维提升至四维并进行融合,同时也融入物理启发的变形正则化 (ARAP) 。

四维运动脚手架是一个图,图的每一个节点是一串刚体运动 (SE (3)) 轨迹,图的拓扑结构是全局考虑刚体运动轨迹曲线距离而构建的最近邻边。通过使用对偶四元数 (dual-quaternion) 在时空中平滑插值图上节点的刚体轨迹,可表示空间中任意一点的变形。这一表示大大简化了需解的运动参数。(详见论文 3.2 章节)。

,时长00:06

四维运动脚手架的另一个巨大优势在于可以直接被单目深度和视频二维点跟踪初始化,再通过高效的物理正则项优化求解出未知的遮挡点位置以及局部坐标系方向。详参论文 3.3 章节.

有了四维运动脚手架,任何时刻的任何一点都可以被变形到任意目标时刻,这让全局融合观测信息变得可能。具体而言,视频每一帧都可以利用估计的深度图反投影到三维空间并初始化三维高斯 (3DGS)。这些高斯被「绑定」在四维运动脚手架上,自由穿梭于任何时刻。想要渲染某一时刻的场景,只需将全局所有其他时刻的高斯通过四维脚手架传送到当前时刻融合即可。这一基于四维运动脚手架和高斯的动态场景表示可高效地被高斯渲染器优化(详见论文 3.4 章节)。

最后值得一提的是,摩斯卡是一个无需相机内外参的系统。通过利用上述基石模型输出的对极几何误差确定静态背景掩码,利用基石模型输出的深度和点跟踪,摩斯卡可以高效地优化重投影误差,求解全局集束优化 (bundle adjustment),从而直接输出相机内参和位姿,并通过后续的渲染持续优化相机(详见论文 3.5 章节)。

实验结果

摩斯卡可以在 DAVIS 数据集视频中重建动态场景。值得注意的是,摩斯卡可灵活支持多种基于高斯的渲染器。除了原生的 3DGS 渲染器,本文还测试了近期的高斯表面重建渲染器 GOF (Gaussian Opacity Field),如图中最右列的火车,GOF 可渲染出更高质量的 normal 和 depth。

摩斯卡在极具挑战性的 IPhone DyCheck 数据集上取得了显著提升,同时也在广泛对比的 Nvidia 数据集上对比了其他方法。


iQOONeo3和荣耀30s哪个值得入手?

这两款手机虽然是同价位,但性能参数对比就很明了。 自然是iQOONeo3更加值得入手一些。 三个方面来阐述一下双方对比1,硬件方面iQOONeo3搭载的高通骁龙865是目前安卓最强处理器,麒麟990也只是855+的水平,荣耀30s的820更是比不过!iQOONeo3的UFS3.1的顺序读取速度比UFS3.0还要快40%,荣耀30s还只是UFS2.1.。 2,屏幕方面iQOONeo3就配备了144Hz竞速屏,支持144Hz的屏幕刷新率,画面细腻程度,又或者是屏幕流畅度,远超荣耀30s的60Hz屏。 3,游戏方面iQOONeo系列在游戏方面深有造诣,iQOONeo3这次配合Multi-Turbo3.0加速优化,还带来了鹰眼显示增强,iQOO电竞游戏,4D游戏震感2.0等等的游戏功能。 HiFi芯片更是带来身临其境的游戏体验。 相比荣耀30s的Gaming+2.0以及GPU Turbo,这在iQOONeo3的加速引擎中就以包含。 最后补充下电池续航,iQOONeo3的4500毫安电池,44W闪充也是比荣耀30s的4000毫安电池+40W快充要强。

荣耀V30和vivoiQOO3那个好?

这两款手机表现都很ok啊,不过iQOO系列的iQOO3我觉得来的比它们两款手机更香一些。 iQOO3搭载了目前高通骁龙的最高处理器-骁龙865,这款处理器采用7nm工艺制程以及最新的A77架构,支持双模5G六频全网通,iQOO3的性能跑分高达61W分,完胜荣耀V30的麒麟990。 屏幕方面,iQOO3的正面采用了一块AMOLED超极竞速屏,孔径仅为2.98mm,是目前手机市场最小孔径,这块屏幕在强光下全屏亮度可达800nits、峰值局部最高亮度可达1200nits,屏幕触控加速提升到了180Hz。 不管是显示还是色域平衡,比荣耀V30的LCD屏要好。 iQOO3内置了一块4440mAh的大电池,支持最大充电功率55W,仅需要15分钟就可以充电50%。 比荣耀V30的4200毫安电池+40W闪充要大,续航组合更强。 此外,iQOO3还支持4800万像素的全焦段四摄组合,荣耀V30是4000万像素三摄组合,iQOO3支持更多场景拍摄。

vivo爱酷neo3和华为nova7 pro哪个值得买?

综合一些参数和售价,两者相比之下还是iQOONeo3更值得入手。 首先是硬件配置iQOONeo3搭载高通骁龙865,且使用了UFS3.1闪存;麒麟的990芯片尚不及骁龙865,更别说是搭载麒麟985的Nova7Pro了。 相比起来,iQOONeo3性能强不少。 接着是屏幕显示上iQOONeo3拥有144Hz竞速屏,支持144Hz屏幕刷新率,能呈现更高的动态范围,画面更细腻,流畅度更高。 华为Nova7Pro只是传统的60Hz屏,画面细腻程度及流畅度均比不上iQOONeo3。 然后是大电池和快充iQOONeo3拥有4500mAh大容量电池,同时配备了44W闪充;华为Nova7Pro是4200毫安电池,续航和充电方面,iQOONeo3依然稳胜。 对于5G时代,支持双模5G外,iQOONeo3在游戏方面更是带来了电竞级别的体验,高刷新率和极致的触控加速可以见得,鹰眼显示增强这一独家技术一样搭载,4D游戏震感2.0,iQOO电竞模式,通过了KPL官方认证,游戏HiFi体验,这些都是iQOONeo3的极致表现。

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://120.77.238.70/keji312/34783.html
两市成交额不足6200亿 收评 沪指跌0.24%失守3000
暂无