1.2万人朝圣CVPR 华人学者夺最佳论文！Sora舵手火爆演讲成大型追星现场

作者： 2024年06月21日财经浏览

新智元报道

编辑：好困乔杨

【新智元导读】 一年一度CVPR最佳论文放榜了！刚刚结束开幕演讲上，公布了2篇最佳论文、2篇最佳学生论文、荣誉提名等奖项。值得一提的是，今年北大上交摘得最佳论文提名桂冠，上科大夺得最佳学生论文。

2024年CVPR会议将在美国西雅图拉开帷幕，根据官方的公告，本届会议已经成为CVPR历史上规模最大、参与人数最多的一届，截止6月19日，现场参会人数已超过1.2万人。

此外，近年来的论文接收数量也水涨船高，共有11532篇提交论文，录用率为23.58%，比去年的9155篇论文多出了2000多篇。

由于开年Sora模型带起的视频生成的热潮，今年CVPR接收论文数量最多的领域就是「图像视频的合成与生成」，紧随其后的两个领域分别是「多视角和传感器的3D」以及「人体：面部、躯体、姿势、手势和移动」。

从会议现场的照片中，也能肉眼感受到CVPR的热烈程度。

揭秘Sora训练技巧

Sora研究团队的负责人Tim Brooks也在研讨会上发表了演讲，揭秘了Sora模型的一些训练技巧以及视频生成模型未来的新功能。

演讲中，Brooks表示自己看好Transformer架构的可扩展性，如果算力足够，我们有望借此实现世界模拟器。

此外他也分享了一些训练模型的心得，比如不要为了某个特定任务去调整模型架构，而是先考虑让数据适应任务。

比如，Sora在训练时的技巧就多与数据有关，包括使用不同比例的图像和视频，以及搭配字幕训练。

有推特网友表示，Brooks的演讲堪比追星现场，都差点挤不进去。

当然，最重磅的还是CVPR在今天凌晨的大会开幕演讲上。正式官宣了2024年最佳论文、最佳学生论文等大奖的得主。

该奖项每年都会表彰在计算机视觉、人工智能（AI）、机器学习（ML）、增强现实、虚拟现实和混合现实（AR/VR/MR）、深度学习等领域的顶尖研究。

今年，CVPR从超过11,500篇论文提交中，选出了以下10篇最佳论文——是2023年的两倍之多。

最佳论文

题目： Generative Image Dynamics

作者：Zhengqi Li, Richard Tucker, Noah Snavely, Aleksander Holynsk

机构：谷歌研究院

论文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Li_Generative_Image_Dynamics_CVPR_2024_paper.pdf

在这项工作中，作者提出了一种从单张静态图片中建模自然振荡动态效果的新方法。该方法能够从单张图片生成照片般真实的动画，并显著优于现有的基准方法。此外，他们还展示了在多个后续应用中的潜力，例如创建无缝循环或交互式图像动态效果。

题目： Rich Human Feedback for Text-to-Image Generation

作者：Youwei Liang, Junfeng He, Gang Li, Peizhao Li, Arseniy Klimovskiy, Nicholas Carolan, Jiao Sun, Jordi Pont-Tuset, Sarah Young, Feng Yang, Junjie Ke, Krishnamurthy Dj Dvijotham, Katherine M. Collins, Yiwen Luo, Yang Li, Kai J. Kohlhoff, Deepak Ramachandran, Vidhya Navalpakkam

机构：，加利福尼亚大学圣地亚哥分校，谷歌研究院，南加利福尼亚大学，剑桥大学，布兰迪斯大学

论文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Liang_Rich_Human_Feedback_for_Text-to-Image_Generation_CVPR_2024_paper.pdf

在这项工作中，作者提出了第一个详尽的用于图像生成的人类反馈数据集。具体来说，他们设计并训练了一个多模态Transformer来预测这些详尽的人类反馈，并展示了一些改进图像生成的实例。

这篇论文的共同一作分别是华南农业大学校友Youwei Liang、清华校友Junfeng He、武大及港中文校友Gang Li。

荣誉提名

题目：EventPS: Real-Time Photometric Stereo Using an Event Camera

作者：Bohan Yu, Jieji Ren, Jin Han, Feishi Wang, Jinxiu Liang, Boxin Shi

机构：北京大学，上海交通大学，东京大学，国立情报学研究所

论文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_EventPS_Real-Time_Photometric_Stereo_Using_an_Event_Camera_CVPR_2024_paper.pdf

题目： pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

作者：David Charatan, Sizhe Lester Li, Andrea Tagliasacchi, Vincent Sitzmann

机构：麻省理工学院，西门菲莎大学，多伦多大学

论文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Charatan_pixelSplat_3D_Gaussian_Splats_from_Image_Pairs_for_Scalable_Generalizable_CVPR_2024_paper.pdf

最佳学生论文

题目：Mip-Splatting: Alias-free 3D Gaussian Splatting

作者：Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler, Andreas Geiger

机构：图宾根大学，图宾根AI中心，上海科技大学，捷克理工大学

论文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_Mip-Splatting_Alias-free_3D_Gaussian_Splatting_CVPR_2024_paper.pdf

在这项工作中，作者提出了一种通过3D平滑滤波器和2D Mip滤波器改进3D高斯泼溅（3DGS）的全新方法Mip-Splatting，用于在任何尺度上进行无锯齿渲染。该方法在分布外测试场景中显著优于当前最先进的方法，当测试采样率与训练采样率不同的时候，能够更好地适应分布外的相机姿态和缩放因子。

值得一提的是，论文的三位一作Zehao Yu、Anpei Chen（陈安沛）、Binbin Huang，都是上海科技大学在读或毕业生。

题目： BioCLIP: A Vision Foundation Model for the Tree of Life

作者：Samuel Stevens, Jiaman Wu, Matthew J. Thompson, Elizabeth G. Campolongo, Chan Hee Song, David Edward Carlyn, Li Dong, Wasila M. Dahdul, Charles Stewart, Tanya Berger-Wolf, Wei-Lun Chao, and Yu Su

机构：俄亥俄州立大学，微软研究院，加利福尼亚大学尔湾分校，伦斯勒理工学院

论文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Stevens_BioCLIP_A_Vision_Foundation_Model_for_the_Tree_of_Life_CVPR_2024_paper.pdf

在这项工作中，作者提出了TREEOFLIFE-10M和BIOCLIP，分别是一个大规模多样化的生物图像数据集和一个用于生命之树的基础模型。研究表明，BIOCLIP是一个强大的细粒度生物分类器，在零样本和少样本设置中有着出色的表现。

荣誉提名

题目：SpiderMatch: 3D Shape Matching with Global Optimality and Geometric Consistency

作者：Paul Roetzer, Florian Bernard

机构：波恩大学

论文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Roetzer_SpiderMatch_3D_Shape_Matching_with_Global_Optimality_and_Geometric_Consistency_CVPR_2024_paper.pdf

题目： Image Processing GNN: Breaking Rigidity in Super-Resolution

作者：Yuchuan Tian, Hanting Chen, Chao Xu, Yunhe Wang

机构：北京大学，华为诺亚方舟实验室

论文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Tian_Image_Processing_GNN_Breaking_Rigidity_in_Super-Resolution_CVPR_2024_paper.pdf

题目：Objects as Volumes: A Stochastic Geometry View of Opaque Solids

作者：Bailey Miller, Hanyu Chen, Alice Lai, Ioannis Gkioulekas

机构：卡内基梅隆大学

论文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Miller_Objects_as_Volumes_A_Stochastic_Geometry_View_of_Opaque_Solids_CVPR_2024_paper.pdf

题目： Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods

作者：Mingqi Jiang, Saeed Khorram, Li Fuxin

机构：俄勒冈州立大学

论文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Jiang_Comparing_the_Decision-Making_Mechanisms_by_Transformers_and_CNNs_via_Explanation_CVPR_2024_paper.pdf

此外，CVPR的主办方电气和电子工程师学会计算机协会（IEEE Computer Society, CS），也正式宣布了模式分析和机器智能技术社区（TCPAMI）的奖项。

Longuet-Higgins奖

该奖项授予那些经得起时间检验的论文，2024年的Longuet-Higgins奖表彰了2014年在CVPR上发表的最具影响力的论文。

2024年获奖者：Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation（2014）

作者：Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik

机构：加利福尼亚大学伯克利分校，ICSI

论文地址：https://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf

在这项工作中，作者通过（1）标记图像中不合理或与文本不匹配的区域，以及（2）注释文本提示中被误表示或缺失的词语，来丰富反馈信号。

具体来说，他们在1.8万张生成图像（RichHF-18K）上收集了丰富的人类反馈，并训练了一个多模态Transformer来自动预测这些反馈。

实验结果展示了预测的丰富人类反馈可以用于改进图像生成，例如，通过选择高质量的训练数据来微调生成模型，或者通过创建带有预测热图的掩码来修补问题区域。

值得注意的是，这些改进不仅适用于生成反馈数据的模型（如Stable Diffusion变体），还可以推广到其他模型上（如Muse）。

年轻研究员奖

该奖项表彰在获得博士学位七年内对计算机视觉领域作出杰出研究贡献的一到两名研究人员。

2024年获奖者：Angjoo Kanazawa, Carl Vondrick

Angjoo Kanazawa 是加利福尼亚大学伯克利分校电气工程与计算机科学系的助理教授，领导BAIR下的Kanazawa AI Research（KAIR）实验室，并在Wonder Dynamics的顾问委员会任职。

此前，她在马里兰大学帕克分校完成了计算机科学博士学位，导师是David Jacobs。之后，来到UC伯克利的BAIR做博士后研究，导师是Jitendra Malik、Alexei A. Efros和Trevor Darrell。此外，还曾在Google Research担任研究科学家。

众所周知，我们生活在一个动态的3D世界中，人和动物不断与环境互动。那么，我们该如何构建一个系统，从日常的照片和视频中捕捉、感知并理解这个4D世界？又该如何从图像和视频的观测中学习4D世界的先验知识呢？

Angjoo Kanazawa的研究方向涵盖了计算机视觉、计算机图形学和机器学习，并致力于回答上面这些问题。

Carl Vondrick 是哥伦比亚大学计算机科学系的教授，研究方向主要集中在计算机视觉、机器学习及其应用。

此前，他于2011年在加利福尼亚大学尔湾分校获得学士学位，导师是Deva Ramanan。之后，于2017年在MIT获得博士学位，导师是Antonio Torralba。此外，还曾在谷歌的机器感知团队担任研究科学家，并在Cruise担任访问研究员。

具体来说，他的研究通过训练机器观察和与环境互动，旨在创建稳健且多功能的感知模型。实验室经常研究如何利用大量未标记数据进行任务和模态迁移。其他研究方向包括场景动态、声音和语言、可解释模型以及机器人感知等。

Thomas Huang纪念奖

该奖项于2020年设立，以纪念Thomas S. Huang，他是其时代计算机视觉、模式识别和人机交互领域的杰出人物。该奖项旨在表彰和致敬在计算机视觉社区中长期服务、研究和指导的杰出个人。

2024年获奖者：Andrea Vedaldi

Andrea Vedaldi是牛津大学工程科学系计算机视觉和机器学习专业的教授，同时担任VGG小组的联合负责人。

他主要研究计算机视觉和机器学习方法，目标是自动理解图像和视频的内容，并且几乎不需要人工监督，特别关注语义和3D几何。

此前，他在帕多瓦大学获得学士学位，并在加利福尼亚大学洛杉矶分校获得硕士和博士学位。

参考资料：

https://cvpr.thecvf.com/Conferences/2024/News/Awards

https://x.com/skalskip92/status/1803181265581121752

有什么好看的动漫？

叛逆的鲁鲁修（1.2季）超好看，强烈推荐死亡笔记超好看，强烈推荐斗智轻音女少萌~~音乐系的钢壳的雷吉奥斯帅气的主角+牛逼的实力=经典战斗后宫~~潘多拉之心很好看~~~战斗的爱丽丝~~新安琪莉可后宫+战斗风之圣痕魔法+战斗全职猎人（不多说，好看的我都不想在提它了，因为一提起它，我想说的太多了）银魂（大大爱好喜欢，不用多说，爆笑+感动）钢之炼金术师（哈哈，很爱啊，朴璐美的声音真是很好，内容更没话说，短短的几十集所叙述的情节也很到位.）不可思议游戏（穿越时空+爱情已完结经典的后宫作品。）魔法禁书目录（比较搞笑，魔法类 24集）爱似百汇（经典的校园三角，但是看过还是感觉不错。）心跳回忆only love（校园恋爱一个不错的作品~）零之使魔（期待第4季吧..好看~..）天使怪盗（原来看的，但在我印象中一直还很喜欢）水果篮子(也看了很长时间，喜欢）网球王子（不用多说，帅哥很多，情节也喜欢）fate/stay night （神作，SABER.....）植木的法则（觉得不错，内容题材喜欢）翼（很喜欢，画风和情节另类武器种族传说（契约类~和可爱的LOLI签订契约 LOLI化为武器战斗）全金属狂潮（很喜欢很喜欢，真的是集所有情节为一体~校园恋爱斗争机械搞笑等~~~）驱魔少年（很喜欢，不多说，爱）樱兰高校男公关部（很喜欢很喜欢，内容喜欢。人设喜欢，都喜欢）s.a特优生（觉得不错，但相比樱兰，更喜欢樱兰，因为觉得他形式有点抄袭樱兰.但不错）

今天开始做魔王（觉得很不错，轻松搞笑内容又不空乏）loveless（很喜欢里面的画风，很唯美，主角人设很喜欢）隐之王（画风清晰，喜欢，内容伤感，看完有淡淡的感伤）吸血鬼骑士（不用多说，当然是被华丽的画风和诡秘的氛围，大大的帅哥吸引啊）黑执事（也是华丽的画风和诡秘的氛围，但更偏重于那个帅执事啊）噬魂师（很不错的一部动画，所说主角和大家都是很小，但是精神很值得学习啊）剧场版的在这就只说宫崎骏作品集（真的很经典）介绍几个好用的网站给你，你也可以自己找找~~迅雷的，更新很快也很全~~ 漫画的刷图速度和更新速度都是超快的，也有提供下载~~

大竹县有什么好玩的地方？

大竹县是“中国苎麻之乡”、“川东绿竹之乡”，山青水秀，地杰人灵，旅游资源丰富，特色突出，品位高雅，分布集中，区位优越，开发利用潜力好。现有以竹景观为主题的国家级森林公园—五峰山国家森林公园，中西合璧建筑群—清河名镇（省级历史文化名镇、省级重点文物保护单位），县级风景名胜区—峰顶山风景名胜区。此外，还有集三国古驿道、峡谷、温泉、寺庙、古巴人洞穴等等多种资源于一体的云雾山景区；有高观寨净土寺、四方山丹桂堂、云雾山云雾寺等各具特色的宗教寺庙。 [中西合璧古建筑群]其历史悠久，文化深厚，格调统一，风貌独特，是西南地区唯一保存完好的中西合璧式古建筑群，具有极高的艺术价值、历史价值和旅游价值。清河名镇位于大竹县北部，距县城竹阳镇22公里，是抗日名将、国民党起义将领范绍增故里。始建于秦汉，明末清初形成规模，现为省级历史文化名镇、省级文物保护单位（古建筑群类）。清河镇独街一条，北直南弯，似困牛状。全长385.50米，街道两边各108根欧式圆柱通廊，占地3.3万平方米。被专家誉为“国外没有，国内少有，四川仅有”。柏林范氏公馆位于距清河镇4公里的柏林镇，为范绍增侄儿范南轩所建。四合院式二层砖木结构建筑，占地约1600多平方米，具有中西文化融合的特色，是民国初期川东民居建筑的经典。 [五峰山国家森林公园]位于大竹县东北部，距县城22公里，从重庆市到该景区仅需一个多小时。景区总面积达876.16公顷，是一个以竹景观为主题，集森林生态景观、湖泊景观和佛教文化观光为一体的森林公园。在川、陕、渝、鄂四地自然景区中，以竹林规模大、种类多、自然生态环境优良、特色鲜明著称。景区内有竹海、溶洞、寺庙、岛屿、湖泊、野生动物、珍稀植物等景观。景区气候凉爽，空气清新，负氧离子含量高，是天然大氧吧，具有多种生态保健功能，为避暑、赏景、休闲、荡舟、垂钓等的绝佳去处。五峰山景区五峰山景区以竹景观为特色，是川东最大、景观最秀丽的竹海景观区，堪与“蜀南竹海”媲美。景区内竹类品种繁多，共计20余种，除白夹竹、楠竹等常见品种外，还有珍稀的罗汉竹、人面竹、方竹等。大片的天然竹林绿染山山岭岭，绵延数十里，面积达6000余亩。百岛湖景区因有岛屿、半岛百余个而得名。其总淹没面积1.24万亩，湖面宽500——2000米。景区湖水清澈明镜，水域广大、岸线曲折、港湾幽深、天水一色、山水相依，气势十分壮阔。蒲苞森林景区蒲苞山海拔1016米，山中白夹竹遍布、荫翳蔽日，环境清幽，山势奇险秀丽；山上古寺——清凉寺，已有三百多年历史；另有岩溶裂隙洞——青云洞，一股清泉涌出成溪，溪中有姿态秀丽的跌水和瀑布，蔚为壮观。 [高观寨净土寺]位于大竹县莲印乡境内，距县城2公里，是一个集宗教朝圣、观光休闲于一体的旅游活动场所。目前为川东地区最大佛教中心。游客除来自本市各县市区外，已辐射万州、重庆、广安等县市。 [云雾山风景区]云雾山因常年云雾缭绕而得名，距县城仅3公里。景区内有森林、峡谷、古道、温泉、寺庙、溶洞等自然景观和人文景观，是集森林生态观光、古道文化观光、宗教文化观光、温泉度假等旅游产品于一体的综合性旅游区，是夏避暑、冬赏雪、四季观光休闲的理想处所。三国古驿道启于先秦兴于三国，古代一直是成都出川东过三峡到湖北的交通主干道。景区保存完好各朝代开凿铺就的古道有5公里，栈道、石路、桥梁等道路构件厚重古朴。沿途石壁上有唐宋时期的石刻、古巴人穴居的山洞多处，遗迹十分丰富。云雾山寺云雾山寺建于云雾山顶，始建于唐代，一直是川东地区最重要的宗教活动场所，有“川东小峨眉”之称。据载，明朝建文帝曾在云雾寺避难三月。至今尚存明代石刻佛像，部分原有建筑构件及二孔石桥等文物。茶园温泉为川东北地区不可多见的含偏硅酸、偏硼酸的氟、锶低温医疗热矿水，对人体所患多种疾病具有医疗作用。其井深3000余米，日出水量1500余方，出井口水温达49℃，适合建成集医疗、会议、健身、娱乐、休闲于一体的中等规模大小的温泉度假村。 [峰顶山景区]峰顶山景区位于大竹县境西南与垫江交界处，距大竹县城58公里，距重庆市垫江县城9公里，最高海拨1183米。该风景区现有1.2万亩茂密的原始森林，生态环境优异，夏季气候异常凉爽，为川东地区最理想的休闲、避暑、度假胜地。

追演唱会应该配什么样的单反？追演唱会有经验的来！

已经有了佳能700D，直接配大光圈镜头吧。你的资金有限，难。追演唱会需要有强大的资金做后盾。拍演唱会最好是尼康D4X，加中长焦大光圈牛头。需五六万的资金投入。拍演唱会，通常光线不足，需要高感较好的机身、且有大光圈的镜头以提高快门速度。 APS-C画幅的机身仅仅是凑合着用一用。 700D，配一个 EF 70-200mm f/2.8L 的佳能镜头，可以凑合着拍一拍。 ISO适当调高一点。如果能够靠前排一些，佳能EF 85mm f/1.2 L II USM(大眼睛)镜头是不错的选择。实在经济不足，可以考虑1.4光圈的，仅三千来元。需有前几排的座位。光圈小于1.8的镜头，拍演唱会将是一堆的废片。除非经验很丰富，且机身高感好。

声明：本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。
本文地址：https://www.srwj168.com.cn/caijing/33531.html

有什么好看的动漫？

大竹县有什么好玩的地方？

追演唱会应该配什么样的单反？追演唱会有经验的来！

相关文章