纹理逼真！Meta最新3D Gen模型实现60倍速生成 60秒直出3D内容

作者： 2024年07月03日财经浏览

新智元报道

编辑：乔杨好困

【新智元导读】 Meta的GenAI团队在最新研究中介绍了Meta 3D Gen模型：可以在不到1分钟的时间内从文本直接端到端生成3D资产。

在图像生成和视频生成这两个赛道上，大模型仅用了两年多的时间就卷得如火如荼。

即使是效果堪比Sora的Gen-3、Luma等模型发布，也很难引起曾经的轰动反应。

你可能会疑惑，AI还能玩出新花样吗？

Meta放出的最新研究告诉你——能！

不管是图像还是视频，即使能做出3D效果，终究只是二维空间中的像素组成的。

Meta最近发布的3D Gen模型，则能实现1分钟内的端到端生成，从文本直出高质量3D资产。

不仅纹理清晰、形态逼真自然，而且生成速度比其他替代方案加快了3-60倍。

只能看到官方demo但没法试用，已经让很多网友心痒难耐了。

「把这些可爱的小东西3D打印出来该有多好。」

但好在，Meta放出了技术报告，让我们可以细致观摩一下技术原理。

论文地址：https://ai.meta.com/research/publications/meta-3d-gen/

在电影特效、AR/VR、视频游戏等领域中，创作3D内容是最耗时，也是最具挑战性的环节之一，需要很高的专业技能和陡峭的学习曲线。

这件事对人类困难，对AI来说也同样困难。

相比于图像、视频等形式，生产级的3D内容有更多方面的严格要求，不仅包括生成速度、艺术质量、分辨率，还包括3D网格的结构和拓扑质量、UV图结构以及纹理清晰度。

此外，3D生成还面临数据方面的挑战。

虽然有数十亿张图像和视频可供学习，但其中适合训练的3D内容量却少了3～4个数量级。因此，模型只能学习这些非3D的视觉内容，并从二维的观察中推断出三维信息。

3D Gen模型则克服了这些困难，在领域内迈出了第一步。

模型最大的亮点在于支持基于物理的渲染（PBR，physically-based rendering），这对于在应用场景中实现3D资产的重新照明非常必要。

此外，经过专业艺术家的评估，3D Gen在生成同等质量，甚至更优内容的同时，缩短了生成时间，提升了指令跟随性能。

生成出3D对象后，模型还支持对其纹理进行进一步的编辑和定制，20s内即可完成。

方法

这种更加高效的优质生成，离不开模型pipeline的精心设计。

3D Gen的生成主要分为两步，由两个组件分别完成——文本到3D对象生成器AssetGen和文本到纹理生成器TextureGen。

其中，第二阶段的TextureGen也可以单独拿出来使用。如果有一个之前生成的，或者艺术家自己创作的无纹理3D网格，提供描述外观的文本提示后，模型也能在20s左右的时间中为它从头生成纹理。

AssetGen和TextureGen这两个模型有效地结合了3D对象的三种高度互补的表示：视图空间（物体图像）、体积空间（3D形状和外观）以及UV空间（纹理）。

AssetGen项目地址：https://assetgen.github.io/

给定文本描述，AssetGen首先利用一个多视角、多通道版本的图像生成器生成多张图像，随后生成物体的一致视图。

据此，AssetGen中的重建网络在体积空间中提取出物体的初始版本，并进行网格提取，确立其3D形状和初始纹理。

最后，TextureGen利用视图空间和UV空间的生成结果，对纹理进行重生成，在保持指令忠实度的同时提升纹理质量。

论文地址：https://ai.meta.com/research/publications/meta-3d-texturegen-fast-and-consistent-texture-generation-for-3d-objects/

上述的每一个阶段都是建立在Meta强大的文生图模型家族Emu之上，并使用了内部数据集进行微调，主要包括渲染过的合成3D数据。

单独使用TextureGen模型可以为同一个物体生成不同的纹理表面

不同于许多SOTA方法，AssetGen和TextureGen都是前馈生成器，因此能实现快速、高效的部署。

将3D生成任务以这种方式划分为两个阶段，并在同一个模型中集成对象的多个表示空间，这种pipeline的组合是Meta重要的创新。

实验证明，不仅AssetGen和TextureGen两个部件都能分别取得更好的效果，它们结合后形成的3D Gen也能以68%的胜率超过其他模型。

实验

针对文本到3D资产生成的任务，论文将3D Gen与其他公开可用的常用方法进行了对比，并从用户调研、定性实验两个方面进行了评估。

定性结果

从生产结果上直观来看，3D Gen能够应对不同范畴、不同类别物体的生成任务，而且指令跟随的忠实度甚至好过很多文生图模型。

比如让吉娃娃穿蓬蓬裙、让腊肠犬穿热狗装这样人类都很难想象的场景，3D Gen也按照要求生成了合理的结果。

生成结果的多样性也非常惊艳。比如提示模型只生成Llama（羊驼），他就能给出下图中的13种不同结果，风格、形状、纹理各异，可以说想象力很丰富了。

图6、7、8则对比了3D Gen和其他模型对同一文本提示的生成结果。

对于一些比较有挑战性的提示，3D Gen的细节效果有时逊色于Meshy v3等模型，但这涉及到一个权衡问题：要展现纹理中的高频细节，代价就是有时会出现视觉失真。

下面这个多物体的复杂场景任务中，你觉得哪个模型的表现更好？

虽然成功的案例很多，但对目前的模型来说，翻车依旧时常发生，而且每个模型都有自己独特的翻法。

比如CSM Cube经常在物体几何上出问题，前后视角不一致，或者干脆生成了「双头大猩猩」；Tripo 3D的光照效果会出现「一眼假」；Rodin Gen 1和Meshy 3.0有时缺少物体细节的渲染。

至于Meta的3D Gen，在放出来的案例中就出现了物体几何结构不完整、纹理接缝、指令不跟随（最右侧的海象没有叼烟斗）等多方面的问题。

虽然没人能在Meta的报告中战胜Meta，但被拿来当「靶子」的作者，还是站出来为自己工作辩护了一番。

用户调研

对于模型的文本到3D生成，人类评审将从两方面进行评估：提示忠实度、视觉质量。

按不同的背景，评审被分成了两组：（1）普通用户，没有3D方面的专业知识，（2）专业的3D艺术家、设计师和游戏开发者。

评估采用了DreamFusion引入的404个经过去重的文本提示，并根据内容复杂性分为三类：物体（156个），角色（106个）和物体角色组合（141个）。

每个3D生成结果都会以360度全景视频的方式呈现给评审者，不同模型进行分别测试或者随机的A/B测试。

表2展示了提示忠实度方面的的评估结果。在这一指标上，3DGen在两个阶段的得分都优于其他行业方法，紧随其后的是T23D生成器。

如表3所示，A/B测试中还添加了对几何视觉质量以及纹理细节的评测。

作者发现，普通用户更倾向于喜欢那些纹理更锐利、生动、逼真且细节详实的3D结果，但对较明显的纹理和几何伪影不是很关注。专业的3D艺术家则会更重视几何与纹理的准确性。

在图3中，作者分析了视觉质量、几何、纹理细节和纹理伪影的表现率等指标，如何随着文本提示描述的场景复杂度发生变化。

图表显示，虽然基准模型在简单提示下的表现与3D Gen相当，甚至更优，但随着提示复杂度逐渐增加，3D Gen开始反超，这也与图7描述的定型结果一致。

结论

作为一个统一的流程，3DGen整合了Meta的基础生成模型，用于文本到3D生成，具备纹理编辑和材料生成能力。

通过结合AssetGen和TextureGen的优势，3DGen能够在不到一分钟的时间内根据文本提示生成高质量的3D对象。

在专业3D艺术家的评估中，3DGen的输出在大多数情况下更受青睐，尤其是在复杂提示下，而且速度快3到60倍。

虽然Meta目前对AssetGen和TextureGen的整合比较直接，但它开创了一个非常有前景的研究方向，基于两个方面：（1）在视图空间和UV空间中的生成，（2）纹理和形状生成的端到端迭代。

如同Sora的出现会深刻影响短视频、电影、流媒体等众多行业一样，3D Gen也具有同样巨大的潜力。

毕竟，小扎还是心心念念他的元宇宙。而AI驱动的3D生成，对于在元宇宙中构建无限大的虚拟世界也非常重要。

参考资料：

https://ai.meta.com/research/publications/meta-3d-gen/?utm_source=threads&utm_medium=organic_social&utm_content=carousel&utm_campaign=research

什么是3DMAX

3DMAX是一个功能很强的随意性很高的制图软件，它的目标是生成漂亮逼真的图片，而这些图片中的元素基本上都是由操作都手工制作出来的，而不是现场的照片。城市街头会有很多大幅的图片，其中很多都是这么做出来的，尤其是一些建筑的效果图，您想想，建筑还没建好呢，那它的图片是怎么做出来的呢。 3DMAX为了达到这个效果，提供了大量的而且是很随意的三维造形功能，让操作者几乎无所不能（不过我觉得还是有缺欠，用起来不方便，不直观），然后再利用它很强的渲染功能生成图片。象上面所说的，它的另一个功能是可以制出动画片的。 CAD是机械行业和建筑行业必备的软件，现在做机械的人几乎人人会用。 CAD用于代替原先的手功画图，绘制平面的设计图确实很方便，非常人性化，它是我所见到的最人性化最易学的专业软件。但至始至终CAD在三维造形和生成平面彩图的功能上没有什么发展，虽然也有，比3DMAX要差得多。 CAD较3DMAX的优点就是由于它的人性化，绘制平面设计图能力非常高，按我本人的水平，我用CAD用1小时完成的作用3DMAX可能要用2小时或更多，而就其准确程度来说，3DMAX由于太过随意，几乎没有什么精度可言，而CAD就不同的，它的精确度让人吃惊，它的计算比常见的任何一个计算器要高得多。

手机里有什么软件能做3D模型

没有手机软件能做3D模型，3D模型需要电脑才能运行。常用软件如下：1、3DMAX,应用最广泛的3D软件，比较适合做人物模型的是MAYA，MAYA,主要做影视特效、动画。草图大师，主要做3D线形展示图的软件，功能快捷、简单，但是后期渲染效果不好。 2、Jack就是一个人因工程软件，里面自带全球多个人种的人体模型Genemation。此软件性能卓越，适合于专业及业余数码艺术家使用，能够帮助他们在较短的时间内制作出逼真的3D人物头部。扩展资料构建过程3d模型的构建主要有三种：1，人工软件构建3D模型：此种方式要求操作人员要具有丰富的专业知识，熟练使用建模软件，而且操作复杂，周期较长，同时最终构件的3D模型真实感不强。 2，三维扫描仪构建3D模型：此种方式需要价格昂贵的三维扫描仪等硬件设备。并且，三维扫描仪现今只能获得物体的位置信息，对于物体表面的纹理特征多数仍然需要辅助大量的手工工作才能完成。整个过程成本高，周期长。 3，基于图像构建3D模型：此种方式只需要提供一组物体不同角度的序列照片在计算机辅助下即可自动生成物体的3D模型。操作简单，自动化程度高，成本低，真实感强。 3D模型的展示，用户不仅仅可以更为清晰、直观地浏览广告内容，其互动性以用户为核心。任意视角全方位浏览欣赏，同时根据要求制作用户可直观地参与内容，其广告效果可想而知。从此，广告不仅仅是内容的播放者，也是用户的参与者，用户可浏览，可互动。根据内容选择是否前往，结束了厌烦地点击到达的传统模式，有效地提高了广告的转化率。 3D模型的广泛采用，将为网络广告行业带来新的格局。通过主观意识借助实体或者虚拟表现构成客观阐述形态结构的一种表达目的的物件（物件并不等于物体，不局限于实体与虚拟、不限于平面与立体）。模型≠商品。任何物件定义为商品之前的研发过程中形态均为模型，当定义型号、规格并匹配相应价格的时候，模型将会以商品形式呈现出来。从广义上讲：如果一件事物能随着另一件事物的改变而改变，那么此事物就是另一件事物的模型。模型的作用就是表达不同概念的性质，一个概念可以使很多模型发生不同程度的改变。但只要很少模型就能表达出一个概念的性质，所以一个概念可以通过参考不同的模型从而改变性质的表达形式。当模型与事物发生联系时会产生一个具有性质的框架，此性质决定模型怎样随事物变化参考资料：网络百科-3d模型