3D生成开源界首个 同时支持文字、图像转3D 的模型来了,效果还是SOTA级别。
就在刚刚, 腾讯宣布推出Hunyuan3D-1.0 ,一口气开源轻量版和标准版两个模型。
最快 10秒 就能端到端生成。
先生成6个多视角图像,再进行多视角重建,“啪”的一下360度无死角的3D资产就造出来了。
无论是人物形象:
还是像下面这样婶儿的葡萄等复杂结构生成,细节都蛮不错:
薄薄的枫叶也能完整生成:
镂空雕刻花纹生成效果Belike:
实验中,Hunyuan3D-1.0定性定量评估均超越此前SOTA开源模型,推理性能提升很大,轻量版A100 GPU上生成时间约10秒,标准版约25秒。
目前Hunyuan3D-1.0模型权重、推理代码、模型算法等,已全部开源。
量子位童鞋在发布现场,还拿到了3D生成后直接拿来3D打印的小手办~
多视图生成、重建两步炼成
技术实现上,腾讯混元团队发布了一份技术报告。
Hunyuan3D-1.0模型架构如下,采用多视图生成、多视图重建两阶段生成方法。
对于输入图像,首先使用多视角扩散模型在固定相机视角下 合成6个新视角图像 ,从不同的视角捕捉了3D资产丰富的纹理和几何先验,将3D生成任务从单视角重建转化为难度更低的多视角重建任务。
然后将生成的多视角图像输入基于Transformer的稀疏视角 大规模重建模型 。
利用上一阶段生成的多视角图像,重建模型学习处理多视角扩散引入的噪声和不一致性,并利用条件图像中的可用信息高效恢复3D结构。
最终,该模型可以实现 输入任意单视角生成3D资产 。
具体来说,第一阶段多视图生成采用了 自适应CFG (classifer-free guidance),为不同视角和time steps设置不同的CFG尺度值。
在输入视角的临近视角CFG大,保证生成控制更强,与输入图更接近;较远视角CFG小,生成diversity更大,保证生成图像的真实性。
另外,为了保证角度鲁棒性、兼容任意输入视角,渲染训练数据时候,渲染不同俯仰角作为输入,输出0°俯仰角的多视图。
输入任意视角图像,生成环绕一圈的俯仰角elevation=0的6张图,最大化多视图间的可见区域,并通过attention保持多视角一致,为下一步的多视图重建模型提供高一致性、高真实性的多视图图像。
在第二阶段多视图重建方面,Hunyuan3D-1.0结合了已校准(生成的多视角图像)和未校准(用户输入)的 混合输入 ,通过专门的视角无关分支整合条件图像信息,由此以提升生成图像中的不可见部分精度。
图像信息通过cross-attention注入triplane token中。
Hunyuan3D-1.0还通过线性层将特征平面的分辨率从64上采样到256,使得特征表征更加细腻,生成物体细节更丰富。
值得一提的是,Hunyuan3D-1.0还采用了Signed distance function(SDF)的隐式表示,最后通过Marching cube算法在三维空间进行采样查询得到signed distance来输出3D mesh,可以直接与3D管线结合。
拿下开源新SOTA
实验结果显示,Hunyuan3D-1.0具有强大泛化能力和可控性,可重建各类尺度物体,大到建筑,小到工具花草。
在两个公开3D数据集GSO、OmniObject3D上定量评估3D生成质量,包括Chamfer Distance(CD)、F-score (FS)指标,Hunyuan3D-1.0 表现总体最优 。
定性评估方面,Hunyuan3D-1.0在几何细节、纹理细节、纹理-几何一致性、3D合理性、指令遵循等评价维度上, 全面超越SOTA开源模型 。
用户喜好打分结果如下:
Hunyuan3D-1.0在保证高质量、多样化生成之外,推理性能也大幅提升,显著减少了3D资产生产的耗时。
“3D生成技术今年已进入快速发展阶段”
推出Hunyuan3D-1.0的同时,腾讯混元3D大模型也正在落地应用中——
据了解, 腾讯地图 目前就已基于腾讯混元3D大模型,发布了自定义3D导航车标功能,支持用户创作个性化的3D导航车标。
腾讯元宝APP 也上线了“3D角色梦工厂”,支持个性化的UGC 3D人物生成。
今年3D赛道实属火炎焱。
国内有VAST、AVAR AI等,初创公司多来自全球知名高校和科研机构;国外有AI教母李飞飞首次创业成立的空间智能公司World Labs,也着眼于3D生成世界,宣布长期目标是构建大世界模型(LWM)来感知、生成3D世界并与之交互。
鹅厂这波开源操作,无疑是把大伙儿玩3D模型的门槛又打下来了。
正如腾讯混元3D负责人郭春超所说:
官网地址:https://3d.hunyuan.tencent.com/