上交港中文框架超越Instant3D 5秒完成3D生成 合成数据集已开源

使用大模型合成的数据,就能显著提升3D生成能力?

来自上海交大、香港中文大学等团队还真做到了。

他们推出Bootstrap3D框架,结合微调的具备3D感知能力的多模态大模型。这个框架能够自动生成任意数量的高质量的多视角图片数据,助力多视图扩散模型的训练。

结果表明,新的合成数据能够显著提高现有3D生成模型的生成物体的美学质量和文本prompt的控制能力。

目前,Bootstrap3D的数据集已经全面开源。

用大模型合成数据

近年来,3D内容生成技术迎来了飞速发展。然而,相对于2D图片生成,生成高质量的3D物体仍面临诸多挑战。

其中核心的瓶颈即在于3D数据,尤其是高质量数据的不足。

为了解决这一问题,研究团队推出Bootstrap3D框架,通过自动生成多视图图像数据来解决3D内容生成中高质量数据不足的问题。

具体来说,这个框架采用了2D和视频扩散模型来生成多视图图像,并利用一个经过微调的3D多模态大模型对生成的数据进行质量筛选和描述重写。

通过这种方式,Bootstrap3D能够自动产生大量高质量的3D图像数据,从而“自举”出一个足够大的数据集,辅助训练更优秀的多视图扩散模型。

这里插一嘴,在计算机科学和机器学习领域,“Bootstrap”通常指的是一种通过自举方法解决问题的技术。

数据构建Pipeline

具体来说, 数据构建Pipeline 是本次框架的核心创新之一,旨在自动生成高质量的多视图图像数据,并附带详细的描述文本。

主要分为以下几个步骤:

文本提示生成 :首先,使用强大的大语言模型(如GPT-4)生成大量富有创意和多样化的文本提示。这些文本提示涵盖了各种场景和物体,为后续的图像生成提供了丰富的素材。

图像生成 :利用2D扩散模型和视频扩散模型,根据生成的文本提示创建单视图图像。通过结合2D和视频扩散模型的优势,生成的图像具有更高的初始质量和多样性。

多视图合成 :使用视频扩散模型将单视图图像扩展为多视图图像,生成不同角度的视图。这一步骤确保了每个对象在不同视角下的一致性,解决了传统方法中视图不一致的问题。

质量筛选和描述重写 :通过我们微调的3D感知模型MV-LLaVA,对生成的多视图图像进行严格的质量筛选。筛选过程不仅过滤掉低质量的数据,还重写描述文本,使其更加准确和详细。

通过这个数据构建Pipeline,Bootstrap3D能够生成大量高质量的3D图像数据,为多视图扩散模型的训练提供了坚实的基础。

这一创新不仅解决了3D数据稀缺的问题,还显著提升了模型的生成效果和对文本提示的响应能力。

训练timestep重安排(TTR)

团队还提出了一种创新的训练timestep重新安排策略(TTR),以解决多视图扩散模型训练中的图像质量和视图一致性问题。

TTR策略的核心理念是在训练过程中灵活调整合成数据和真实数据的训练时间步,从而优化去噪过程的不同阶段。

去噪过程的阶段性特征 :在扩散模型中,去噪过程通常分为不同的时间步。在早期时间步,去噪过程主要关注图像的整体结构和形状(低频成分);在后期时间步,则主要生成图像的细节和纹理(高频成分)。这种阶段性特征为我们提供了调整训练策略的机会。

限制合成数据的训练时间步 :由于合成数据可能存在一些模糊和失真,我们在训练时限制其时间步范围。具体来说,我们让合成数据主要参与早期的去噪阶段,确保它们对整体结构的贡献,而将后期的细节生成留给质量更高的真实数据。

分阶段训练策略 :通过将合成数据限制在较大的时间步范围内(如200到1000步),我们确保这些数据在去噪过程中主要影响图像的低频成分,从而保持视图一致性。同时,真实数据则参与所有时间步的训练,以提供高频细节和真实感。这样的分阶段训练策略有效平衡了图像质量和视图一致性。

实验证明效果显著 :广泛的实验结果表明,使用TTR策略的多视图扩散模型在图像-文本对齐、图像质量和视图一致性方面均表现优异。该策略不仅保留了原始2D扩散模型的优点,还显著提升了多视图生成的效果。

通过训练时间步重新安排策略(TTR),Bootstrap3D框架成功解决了合成数据质量参差不齐的问题,显著提升了多视图扩散模型的性能,为高质量3D内容生成奠定了坚实基础。

好了,Bootstrap3D生成的数据集已经全面开源,任何研究人员和开发者都可以免费访问和使用。

论文地址:https://arxiv.org/abs/2406.00093/项目主页:https://sunzey.github.io/Bootstrap3D/数据集地址:https://huggingface.co/datasets/Zery/BS-Objaverse/


以太坊挖矿一天赚多少?

以太坊挖矿一天的收益与专业矿机算力高低有直接影响,矿机算力越高,一天收益也就越高。假设一台RX580-8G-8卡显卡矿机,每台矿机保底210MHS算力。电费是12元每天/台,再加上6%的管理费和平台币的奖励,十台起购。每MHS算力的产量为0.0001,那么每天ETH的净产出就是0.21ETH。

以太坊的一个区块大概时间是13秒,会根据区块的运算速度进行调节,所以导致一个区块一个难度一个产出,以太坊的产出是动态的需要实时查询,平台会根据每日矿池分配按照持有的算力进行分配。

大致计算每一天的收益:

1、产出:0.0001ETH/Mhs(每个区块产出各不相同);

2、管理费:0.0249usdt-(0.0249usdt*6%*0)不收取管理费;

3、电费:0.008usdt/Mhs/天*6折=0.0048usdt/Mhs/天(电费6折);

4、产出收益:0.1ETH-0.0048usdt=0.0201usdt(统一产出减去电费=每天收益);

对于以太坊挖矿来说,最关键的就是以太坊挖矿机的选择,投资者一定要选择合适的以太坊挖矿机,当然选择以太坊挖矿机之前,要考虑清楚以太坊挖矿所需要支付的成本,自己是否能接受,以及以太坊挖矿机带来的噪音等方面的问题是否能解决,只要都考虑清楚了,选择以太坊挖矿才不至于手忙脚乱。

SolidWorks我以前点零件会显示尺寸,现在不知道怎么回事,不会显示尺寸

特征里有个命令:Instant3D,激活之。

MAGENTO,还是ECSHOP,哪个比较容易上手?

人个经验回答:首选magento.不过你需要认真考察好以下几个问题,如果觉得能够解决,就果断用magento,反之,则考虑ecshop1. 性能:magento慢!实在是慢,绝对超过你的想像.正式环境下4万条左右的商品,用西部数码云主机,8核CPU、8G内存,缓存全部打开,网上全问题的优化方法都用上,速度也在10秒钟以上。 加了企业版的全页缓存会好些,能缩短到4秒。 ecshop则是非常快的。 2. 配套插件:magento插件很多,有一些对于中国市场的插件还有待普及。 比如客户收货地址三级联动、客户下单短信提醒等、支付方式、配送方式等。 都是很常用的功能。 3. 模板:magento有很多漂亮的模板,大气上档次,而且费用不高。 很多批量销售的模板,比起国内动辄4、5千定制的模板都漂亮,可以谓是物美价廉。 4. 插件开发:插件可以实现全部你想要的功能。 提醒:magento插件开发难度较大,需要有漫长的学习实践过程。 ecshop则相对容易。 5. 商品管理:magento后台商品管理较弱,比如,你想把全部商品的市场价统一加价20%,这个只能去数据库中写代码。 还有很多其他与商品管理相关的细节,magetno实现不了。 6. 商品铺货:国内淘宝数据包格式,是主流。 可惜magento无法直接使用。 ecshop则有ecshop增强工具,能够快速的将数据信息完整上传,如颜色、尺码、库存、扩展属性等。 magento非常慢,对服务器要求较高。 如果有独立服务器和维护团队,推荐magetno。 反之推荐ecshop。 以上为经验之谈望采纳。

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://www.srwj168.com.cn/caijing/27702.html
诺基亚 HMD G400 Atlas 入门手机继任者 手机规
有金店 一克便宜了70元 冲上热搜!金价突然大跌