将扩散模型结合Transformer 起底可灵背后原理与Sora类似

作者： 2024年06月24日网红浏览

近日，中国短视频平台快手迎来了一个重要的里程碑，它发布了第一个文本到视频的生成式人工智能模型，可供公众免费测试。

这家拥有 6 亿多活跃用户的短视频平台于 6 月 6 日宣布了这一新工具，名为可灵大模型（Kling）。

该公司在其网站上表示，与 OpenAI 的 Sora 模型一样，可灵能够生成“长达两分钟的视频，帧率为每秒 30 帧，视频分辨率高达 1080p”。

但不同的是，在 OpenAI 官宣 Sora 四个月后，它仍然未向公众开放，可灵已经开始让人们自己尝试这个模型。

我已经体验了该模型。我下载了快手的视频编辑工具，注册了一个账号，进入了候补名单，并通过快手的用户反馈小组填写了一份额外的表格，之后我就可以使用它了。

该模型不能处理完全用英语编写的提示，但你可以将短语和提示翻译成中文，或者在提示中添加一两个中文单词来解决这个问题。

以下是我用可灵生成的一些结果，展示了它的真实表现。还记得 Sora 令人印象深刻的东京街景展示视频吗？还记得猫在花园里奔跑的视频吗？以下是可灵生成的：

视频 | 提示：一位时尚的女士走在东京的街道上，街道上充满了温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子，手里拿着一个黑色女式包。她戴着太阳镜和红色口红。她走路自信而随意。街道潮湿且反光，形成了彩色灯光的镜面效果，许多行人走来走去。（来源：ZEYI YANG/MIT TECHNOLOGY REVIEW | 可灵）

还记得 Dall-E 生成的骑马宇航员的照片吗？我让可灵制作了一个视频版本。

我们看到了一些值得称赞的地方。这些视频都没有偏离提示太多，物理原理似乎是正确的，相机的平移、褶皱的树叶，以及马和宇航员旋转的方式，还显示了他们身后的地球。

每个视频的生成大约需要三分钟。不是同类模型里最快的，但完全可以接受。

但也有明显的缺点。这些视频的格式为 720p，看起来模糊而粗糙；有时可灵会忽略提示中最重要的要求；最重要的是，现在生成的所有视频都被限制在 5 秒，这使得它们的动态性和复杂性大大降低。

然而，将这些结果与 Sora 的展示进行比较并不公平。Sora 的展示视频是由 OpenAI 精心挑选并向公众发布的，可能代表了比平均水平更好的结果。

这些可灵视频是我对每个提示的第一次尝试，我很少使用诸如“8k（分辨率），照相写实主义”之类的提示工程关键词来微调结果。

北京的人工智能艺术家 Guizang（要求用网名）说，可灵的能力已经足够好了，他自该模型发布以来一直在测试它，并整理了 Sora 和可灵之间的一系列直接对比。

他指出，可灵的缺点在于结果的美观性，比如构图或颜色分级。“但这不是一个大问题，而且可以很快解决。”Guizang 告诉《麻省理工科技评论》。

“一个模型的核心能力在于它如何模拟物理世界和真实的自然环境。”他认为可灵在这方面做得很好。

可灵的工作方式与 Sora 类似：它将常用于视频生成人工智能的扩散模型与 Transformer 架构相结合，这有助于它理解更大的视频数据文件并更有效地生成结果。

但与 Sora 相比，可灵可能有一个关键优势。快手是抖音在中国最大的竞争对手，它有一个庞大的视频平台，拥有数亿用户，他们上传了大量可用于训练可灵的视频数据。

快手在一份声明中告诉《麻省理工科技评论》，“可灵依据行业标准，使用全球互联网上公开的数据进行模型训练。”

然而，该公司没有详细说明训练数据的细节。同样地，OpenAI 也没有详细说明 Sora 的训练细节，这引发了人们对知识产权保护的担忧。

在测试了这个模型之后，我觉得目前可灵在实用性方面的最大限制是它只能生成 5 秒长的视频。

这种限制意味着这项技术对短视频行业的影响将大于对电影行业的影响。

那些专为在手机上观看而设计的短视频，通常要在几秒钟内吸引观众的注意力。

抖音之类的中国短视频平台在评估视频是否成功时，通常会看有多少人看完了前三到五秒。因此，一个只有五秒长的人工智能生成的高质量视频片段可能会改变短视频创作者的游戏规则。

Guizang 同意人工智能可能会打破现有短视频内容创作规则。它将在短期内作为一种生产力工具使创作者受益。

但从长远来看，他担心快手和抖音等平台可能会接管视频制作，直接为用户定制内容，从而减少平台对网红创作者的依赖。

这项技术可能还需要相当长的时间才能发展到这个水平，但文本到视频工具领域现在越来越活跃。

在可灵发布一周后，美国加州一家名为 Luma AI 的初创公司也发布了类似的模型供公众使用。视频生成的明星初创公司 Runway 也宣布了一项重大更新，这将使其模型更加强大。

据报道，快手最大的竞争对手字节跳动也在努力尽快发布其视频生成工具。“到今年年底，我们将看到更多选择。”Guizang 说。

当“任何人都可以根据自己的需求快速生成视频片段”时，我请可灵以此为题生成那是一个什么样的社会。下面这个视频就是它给我的回应，里面有一双很真实的手，但遗憾的是，它并没有回答这个问题。

支持：Ren

排版：溪树

01/ MIT团队揭晓雷特综合症新机制，建立全基因组表观遗传学图谱，相关神经元数据库已开源

02/ 科学家提出纯机械计算机新理论，提升有限机械系统的运算能力，为智能超材料开辟新思路

03/ 孙立成院士团队开发新型阴离子交换膜，大电流下稳定运行2400多小时，或大幅度降低制氢成本

04/ 澄清170多年学术争论：北大团队获得六角冰表面原子级分辨图像，刷新对于冰表面的传统认知

05/ 科学家研发种子筛选AI模型，预测准确性超过90%，实现高效数字化的抗病品种筛选

求一篇文章，《基于高灵敏度拉曼散射增强效应Au-SiO_2多层纳米结构液相基底分析与制备》作者田卫华

【作者】田卫华；【导师】程秀兰；【作者基本信息】上海交通大学，微电子学与固体电子学， 2011，硕士【摘要】近年来随着纳米技术的发展，贵金属纳米材料由于具有良好的物理特性及特殊的光学特性越来越多的被学者科学家们所关注。而对纳米颗粒表面进行修饰改性成为材料科学领域中的一个研究热点，Au纳米颗粒尺寸及形状是决定其性能的重要因素，因此不同维度的金纳米结构单元的制备、组装、表面改性与应用的研究异常活跃，成为当前纳米材料研究的主导方向之一。本文利用MATLAB数值计算软件和COMSOL物理模型建模软件仿真多层Au@SiO2纳米颗粒的光学特性，分析其吸收峰以及近红外区红移现象。模型仿真表明Au@SiO2纳米核壳结构核的尺寸、壳的厚度以及层数决定纳米颗粒光学特性。本文对5层Au@SiO2结构（Au核）进行了仿真，通过改变核的尺寸以及壳的厚度分析其光学特性。结果表明，在层数和核壳厚度不变的情况下，随着纳米结构核的尺寸增加，其在近红外区红移效应增加，且散射密度会降低；结构等其他条件不变，随着增加SiO2壳厚度增加，该结构具有明显红移现象，散射密度同样会降低；同样，改变Au壳厚度也会出现类似现象。该结果表明纳米核壳结构决定了... 更多还原【关键词】 SERS；纳米颗粒；核壳结构；金；二氧化硅；【文内图片】AAO模板法制备纳米材料的工艺流程金属纳米颗粒LSPR原理示意图金属纳米球散射示意图-D多层Au-SiO2模型网格划分后的COMSOL内五层核壳型纳米颗粒结构几何模型示意图层金-电介质核壳结构散射光谱图制备金纳米颗粒装置图反应5分钟金属纳米颗粒SEM表征图

数据分析方法中的dot法

数据挖掘，又译为资料探勘。它是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。灵玖软件NLPIR数据挖掘的方法的主要方法有一下几种：⑴神经网络方法神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题，因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类：以感知机、bp反向传播模型、函数型网络为代表的，用于分类、预测和模式识别的前馈式神经网络模型；以hopfield的离散模型和连续模型为代表的，分别用于联想记忆和优化计算的反馈式神经网络模型；以art模型、koholon模型为代表的，用于聚类的自组织映射方法。神经网络方法的缺点是黑箱性，人们难以理解网络的学习和决策过程。 ⑵遗传算法遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法，是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。遗传算法的应用还体现在与神经网络、粗集等技术的结合上。如利用遗传算法优化神经网络结构，在不增加错误率的前提下，删除多余的连接和隐层单元；用遗传算法和bp算法结合训练神经网络，然后从网络提取规则等。但遗传算法的算法较复杂，收敛于局部极小的较早收敛问题尚未解决。 ⑶决策树方法决策树是一种常用于预测模型的算法，它通过将大量数据有目的分类，从中找到一些有价值的，潜在的信息。它的主要优点是描述简单，分类速度快，特别适合大规模的数据处理。最有影响和最早的决策树方法是由quinlan提出的著名的基于信息熵的id3算法。它的主要问题是：id3是非递增学习算法；id3决策树是单变量决策树，复杂概念的表达困难；同性间的相互关系强调不够；抗噪性差。针对上述问题，出现了许多较好的改进算法，如 schlimmer和fisher设计了id4递增式学习算法;钟鸣，陈文伟等提出了ible算法等。 ⑷粗集方法粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点：不需要给出额外信息；简化输入信息的表达空间；算法简单，易于操作。粗集处理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统，为粗集的数据挖掘奠定了坚实的基础。但粗集的数学基础是集合论，难以直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点。现在国际上已经研制出来了一些基于粗集的工具应用软件，如加拿大regina大学开发的kdd-r;美国kansas大学开发的lers等。 ⑸覆盖正例排斥反例方法它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子，到反例集合中逐个比较。与字段取值构成的选择子相容则舍去，相反则保留。按此思想循环所有正例种子，将得到正例的规则(选择子的合取式)。比较典型的算法有michalski的aq11方法、洪家荣改进的aq15方法以及他的ae5方法。 ⑹统计分析方法在数据库字段项之间存在两种关系：函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示，但仍是相关确定性关系)，对它们的分析可采用统计学方法，即利用统计学原理对数据库中的信息进行分析。可进行常用统计(求大量数据中的最大值、最小值、总和、平均值等)、回归分析(用回归方程来表示变量间的数量关系)、相关分析(用相关系数来度量变量间的相关程度)、差异分析(从样本统计量的值得出差异来确定总体参数之间是否存在差异)等。 ⑺模糊集方法即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高，模糊性越强，一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。李德毅等人在传统模糊理论和概率统计的基础上，提出了定性定量不确定性转换模型--云模型，并形成了云理论。

来自动物灵感的仿生设计有哪些

什么是仿生设计自古以来，自然界就是人类各种科学技术原理及重大发明的源泉。经过亿万年的进化，生物逐渐具备了适应自然界变化的本领。人类运用其观察、思维和设计能力，开始了对生物的模仿，并制造出工具，增强了自己与自然界斗争的本领和能力。仿生设计早期的仿生设计随着人类的不断进化，在我国古代就已经有了仿生设计，春秋战国时代鲁国匠人鲁班从能划破皮肤的带齿草叶得到启示而发明了锯子。古人还通过仿照鱼的胸鳍和尾鳍制成双桨和单橹，用木材做成鱼形的船体。锯齿草叶在外国文明史上，大致也经历了相似的过程。 1800年左右英国科学家、空气动力学的创始人之一凯利，模仿鳟鱼和山鹬的纺锤形，找到阻力小的流线型结构。还模仿鸟翅设计了一种机翼曲线，对航空技术的诞生起了很大的促进作用。空气动力测试人们通过对鸟类飞行器官的详细研究和认真的模仿，根据鸟类飞行机构的原理，终于制造了能够载人飞行的滑翔机。在一战时期，人们从毒气战幸存的野猪身上中获得启示，模仿野猪的鼻子设计出了防毒面具。防毒面罩超科技仿生设计人类不断进化的同时也不断刷新着我们对科技的认知，并且越来越超科技化，这一切离不开仿生学，蝙蝠机器人 BionicFlyingFox 原型是狐蝠，通过集成电子板和外置运动追踪系统的配合，人造狐蝠能够在特定空间内实现半自主飞行。仿生机器蝙蝠上面绷了一层有弹性的翼膜，一直延伸到后肢。它的两翼展开宽度为 228 厘米，体长为 87 厘米，整体仅重 580 克。专门研制的翼膜通过约个点紧密地焊接在一起，所以具有足够的弹性，即使在收起双翼时，也几乎没有褶皱。蜂窝结构可以防止裂纹进一步扩大，即使翼膜出现轻微损伤，仍能继续飞行。仿生机器蝙蝠仿生机器蝙蝠通过运动追踪系统和红外相机以及必要的控制指令，人们可以规划机器蝙蝠的飞行轨迹，并手动控制它的起飞与降落。仿生机器蝙蝠除此之外，美国还研发了很著名的机器狗与极微型侦察机器昆虫等等。仿生机器昆虫现代仿生设计上面的仿生蝙蝠机器，仿生狗机器等离我们的生活比较远，其实我们生活中的仿生学随处可见。飞机，座椅，鞋等等都有着仿生设计的影子。其实飞机的设计中有很多原理都来源于仿生学，机翼曲线源于鸟类，科学家从蝙蝠身上给飞机安装了雷达，鹰和隼的身上研发出了如何减小阻力，通过乌贼研发了喷气发动机，其中还有很多设计仿生于蝴蝶，苍蝇，鲨鱼等等。飞机不得不说，飞机的身上可谓到处是“生物”的身影。黑鸟SR71就连一些椅子，同样也是仿生设计，仿生设计为我们带来了工具，而人体工学设计是为了人的舒适与健康的产物，这两者结合为人类带来了科技与健康的结合，我们看到人体工学家具品牌「达宝利」设计的龙骨椅就是人体工学结合仿生设计。达宝利龙骨椅达宝利龙骨椅人在久坐和出现不良坐姿时，腰和脊椎会受到一定挤压和变形，仿脊椎式座椅就是借鉴人类的骨结构，给你一个承托，让坐姿更健康更舒适。达宝利龙骨椅达宝利龙骨椅2005年，Vibram首次在美国和欧洲推出Fivefingers（Vibram五指鞋）。堪称真正的“第二层皮肤”，其个性化的鞋头就是模仿于人类的五个“脚趾”，五指鞋不仅可以刺激脚底肌肉，促进血液循环，还能改善活动范围，尤其适合从事徒步旅行、攀爬、健身等运动，是目前世界上唯一能提供赤脚般走路带来无尽快乐的鞋子。五指鞋我们正生活在一个创造性的世界。 END

声明：本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。
本文地址：https://120.77.238.70/keji312/37269.html

求一篇文章，《基于高灵敏度拉曼散射增强效应Au-SiO_2多层纳米结构液相基底分析与制备》作者田卫华

数据分析方法中的dot法

来自动物灵感的仿生设计有哪些

相关文章