对比实测抖快和清华系物理学又不存在了细节及动态控制不足国产Sora

作者： 2024年08月19日直播浏览

（图片来自AI生成视频截图）

出品 | 搜狐科技

作者 | 梁昌均

编辑 | 杨锦

半年前，OpenAI公布了AI生成视频产品Sora的展示视频，一经推出引发不少赞叹。如今，Sora依然是个期货，而在国内，AI生成视频已成为最卷的赛道之一。

从抖音、快手，到清华系的智谱AI、生数科技，它们在短短几个月迅速出手，还不像Sora那般卖关子，迅速从内测走向全球发布。

从展示视频来看，这些产品虽然时长普遍不及Sora的一分钟，但不少人都感叹内容效果可媲美Sora，一些影视从业者还用这些产品做出了酷炫的AI科幻大片。

这些“国产版Sora”效果到底如何？搜狐科技就此针对抖音即梦、快手可灵、智谱清影、生数Vidu进行了横向对比测评。

一、即梦最具产品思维

目前，这四款产品都有文生视频和图生视频两种形式，部分产品还在研发类似Sora的视频生成视频功能，但尚未对外开放。

从基础功能来看，Sora可最长生成60秒的视频，即梦则有3秒、6秒、9秒和12秒可选，可灵支持5秒和10秒，清影为6秒，Vidu支持4秒和8秒的视频生成。

即梦和可灵的AI生成视频界面

即梦还能选择运镜控制方式（移动、旋转、摇镜、变焦等12种类型和小中大三个幅度）、运动速度（慢速、适中、快速）、模式选择（标准模式、流畅模式）以及视频比例（共计6种），可以说给用户提供了最多的选择，最具产品思维。

相对来说，可灵在时长、视频比例、运镜控制等方面的选择较少，但特色是可以规避不希望呈现的内容，清影和Vidu则整体更加简洁，但清影可以在线添加背景音乐。

清影和Vidu的AI生成视频界面

为更加直观的对比，搜狐科技选择Sora此前受到较多关注的视频所采用的提示词和图片，来看看“国产Sora”们的表现如何（即梦、可灵、清影、Vidu的评测时长分别为12秒、5秒、6秒、4秒）。

这几款产品生成的视频均为一次性生成。Sora发布的视频整体效果不错，但可能经过了多次调整、优化，因此Sora生成的视频仅作为参考。

二、短文本生图：即梦生成人物动作变形，Sora的问题也难避免

中国农历新年、中国龙都是中国元素，它们的理解能力如何？

即梦将场景放在了古代，生成的两条龙神态表现较好，还出现了红灯笼等中国喜庆元素，但人物比较抽象。

可灵和Vidu的风格比较写实，生成的龙像是套了个皮的巨大娃娃，可灵还缺乏喜庆氛围，Vidu则有人与表演的互动，但生成的龙似乎多了很多爪子。

清影的喜庆氛围表现不错，还有烟花，但龙舞动的过程不太流畅，且画面还会糊。

对于这个以人物为主体的提示词，即梦最初的人物表情不错，但随着人咬汉堡并开始咀嚼，嘴部出现了特别严重的鬼畜变形（视频慎点），且出现多出手指的情况。

可灵视频主体聚焦放在嘴咬汉堡的过程，咬的动作、手指等细节表现较好。

清影和Vidu则均没能体现出人咬汉堡的过程，对提示词的还原度较低。

即梦的视频缺少对部分提示词的理解，没有体现出是在一杯咖啡中，也没有相互争斗的感觉。

可灵生成的两只船都在咖啡杯边缘，对提示词把握不到位。

清影的视频看着挺像一回事，船在行驶过程中产生水波，咖啡还冒着热气，细节表现较好。

Vidu的视频视角更加广阔，缺乏争斗感觉。

这个是Sora传播较广的翻车视频，由于不能准确模拟玻璃破碎时和液体之间相互作用的过程，因此很多观点认为Sora并不能理解物理世界。

“国产Sora”也会犯同样的错，冰块、红色果汁等内容都能体现，但基本都没能体现出泼溅的正确物理过程。

即梦的视频美感不错，液体受到外部冲击后有泼溅的感觉，但冰块腾空跃起似乎超越了力学原理，杯中的冰块凭空生成。

可灵则完全没有体现出泼溅的过程，清影和Vidu视频中的液体和冰块则直接从杯身或杯底穿过，物理学又不存在了。

总结：短文本提示词较少，对AI生成视频产品的要求相对较低，更能生成符合期望的视频。但从前述测试来看，这些产品无法每次都完全体现出提示词内容，稳定性较差，清影在生成提示词4时还多次出现异常情况。

即梦、清影部分场景细节表现较好，即梦对人物动作的控制能力较弱，且Sora出现的物理问题它们也难以避免。

三、长文本生图：即梦生成的大象出现了5条腿

即梦的视频整体美感不错，对猛犸象的神态刻画比较生动，但行走过程不是特别流畅，间歇性地出现了五条腿。

可灵生成的是没有象牙的猛犸象，且没有毛茸茸的感觉，行走过程和光影细节表现完美。

清影则生成了一群猛犸象，象看起来比较抽象，细节表现不足，运动感较强。

Vidu只生成了两只猛犸象，行走和光影变化体现较好。

即梦视频整体色彩感观不错，但女士脸部和手部在摇动过程中出现了变形，且没有体现出走的内容。

可灵视频中的女士嘴部和手部在行走过程中有些变形，但行走过程比较自然。

清影生成的人物偏向卡通，手提黑包的细节表现较差。

Vidu视频的色彩表现不够鲜明，人物行走比较自然，但手在移动过程中出现变形。

即梦的视频镜头是在汽车前面而不是后面，也没有体现出延伸到远处的蜿蜒土路，提示词理解不够。

可灵整体表现较好，稍显不足的是镜头保持不动，土路不够陡峭。

清影的视频则像加了一层滤镜，画面偶尔有些模糊。

Vidu整体比较写实，但SUV凭空往后倒再向前行驶，可能是出现了幻觉。

总结：长文本涉及的元素比较多，需要生成更为丰富的场景，对AI视频产品理解文本的要求更高，更加考验视频的一致性和稳定性，即人物角色的一致性、场景风格的一致性，同时生成的画面要稳定，呈现合理的线性变化，尤其是在动态场景中，不会出现骤变的人物角色或突兀的场景切换。

从前述评测来看，这四款产品基本不会遗漏核心元素，但会出现理解偏差或变形；即梦整体美感较好，细节表现不足，清影、Vidu也有类似问题，可灵对人物、物体的动态过程表现较好。

四、图片生图：部分场景可媲美Sora，动态场景表现较差

即梦对柴犬摆头、挑眉、张嘴吐舌头等进行了动态展现，且前后没有出现变形，保持了一致性。

可灵主要是镜头的变化，柴犬本身无动态变化。清影扩张了柴犬低头、眨眼、张嘴的动作，过程中无明显变形。

Vidu除了表现柴犬眨眼，还变化镜头生成了抬头的动作，一致性表现较好。

从这个示例看，除了可灵，其它三款产品的表现可以媲美Sora，甚至更好。

即梦展现了浪潮达到顶峰并崩散的过程，但其中一个冲浪者凭空出现又凭空消失。

可灵和清影的视频有种慢镜头的感觉，冲浪者没有明显的滑行动作。

Vidu对图片的体现不完整，冲浪者的出现和动作有些莫名其妙。

总结：图片生成视频主要考验的是AI对图片的理解能力以及“想象”拓展能力。从这两个评测来看，对于相对静态的图片，国内产品生成的视频基本可以和Sora媲美，但对动态内容的生成控制能力较弱。

五、评测总结

此次评测显示出，如何提高AI生成视频的一致性、稳定性、可控性，是目前所有产品都要持续解决的问题，而业内也在通过首尾帧控制、描述词优化，以及研发有关算法等解决。

但总体来看，目前还没有谁是全能冠军，部分产品还因时长过短更像动图，难以更好体现视频效果。

此外，视频比文本生成的成本更高，所需要的算力大幅提升，此次评测所有视频都需等待2-5分钟甚至更长时间。

未来要想规模应用，还需要在时长、内容效果上继续努力，而如何降低成本、提高大众的可用性就显得非常重要。

看了这些视频，你觉得谁表现最好？会选择用哪款产品？欢迎评论区留言！

声明：本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。
本文地址：https://srwj168.com.cn/keji312/18712.html

一、即梦最具产品思维

二、短文本生图：即梦生成人物动作变形，Sora的问题也难避免

三、长文本生图：即梦生成的大象出现了5条腿

四、图片生图：部分场景可媲美Sora，动态场景表现较差

五、评测总结

相关文章