全网首个“中国版Sora”横评，15家企业对决，字节领跑

热搜大全 > 新闻热搜 > 科技热搜 > 正文

全网首个“中国版Sora”横评，15家企业对决，字节领跑

热搜大全 2024-03-02

8 款工具迎战，6 大难关决出终极王者。

距离 OpenAI 发布 Sora 已经十几天了，" 中国版 Sora" 表现如何？

智东西 3 月 1 日报道，本周，我们深度体验了字节的 CapCut AI Video、腾讯的 VideoCrafter2、爱诗科技的 PixVerse 等8 款国产的 AI 视频生成工具，设置6 道关卡，将其生成视频效果与 Sora 进行横向测评。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

▲ 8 款工具生成结果对比，提示词为：一位 20 多岁的年轻人坐在天空的云朵上看书

纵观国内玩家，已有超 15 家企业推出了视频生成工具，既包括百度、阿里、腾讯、字节等6 家巨头，也包括爱诗科技、生数科技、智象未来等9 家创企。这些企业相比 OpenAI 做得怎么样？本文在第一部分做了全景式的解读。

综合产品易得性、视频生成速度等因素，智东西本次选取字节的 CapCut AI Video、腾讯的 VideoCrafter2、右脑科技的 Vega AI、爱诗科技的 PixVerse、MewXAI 的艺映 AI、智象未来的 Pixeling，以及 NeverEnds 和 Morph Studio 的同名产品 8 款工具进行对比，并从个人体验的角度，尝试从语义理解、运动平滑度、运动程度以及成像质量方面打分。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

▲八款文生视频工具总体得分对比（智东西制表）

通过体验，我们整体感觉字节短暂上线的 CapCut AI Video 功能最佳，尤其胜在运动平滑度和成像质量上。

Morph Studio、NeverEnds 在创企中领跑，且稳定性较高，在体验过程中没有出现大翻车的情况。

VideoCrafter2、Pixeling 生成质量不够稳定，出现了几次大翻车的情况；PixVerse、Vega AI 也出现了不同程度的翻车。

对比 Sora 如何？总体来讲，智东西有以下几点发现：

1、字节、Morph Studio分别领跑大厂和创企，稳定性和成像质量表现优秀。

2、大部分产品仍处于测试阶段，临时下线、长时间排队、无独立站点成为家常便饭。

3、生成 2-4 秒视频等待时间多为 3-5 分钟甚至更久，效率较低。

4、运动程度整体较低，多为平移式运动或镜头运动。

5、人手、动物等仍是重灾区，非现实场景大模型难以理解。

不过，Sora 目前仍未面向大众测试，虽然官方公布的视频效果震撼，但产品玩起来如何仍有待实际体验。本文文末附有 8 款工具的试用链接，感兴趣的读者朋友可以自行体验，欢迎在评论区分享体验感受和新发现 ~

01.9 家创企、6 路大厂围攻 Sora，八名选手参赛

据智东西不完全统计，目前已发布类 Sora 产品的国内创业公司有以下 9 家，分别是 Morph Studio、HiDream.ai（智象未来）、爱诗科技、MewXAI、NeverEnds、右脑科技、李白 AI 实验室、Möbius 以及生数科技。

它们的产品发布时间均早于 Sora，且大多都同时支持文生视频和图生视频。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

▲国内创业公司发布的 Sora 类产品 / 模型（智东西统计制表，数据截至 3 月 1 日）

与创企相比，国内大厂在产品落地方面推进更加谨慎。截至发文，只有字节在海外版剪映 CapCut 中推出了有独立主页的 AI 视频生成功能，但短暂释出后便下线了，目前尚不清楚其是否基于字节 1 月发布的 MagicVideo-V2 模型。

此外，阿里、腾讯的部分模型虽然托管在开源社区，但实际体验过程中生成等待时间过长，有的甚至超过 1 个小时，因此不在本次对比范围内。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

▲国内大厂发布的 Sora 类产品 / 模型（智东西统计制表，数据截至 2 月 27 日）

本次出战文生视频大赛的 8 名玩家其各自支持生成的视频时长、扩展功能，以及生成视频的分辨率和帧率如下表所示（按产品名首字母排序）。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

▲可试用的文生视频工具参数对比（智东西制表）

02. 六大关卡覆盖三类场景，第六关遇培养皿全员翻车？

为了与 Sora 的对比更直观，智东西将 Sora 官方示范视频给出的英文提示词输入这些生成器。公平起见，其他扩展功能如镜头运动、反向提示词等保持默认设置，且均选取第一次生成的视频。

下面让我们具体来看一下各位参赛选手在不同关卡的表现情况。

1、人物场景：步行变 " 漂移 "，人手依然是重灾区

提示词 1：一个时髦的女人走在东京的街道上，到处都是温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙、黑色靴子，拿着一个黑色钱包。她戴着太阳镜，涂着红色的口红。她走起路来自信而随意。街道是潮湿和反光的，创造了一个彩色灯光的镜子效果。许多行人走来走去。

首先来看一下 Sora 放出的 Demo，不仅长达 1 分钟，且完美体现了每一处细节，还进行了景别切换，整体画面十分惊艳。

在参赛选手这边，首先在整体效果上，8 款工具基本都呈现了一个女人走在街道上的画面，并且对霓虹灯、城市标志的理解也较为准确。

但细看之下，只有 Pixeling、Morph Studio 和 CapCut 较好地描绘了黑色皮夹克、红色长裙、黑色靴子和太阳镜，Morph Studio 生成了钱包但错将黑色钱包变成了红色。另外 5 位选手则对人物细节的生成不太准确，其中 VideoCrafter2 的看起来甚至不太像人脸。

场景方面，各位选手的表现大同小异，其中 CapCut、Morph Studio、Vega AI 及 NeverEnds 生成画面比较精致，但 Morph Studio 忽略了 " 潮湿 " 这个细节。

这道题难度较大，有很多细节上的描述，对女子的穿着、随身物品、风格等进行了详细的要求，稍不注意就会出现失误。背景上，潮湿的地面和霓虹灯反光也是一大难点。

提示词 2：一位 20 多岁的年轻人坐在天空的云朵上看书。

Sora 的 Demo 视频展现了年轻人坐在云朵上读书的画面，并且有翻书的细节。

这一关基本没有难倒参赛选手，8 款工具都生成了一个年轻人坐着读书的画面，不过 PixVerse、Vega AI 没能让人物坐在云上，NeverEnds 则把云拽到了地面。 VideoCrafter2、艺映 AI 没有拍到人物的屁股具体在哪儿，但从其背景能够看出大概率并不是云。

不出意外的，人手又成了大模型跌倒的重灾区，几乎都糊作一团，有的还出现了第三只手。另外，Pixeling 生成的人脸五官有些 " 抽象 "。

从画面风格上来看，PixVerse、艺映 AI 有点像三维动画风格，整体画面比较精致；Vega AI 生成的人物最真实，但整个画面只有背景的云在运动。

这道题的难度中等，不同于前一个提示词，它十分简短并且创造了一个现实生活中不可能出现的场景，主要考验大模型的 " 想象力 " 以及对不同主体之间关系的理解能力。

2、动物场景：柯基变面包，稀有物种难以描绘

提示词 3：一只柯基犬在热带毛伊岛拍摄自己的 Vlog。

这个提示词的难点在于，如何表现柯基 " 拍摄自己 "。 Sora 的演示虽然表现了这个细节，但也有些经不起推敲，自拍杆看起来像长在柯基身体上一样怪异。不过瑕不掩瑜，视频整体效果很精致，柯基表情灵动，还戴上了和热带环境相符的墨镜。

CapCut 生成的柯基非常可爱，虽然眼球有些飘逸现象，但不算明显。遗憾的是它没有表现 " 自拍 " 这个关键词。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

Morph Studio 的效果也不错，还给柯基挂上了一台摄像机。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

NeverEnds 描绘的柯基有点像人，不仅自己上手调试相机，嘴型看起来还像在说话——说好的建国后不准成精呢？另外，NeverEnds 生成的柯基似乎长了六条腿，和 Sora 把蚂蚁画成四条腿有点双向奔赴了。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

Pixeling 没能通过这条测试，直接生成了一段 " 鬼畜 " 视频。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

开头可爱的狗狗特写反复变形，让我联想到机器学习中一个很有意思的梗——如何分辨柴犬与面包。看来，Pixeling 漏掉了这节课。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

PixVerse 理解了 " 拍摄 "，但搞错了主体，生成了一只人手来拍摄柯基犬，这只手也有些 " 诡异 "，AI 还是一如既往地在人手上栽了跟头。此外，视频开头处柯基的嘴巴歪得也有些离谱。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

Vega AI 生成的视频一开始比较正常，但最后 1 秒可爱的柯基突然变形，最后表演了一个 " 头部消失术 "。此外，它通过椰子树表现了 " 热带 "，但似乎漏掉了 " 毛伊岛 " 这一点。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

VideoCrafter2 似乎只记住了 " 柯基 " 这一个关键词，其他的提示词都被它忽略了。它还给画面加了一个神奇的光影，看起来像是夕阳余晖。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

艺映 AI 生成的狗子画风较为真实，整体画面流畅，不过也没体现 " 自拍 " 的细节。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

这道题难度中等，整体来看，对提示词理解较好的是 Morph Studio 和 NeverEnds，PixVerse 则算是勉强及格。从画面效果上看，CapCut、Morph Studio、VideoCrafter2 和艺映 AI 稳定性较好，画面更加流畅。

提示词 4：这个维多利亚凤冠鸠（Victoria crowned pigeon）的特写展示了它引人注目的蓝色羽毛和红色胸部。它的羽冠是由精致的花边羽毛制成的，而它的眼睛是醒目的红色。鸟的头微微向一侧倾斜，给人一种帝王和威严的印象。背景是模糊的，吸引人们注意到这只鸟引人注目的外表。

Sora 演示视频中的凤冠鸠全方位地展示了自己的羽冠，正面、侧面、背面都不在话下，羽毛也随着头的转动摇摇晃晃。

如果只看画面，除了艺映 AI 几乎是甩了张静态图出来，其他 7 位选手的画面效果都还算流畅。

CapCut、Morph Studio、NeverEnds 和 Pixeling 生成的凤冠鸠基本是同一个角度，没有大幅度的运动或角度变化，PixVerse、Vega AI 和 VideoCrafter2 则有头部角度的变化。

从对该物种的特征还原来看，CapCut、VideoCrafter2 表现较好，还原了红色眼睛、红色胸部、蓝色身体以及蓝白色的羽冠，其他 6 位参赛选手的还原度略低。

此外，VideoCrafter2 虽然在使用指南中提到了比例调整的功能，但并没有成功生成 9:16 的竖屏视频。

这道题难度中等，主要难点在于对不常见动物特征的准确描绘。下图是 Sora 生成视频截图与动物网站 Fact Animal 上的维多利亚凤冠鸠照片对比。可以看出，Sora 对该动物的还原程度很高，从身体、眼睛的颜色到喙部、羽冠的形状基本都与照片一致。相比之下，8 位参赛选手都没能准确表现这些特征。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

▲ Sora 生成的（左）与真实的（右）维多利亚凤冠鸠对比

3、" 虚拟现实 " 场景：想象力不足，遇 " 小熊猫培养皿 " 全员翻车

提示词 5：两艘海盗船在一杯咖啡中航行时相互争斗的逼真特写视频。

CapCut 成功将海盗船放入了咖啡杯中，但只放了一艘，自然也没办法 " 相互争斗 "。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

Morph Studio 则将两艘海盗船放进了两个咖啡杯，还自作主张地添加了海洋背景。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

NeverEnds、艺映 AI 也将船放进了咖啡杯，同时在背景绘制了大海和更多海盗船。NeverEnds 还给咖啡加了拉花。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

▲ NeverEnds 生成的咖啡杯海盗船

全网首个“中国版Sora”横评，15家企业对决，字节领跑

▲ Vega AI 生成的咖啡杯海盗船

不过，能将海盗船准确地生成在咖啡杯里已经算比较好的了，其他 4 位参赛选手在这条提示词上各有各的 " 翻车 " 方式。

Pixeling 直接将海盗船印在了杯子上。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

PixVerse 分别生成了咖啡杯、海盗船，但稳定性较差，前景中的咖啡杯最后变形成了一艘船。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

Vega AI 也犯了同样的错误，并且海洋和沙滩的分界线有些模糊。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

VideoCrafter2 则连海盗船都没能出现，只有几个看起来像海盗帽子的小东西摇来摇去。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

这道题难度较大，船在咖啡中航行是不可能在现实中出现的场景，因此必然缺乏能完全与之对应的训练数据，这就很考验大模型的 " 想象力 "。

提示词 6：一个培养皿，里面长着一片竹林，里面有小熊猫在跑来跑去。

这轮比拼十分精彩，几乎是全员翻车。遗憾的是在智东西还没来得及测试更多提示词时，CapCut AI Video 就下线了，缺席本轮比赛。

Morph Studio 生成的培养皿看起来像一颗水晶球，小熊猫还玩起了 " 影分身 "。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

NeverEnds 是对几个关键词描绘最准确的，不过还是错把竹林画在了培养皿外面，并且只有镜头运动，画面上的主体几乎静止。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

Pixeling 准确描绘了培养皿，但 " 竹林 " 和小熊猫都仿佛变成了水中的倒影，且和动物关中的柯基一样，小熊猫糊作一团。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

PixVerse 的视频中没有出现培养皿。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

Vega AI 生成了一个带盖的 " 培养皿 "，并且搞反了它和竹林之间的包含关系，优点是小熊猫的稳定性较高。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

VideoCrafter2 生成的小熊猫神态比较灵动，几只小熊猫各自有各自的运动轨迹，但漏掉了培养皿这个关键词。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

艺映 AI 在这关翻车比较严重，是唯一一个看不出来画的是什么动物的选手，稳定性也不高。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

这道题的难度也很高，不仅创造了非现实场景，小熊猫 " 跑来跑去 " 这个动线很大的场景也是一大痛点。总的来说，这一关在语义理解上优胜的是 Morph Studio、NeverEnds，在画面效果上有优势的是 Vega AI 和 VideoCrafter2。

03. 结语：国内 AI 视频商业化任重道远

在智东西体验这些产品或模型的过程中，遇到了不少令人 " 头秃 " 的突发情况。如字节的 CapCut AI Video、阿里的 ModelScope T2V 等待时间过长，生数科技的 PixWeaver、万兴科技的 Filmora 频频出现 Bug 等，各种各样的不确定因素成为体验路上的拦路虎。

全网首个“中国版Sora”横评，15家企业对决，字节领跑

▲等待时间过长、无法生成等情况出现

从不同场景来看，AI 在生成人物、常见动物等要素时理解能力表现较好，但当遇到稀有动物、非现实场景等元素时常常翻车，这可能与训练数据量不足有关。

经过一番体验，智东西对国产 AI 视频工具的印象也大大改观。虽然要追赶甚至超越 Sora 还有很长的路要走，但至少能和海外其他明星产品如 Pika、Runway 等一决高下。

近几年来，国内虽然涌现出很多 AI 视频玩家，但大部分集中在数字人、AI 剪辑等赛道，真正的文生视频类产品不多。在 Sora 爆火之后，我们期待国内涌现出更多视频生成选手，再现 " 百模大战 " 的壮观景象。

科技热搜 企业全网字节百度开源热点本地社区美图视频直播资讯新闻

最受喜欢

本初自杀小队回南天靖国神社巴赫智米科技扫黄打非人工智能ai eos 验钞机黄斑变性新南威尔士大学人工耳蜗色墨金球奖

全网首个“中国版Sora”横评，15家企业对决，字节领跑