全网首个“中国版Sora”横评,15家企业对决,字节领跑

热搜大全 > 新闻热搜 > 科技热搜 > 正文

全网首个“中国版Sora”横评,15家企业对决,字节领跑

热搜大全 2024-03-02

8 款工具迎战,6 大难关决出终极王者。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

距离 OpenAI 发布 Sora 已经十几天了," 中国版 Sora" 表现如何?

智东西 3 月 1 日报道,本周,我们深度体验了字节的 CapCut AI Video、腾讯的 VideoCrafter2、爱诗科技的 PixVerse 等8 款国产的 AI 视频生成工具,设置6 道关卡,将其生成视频效果与 Sora 进行横向测评。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

▲ 8 款工具生成结果对比,提示词为:一位 20 多岁的年轻人坐在天空的云朵上看书

纵观国内玩家,已有超 15 家企业推出了视频生成工具,既包括百度、阿里、腾讯、字节等6 家巨头,也包括爱诗科技、生数科技、智象未来等9 家创企。这些企业相比 OpenAI 做得怎么样?本文在第一部分做了全景式的解读。

综合产品易得性、视频生成速度等因素,智东西本次选取字节的 CapCut AI Video、腾讯的 VideoCrafter2、右脑科技的 Vega AI、爱诗科技的 PixVerse、MewXAI 的艺映 AI、智象未来的 Pixeling,以及 NeverEnds 和 Morph Studio 的同名产品 8 款工具进行对比,并从个人体验的角度,尝试从语义理解运动平滑度运动程度以及成像质量方面打分。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

▲八款文生视频工具总体得分对比(智东西制表)

通过体验,我们整体感觉字节短暂上线的 CapCut AI Video 功能最佳,尤其胜在运动平滑度和成像质量上。

Morph Studio、NeverEnds 在创企中领跑,且稳定性较高,在体验过程中没有出现大翻车的情况。

VideoCrafter2、Pixeling 生成质量不够稳定,出现了几次大翻车的情况;PixVerse、Vega AI 也出现了不同程度的翻车。

对比 Sora 如何?总体来讲,智东西有以下几点发现:

1、字节、Morph Studio分别领跑大厂和创企,稳定性和成像质量表现优秀。

2、大部分产品仍处于测试阶段,临时下线、长时间排队、无独立站点成为家常便饭。

3、生成 2-4 秒视频等待时间多为 3-5 分钟甚至更久,效率较低。

4、运动程度整体较低,多为平移式运动或镜头运动。

5、人手、动物等仍是重灾区,非现实场景大模型难以理解。

不过,Sora 目前仍未面向大众测试,虽然官方公布的视频效果震撼,但产品玩起来如何仍有待实际体验。本文文末附有 8 款工具的试用链接,感兴趣的读者朋友可以自行体验,欢迎在评论区分享体验感受和新发现 ~

01.9 家创企、6 路大厂围攻 Sora,八名选手参赛

据智东西不完全统计,目前已发布类 Sora 产品的国内创业公司有以下 9 家,分别是 Morph Studio、HiDream.ai(智象未来)、爱诗科技、MewXAI、NeverEnds、右脑科技、李白 AI 实验室、Möbius 以及生数科技。

它们的产品发布时间均早于 Sora,且大多都同时支持文生视频和图生视频。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

▲国内创业公司发布的 Sora 类产品 / 模型(智东西统计制表,数据截至 3 月 1 日)

与创企相比,国内大厂在产品落地方面推进更加谨慎。截至发文,只有字节在海外版剪映 CapCut 中推出了有独立主页的 AI 视频生成功能,但短暂释出后便下线了,目前尚不清楚其是否基于字节 1 月发布的 MagicVideo-V2 模型。

此外,阿里、腾讯的部分模型虽然托管在开源社区,但实际体验过程中生成等待时间过长,有的甚至超过 1 个小时,因此不在本次对比范围内。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

▲国内大厂发布的 Sora 类产品 / 模型(智东西统计制表,数据截至 2 月 27 日)

本次出战文生视频大赛的 8 名玩家其各自支持生成的视频时长、扩展功能,以及生成视频的分辨率和帧率如下表所示(按产品名首字母排序)。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

▲可试用的文生视频工具参数对比(智东西制表)

02. 六大关卡覆盖三类场景,第六关遇培养皿全员翻车?

为了与 Sora 的对比更直观,智东西将 Sora 官方示范视频给出的英文提示词输入这些生成器。公平起见,其他扩展功能如镜头运动、反向提示词等保持默认设置,且均选取第一次生成的视频。

下面让我们具体来看一下各位参赛选手在不同关卡的表现情况。

1、人物场景:步行变 " 漂移 ",人手依然是重灾区

提示词 1:一个时髦的女人走在东京的街道上,到处都是温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙、黑色靴子,拿着一个黑色钱包。她戴着太阳镜,涂着红色的口红。她走起路来自信而随意。街道是潮湿和反光的,创造了一个彩色灯光的镜子效果。许多行人走来走去。

首先来看一下 Sora 放出的 Demo,不仅长达 1 分钟,且完美体现了每一处细节,还进行了景别切换,整体画面十分惊艳。

在参赛选手这边,首先在整体效果上,8 款工具基本都呈现了一个女人走在街道上的画面,并且对霓虹灯、城市标志的理解也较为准确。

但细看之下,只有 Pixeling、Morph Studio 和 CapCut 较好地描绘了黑色皮夹克、红色长裙、黑色靴子和太阳镜,Morph Studio 生成了钱包但错将黑色钱包变成了红色。 另外 5 位选手则对人物细节的生成不太准确,其中 VideoCrafter2 的看起来甚至不太像人脸。

场景方面,各位选手的表现大同小异,其中 CapCut、Morph Studio、Vega AI 及 NeverEnds 生成画面比较精致,但 Morph Studio 忽略了 " 潮湿 " 这个细节。

这道题难度较大,有很多细节上的描述,对女子的穿着、随身物品、风格等进行了详细的要求,稍不注意就会出现失误。背景上,潮湿的地面和霓虹灯反光也是一大难点。

提示词 2:一位 20 多岁的年轻人坐在天空的云朵上看书。

Sora 的 Demo 视频展现了年轻人坐在云朵上读书的画面,并且有翻书的细节。

这一关基本没有难倒参赛选手,8 款工具都生成了一个年轻人坐着读书的画面,不过 PixVerse、Vega AI 没能让人物坐在云上,NeverEnds 则把云拽到了地面。 VideoCrafter2、艺映 AI 没有拍到人物的屁股具体在哪儿,但从其背景能够看出大概率并不是云。

不出意外的,人手又成了大模型跌倒的重灾区,几乎都糊作一团,有的还出现了第三只手。 另外,Pixeling 生成的人脸五官有些 " 抽象 "。

从画面风格上来看,PixVerse、艺映 AI 有点像三维动画风格,整体画面比较精致;Vega AI 生成的人物最真实,但整个画面只有背景的云在运动。

这道题的难度中等,不同于前一个提示词,它十分简短并且创造了一个现实生活中不可能出现的场景,主要考验大模型的 " 想象力 " 以及对不同主体之间关系的理解能力。

2、动物场景:柯基变面包,稀有物种难以描绘

提示词 3:一只柯基犬在热带毛伊岛拍摄自己的 Vlog。

这个提示词的难点在于,如 何表现柯基 " 拍摄自己 "。 Sora 的演示虽然表现了这个细节,但也有些经不起推敲,自拍杆看起来像长在柯基身体上一样怪异。 不过瑕不掩瑜,视频整体效果很精致,柯基表情灵动,还戴上了和热带环境相符的墨镜。

CapCut 生成的柯基非常可爱,虽然眼球有些飘逸现象,但不算明显。遗憾的是它没有表现 " 自拍 " 这个关键词。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

Morph Studio 的效果也不错,还给柯基挂上了一台摄像机。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

NeverEnds 描绘的柯基有点像人,不仅自己上手调试相机,嘴型看起来还像在说话——说好的建国后不准成精呢?另外,NeverEnds 生成的柯基似乎长了六条腿,和 Sora 把蚂蚁画成四条腿有点双向奔赴了。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

Pixeling 没能通过这条测试,直接生成了一段 " 鬼畜 " 视频。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

开头可爱的狗狗特写反复变形,让我联想到机器学习中一个很有意思的梗——如何分辨柴犬与面包。看来,Pixeling 漏掉了这节课。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

PixVerse 理解了 " 拍摄 ",但搞错了主体,生成了一只人手来拍摄柯基犬,这只手也有些 " 诡异 ",AI 还是一如既往地在人手上栽了跟头。此外,视频开头处柯基的嘴巴歪得也有些离谱。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

Vega AI 生成的视频一开始比较正常,但最后 1 秒可爱的柯基突然变形,最后表演了一个 " 头部消失术 "。此外,它通过椰子树表现了 " 热带 ",但似乎漏掉了 " 毛伊岛 " 这一点。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

VideoCrafter2 似乎只记住了 " 柯基 " 这一个关键词,其他的提示词都被它忽略了。它还给画面加了一个神奇的光影,看起来像是夕阳余晖。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

艺映 AI 生成的狗子画风较为真实,整体画面流畅,不过也没体现 " 自拍 " 的细节。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

这道题难度中等,整体来看,对提示词理解较好的是 Morph Studio 和 NeverEnds,PixVerse 则算是勉强及格。从画面效果上看,CapCut、Morph Studio、VideoCrafter2 和艺映 AI 稳定性较好,画面更加流畅。

提示词 4:这个维多利亚凤冠鸠(Victoria crowned pigeon)的特写展示了它引人注目的蓝色羽毛和红色胸部。它的羽冠是由精致的花边羽毛制成的,而它的眼睛是醒目的红色。鸟的头微微向一侧倾斜,给人一种帝王和威严的印象。背景是模糊的,吸引人们注意到这只鸟引人注目的外表。

Sora 演示视频中的凤冠鸠全方位地展示了自己的羽冠,正面、侧面、背面都不在话下,羽毛也随着头的转动摇摇晃晃。

如果只看画面,除了艺映 AI 几乎是甩了张静态图出来,其他 7 位选手的画面效果都还算流畅。

CapCut、Morph Studio、NeverEnds 和 Pixeling 生成的凤冠鸠基本是同一个角度,没有大幅度的运动或角度变化,PixVerse、Vega AI 和 VideoCrafter2 则有头部角度的变化。

从对该物种的特征还原来看,CapCut、VideoCrafter2 表现较好,还原了红色眼睛、红色胸部、蓝色身体以及蓝白色的羽冠,其他 6 位参赛选手的还原度略低。

此外,VideoCrafter2 虽然在使用指南中提到了比例调整的功能,但并没有成功生成 9:16 的竖屏视频。

这道题难度中等,主要难点在于对不常见动物特征的准确描绘。下图是 Sora 生成视频截图与动物网站 Fact Animal 上的维多利亚凤冠鸠照片对比。可以看出,Sora 对该动物的还原程度很高,从身体、眼睛的颜色到喙部、羽冠的形状基本都与照片一致。相比之下,8 位参赛选手都没能准确表现这些特征。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

▲ Sora 生成的(左)与真实的(右)维多利亚凤冠鸠对比

3、" 虚拟现实 " 场景:想象力不足,遇 " 小熊猫培养皿 " 全员翻车

提示词 5:两艘海盗船在一杯咖啡中航行时相互争斗的逼真特写视频。

CapCut 成功将海盗船放入了咖啡杯中,但只放了一艘,自然也没办法 " 相互争斗 "。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

Morph Studio 则将两艘海盗船放进了两个咖啡杯,还自作主张地添加了海洋背景。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

NeverEnds、艺映 AI 也将船放进了咖啡杯,同时在背景绘制了大海和更多海盗船。NeverEnds 还给咖啡加了拉花。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

▲ NeverEnds 生成的咖啡杯海盗船

全网首个“中国版Sora”横评,15家企业对决,字节领跑

▲ Vega AI 生成的咖啡杯海盗船

不过,能将海盗船准确地生成在咖啡杯里已经算比较好的了,其他 4 位参赛选手在这条提示词上各有各的 " 翻车 " 方式。

Pixeling 直接将海盗船印在了杯子上。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

PixVerse 分别生成了咖啡杯、海盗船,但稳定性较差,前景中的咖啡杯最后变形成了一艘船。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

Vega AI 也犯了同样的错误,并且海洋和沙滩的分界线有些模糊。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

VideoCrafter2 则连海盗船都没能出现,只有几个看起来像海盗帽子的小东西摇来摇去。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

这道题难度较大,船在咖啡中航行是不可能在现实中出现的场景,因此必然缺乏能完全与之对应的训练数据,这就很考验大模型的 " 想象力 "。

提示词 6:一个培养皿,里面长着一片竹林,里面有小熊猫在跑来跑去。

这轮比拼十分精彩,几乎是全员翻车。 遗憾的是在智东西还没来得及测试更多提示词时,CapCut AI Video 就下线了,缺席本轮比赛。

Morph Studio 生成的培养皿看起来像一颗水晶球,小熊猫还玩起了 " 影分身 "。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

NeverEnds 是对几 个关键词描绘最准确的,不过还是错把竹林画在了培养皿外面,并且只有镜头运动,画面上的主体几乎静止。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

Pixeling 准确描绘了培养皿,但 " 竹林 " 和小熊猫都仿佛变成了水中的倒影,且和动物关中的柯基一样,小熊猫糊作一团。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

PixVerse 的视频中没有出现培养皿。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

Vega AI 生成了一个带盖的 " 培养皿 ",并且搞反了它和竹林之间的包含关系,优点是小熊猫的稳定性较高。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

VideoCrafter2 生成的小熊猫神态比较灵动,几只小熊猫各自有各自的运动轨迹,但漏掉了培养皿这个关键词。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

艺映 AI 在这关翻车比较严重,是唯一一个看不出来画的是什么动物的选手,稳定性也不高。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

这道题的难度也很高,不仅创造了非现实场景,小熊猫 " 跑来跑去 " 这个动线很大的场景也是一大痛点。总的来说,这一关在语义理解上优胜的是 Morph Studio、NeverEnds,在画面效果上有优势的是 Vega AI 和 VideoCrafter2。

03. 结语:国内 AI 视频商业化任重道远

在智东西体验这些产品或模型的过程中,遇到了不少令人 " 头秃 " 的突发情况。如字节的 CapCut AI Video、阿里的 ModelScope T2V 等待时间过长,生数科技的 PixWeaver、万兴科技的 Filmora 频频出现 Bug 等,各种各样的不确定因素成为体验路上的拦路虎。

全网首个“中国版Sora”横评,15家企业对决,字节领跑

▲等待时间过长、无法生成等情况出现

从不同场景来看,AI 在生成人物、常见动物等要素时理解能力表现较好,但当遇到稀有动物、非现实场景等元素时常常翻车,这可能与训练数据量不足有关。

经过一番体验,智东西对国产 AI 视频工具的印象也大大改观。虽然要追赶甚至超越 Sora 还有很长的路要走,但至少能和海外其他明星产品如 Pika、Runway 等一决高下。

近几年来,国内虽然涌现出很多 AI 视频玩家,但大部分集中在数字人、AI 剪辑等赛道,真正的文生视频类产品不多。在 Sora 爆火之后,我们期待国内涌现出更多视频生成选手,再现 " 百模大战 " 的壮观景象。

故宫博物院:禁止穿拖鞋参观!

故宫博物院:禁止穿拖鞋参观!

热点 博物馆 微信公众号 拖鞋 网友 新闻 资讯 直播 视频 美图 社区 本地 热点 2023-07-23

北京千万资产家庭数量全国第一:人员平均工资均超20万 半导体等行业最吃香

北京千万资产家庭数量全国第一:人员平均工资均超20万 半导体等行业最吃香

科技热搜 工资 行业 资产 北京 家庭 新闻 资讯 直播 视频 美图 社区 本地 热点 2023-12-07

张柏芝穿紧身露背长裙亮相 卷发造型显气质

张柏芝穿紧身露背长裙亮相 卷发造型显气质

娱乐热点 张柏芝 造型 长裙 紧身 气质 新闻 资讯 直播 视频 美图 社区 本地 热点 2023-09-23

圣旗H610M-HIH 嘿嘿主板图赏:别出心裁的H610 D5主板

圣旗H610M-HIH 嘿嘿主板图赏:别出心裁的H610 D5主板

科技热搜 ssd type-c 京东 酷睿 intel 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-06

全长183.663公里!绥大高速公路正式通车运营:共设9处收费站

全长183.663公里!绥大高速公路正式通车运营:共设9处收费站

科技热搜 绥化 大庆 高速公路 卫星 中国铁建 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-06

曾被卖出19万美元高价!这台初代iPhone太猛了 曾被卖出19万美元高价!这台初代iPhone太猛了