北大发起复现Sora,框架已搭,袁粒田永鸿领衔,AnimateDiff大神响应

热搜大全 > 新闻热搜 > 科技热搜 > 正文

北大发起复现Sora,框架已搭,袁粒田永鸿领衔,AnimateDiff大神响应

热搜大全 2024-03-04

北大发起复现Sora,框架已搭,袁粒田永鸿领衔,AnimateDiff大神响应

重磅:

北大团队联合兔展发起了一项 Sora 复现计划——Open Sora

北大发起复现Sora,框架已搭,袁粒田永鸿领衔,AnimateDiff大神响应

框架、实现细节已出:

北大发起复现Sora,框架已搭,袁粒田永鸿领衔,AnimateDiff大神响应

初始团队一共 13 人:

带队的是北大信息工程学院助理教授、博导袁粒和北大计算机学院教授、博导田永鸿等人。

为什么发起这项计划?

因为资源有限,团队希望集结开源社区的力量,尽可能完成复现。

消息一出,就有人北大校友兼 AnimateDiff 贡献者等人即刻响应:

北大发起复现Sora,框架已搭,袁粒田永鸿领衔,AnimateDiff大神响应

还有人表示可以提供高质量数据集:

北大发起复现Sora,框架已搭,袁粒田永鸿领衔,AnimateDiff大神响应

所以," 国产版 Sora" 的新挑战者,就这么来了?

计划细节,已完成 3 个初步功能

首先,来看目前公布的技术细节——即团队打算如何复现 Sora。

整体框架上,它将由三部分组成:

Video VQ-VAE

Denoising Diffusion Transformer(去噪扩散型 Transformer)

Condition Encoder(条件编码器)

这和 Sora 技术报告的内容基本差不多。

对于 Sora 视频的可变长宽比,团队通过参考上海 AI Lab 刚刚提出的 FiT(Flexible Vision Transformer for Diffusion Model,即 " 升级版 DiT")实施一种动态掩码策略,从而在并行批量训练的同时保持灵活的长宽比。

北大发起复现Sora,框架已搭,袁粒田永鸿领衔,AnimateDiff大神响应

具体来说 , 我们将高分辨率视频在保持长宽比的同时下采样至最长边为 256 像素 , 然后在右侧和底部用零填充至一致的 256x256 分辨率。这样便于 videovae 以批量编码视频 , 以及便于扩散模型使用注意力掩码对批量潜变量进行去噪。

北大发起复现Sora,框架已搭,袁粒田永鸿领衔,AnimateDiff大神响应

对于可变分辨率,团队则表示在推理过程中,尽管在固定的 256x256 分辨率上进行训练 ,,但使用位置插值来实现可变分辨率采样。

具体而言:

我们将可变分辨率噪声潜变量的位置索引从 [ 0, seq_length-1 ] 下调到 [ 0, 255 ] ,以使其与预训练范围对齐。这种调整使得基于注意力的扩散模型能够处理更高分辨率的序列。对于可变时长,则使用 VideoGPT 中的 Video VQ-VAE,,将视频压缩至潜在空间,支持这一功能。

同时,还要在扩展空间位置插值至时空维度,实现对可变时长视频的处理。

在此,主页也先给了两个 demo,分别是 10s 视频重建和 18s 重建,分辨率分别为 256x256 和 196x196:

北大发起复现Sora,框架已搭,袁粒田永鸿领衔,AnimateDiff大神响应

这三个功能都已经初步实现。

相关的训练代码也已经在对应的仓库上上线:

北大发起复现Sora,框架已搭,袁粒田永鸿领衔,AnimateDiff大神响应

成员介绍,目前的训练是在 8 个 A100-80G 上进行的(明显还远远不够),输入大小为 8 帧   128   128,大概需要 1 周时间才能生成类似 ucf(一个视频数据集)的效果。

北大发起复现Sora,框架已搭,袁粒田永鸿领衔,AnimateDiff大神响应

而从目前已经列出的 9 项 to do 事项来看,除了可变长宽比、可变分辨率和可变时长,动态掩码输入、在 embeddings 上添加类条件这两个任务也已完成。

未来要做的包括:

采样脚本

添加位置插值

在更高分辨率上微调 Video-VQVAE

合并 SiT

纳入更多条件

以及最重要的:使用更多数据和更多 GPU 进行训练

北大发起复现Sora,框架已搭,袁粒田永鸿领衔,AnimateDiff大神响应

袁粒、田永鸿领衔

严格来说,Open Sora 计划是北大 - 兔展 AIGC 联合实验室联合发起的。

领衔者之一袁粒,为北大信息工程学院助理教授、博导,去年获得福布斯 30 岁以下亚洲杰出人物榜单。

他分别在中国科学技术大学和新加坡国立大学获得本科和博士学位。

研究方向为深度视觉神经网络设计和多模态机器学习,代表性一作论文之一 T2T-ViT 被引次数 1000 。

领衔者之二田永鸿,北京大学博雅特聘教授,博士生导师,IEEE、ACM 等 fellow,兼任鹏城实验室(深圳)人工智能研究中心副主任,曾任中科院计算所助理研究员、美国明尼苏达大学访问教授。

北大发起复现Sora,框架已搭,袁粒田永鸿领衔,AnimateDiff大神响应

从目前公布的团队名单来看,其余成员大部分为硕士生。

包括袁粒课题组的林彬,他曾多次以一作或共同一作身份参与了 " 北大版多模态 MoE 模型 "MoE-LLaVA、Video-LLaVA 和多模态对齐框架 LanguageBind(入选 ICLR 2024)等工作。

北大发起复现Sora,框架已搭,袁粒田永鸿领衔,AnimateDiff大神响应

兔展这边,参与者包括兔展智能创始人、董事长兼 CEO 董少灵(他也是北大校友)和 CTO 周星。

完整名单:

北大发起复现Sora,框架已搭,袁粒田永鸿领衔,AnimateDiff大神响应

谁能率先发布中文版 Sora?

相比 ChatGPT,引爆文生视频赛道的 Sora 研发难度显然更大。

谁能夺得 Sora 中文版的首发权,目前留给公众的是一个大大的问号。

在这之中,传闻最大的是字节

今年 2 月初,张楠辞去抖音集团 CEO 一职,转而负责剪映,就引发了外界猜测。

很快,一款叫做 "Boximator" 的视频生成模型浮出水面。

它基于 PixelDance 和 ModelScope 两个之前的成果上完成训练。

不过,很快字节就辟谣这不是 " 字节版 sora":

它的效果离 Sora 还有很大差距,暂时不具备落地条件,并且至少还需 2-3 个月才能上线 demo 给大家测试。

但,风声并未就此平息。

去年 11 月,字节剪映悄悄上线了一个 AI 绘画工具 "Dreamina",大家的评价还不错。

现在,又有消息称:

Dreamina 即将上线类似 sora 的视频生成功能(目前在内测)。

北大发起复现Sora,框架已搭,袁粒田永鸿领衔,AnimateDiff大神响应

不知道,这一次是不是字节亮出的大招呢?

故宫博物院:禁止穿拖鞋参观!

故宫博物院:禁止穿拖鞋参观!

热点 博物馆 微信公众号 拖鞋 网友 新闻 资讯 直播 视频 美图 社区 本地 热点 2023-07-23

北京千万资产家庭数量全国第一:人员平均工资均超20万 半导体等行业最吃香

北京千万资产家庭数量全国第一:人员平均工资均超20万 半导体等行业最吃香

科技热搜 工资 行业 资产 北京 家庭 新闻 资讯 直播 视频 美图 社区 本地 热点 2023-12-07

张柏芝穿紧身露背长裙亮相 卷发造型显气质

张柏芝穿紧身露背长裙亮相 卷发造型显气质

娱乐热点 张柏芝 造型 长裙 紧身 气质 新闻 资讯 直播 视频 美图 社区 本地 热点 2023-09-23

全长183.663公里!绥大高速公路正式通车运营:共设9处收费站

全长183.663公里!绥大高速公路正式通车运营:共设9处收费站

科技热搜 绥化 大庆 高速公路 卫星 中国铁建 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-06

圣旗H610M-HIH 嘿嘿主板图赏:别出心裁的H610 D5主板

圣旗H610M-HIH 嘿嘿主板图赏:别出心裁的H610 D5主板

科技热搜 ssd type-c 京东 酷睿 intel 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-06

曾被卖出19万美元高价!这台初代iPhone太猛了 曾被卖出19万美元高价!这台初代iPhone太猛了