当下软件园 / 汇聚当下最新最酷的软件下载站!
当下软件园

您的位置: 首页 > 专题软件 > 视频制作 > Pyramid Flow(开源视频生成软件) V1.0 最新版

  北京大学、北京邮电大学和快手科技联合开源了一款名为Pyramid Flow的高清视频生成模型。Pyramid Flow能根据文本描述制作长达10秒、分辨率为1280×768、每秒24帧的视频。Pyramid Flow采用了金字塔流匹配算法,优化了视频生成的效率和质量。这一算法将视频生成过程分解为多个阶段,每个阶段对应着不同的分辨率。在推理阶段,Pyramid Flow模型能够以相当快的速度生成视频。具体来说,它可以在56秒内生成一段时长为5秒、分辨率为384p的视频,这一速度与市面上许多全序列扩散模型相当,甚至更快。

Pyramid Flow

 

Pyramid Flow

【软件功能】

  一、金字塔流匹配算法:高质量AI视频新技术,逐层提高分辨率

  文生视频领域有一个非常难的技术挑战,就是如何有效地处理和生成高维度的视频数据。

  针对这一技术挑战,研发团队提出了金字塔流匹配算法。

  金字塔流匹配算法的核心思想是将视频生成过程分解为多个阶段来有效处理高维度的视频数据。这些阶段从低分辨率开始,逐步升级到高分辨率,从而逐步提升视频的清晰度。

  这个过程就像是先画一个简单的草图,然后一点点地加上颜色和细节,直到画出一幅完整的画。

  金字塔流匹配算法:视频的生成是在不同的分辨率层次上逐步进行的(图源:arxiv论文截图)

  二、开源数据集训练,生成5-10秒高清视频

  模型通过分阶段的方式生成视频,大大减少了计算成本。

  生成的视频展示

  与传统的扩散模型相比,金字塔流匹配算法将token数量减少了4倍。

  生成的视频展示

  据官网介绍,该模型可以在768p分辨率和每秒24帧的条件下生成5至10秒的视频,并且是基于开源数据集进行训练的。

  生成的视频展示

  具体来说,Pyramid Flow在训练时用到的数据集包括LAION-5B、CC-12M、SA-1B以及WebVid-10M和OpenVid-1M等。

  1、LAION-5B:一个用于多模态AI研究的大型数据集。

  2、CC-12M:一个由网络爬虫收集的图像文本对的数据集。

  3、SA-1B:具有高质量、无模糊图像的数据集。

  4、WebVid-10M和OpenVid-1M:两个被广泛用于文本到视频生成的视频数据集。

  三、宽松许可,开源商业用途,轻松实现视频微调

  开源的AI视频生成工具,它允许用户用在商业项目里,但须保留版权声明。

  生成的视频展示

  通过使用,用户可以免费调整视频细节,这项功能对于电影制片厂来说很有吸引力。

  电影制片厂可以通过使用来提高视频制作效率、降低视频制作成本,并探索新的视频创意工具。

  不过,要想充分利用好这一模型,电影制片厂还需要具备一定的开发人才和计算资源。

  目前,Pyramid Flow缺乏像Runway Gen-3 Alpha这样的模型所具备的一些高级微调功能,比如精确控制摄像机角度、关键帧和人体姿态等电影元素。

软件特别说明

标签: Pyramid Flow

其他版本下载
网友评论
回顶部 去下载

关于本站|下载帮助|下载声明|软件发布|联系我们

Copyright © 2005-2024 www.downxia.com.All rights reserved.

浙ICP备2024132706号-1 浙公网安备33038102330474号