Skip to content

SkyReels-V2

项目核心内容总结:

项目功能
SkyReels-V2 是一个基于强化学习和扩散模型的无限长度视频生成模型,支持文本到视频(T2V)和图像到视频(I2V)生成,可输出高质量、长时序的影视内容。

主要特性

  1. 无限长度生成:通过改进的扩散模型和Transformer架构,实现视频时长不受限制的生成。
  2. 多模态支持:兼容文本和图像输入,生成内容符合输入语义。
  3. 高质量输出:在多项基准测试(如VBench、Human Evaluation)中,总分、质量分均达到行业领先水平(如VBench总分83.9%)。
  4. 技术优势:结合强化学习优化生成逻辑,采用分布式训练提升效率,支持多分辨率输出。

使用方法

  • 通过强化学习框架训练模型,利用扩散模型生成视频帧,结合Transformer处理时序信息。
  • 支持在开源平台(如HuggingFace)部署,适配不同分辨率需求。

核心成果

  • 在文本到视频任务中,Human Evaluation总分达3.14(行业最高),语义得分优于主流模型。
  • 在图像到视频任务中,SkyReels-V2-I2V在开源模型中排名第一(总分3.29)。
  • VBench测试中,总分83.9%、质量分84.7%,超越OpenSora 2.0、CogVideoX1.5-5B等主流模型。