Commit 0d3be70b authored by zzg_666's avatar zzg_666
Browse files

wan2.2

parent 1336a33d
Pipeline #3035 canceled with stages
......@@ -4,18 +4,16 @@
## 模型简介
Wan2.2是一个开放且先进的大规模视频生成模型,在Wan2.2中,重点引入了以下创新:
-👍 有效的MoE架构:Wan2.2在视频扩散模型中引入了混合专家(MoE)架构。通过使用专门的强专家模型来分离跨时间步的去噪过程,这扩大了整个模型的容量,同时保持了相同的计算成本。
-👍 电影级美学:Wan2.2包含精心策划的美学数据,附带详细的照明、构图、对比度、色调等标签。这使得电影风格的生成更加精确和可控,便于创建具有自定义美学偏好的视频。
-👍 复杂的运动生成:与Wan2.1相比,Wan2.2在显著更多的数据上进行训练,图像数量增加了+65.6%,视频数量增加了+83.2%。这一扩展显著增强了模型在多个维度上的泛化能力,如运动、语义和美学,在所有开源和闭源模型中达到顶级性能。
-👍 高效的高清晰度混合TI2V:Wan2.2 开源了一个基于我们先进的Wan2.2-VAE构建的5B模型,实现了16×16×4的压缩比。该模型支持以720P分辨率24fps的速度生成文本到视频和图像到视频,并且可以在消费级显卡如4090上运行。它是目前可用的最快的720P@24fps模型之一,能够同时服务于工业和学术领域。
- 👍 有效的MoE架构:Wan2.2在视频扩散模型中引入了混合专家(MoE)架构。通过使用专门的强专家模型来分离跨时间步的去噪过程,这扩大了整个模型的容量,同时保持了相同的计算成本。
- 👍 电影级美学:Wan2.2包含精心策划的美学数据,附带详细的照明、构图、对比度、色调等标签。这使得电影风格的生成更加精确和可控,便于创建具有自定义美学偏好的视频。
- 👍 复杂的运动生成:与Wan2.1相比,Wan2.2在显著更多的数据上进行训练,图像数量增加了+65.6%,视频数量增加了+83.2%。这一扩展显著增强了模型在多个维度上的泛化能力,如运动、语义和美学,在所有开源和闭源模型中达到顶级性能。
- 👍 高效的高清晰度混合TI2V:Wan2.2 开源了一个基于我们先进的Wan2.2-VAE构建的5B模型,实现了16×16×4的压缩比。该模型支持以720P分辨率24fps的速度生成文本到视频和图像到视频,并且可以在消费级显卡如4090上运行。它是目前可用的最快的720P@24fps模型之一,能够同时服务于工业和学术领域。
该模型采用混合专家(MoE)架构构建,提供了出色的视频生成质量。在新基准Wan-Bench2.0上,该模型在大多数关键评估维度上超越了领先的商业模型。模型架构如下:
<div align=center>
<img src="./doc/arch.png"/>
</div>
## 环境依赖
- 列举基础环境需求,根据实际情况填写
| 软件 | 版本 |
| :------: | :------: |
| DTK | 25.04.2 |
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment