# Wan2.1-T2V-14B

## 项目简介

Wan2.1-T2V-14B 是阿里巴巴通义实验室研发的开源文本到视频（T2V）AI 模型，参数规模达 140 亿，依托扩散 Transformer（DiT）范式与 Wan-VAE 架构，结合 Flow Matching 技术及 T5 文本编码器，可精准解析文本提示并融合视觉信息，高效生成含复杂物体运动、镜头移动与自然动态交互的视频内容。

## 环境部署

### 1. 拉取镜像

```
docker pull image.sourcefind.cn:5000/dcu/admin/base/vllm:0.8.5-ubuntu22.04-dtk25.04.1-rc5-das1.6-py3.10-20250711
```

### 2. 创建容器

```
docker run -it \
--network=host \
--hostname=localhost \
--name=WAN \
-v /opt/hyhal:/opt/hyhal:ro \
-v $PWD:/workspace \
--ipc=host \
--device=/dev/kfd \
--device=/dev/mkfd \
--device=/dev/dri \
--shm-size=512G \
--privileged \
--group-add video \
--cap-add=SYS_PTRACE \
--security-opt seccomp=unconfined \
image.sourcefind.cn:5000/dcu/admin/base/vllm:0.8.5-ubuntu22.04-dtk25.04.1-rc5-das1.6-py3.10-20250711 \
/bin/bash  
```

## 测试步骤

### 1. 拉取优化后代码仓库

```
git clone http://developer.sourcefind.cn/codes/bw-bestperf/wan2.1-t2v-14b.git
cd wan2.1-t2v-14b
```

### 2. 安装依赖

```
pip install -r requirements.txt -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

# 下载优化后的rocblas包
curl -f -C - -o rocblas-install-0910-bug.tar.gz https://ksefile.hpccube.com:65241/efile/s/d/amVycnJycnk=/42b32be89e5e9c46 

# 解压至/opt目录下并添加系统环境变量
tar xvf rocblas-install-1027-bug.tar.gz -C /opt/
vim ~/.bashrc
# 文件末尾添加以下命令
export LD_LIBRARY_PATH=/opt/rocblas-install/lib:$LD_LIBRARY_PATH
```

 ### 4. 下载模型

```
pip install modelscope

modelscope download --model Comfy-Org/Wan_2.1_ComfyUI_repackaged --include 'split_files/diffusion_models/wan2.1_t2v_14B_bf16.safetensors'  --local_dir ./Wan_2.1

modelscope download --model Comfy-Org/Wan_2.1_ComfyUI_repackaged --include 'split_files/text_encoders/umt5_xxl_fp16.safetensors'  --local_dir ./Wan_2.1

modelscope download --model Comfy-Org/Wan_2.1_ComfyUI_repackaged --include 'split_files/vae/wan_2.1_vae.safetensors'  --local_dir ./Wan_2.1
```

### 5. 测试

**起服务：**

```
bash run-main.sh
```

**发送请求:**

```
python  wan_t2v_14B_1_gpu.py
```

**注意：**

> （1）wan_t2v_14B_1_gpu.py中修改batchsize参数控制并发数 每次请求前建议修改seed
>
> （2）第一次运行不稳定，取第二次及以后运行的性能