Commit 0019d567 authored by suily's avatar suily
Browse files

init

parent 48b54fd2
Pipeline #1920 canceled with stages
......@@ -9,7 +9,7 @@ SadTalker利用 3DMM 系数作为中间表示。首先从原始图像中提取
</div>
## 算法原理
将 3DMM(3D Morphable Models)的运动系数看做中间表达,将整个任务划分成两部分。训练的时候会分模型训练,在推理的时候是 end-to-end 的模式:
将 3DMM(3D Morphable Models)的运动系数看做中间表达,将整个任务划分成两部分。训练的时候会分模型训练,在推理的时候是 end-to-end 的模式
1、从语音中生成更加真实的运动系数(如 head pose、lip motion、eye blink),并且每个系数是单独学习的,这样会解耦来降低不确定性:
......@@ -23,7 +23,7 @@ PoseVAE:训练时,pose VAE 在固定 n 帧上使用 encoder-decoder 的结
<img src="./doc/PoseVAE.PNG"/>
</div>
2、生成了 3DMM 系数后,会从原本的图片建立 3D 人脸,然后再生成最后的视频:
2、生成了 3DMM 系数后,会从原本的图片建立 3D 人脸,然后再生成最后的视频:
3D-aware Face Render:类似于 face-vid2vid 的结构能够实现从单张图中学习隐含的 3D 信息,但 face-vid2vid 需要真实视频作为驱动信号,而 3D-aware Face Render 利用 mappingNet 学习 3DMM 运动系数与无监督 3D 关键点之间关系。
<div align=center>
......@@ -65,8 +65,8 @@ pip install -r requirements.txt
DTK软件栈:dtk24.04.2
python:python3.8
pytorch:2.1.0
torchvision:
torchaudio:
torchvision:0.16.0
torchaudio:2.1.2
```
`Tips:以上dtk软件栈、python、pytorch等DCU相关工具版本需要严格一一对应`
......@@ -84,6 +84,7 @@ pip install -r requirements.txt
## 数据集
推理测试所用数据已保存在SadTalker/dataset/下,目录结构如下:
```
SadTalker:
── dataset
│   ├── bus_chinese.wav
│   └── image.png
......@@ -93,12 +94,14 @@ pip install -r requirements.txt
## 推理
模型可通过[scnet](http://113.200.138.88:18080/aimodels/findsource-dependency/sadtalker)或以下方式进行下载:
1-1、Pre-Trained Models
1、分别下载预训练模型和gfpgan模型
1-1 预训练模型
* [Google Drive](https://drive.google.com/file/d/1gwWh45pF7aelNP_P78uDJL8Sycep-K7j/view?usp=sharing)
* [GitHub Releases](https://github.com/OpenTalker/SadTalker/releases)
* [Baidu (百度云盘)](https://pan.baidu.com/s/1kb1BCPaLOWX1JJb9Czbn6w?pwd=sadt) (Password: `sadt`)
1-2、GFPGAN Offline Patch
1-2 gfpgan模型
* [Google Drive](https://drive.google.com/file/d/19AIBsmfcHW6BRJmeqSFlG5fL445Xmsyi?usp=sharing)
* [GitHub Releases](https://github.com/OpenTalker/SadTalker/releases)
* [Baidu (百度云盘)](https://pan.baidu.com/s/1P4fRgk9gaSutZnn8YW034Q?pwd=sadt) (Password: `sadt`)
......@@ -110,6 +113,7 @@ sh scripts/download_models.sh
```
模型目录结构如下,checkpoints是预训练模型,gfpgan是人脸检测和增强模型:
```
SadTalker:
── checkpoints
│   └── ...
── gfpgan
......@@ -136,9 +140,7 @@ HIP_VISIBLE_DEVICES=0 python inference.py \
```
## result
推理运行的默认推理结果为:
<div align=center>
<video src="./doc/inference_result.mp4"/>
</div>
<video src="./doc/inference_result.mp4"></video>
### 精度
......@@ -150,6 +152,6 @@ HIP_VISIBLE_DEVICES=0 python inference.py \
## 预训练权重
- http://113.200.138.88:18080/aimodels/findsource-dependency/sadtalker
## 源码仓库及问题反馈
-
- https://developer.sourcefind.cn/codes/modelzoo/sadtalker_pytorch
## 参考资料
- https://github.com/OpenTalker/SadTalker
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment