init

0019d567 · suily · 48b54fd2 · 0019d567
Commit 0019d567 authored Nov 13, 2024 by suily
Hide whitespace changes
Inline Side-by-side

Showing with 12 additions and 10 deletions

README.md README.md +12 -10

No files found.
--- a/README.md
+++ b/README.md
@@ -9,7 +9,7 @@ SadTalker利用 3DMM 系数作为中间表示。首先从原始图像中提取
 </div>

 ## 算法原理
-将 3DMM（3D Morphable Models）的运动系数看做中间表达，将整个任务划分成两部分。训练的时候会分模型训练，在推理的时候是 end-to-end 的模式:
+将 3DMM（3D Morphable Models）的运动系数看做中间表达，将整个任务划分成两部分。训练的时候会分模型训练，在推理的时候是 end-to-end 的模式：

 1、从语音中生成更加真实的运动系数（如 head pose、lip motion、eye blink），并且每个系数是单独学习的，这样会解耦来降低不确定性：

@@ -23,7 +23,7 @@ PoseVAE：训练时，pose VAE 在固定 n 帧上使用 encoder-decoder 的结
    <img src="./doc/PoseVAE.PNG"/>
 </div>

-2、生成了 3DMM 系数后，会做从原本的图片建立 3D 人脸，然后再生成最后的视频：
+2、生成了 3DMM 系数后，会从原本的图片建立 3D 人脸，然后再生成最后的视频：

 3D-aware Face Render：类似于 face-vid2vid 的结构能够实现从单张图中学习隐含的 3D 信息，但 face-vid2vid 需要真实视频作为驱动信号，而 3D-aware Face Render 利用 mappingNet 学习 3DMM 运动系数与无监督 3D 关键点之间关系。
 <div align=center>
@@ -65,8 +65,8 @@ pip install -r requirements.txt
 DTK软件栈：dtk24.04.2
 python：python3.8
 pytorch：2.1.0
-torchvision：
-torchaudio：
+torchvision：0.16.0
+torchaudio：2.1.2
 ```
 `Tips：以上dtk软件栈、python、pytorch等DCU相关工具版本需要严格一一对应`

@@ -84,6 +84,7 @@ pip install -r requirements.txt
 ## 数据集
 推理测试所用数据已保存在SadTalker/dataset/下，目录结构如下：
 ```
+SadTalker：
 ── dataset
    │   ├── bus_chinese.wav
    │   └── image.png
@@ -93,12 +94,14 @@ pip install -r requirements.txt
 ## 推理
 模型可通过[scnet](http://113.200.138.88:18080/aimodels/findsource-dependency/sadtalker)或以下方式进行下载：

-1-1、Pre-Trained Models
+1、分别下载预训练模型和gfpgan模型
+
+1-1 预训练模型
 * [Google Drive](https://drive.google.com/file/d/1gwWh45pF7aelNP_P78uDJL8Sycep-K7j/view?usp=sharing)
 * [GitHub Releases](https://github.com/OpenTalker/SadTalker/releases)
 * [Baidu (百度云盘)](https://pan.baidu.com/s/1kb1BCPaLOWX1JJb9Czbn6w?pwd=sadt) (Password: `sadt`)

-1-2、GFPGAN Offline Patch
+1-2 gfpgan模型
 * [Google Drive](https://drive.google.com/file/d/19AIBsmfcHW6BRJmeqSFlG5fL445Xmsyi?usp=sharing)
 * [GitHub Releases](https://github.com/OpenTalker/SadTalker/releases)
 * [Baidu (百度云盘)](https://pan.baidu.com/s/1P4fRgk9gaSutZnn8YW034Q?pwd=sadt) (Password: `sadt`)
@@ -110,6 +113,7 @@ sh scripts/download_models.sh
 ```
 模型目录结构如下，checkpoints是预训练模型，gfpgan是人脸检测和增强模型：
 ```
+SadTalker：
 ── checkpoints
    │   └── ...
 ── gfpgan
@@ -136,9 +140,7 @@ HIP_VISIBLE_DEVICES=0 python inference.py \
 ```
 ## result
 推理运行的默认推理结果为：
-<div align=center>
-    <video src="./doc/inference_result.mp4"/>
-</div>
+<video src="./doc/inference_result.mp4"></video>

 ### 精度
 无
@@ -150,6 +152,6 @@ HIP_VISIBLE_DEVICES=0 python inference.py \
 ## 预训练权重
 - http://113.200.138.88:18080/aimodels/findsource-dependency/sadtalker
 ## 源码仓库及问题反馈
- 
+- https://developer.sourcefind.cn/codes/modelzoo/sadtalker_pytorch
 ## 参考资料
 - https://github.com/OpenTalker/SadTalker