Commit e9933264 authored by Sugon_ldc's avatar Sugon_ldc
Browse files

modify some script

parent e059986a
...@@ -34,6 +34,8 @@ ResNet50v1.5的算法原理是利用残差连接和深层卷积层来构建更 ...@@ -34,6 +34,8 @@ ResNet50v1.5的算法原理是利用残差连接和深层卷积层来构建更
docker pull image.sourcefind.cn:5000/dcu/admin/base/pytorch:1.13.1-centos7.6-dtk-23.04.1-py38-latest docker pull image.sourcefind.cn:5000/dcu/admin/base/pytorch:1.13.1-centos7.6-dtk-23.04.1-py38-latest
docker run -it -v /path/your_code_data/:/path/your_code_data/ --shm-size=32G --privileged=true --device=/dev/kfd --device=/dev/dri/ --group-add video --name docker_name imageID bash docker run -it -v /path/your_code_data/:/path/your_code_data/ --shm-size=32G --privileged=true --device=/dev/kfd --device=/dev/dri/ --group-add video --name docker_name imageID bash
#进入容器后
pip install pynvml
``` ```
### Dockerfile(方法二) ### Dockerfile(方法二)
此处提供dockerfile的使用方法 此处提供dockerfile的使用方法
...@@ -41,6 +43,8 @@ docker run -it -v /path/your_code_data/:/path/your_code_data/ --shm-size=32G --p ...@@ -41,6 +43,8 @@ docker run -it -v /path/your_code_data/:/path/your_code_data/ --shm-size=32G --p
cd ./docker cd ./docker
docker build --no-cache -t resnet:v1.5 . docker build --no-cache -t resnet:v1.5 .
docker run -it -v /path/your_code_data/:/path/your_code_data/ --shm-size=32G --privileged=true --device=/dev/kfd --device=/dev/dri/ --group-add video --name docker_name imageID bash docker run -it -v /path/your_code_data/:/path/your_code_data/ --shm-size=32G --privileged=true --device=/dev/kfd --device=/dev/dri/ --group-add video --name docker_name imageID bash
#进入容器后
pip install pynvml
``` ```
### Anaconda(方法三) ### Anaconda(方法三)
此处提供本地配置、编译的详细步骤,例如: 此处提供本地配置、编译的详细步骤,例如:
...@@ -49,11 +53,15 @@ docker run -it -v /path/your_code_data/:/path/your_code_data/ --shm-size=32G --p ...@@ -49,11 +53,15 @@ docker run -it -v /path/your_code_data/:/path/your_code_data/ --shm-size=32G --p
``` ```
DTK驱动:dtk23.04.1 DTK驱动:dtk23.04.1
python:python3.8 python:python3.8
torch:1.10 torch:1.13
torchvision:0.10 torchvision:0.14.1
``` ```
`Tips:以上dtk驱动、python、paddle等DCU相关工具版本需要严格一一对应` `Tips:以上dtk驱动、python、paddle等DCU相关工具版本需要严格一一对应`
另外需要安装如下三方库
```
pip install pyyaml
pip install pynvml
```
## 数据集 ## 数据集
Imagenet Imagenet
...@@ -77,6 +85,7 @@ data ...@@ -77,6 +85,7 @@ data
``` ```
## 训练 ## 训练
在运行脚本过程中根据实际情况修改相关脚本的数据集路径及log文件命名
### 单机单卡(fp16) ### 单机单卡(fp16)
``` ```
......
...@@ -2,4 +2,4 @@ export HSA_FORCE_FINE_GRAIN_PCIE=1 ...@@ -2,4 +2,4 @@ export HSA_FORCE_FINE_GRAIN_PCIE=1
export USE_MIOPEN_BATCHNORM=1 export USE_MIOPEN_BATCHNORM=1
export HIP_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 export HIP_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
export DATA_DIR=/data/imagenet2012 #数据集路径 export DATA_DIR=/data/imagenet2012 #数据集路径
python ./multiproc.py --nproc_per_node 8 ./launch.py --model resnet50 --precision AMP --mode convergence --platform Z100L ${DATA_DIR} --data-backend pytorch --epochs 100 --batch-size 128 --workspace ${1:-./run} --raport-file raport.json 2>&1 | tee resnet50_multi_`date +%Y%m%d%H%M%S`.log python ./multiproc.py --nproc_per_node 8 ./launch.py --model resnet50 --precision AMP --mode convergence --platform Z100L ${DATA_DIR} --data-backend pytorch --epochs 100 --batch-size 128 --workspace ${1:-./run} --raport-file raport.json 2>&1 | tee resnet50_multi_fp16_`date +%Y%m%d%H%M%S`.log
...@@ -2,4 +2,4 @@ export HSA_FORCE_FINE_GRAIN_PCIE=1 ...@@ -2,4 +2,4 @@ export HSA_FORCE_FINE_GRAIN_PCIE=1
export USE_MIOPEN_BATCHNORM=1 export USE_MIOPEN_BATCHNORM=1
export HIP_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 export HIP_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
export DATA_DIR=/data/imagenet2012 #数据集路径 export DATA_DIR=/data/imagenet2012 #数据集路径
python ./multiproc.py --nproc_per_node 8 ./launch.py --model resnet50 --precision FP32 --mode convergence --platform Z100L ${DATA_DIR} --data-backend pytorch --epochs 100 --batch-size 128 --workspace ${1:-./run} --raport-file raport.json 2>&1 | tee resnet50_multi_`date +%Y%m%d%H%M%S`.log python ./multiproc.py --nproc_per_node 8 ./launch.py --model resnet50 --precision FP32 --mode convergence --platform Z100L ${DATA_DIR} --data-backend pytorch --epochs 100 --batch-size 128 --workspace ${1:-./run} --raport-file raport.json 2>&1 | tee resnet50_multi_fp32_`date +%Y%m%d%H%M%S`.log
export USE_MIOPEN_BATCHNORM=1 export USE_MIOPEN_BATCHNORM=1
export HIP_VISIBLE_DEVICES=0 export HIP_VISIBLE_DEVICES=0
export DATA_DIR=/data/imagenet2012 #数据集路径 export DATA_DIR=/data/imagenet2012 #数据集路径
python ./multiproc.py --nproc_per_node 1 ./launch.py --model resnet50 --precision AMP --mode convergence --platform Z100L ${DATA_DIR} --data-backend pytorch --epochs 100 --batch-size 128 --workspace ${1:-./run} --raport-file raport.json 2>&1 | tee resnet50_multi_`date +%Y%m%d%H%M%S`.log python ./multiproc.py --nproc_per_node 1 ./launch.py --model resnet50 --precision AMP --mode convergence --platform Z100L ${DATA_DIR} --data-backend pytorch --epochs 100 --batch-size 128 --workspace ${1:-./run} --raport-file raport.json 2>&1 | tee resnet50_single_fp16_`date +%Y%m%d%H%M%S`.log
export USE_MIOPEN_BATCHNORM=1 export USE_MIOPEN_BATCHNORM=1
export HIP_VISIBLE_DEVICES=0 export HIP_VISIBLE_DEVICES=0
export DATA_DIR=/data/imagenet2012 #数据集路径 export DATA_DIR=/data/imagenet2012 #数据集路径
python ./multiproc.py --nproc_per_node 1 ./launch.py --model resnet50 --precision FP32 --mode convergence --platform Z100L ${DATA_DIR} --data-backend pytorch --epochs 100 --batch-size 128 --workspace ${1:-./run} --raport-file raport.json 2>&1 | tee resnet50_multi_`date +%Y%m%d%H%M%S`.log python ./multiproc.py --nproc_per_node 1 ./launch.py --model resnet50 --precision FP32 --mode convergence --platform Z100L ${DATA_DIR} --data-backend pytorch --epochs 100 --batch-size 128 --workspace ${1:-./run} --raport-file raport.json 2>&1 | tee resnet50_single_fp32_`date +%Y%m%d%H%M%S`.log
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment