Commit 35cc1481 authored by dcuai's avatar dcuai
Browse files

Update README.md

parent b9392018
......@@ -118,7 +118,7 @@ pip3 uninstall wandb
7B:[aimodels/llama-7b-hf](http://113.200.138.88:18080/aimodels/llama-7b-hf)
该训练脚本需要2节点,每节点8张DCU-Z100L-32G。按需更改mpi_single.sh中模型权重所在路径。
按需更改mpi_single.sh中模型权重所在路径。
并行配置采用zero3,使用fp16精度微调,如果想使能apex adamw_apex_fused优化器,更改./FastChat-main/fastchat/train/train.py:55行优化器改成adamw_apex_fused。deepspeed config.json如下:
......@@ -147,12 +147,12 @@ pip3 uninstall wandb
}
}
```
进入节点1,根据环境修改hostfile,保证两节点文件路径一致,配置相同,按需修改mpi_job.sh中--mca btl_tcp_if_include enp97s0f1,enp97s0f1改为ip a命令后对应节点ip的网卡名,numa可以根据当前节点拓扑更改绑定,微调命令:
<!--该训练脚本需要2节点,每节点8张DCU-Z100L-32G。
进入节点1,根据环境修改hostfile,保证两节点文件路径一致,配置相同,按需修改mpi_job.sh中--mca btl_tcp_if_include enp97s0f1,enp97s0f1改为ip a命令后对应节点ip的网卡名,numa可以根据当前节点拓扑更改绑定,微调命令:-->
```
#注释mpi_job.sh、mpi_single.sh中的source env.sh
bash mpi_job.sh
#注释mpi_single.sh中的source env.sh,根据环境修改hostfile
mpirun -np 8 --allow-run-as-root --hostfile hostfile --bind-to none mpi_single.sh 8
```
如果单节点运行7B的模型出现oom,可以适当减少batch size。
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment