test.sh 1.02 KB
Newer Older
suily's avatar
suily committed
1
export HIP_VISIBLE_DEVICES=1,2,3,4
suily's avatar
suily committed
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
export HSA_FORCE_FINE_GRAIN_PCIE=1  #多卡用,强制开启PCIe细粒度模式,有助于提升多卡间通信效率。
export USE_MIOPEN_BATCHNORM=1 # 多GPU进行并行计算时的性能优化

# torchrun: 这是启动分布式训练的命令。
# --nproc_per_node=8: 指定每个节点上使用的进程数(即每个节点上参与训练的 GPU 数量)。
# --nnodes=...: 指定参与训练的节点总数。
# --node_rank=...: 指定当前节点的编号(从 0 开始)。
# --master_addr=...: 指定主节点的 IP 地址。
# --master_port=...: 指定主节点上用于通信的端口号。
# --depth=16: 设置模型的深度。
# --bs=768: 设置批处理大小。
# --ep=200: 设置训练的总轮数(epoch)。
# --fp16=1: 启用FP16训练。
# --alng=1e-3: 初始化ada_lin.w[gamma channels]
# --wpe=0.1: 训练结束时的最终lr
torchrun --nproc_per_node=4 --nnodes=1 --node_rank=0 train.py \
  --depth=16 --bs=192 --ep=5 --fp16=1 --alng=1e-3 --wpe=0.1 \
suily's avatar
suily committed
19
  --data_path=/home/VAR/dataset