export HIP_VISIBLE_DEVICES=1,2,3,4 export HSA_FORCE_FINE_GRAIN_PCIE=1 #多卡用,强制开启PCIe细粒度模式,有助于提升多卡间通信效率。 export USE_MIOPEN_BATCHNORM=1 # 多GPU进行并行计算时的性能优化 # torchrun: 这是启动分布式训练的命令。 # --nproc_per_node=8: 指定每个节点上使用的进程数(即每个节点上参与训练的 GPU 数量)。 # --nnodes=...: 指定参与训练的节点总数。 # --node_rank=...: 指定当前节点的编号(从 0 开始)。 # --master_addr=...: 指定主节点的 IP 地址。 # --master_port=...: 指定主节点上用于通信的端口号。 # --depth=16: 设置模型的深度。 # --bs=768: 设置批处理大小。 # --ep=200: 设置训练的总轮数(epoch)。 # --fp16=1: 启用FP16训练。 # --alng=1e-3: 初始化ada_lin.w[gamma channels] # --wpe=0.1: 训练结束时的最终lr torchrun --nproc_per_node=4 --nnodes=1 --node_rank=0 train.py \ --depth=16 --bs=192 --ep=5 --fp16=1 --alng=1e-3 --wpe=0.1 \ --data_path=/home/VAR/dataset