#!/bin/bash #SBATCH --job-name=grpo_train # 作业名称 #SBATCH --output=logs/grpo_train_%j.out # 输出日志文件 #SBATCH --error=logs/grpo_train_%j.out # 错误日志文件 #SBATCH --nodes=2 # 使用节点数量 #SBATCH --qos=dcudvp #SBATCH --gres=dcu:8 # 每节点 8 张 DCU #SBATCH --cpus-per-task=32 # 每个任务分配 32 个 CPU #SBATCH --partition=dcu # 使用 DCU 分区sinfo #SBATCH --ntasks-per-node=1 #SBATCH --mem=960G NODE_LIST=($(scontrol show hostnames $SLURM_JOB_NODELIST)) for RANK in "${!NODE_LIST[@]}"; do node="${NODE_LIST[$RANK]}" srun --nodes=1 --exclusive -w $node bash <