多机多卡启动失败
按照最新版的教程配置好双机16卡环境后, 按指令mpirun --allow-run-as-root -np 8 --hostfile ../hostfile -mca plm_rsh_no_tree_spawn 1 -mca plm_rsh_args "-p 12345" --bind-to none ./GPT_pretraining.sh 192.168.208.254 >& GPT_pretraining.log启动 结果是只有一台服务器上的8张卡在执行任务,另外一台服务器的cpu和显卡均无反应