<<<<<<< HEAD # Verl verl 版本0.5.0post 主要修改内容: 1. Main_ppo.py中ray.init需指定num_gpus。 2. Vllm的mode模块无法使用需全部屏蔽,所有跟sleep(level=1)和.wake_up(tags=["weights"])的都不适配。 3. Fsdp_workers.py中distributed后端需改为nccl。 4. Worker.py中修改了_setup_env_cuda_visible_devices。 5. Vllm_rollout_spmd中load_format参数穿不进来。 6. 激励函数reward_score的init中数据路径需修改。 7. 第5点修改后还需屏蔽在fsdp_vllm.py中关于model.load_weights部分。 运行命令请参考runverl.sh 需要运行命令之前添加export HIP_VISIBLE_DEVICES=0,1,2,3,4,5,6,7;export RAY_EXPERIMENTAL_NOSET_HIP_VISIBLE_DEVICES=1 目前只尝试了单节点八卡,后续尝试多节点