多卡训练时显示horovod无效,但是拉取的镜像已经有horovod库,导致无法多卡训练。
目前horovod无效的解决方法,都是通过重新编译horovod解决,但是horovod在gitlab上的最低适配DTK版本为22.10,此镜像的DTK版本为22.04.2,尝试编译22.10版本的horovod,编译成功后,无法识别torch和tensorflow,此代码是否有新的镜像,最好是DTK23.10版本以上的。
目前horovod无效的解决方法,都是通过重新编译horovod解决,但是horovod在gitlab上的最低适配DTK版本为22.10,此镜像的DTK版本为22.04.2,尝试编译22.10版本的horovod,编译成功后,无法识别torch和tensorflow,此代码是否有新的镜像,最好是DTK23.10版本以上的。