环境:曙光超算集群 centOS7 节点信息DCU1号*4
操作: 修改LLM为32B-Chat模型路径,修改模型config文件为float16 单节点运行推理python vllm/examples/offline_inference.py
问题: HIP out of memory
尝试在config文件添加tp参数,没有变化
能否进行跨节点或者多节点推理