K100AI用24.04.1镜像运行qwen2-72b无法启动 (#3) · Issues · ModelZoo / Qwen1.5_vllm

K100AI用24.04.1镜像运行qwen2-72b无法启动

INFO 07-02 13:32:23 api_server.py:228] args: Namespace(host=None, port=8000, allow_credentials=False, allowed_origins=[''], allowed_methods=[''], allowed_headers=['*'], api_key=None, served_model_name=None, lora_modules=None, chat_template=None, response_role='assistant', ssl_keyfile=None, ssl_certfile=None, root_path=None, middleware=[], model='/data/Qwen_Qwen2-72B-Instruct', tokenizer=None, revision=None, code_revision=None, tokenizer_revision=None, tokenizer_mode='auto', trust_remote_code=True, download_dir=None, load_format='auto', dtype='float16', kv_cache_dtype='auto', max_model_len=2024, worker_use_ray=False, pipeline_parallel_size=1, tensor_parallel_size=8, max_parallel_loading_workers=None, block_size=16, seed=0, swap_space=4, gpu_memory_utilization=0.9, max_num_batched_tokens=None, max_num_seqs=256, max_paddings=256, disable_log_stats=False, quantization=None, enforce_eager=False, max_context_len_to_capture=8192, disable_custom_all_reduce=False, enable_lora=False, max_loras=1, max_lora_rank=16, lora_extra_vocab_size=256, lora_dtype='auto', max_cpu_loras=None, device='auto', engine_use_ray=False, disable_log_requests=False, max_log_len=None) WARNING 07-02 13:32:25 config.py:618] Casting torch.bfloat16 to torch.float16. INFO 07-02 13:32:25 config.py:420] Disabled the custom all-reduce kernel because it is not supported on AMD GPUs. 2024-07-02 13:32:27,902 INFO worker.py:1724 -- Started a local Ray instance.

卡一段时间后报错： core_worker.cc:215: Failed to register worker 01000000ffffffffffffffffffffffffffffffffffffffffffffffff to Raylet. IOError: [RayletClient] Unable to register worker with raylet. No such file or directory