v1.0.3

670bcfcb · chenzk · 8a6b41b0 · 670bcfcb · 8a6b41b0 · 670bcfcb
Commit 670bcfcb authored Oct 31, 2024 by chenzk
4 changed files
--- a/README.md
+++ b/README.md
@@ -124,7 +124,12 @@ llamafactory-cli export examples/merge_lora/llama3_lora_sft.yaml
 # 方法一：pytorch 推理
 llamafactory-cli chat examples/inference/llama3_lora_sft.yaml
 # 方法二：vllm 推理
-python infer_vllm.py # 目前vllm官网发布的vllm=0.5.0暂未兼容llama3.2，待vllm兼容后，方可从光合开发者社区下载新的适配版本利用此命令进行vllm推理。
+# 先安装新版vllm
+pip install whl/vllm-0.6.2+das.opt1.85def94.dtk24042-cp310-cp310-linux_x86_64.whl
+pip install whl/flash_attn-2.6.1+das.opt2.08f8827.dtk24042-cp310-cp310-linux_x86_64.whl
+export LM_NN=0
+# 推理
+python infer_vllm.py # 后期可从光合开发者社区下载性能优化更好的vllm推理。
 ```

 ## result

--- a/docker_start.sh
+++ b/docker_start.sh
-docker run -it --shm-size=64G -v $PWD/LLaMA-Factory-Llama3.2:/home/LLaMA-Factory-Llama3.2 -v /public/DL_DATA/AI:/home/AI -v /opt/hyhal:/opt/hyhal:ro --privileged=true --device=/dev/kfd --device=//dev/dri/ --group-add video --name llama32 2f1f619d0182 bash                                                                                                                                                                                       
-# python -m torch.utils.collect_env
--- a/whl/flash_attn-2.6.1+das.opt2.08f8827.dtk24042-cp310-cp310-linux_x86_64.whl
+++ b/whl/flash_attn-2.6.1+das.opt2.08f8827.dtk24042-cp310-cp310-linux_x86_64.whl
--- a/whl/vllm-0.6.2+das.opt1.85def94.dtk24042-cp310-cp310-linux_x86_64.whl
+++ b/whl/vllm-0.6.2+das.opt1.85def94.dtk24042-cp310-cp310-linux_x86_64.whl