add gptq

9381852f · zhuwenwen · 5a8ce787 · 9381852f
Commit 9381852f authored Apr 30, 2024 by zhuwenwen
Hide whitespace changes
Inline Side-by-side

Showing with 10 additions and 1 deletion

README.md README.md +10 -1

No files found.
--- a/README.md
+++ b/README.md
@@ -54,12 +54,21 @@ docker run -it --name llama --privileged --shm-size=64G  --device=/dev/kfd --dev

 [LLama2-70B](https://huggingface.co/meta-llama/Llama-2-70b-chat-hf)

+#### GPTQ模型下载
+
+[Llama-2-7B-Chat-GPTQ](https://huggingface.co/TheBloke/Llama-2-7B-Chat-GPTQ/tree/gptq-4bit-128g-actorder_True)
+
+[Llama-2-13B-GPTQ](https://huggingface.co/TheBloke/Llama-2-13B-GPTQ/tree/gptq-4bit-128g-actorder_True)
+
+[Llama-2-70B-Chat-GPTQ](https://huggingface.co/TheBloke/Llama-2-70B-Chat-GPTQ/tree/gptq-4bit-128g-actorder_True)
+
+
 ### 离线批量推理
 ```bash
 python offline_inference.py
 ```
 其中，`prompts`为提示词；`temperature`为控制采样随机性的值，值越小模型生成越确定，值变高模型生成更随机，0表示贪婪采样，默认为1；`max_tokens=16`为生成长度，默认为1；
-`model`为模型路径；`tensor_parallel_size=1`为使用卡数，默认为1；`dtype="float16"`为推理数据类型，如果模型权重是bfloat16,需要修改为float16推理
+`model`为模型路径；`tensor_parallel_size=1`为使用卡数，默认为1；`dtype="float16"`为推理数据类型，如果模型权重是bfloat16,需要修改为float16推理,`quantization="gptq"`为使用gptq量化进行推理,需下载以上GPTQ模型。

 ### OpenAI兼容服务
 启动服务：