add dtype note

302731df · zhuwenwen · 708b6f39 · 302731df
Commit 302731df authored Apr 26, 2024 by zhuwenwen
Hide whitespace changes
Inline Side-by-side

Showing with 3 additions and 3 deletions

README.md README.md +3 -3

No files found.
--- a/README.md
+++ b/README.md
@@ -59,14 +59,14 @@ docker run -it --name llama --privileged --shm-size=64G  --device=/dev/kfd --dev
 python offline_inference.py
 ```
 其中，`prompts`为提示词；`temperature`为控制采样随机性的值，值越小模型生成越确定，值变高模型生成更随机，0表示贪婪采样，默认为1；`max_tokens=16`为生成长度，默认为1；
-`model`为模型路径；`tensor_parallel_size=1`为使用卡数，默认为1；`dtype="float16"`为推理数据类型
+`model`为模型路径；`tensor_parallel_size=1`为使用卡数，默认为1；`dtype="float16"`为推理数据类型，如果模型权重是bfloat16,需要修改为float16推理
 ### OpenAI兼容服务
 启动服务：
 ```bash
-python -m vllm.entrypoints.openai.api_server --model meta-llama/Llama-2-7b-chat-hf -enforce-eager
+python -m vllm.entrypoints.openai.api_server --model meta-llama/Llama-2-7b-chat-hf -enforce-eager --dtype float16 
 ```
-这里`--model`为加载模型路径，默认情况使用tokenizer中的预定义聊天模板，`--chat-template`可以添加新模板覆盖默认模板
+这里`--model`为加载模型路径，`--dtype`为数据类型：float16，默认情况使用tokenizer中的预定义聊天模板，`--chat-template`可以添加新模板覆盖默认模板
 列出模型型号：
 ```bash