[doc] Update benchmark command in w4a16.md (#500)

* [doc] Update benchmark command in w4a16.md * Update w4a16.md * Update w4a16.md add pip install nvidia-ml-py * [doc] Update w4a16.md * fix lint error Signed-off-by: del-zhenwu <dele.zhenwu@gmail.com> * [doc] update model_path & prompt_tokens Signed-off-by: del-zhenwu <dele.zhenwu@gmail.com> --------- Signed-off-by: del-zhenwu <dele.zhenwu@gmail.com>

[doc] Update benchmark command in w4a16.md (#500)
* [doc] Update benchmark command in w4a16.md * Update w4a16.md * Update w4a16.md add pip install nvidia-ml-py * [doc] Update w4a16.md * fix lint error Signed-off-by: del-zhenwu <dele.zhenwu@gmail.com> * [doc] update model_path & prompt_tokens Signed-off-by: del-zhenwu <dele.zhenwu@gmail.com> --------- Signed-off-by: del-zhenwu <dele.zhenwu@gmail.com>
0b861c48 · del-zhenwu · GitHub · 77a26812 · 0b861c48 · 0b861c48
Unverified Commit 0b861c48 authored Oct 13, 2023 by del-zhenwu Committed by GitHub Oct 13, 2023
Show whitespace changes
Inline Side-by-side

Showing with 12 additions and 4 deletions

docs/en/w4a16.md docs/en/w4a16.md +6 -2

docs/zh_cn/w4a16.md docs/zh_cn/w4a16.md +6 -2

No files found.
--- a/docs/en/w4a16.md
+++ b/docs/en/w4a16.md
@@ -62,10 +62,14 @@ Memory (GB) comparison results between 4-bit and 16-bit model with context size
 | Llama-2-7B-chat  | 15.1        | 6.3        | 16.2        | 7.5        |
 | Llama-2-13B-chat | OOM         | 10.3       | OOM         | 12.0       |
+```
+pip install nvidia-ml-py
+```
 ```shell
 python benchmark/profile_generation.py \
-  ./workspace \
+ --model-path ./workspace \
-  --concurrency 1 --input_seqlen 1 --output_seqlen 512
+ --concurrency 1 8 --prompt-tokens 1 512 --completion-tokens 2048 512
 ```
 ## 4-bit Weight Quantization

--- a/docs/zh_cn/w4a16.md
+++ b/docs/zh_cn/w4a16.md
@@ -60,10 +60,14 @@ python3 -m lmdeploy.serve.turbomind ./workspace --server_name {ip_addr} ----serv
 | Llama-2-7B-chat  | 15.1        | 6.3        | 16.2        | 7.5        |
 | Llama-2-13B-chat | OOM         | 10.3       | OOM         | 12.0       |
+```
+pip install nvidia-ml-py
+```
 ```shell
 python benchmark/profile_generation.py \
-  ./workspace \
+ --model-path ./workspace \
-  --concurrency 1 --input_seqlen 1 --output_seqlen 512
+ --concurrency 1 8 --prompt-tokens 1 512 --completion-tokens 2048 512
 ```
 ## 4bit 权重量化