Set the default value of `max_context_token_num` 1 (#761)

7868cea5 · Lyu Han · GitHub · 4bcc4f11 · 7868cea5 · 7868cea5
Unverified Commit 7868cea5 authored Nov 27, 2023 by Lyu Han Committed by GitHub Nov 27, 2023
3 changed files
--- a/docs/en/turbomind_config.md
+++ b/docs/en/turbomind_config.md
@@ -28,7 +28,7 @@ rope_theta = 10000.0
 size_per_head = 128
 group_size = 0
 max_batch_size = 64
-max_context_token_num = 4
+max_context_token_num = 1
 step_length = 1
 cache_max_entry_count = 0.5
 cache_block_seq_len = 128

--- a/docs/zh_cn/turbomind_config.md
+++ b/docs/zh_cn/turbomind_config.md
@@ -28,7 +28,7 @@ rope_theta = 10000.0
 size_per_head = 128
 group_size = 0
 max_batch_size = 64
-max_context_token_num = 4
+max_context_token_num = 1
 step_length = 1
 cache_max_entry_count = 0.5
 cache_block_seq_len = 128

--- a/lmdeploy/turbomind/deploy/target_model/base.py
+++ b/lmdeploy/turbomind/deploy/target_model/base.py
@@ -48,7 +48,7 @@ class TurbomindModelConfig:
    size_per_head: int = 128
    group_size: int = 0
    max_batch_size: int = 64
-    max_context_token_num: int = 4
+    max_context_token_num: int = 1
    step_length: int = 1
    cache_max_entry_count: float = 0.5
    cache_block_seq_len: int = 128