set self.max_seq_len_to_capture = self.max_model_len

d8b9028d · zhuwenwen · 4fd5389b · d8b9028d · d8b9028d
Commit d8b9028d authored Jun 12, 2025 by zhuwenwen
Show whitespace changes
Inline Side-by-side

Showing with 4 additions and 3 deletions

README.md README.md +1 -1

vllm/config.py vllm/config.py +3 -2

No files found.
--- a/README.md
+++ b/README.md
@@ -15,7 +15,7 @@ vLLM是一个快速且易于使用的LLM推理和服务库,使用PageAttention
 | Llama4ForConditionalGeneration | Llama 4                                                                               | No/Yes | -  | - | v0.8.5.post1  | No |
 | QWenLMHeadModel                | QWen,Qwen-VL                                                                          | Yes | Yes | Yes | v0.5.0，Qwen-VL>=v0.6.2 | Yes |
 | Qwen2ForCausalLM               | QWen2,QWen1.5,CodeQwen1.5,DeepSeek-R1-Distill-Qwen,gte_Qwen2-1.5B-instruct            | Yes | Yes | Yes | v0.5.0，gte>=v0.7.2   | Yes |
-| Qwen3ForCausalLM               | QWen3,Qwen3-Embedding,Qwen3-Reranker                                                  | Yes | - | - | v0.8.4   | Yes |
+| Qwen3ForCausalLM               | QWen3,Qwen3-Embedding                                                                 | Yes | - | - | v0.8.4   | Yes |
 | Qwen3MoeForCausalLM            | QWen3MoE                                                    | Yes | - | - | v0.8.4   | Yes |
 | ChatGLMModel                   | glm-4v-9b,chatglm3,chatglm2                                 | Yes | No  | Yes | v0.5.0   | Yes |
 | Glm4ForCausalLM                | GLM-4-0414                                                  | No/Yes | -  | - | v0.8.5.post1   | Yes |

--- a/vllm/config.py
+++ b/vllm/config.py
@@ -836,8 +836,9 @@ class ModelConfig:
    def _verify_cuda_graph(self) -> None:
        if self.max_seq_len_to_capture is None:
            self.max_seq_len_to_capture = self.max_model_len
-        self.max_seq_len_to_capture = min(self.max_seq_len_to_capture,
-                                          self.max_model_len)
+        # self.max_seq_len_to_capture = min(self.max_seq_len_to_capture,
+        #                                   self.max_model_len)
+        self.max_seq_len_to_capture = self.max_model_len
        ROCM_UNSUPPORTED_MODELS = ['mllama']
        if (self.hf_config.model_type in ROCM_UNSUPPORTED_MODELS
                and not self.enforce_eager and current_platform.is_rocm()):