detok补充

6d0996e9 · guanyu1 · 3a49f3d2 · 6d0996e9 · 6d0996e9 · 6d0996e9
Commit 6d0996e9 authored Mar 24, 2025 by guanyu1
3 changed files
--- a/vllm/engine/llm_engine.py
+++ b/vllm/engine/llm_engine.py
@@ -1515,6 +1515,8 @@ class LLMEngine:
                    if seq.seq_id == seq_id:
                        sample.output_token = token_id[0]
                        seq.fix_last_token_id(sample.output_token)
+                        self.fix_process_model_output(ctx_output_queue,ctx_request_outputs,
+            ctx_multi_step_stream_outputs)
                        break
    def _advance_to_next_step(

--- a/vllm/engine/output_processor/stop_checker.py
+++ b/vllm/engine/output_processor/stop_checker.py
@@ -6,7 +6,7 @@ from vllm.lora.request import LoRARequest
 from vllm.sampling_params import SamplingParams
 from vllm.sequence import Sequence, SequenceStatus
 from vllm.transformers_utils.tokenizer import AnyTokenizer
+import  os
 class StopChecker:
    """LLMEngine helper class which separates out the logic involving stop
@@ -20,6 +20,8 @@ class StopChecker:
        # Do not use it directly, but use `self._get_max_model_len`.
        self._max_model_len = max_model_len
        self.get_tokenizer_for_seq = get_tokenizer_for_seq
+        self.zero_overhead = os.environ.get('VLLM_ZERO_OVERHEAD') == '1'
    def _get_max_model_len(self, lora_req: Optional[LoRARequest]):
        if lora_req and lora_req.long_lora_max_len:

--- a/vllm/transformers_utils/detokenizer.py
+++ b/vllm/transformers_utils/detokenizer.py
 # SPDX-License-Identifier: Apache-2.0
 from typing import Dict, List, Optional
+import  os
 from vllm.sequence import (VLLM_INVALID_TOKEN_ID, Logprob, SamplingParams,
                           Sequence, SequenceGroup)
@@ -16,6 +16,7 @@ class Detokenizer:
    def __init__(self, tokenizer_group: BaseTokenizerGroup):
        self.tokenizer_group = tokenizer_group
+        self.zero_overhead = os.environ.get('VLLM_ZERO_OVERHEAD') == '1'
    def get_tokenizer_for_seq(self, sequence: Sequence) -> AnyTokenizer:
        """Returns the HF tokenizer to use for a given sequence."""
@@ -109,7 +110,8 @@ class Detokenizer:
        """
        all_input_ids = seq.get_token_ids()
        if self.zero_overhead:
-            all_input_ids = seq.get_token_ids()[:seq.get_prompt_len()+self.data._effective_length]
+            eff_length=seq.get_prompt_len()+seq.data._effective_length
+            all_input_ids = seq.get_token_ids()[:eff_length]
        print(f'{all_input_ids=}')
        token_id_generated_this_iteration = all_input_ids[-1]
        tokenizer = self.get_tokenizer_for_seq(seq)