[Core] Logprobs support in Multi-step (#7652)

428dd144 · afeldman-nm · GitHub · 4abed65c · 428dd144 · 428dd144
Unverified Commit 428dd144 authored Aug 29, 2024 by afeldman-nm Committed by GitHub Aug 29, 2024
Showing with 6 additions and 6 deletions

vllm/worker/worker.py vllm/worker/worker.py +2 -2

vllm/worker/worker_base.py vllm/worker/worker_base.py +2 -2

vllm/worker/xpu_model_runner.py vllm/worker/xpu_model_runner.py +2 -2

No files found.
--- a/vllm/worker/worker.py
+++ b/vllm/worker/worker.py
@@ -17,12 +17,12 @@ from vllm.distributed import (ensure_model_parallel_initialized,
 from vllm.logger import init_logger
 from vllm.lora.request import LoRARequest
 from vllm.model_executor import set_random_seed
+from vllm.model_executor.layers.sampler import SamplerOutput
 from vllm.model_executor.model_loader.tensorizer import TensorizerConfig
 from vllm.platforms import current_platform
 from vllm.prompt_adapter.request import PromptAdapterRequest
 from vllm.sequence import (ExecuteModelRequest, IntermediateTensors,
-                           SamplerOutput, SequenceGroupMetadata,
+                           SequenceGroupMetadata, SequenceGroupMetadataDelta)
-                           SequenceGroupMetadataDelta)
 from vllm.worker.cache_engine import CacheEngine
 from vllm.worker.embedding_model_runner import EmbeddingModelRunner
 from vllm.worker.enc_dec_model_runner import EncoderDecoderModelRunner

--- a/vllm/worker/worker_base.py
+++ b/vllm/worker/worker_base.py
@@ -11,9 +11,9 @@ from vllm.config import ObservabilityConfig
 from vllm.distributed import broadcast_tensor_dict, get_pp_group, get_tp_group
 from vllm.logger import init_logger
 from vllm.lora.request import LoRARequest
+from vllm.model_executor.layers.sampler import SamplerOutput
 from vllm.platforms import current_platform
-from vllm.sequence import (ExecuteModelRequest, IntermediateTensors,
+from vllm.sequence import ExecuteModelRequest, IntermediateTensors
-                           SamplerOutput)
 from vllm.utils import (enable_trace_function_call_for_thread,
                        update_environment_variables)
 from vllm.worker.model_runner_base import (BroadcastableModelInput,

--- a/vllm/worker/xpu_model_runner.py
+++ b/vllm/worker/xpu_model_runner.py
@@ -15,12 +15,12 @@ from vllm.config import (CacheConfig, DeviceConfig, LoadConfig, LoRAConfig,
 from vllm.distributed import get_pp_group
 from vllm.inputs import INPUT_REGISTRY, InputRegistry
 from vllm.logger import init_logger
+from vllm.model_executor.layers.sampler import SamplerOutput
 from vllm.model_executor.model_loader import get_model
 from vllm.multimodal import (MULTIMODAL_REGISTRY, BatchedTensorInputs,
                             MultiModalInputs, MultiModalRegistry)
 from vllm.sampling_params import SamplingParams
-from vllm.sequence import (IntermediateTensors, SamplerOutput,
+from vllm.sequence import IntermediateTensors, SequenceGroupMetadata
-                           SequenceGroupMetadata)
 from vllm.utils import CudaMemoryProfiler, make_tensor_with_pad
 from vllm.worker.model_runner import AttentionMetadata, SamplingMetadata
 from vllm.worker.model_runner_base import (