[misc] clean up and unify logging (#10999)

Signed-off-by: youkaichao <youkaichao@gmail.com>

[misc] clean up and unify logging (#10999)
Signed-off-by: youkaichao <youkaichao@gmail.com>
46004e83 · youkaichao · GitHub · 43b05fa3 · 46004e83 · 46004e83
Unverified Commit 46004e83 authored Dec 08, 2024 by youkaichao Committed by GitHub Dec 08, 2024
Hide whitespace changes
Inline Side-by-side

Showing with 37 additions and 90 deletions

vllm/config.py vllm/config.py +34 -39

vllm/engine/llm_engine.py vllm/engine/llm_engine.py +3 -51

No files found.
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -2579,45 +2579,40 @@ class VllmConfig:
            self.instance_id = random_uuid()[:5]
    def __str__(self):
-        return ("model=%r, speculative_config=%r, tokenizer=%r, "
+        return (
-        "skip_tokenizer_init=%s, tokenizer_mode=%s, revision=%s, "
+            f"model={self.model_config.model!r},"
-        "override_neuron_config=%s, tokenizer_revision=%s, "
+            f" speculative_config={self.speculative_config!r},"
-        "trust_remote_code=%s, dtype=%s, max_seq_len=%d, "
+            f" tokenizer={self.model_config.tokenizer!r}, "
-        "download_dir=%r, load_format=%s, tensor_parallel_size=%d, "
+            f"skip_tokenizer_init={self.model_config.skip_tokenizer_init},"
-        "pipeline_parallel_size=%d, "
+            f" tokenizer_mode={self.model_config.tokenizer_mode}, "
-        "disable_custom_all_reduce=%s, quantization=%s, "
+            f"revision={self.model_config.revision}, "
-        "enforce_eager=%s, kv_cache_dtype=%s, "
+            f"override_neuron_config={self.model_config.override_neuron_config},"
-        "quantization_param_path=%s, device_config=%s, "
+            f" tokenizer_revision={self.model_config.tokenizer_revision}, "
-        "decoding_config=%r, observability_config=%r, "
+            f"trust_remote_code={self.model_config.trust_remote_code}, "
-        "seed=%d, served_model_name=%s, "
+            f"dtype={self.model_config.dtype}, "
-        "num_scheduler_steps=%d, enable_prefix_caching=%s, "
+            f"max_seq_len={self.model_config.max_model_len},"
-        "use_async_output_proc=%s, mm_processor_kwargs=%s") % \
+            f" download_dir={self.load_config.download_dir!r}, "
-        (self.model_config.model, self.speculative_config,
+            f"load_format={self.load_config.load_format}, "
-        self.model_config.tokenizer,
+            f"tensor_parallel_size={self.parallel_config.tensor_parallel_size},"
-        self.model_config.skip_tokenizer_init,
+            f" pipeline_parallel_size={self.parallel_config.pipeline_parallel_size}, "  # noqa
-        self.model_config.tokenizer_mode,
+            f"disable_custom_all_reduce={self.parallel_config.disable_custom_all_reduce}, "  # noqa
-        self.model_config.revision,
+            f"quantization={self.model_config.quantization}, "
-        self.model_config.override_neuron_config,
+            f"enforce_eager={self.model_config.enforce_eager}, "
-        self.model_config.tokenizer_revision,
+            f"kv_cache_dtype={self.cache_config.cache_dtype}, "
-        self.model_config.trust_remote_code,
+            f"quantization_param_path={self.model_config.quantization_param_path},"
-        self.model_config.dtype,
+            f" device_config={self.device_config.device}, "
-        self.model_config.max_model_len,
+            f"decoding_config={self.decoding_config!r}, "
-        self.load_config.download_dir,
+            f"observability_config={self.observability_config!r}, "
-        self.load_config.load_format,
+            f"seed={self.model_config.seed}, "
-        self.parallel_config.tensor_parallel_size,
+            f"served_model_name={self.model_config.served_model_name}, "
-        self.parallel_config.pipeline_parallel_size,
+            f"num_scheduler_steps={self.scheduler_config.num_scheduler_steps}, "
-        self.parallel_config.disable_custom_all_reduce,
+            f"multi_step_stream_outputs={self.scheduler_config.multi_step_stream_outputs}, "  # noqa
-        self.model_config.quantization,
+            f"enable_prefix_caching={self.cache_config.enable_prefix_caching}, "
-        self.model_config.enforce_eager,
+            f"chunked_prefill_enabled={self.scheduler_config.chunked_prefill_enabled}, "  # noqa
-        self.cache_config.cache_dtype,
+            f"use_async_output_proc={self.model_config.use_async_output_proc}, "
-        self.model_config.quantization_param_path,
+            f"mm_processor_kwargs={self.model_config.mm_processor_kwargs}, "
-        self.device_config.device, self.decoding_config,
+            f"pooler_config={self.model_config.pooler_config!r},"
-        self.observability_config, self.model_config.seed,
+            f" compilation_config={self.compilation_config!r}")
-        self.model_config.served_model_name,
-        self.scheduler_config.num_scheduler_steps,
-        self.cache_config.enable_prefix_caching,
-        self.model_config.use_async_output_proc,
-        self.model_config.mm_processor_kwargs)
 _current_vllm_config: Optional[VllmConfig] = None

--- a/vllm/engine/llm_engine.py
+++ b/vllm/engine/llm_engine.py
@@ -247,60 +247,12 @@ class LLMEngine:
        )
        logger.info(
-            "Initializing an LLM engine (v%s) with config: "
+            "Initializing an LLM engine (v%s) with config: %r,"
-            "model=%r, speculative_config=%r, tokenizer=%r, "
+            "use_cached_outputs=%s, ",
-            "skip_tokenizer_init=%s, tokenizer_mode=%s, revision=%s, "
-            "override_neuron_config=%s, tokenizer_revision=%s, "
-            "trust_remote_code=%s, dtype=%s, max_seq_len=%d, "
-            "download_dir=%r, load_format=%s, tensor_parallel_size=%d, "
-            "pipeline_parallel_size=%d, "
-            "disable_custom_all_reduce=%s, quantization=%s, "
-            "enforce_eager=%s, kv_cache_dtype=%s, "
-            "quantization_param_path=%s, device_config=%s, "
-            "decoding_config=%r, observability_config=%r, "
-            "seed=%d, served_model_name=%s, "
-            "num_scheduler_steps=%d, chunked_prefill_enabled=%s "
-            "multi_step_stream_outputs=%s, enable_prefix_caching=%s, "
-            "use_async_output_proc=%s, use_cached_outputs=%s, "
-            "mm_processor_kwargs=%s, pooler_config=%r,"
-            "compilation_config=%r",
            VLLM_VERSION,
-            self.model_config.model,
+            vllm_config,
-            self.speculative_config,
-            self.model_config.tokenizer,
-            self.model_config.skip_tokenizer_init,
-            self.model_config.tokenizer_mode,
-            self.model_config.revision,
-            self.model_config.override_neuron_config,
-            self.model_config.tokenizer_revision,
-            self.model_config.trust_remote_code,
-            self.model_config.dtype,
-            self.model_config.max_model_len,
-            self.load_config.download_dir,
-            self.load_config.load_format,
-            self.parallel_config.tensor_parallel_size,
-            self.parallel_config.pipeline_parallel_size,
-            self.parallel_config.disable_custom_all_reduce,
-            self.model_config.quantization,
-            self.model_config.enforce_eager,
-            self.cache_config.cache_dtype,
-            self.model_config.quantization_param_path,
-            self.device_config.device,
-            self.decoding_config,
-            self.observability_config,
-            self.model_config.seed,
-            self.model_config.served_model_name,
-            self.scheduler_config.num_scheduler_steps,
-            self.scheduler_config.chunked_prefill_enabled,
-            self.scheduler_config.multi_step_stream_outputs,
-            self.cache_config.enable_prefix_caching,
-            self.model_config.use_async_output_proc,
            use_cached_outputs,
-            self.model_config.mm_processor_kwargs,
-            self.model_config.pooler_config,
-            vllm_config.compilation_config,
        )
-        # TODO(woosuk): Print more configs in debug mode.
        self.log_stats = log_stats
        self.use_cached_outputs = use_cached_outputs