[MISC] rename CudaMemoryProfiler to DeviceMemoryProfiler (#8703)

ca2b628b · Huazhong Ji · GitHub · 8ca5051b · ca2b628b · ca2b628b
Unverified Commit ca2b628b authored Sep 23, 2024 by Huazhong Ji Committed by GitHub Sep 22, 2024
Hide whitespace changes
Inline Side-by-side

Showing with 5 additions and 5 deletions

vllm/utils.py vllm/utils.py +1 -1

vllm/worker/model_runner.py vllm/worker/model_runner.py +2 -2

vllm/worker/xpu_model_runner.py vllm/worker/xpu_model_runner.py +2 -2

No files found.
--- a/vllm/utils.py
+++ b/vllm/utils.py
@@ -757,7 +757,7 @@ def is_pin_memory_available() -> bool:
    return True
-class CudaMemoryProfiler:
+class DeviceMemoryProfiler:
    def __init__(self, device: Optional[torch.types.Device] = None):
        self.device = device

--- a/vllm/worker/model_runner.py
+++ b/vllm/worker/model_runner.py
@@ -45,7 +45,7 @@ from vllm.prompt_adapter.worker_manager import (
    LRUCacheWorkerPromptAdapterManager)
 from vllm.sampling_params import SamplingParams
 from vllm.sequence import IntermediateTensors, SequenceGroupMetadata
-from vllm.utils import (CudaMemoryProfiler, PyObjectCache, async_tensor_h2d,
+from vllm.utils import (DeviceMemoryProfiler, PyObjectCache, async_tensor_h2d,
                        flatten_2d_lists, is_hip, is_pin_memory_available,
                        supports_dynamo)
 from vllm.worker.model_runner_base import (
@@ -1012,7 +1012,7 @@ class GPUModelRunnerBase(ModelRunnerBase[TModelInputForGPU]):
    def load_model(self) -> None:
        logger.info("Starting to load model %s...", self.model_config.model)
-        with CudaMemoryProfiler() as m:
+        with DeviceMemoryProfiler() as m:
            self.model = get_model(model_config=self.model_config,
                                   device_config=self.device_config,
                                   load_config=self.load_config,

--- a/vllm/worker/xpu_model_runner.py
+++ b/vllm/worker/xpu_model_runner.py
@@ -21,7 +21,7 @@ from vllm.multimodal import (MULTIMODAL_REGISTRY, BatchedTensorInputs,
                             MultiModalInputs, MultiModalRegistry)
 from vllm.sampling_params import SamplingParams
 from vllm.sequence import IntermediateTensors, SequenceGroupMetadata
-from vllm.utils import CudaMemoryProfiler, make_tensor_with_pad
+from vllm.utils import DeviceMemoryProfiler, make_tensor_with_pad
 from vllm.worker.model_runner import AttentionMetadata, SamplingMetadata
 from vllm.worker.model_runner_base import (
    ModelRunnerBase, ModelRunnerInputBase, ModelRunnerInputBuilderBase,
@@ -391,7 +391,7 @@ class XPUModelRunner(ModelRunnerBase[ModelInputForXPUWithSamplingMetadata]):
        self.model: nn.Module  # Set after init_Model
    def load_model(self) -> None:
-        with CudaMemoryProfiler() as m:
+        with DeviceMemoryProfiler() as m:
            self.model = get_model(
                model_config=self.model_config,
                device_config=self.device_config,