[Bugfix] Fix quantized model initialization failure with prefetch offloading (#40432)

Signed-off-by: Rishapveer Singh <singhrishapveer@gmail.com> Co-authored-by: mergify[bot] <37929162+mergify[bot]@users.noreply.github.com>

[Bugfix] Fix quantized model initialization failure with prefetch offloading (#40432)
Signed-off-by: Rishapveer Singh <singhrishapveer@gmail.com> Co-authored-by: mergify[bot] <37929162+mergify[bot]@users.noreply.github.com>
9b60e2ff · Rishapveer Singh · GitHub · 3951d3ea · 9b60e2ff
Unverified Commit 9b60e2ff authored Apr 22, 2026 by Rishapveer Singh Committed by GitHub Apr 21, 2026
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 1 deletion

vllm/model_executor/offloader/prefetch.py vllm/model_executor/offloader/prefetch.py +2 -1

No files found.
--- a/vllm/model_executor/offloader/prefetch.py
+++ b/vllm/model_executor/offloader/prefetch.py
@@ -21,6 +21,7 @@ import torch.nn as nn
 import vllm.model_executor.offloader.prefetch_ops  # noqa: F401
 from vllm.logger import init_logger
 from vllm.model_executor.offloader.base import BaseOffloader, should_pin_memory
+from vllm.utils.torch_utils import get_dtype_size
 logger = init_logger(__name__)
@@ -53,7 +54,7 @@ class ParamInfo:
        numel = 1
        for dim in self.shape:
            numel *= dim
-        return numel * torch.finfo(self.dtype).bits // 8
+        return numel * get_dtype_size(self.dtype)
 class StaticBufferPool: