Fix non-contiguous input passed to Marlin kernel (#15319)

d20e2611 · Qubitium-ModelCloud · GitHub · f622dbcf · d20e2611
Unverified Commit d20e2611 authored Mar 24, 2025 by Qubitium-ModelCloud Committed by GitHub Mar 24, 2025
Show whitespace changes
Inline Side-by-side

Showing with 4 additions and 0 deletions

vllm/model_executor/layers/quantization/kernels/mixed_precision/marlin.py ...tor/layers/quantization/kernels/mixed_precision/marlin.py +4 -0

No files found.
--- a/vllm/model_executor/layers/quantization/kernels/mixed_precision/marlin.py
+++ b/vllm/model_executor/layers/quantization/kernels/mixed_precision/marlin.py
@@ -115,6 +115,10 @@ class MarlinLinearKernel(MPLinearKernel):
                      layer: torch.nn.Module,
                      x: torch.Tensor,
                      bias: Optional[torch.Tensor] = None) -> torch.Tensor:
+        # marlin requires contiguous memory layout
+        # prefix caching may cause x to be non-contiguous
+        x = x.contiguous()  # no-op if already contiguous
+
        c = self.config
        w_q, w_s, w_zp, w_gidx = self._get_weight_params(layer)