[BugFix] Add synchronize in CutlassW4A8LinearKernel to ensure data is ready for use. (#33078)

Co-authored-by: jinwuguo <jinwuguo@tencent.com> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>

[BugFix] Add synchronize in CutlassW4A8LinearKernel to ensure data is ready for use. (#33078)
Co-authored-by: jinwuguo <jinwuguo@tencent.com> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>
f68e3ea4 · Jinwu · GitHub · d5c41db3 · f68e3ea4
Unverified Commit f68e3ea4 authored Jan 31, 2026 by Jinwu Committed by GitHub Jan 31, 2026
Hide whitespace changes
Inline Side-by-side

Showing with 1 addition and 0 deletions

vllm/model_executor/layers/quantization/kernels/mixed_precision/cutlass.py ...or/layers/quantization/kernels/mixed_precision/cutlass.py +1 -0

No files found.
--- a/vllm/model_executor/layers/quantization/kernels/mixed_precision/cutlass.py
+++ b/vllm/model_executor/layers/quantization/kernels/mixed_precision/cutlass.py
@@ -77,6 +77,7 @@ class CutlassW4A8LinearKernel(MPLinearKernel):
        def transform_w_q(x):
            assert isinstance(x, BasevLLMParameter)
            convert_packed_uint4b8_to_signed_int4_inplace(x.data)
+            torch.cuda.synchronize()
            permute_param_layout_(x, input_dim=0, output_dim=1, packed_dim=0)
            x.data = ops.cutlass_encode_and_reorder_int4b(x.data.t().contiguous().t())
            return x