解决w8a8 pp16开启marlin的oom问题

5bd9b304 · zhuwenwen · 6a8fd297 · 5bd9b304
Commit 5bd9b304 authored Nov 13, 2025 by zhuwenwen
Show whitespace changes
Inline Side-by-side

Showing with 1 addition and 0 deletions

vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe_marlin.py ...ation/compressed_tensors/compressed_tensors_moe_marlin.py +1 -0

No files found.
--- a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe_marlin.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe_marlin.py
@@ -128,6 +128,7 @@ class CompressedTensorsW8A8Int8MarlinMoEMethod(CompressedTensorsMarlinMoEMethod)
            w1_marlin_list.append(w1_marlin_in)
        w1_marlin = torch.stack(w1_marlin_list, dim=0)

+        del w1_marlin_list
        w2_marlin_list = []
        for ii in range(layer.w2_weight.shape[0]):
            w2_marlin_in = get_w8a8_int8_marlin_weights(layer.w2_weight[ii])