使用groupgemm完成高吞吐模式适配

1693e754 · yiqa · ce363e89 · 1693e754
Commit 1693e754 authored Nov 14, 2025 by yiqa
Show whitespace changes
Inline Side-by-side

Showing with 6 additions and 6 deletions

python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors_marlin.py ...ntization/compressed_tensors/compressed_tensors_marlin.py +6 -6

No files found.
--- a/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors_marlin.py
+++ b/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors_marlin.py
@@ -73,7 +73,7 @@ class SlimQuantCompressedTensorsMarlinConfig(CompressedTensorsConfig):
            prefix: str,
    ) -> Optional["QuantizeMethodBase"]:
        from sglang.srt.layers.moe.fused_moe_triton.layer import FusedMoE  # Avoid circular import
-        # from sglang.srt.layers.radix_attention import RadixAttention
+        from sglang.srt.layers.radix_attention import RadixAttention
        # Check if the layer is skipped for quantization.
        if should_ignore_layer(prefix,
                               ignore=self.ignore,
@@ -85,8 +85,8 @@ class SlimQuantCompressedTensorsMarlinConfig(CompressedTensorsConfig):
                return UnquantizedEmbeddingMethod()#UnquantizedLinearMethod()
            layer.scheme = scheme
            return CompressedTensorsLinearMethod(self)
-        # if isinstance(layer, RadixAttention):
-        #     return CompressedTensorsKVCacheMethod(self)
+        if isinstance(layer, RadixAttention):
+            return CompressedTensorsKVCacheMethod(self)
        if isinstance(layer, FusedMoE):
            return CompressedTensorsMarlinMoEMethod.get_moe_method(self, layer)
        return None