Move FP8 to SGLang (#2370)

Co-authored-by: HaiShaw <hixiao@gmail.com>

Move FP8 to SGLang (#2370)
Co-authored-by: HaiShaw <hixiao@gmail.com>
84d96b3a · Yineng Zhang · GitHub · 3d32e4a3 · 84d96b3a · 84d96b3a
Unverified Commit 84d96b3a authored Dec 06, 2024 by Yineng Zhang Committed by GitHub Dec 06, 2024
Showing with 561 additions and 2 deletions

python/sglang/srt/layers/quantization/__init__.py python/sglang/srt/layers/quantization/__init__.py +2 -2

python/sglang/srt/layers/quantization/fp8.py python/sglang/srt/layers/quantization/fp8.py +559 -0

No files found.
--- a/python/sglang/srt/layers/quantization/__init__.py
+++ b/python/sglang/srt/layers/quantization/__init__.py
@@ -13,7 +13,6 @@ from vllm.model_executor.layers.quantization.compressed_tensors.compressed_tenso
 from vllm.model_executor.layers.quantization.deepspeedfp import DeepSpeedFPConfig
 from vllm.model_executor.layers.quantization.experts_int8 import ExpertsInt8Config
 from vllm.model_executor.layers.quantization.fbgemm_fp8 import FBGEMMFp8Config
-from vllm.model_executor.layers.quantization.fp8 import Fp8Config, Fp8MoEMethod
 from vllm.model_executor.layers.quantization.gguf import GGUFConfig
 from vllm.model_executor.layers.quantization.gptq import GPTQConfig
 from vllm.model_executor.layers.quantization.gptq_marlin import GPTQMarlinConfig
@@ -23,6 +22,7 @@ from vllm.model_executor.layers.quantization.qqq import QQQConfig
 from vllm.model_executor.layers.quantization.tpu_int8 import Int8TpuConfig
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
+from sglang.srt.layers.quantization.fp8 import Fp8Config, Fp8MoEMethod
 QUANTIZATION_METHODS: Dict[str, Type[QuantizationConfig]] = {
    "aqlm": AQLMConfig,
@@ -100,13 +100,13 @@ def fp8_moe_apply(
 def fp8_get_quant_method(self, layer, prefix):
    """Enhanced get_quant_method for FP8 config."""
    from vllm.model_executor.layers.linear import LinearBase
-    from vllm.model_executor.layers.quantization.fp8 import Fp8LinearMethod
    from vllm.model_executor.layers.quantization.utils.quant_utils import (
        is_layer_skipped,
    )
    from sglang.srt.layers.fused_moe_triton.layer import FusedMoE
    from sglang.srt.layers.linear import UnquantizedLinearMethod
+    from sglang.srt.layers.quantization.fp8 import Fp8LinearMethod
    if isinstance(layer, LinearBase):
        if is_layer_skipped(prefix, self.ignored_layers):

--- a/python/sglang/srt/layers/quantization/fp8.py
+++ b/python/sglang/srt/layers/quantization/fp8.py