[Bugfix] Fix for ROCM compressed tensor support (#11561)

ac797994 · Selali · GitHub · dde1fa18 · ac797994
Unverified Commit ac797994 authored Dec 27, 2024 by Selali Committed by GitHub Dec 27, 2024
Hide whitespace changes
Inline Side-by-side

Showing with 7 additions and 3 deletions

vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_fp8.py ...compressed_tensors/schemes/compressed_tensors_w8a8_fp8.py +7 -3

No files found.
--- a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_fp8.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_fp8.py
@@ -41,10 +41,12 @@ class CompressedTensorsW8A8Fp8(CompressedTensorsScheme):
            )

            if current_platform.is_rocm():
+                input_scale = getattr(layer, 'input_scale', None)
+
                weight, max_w_scale, input_scale = normalize_e4m3fn_to_e4m3fnuz(
                    weight=weight,
                    weight_scale=max_w_scale,
-                    input_scale=layer.input_scale)
+                    input_scale=input_scale)
                if input_scale is not None:
                    layer.input_scale = Parameter(input_scale,
                                                  requires_grad=False)
@@ -57,11 +59,13 @@ class CompressedTensorsW8A8Fp8(CompressedTensorsScheme):
            weight = layer.weight

            if current_platform.is_rocm():
+                input_scale = getattr(layer, 'input_scale', None)
+
                weight, weight_scale, input_scale = \
                    normalize_e4m3fn_to_e4m3fnuz(
                        weight=weight,
                        weight_scale=layer.weight_scale,
-                        input_scale=layer.input_scale)
+                        input_scale=input_scale)
                if input_scale is not None:
                    layer.input_scale = Parameter(input_scale,
                                                  requires_grad=False)
@@ -76,7 +80,7 @@ class CompressedTensorsW8A8Fp8(CompressedTensorsScheme):
            raise ValueError(f"Unknown quantization strategy {self.strategy}")

        # INPUT SCALE
-        if self.is_static_input_scheme:
+        if self.is_static_input_scheme and hasattr(layer, 'input_scale'):
            layer.input_scale = Parameter(layer.input_scale.max(),
                                          requires_grad=False)
        else: