[Bugfix] Fix dynamic FP8 quantization for Mixtral (#4793)

33d3914b · Philipp Moritz · GitHub · 1356df53 · 33d3914b
Unverified Commit 33d3914b authored May 13, 2024 by Philipp Moritz Committed by GitHub May 13, 2024
Hide whitespace changes
Inline Side-by-side

Showing with 1 addition and 1 deletion

vllm/model_executor/models/mixtral.py vllm/model_executor/models/mixtral.py +1 -1

No files found.
--- a/vllm/model_executor/models/mixtral.py
+++ b/vllm/model_executor/models/mixtral.py
@@ -95,7 +95,7 @@ class MixtralMoE(nn.Module):
                                     params_dtype=self.params_dtype,
                                     quant_config=None)
-        if self.use_fp8:
+        if self.use_fp8 and self.quant_config.is_checkpoint_fp8_serialized:
            params_dtype = torch.float8_e4m3fn
        self.w13_weight = nn.Parameter(