skip fp8 fusion

4a734b9d · zhuwenwen · 177520a9 · 4a734b9d
Commit 4a734b9d authored Feb 20, 2025 by zhuwenwen
Show whitespace changes
Inline Side-by-side

Showing with 13 additions and 13 deletions

vllm/compilation/fusion.py vllm/compilation/fusion.py +13 -13

No files found.
--- a/vllm/compilation/fusion.py
+++ b/vllm/compilation/fusion.py
@@ -58,11 +58,11 @@ kFp8DynamicTensorSym = QuantKey(FP8_DTYPE, False, True, True)
 kFp8DynamicTokenSym = QuantKey(FP8_DTYPE, False, False, True)
 QUANT_OPS: Dict[QuantKey, OpOverload] = {
-    kFp8StaticTensorSym: torch.ops._C.static_scaled_fp8_quant.default,  # noqa
+    # kFp8StaticTensorSym: torch.ops._C.static_scaled_fp8_quant.default,  # noqa
-    kFp8DynamicTensorSym:
+    # kFp8DynamicTensorSym:
-    torch.ops._C.dynamic_scaled_fp8_quant.default,  # noqa
+    # torch.ops._C.dynamic_scaled_fp8_quant.default,  # noqa
-    kFp8DynamicTokenSym:
+    # kFp8DynamicTokenSym:
-    torch.ops._C.dynamic_per_token_scaled_fp8_quant.default,  # noqa
+    # torch.ops._C.dynamic_per_token_scaled_fp8_quant.default,  # noqa
 }
@@ -81,14 +81,14 @@ class FusedRMSQuantKey(NamedTuple):
 FUSED_OPS: Dict[FusedRMSQuantKey, OpOverload] = {
-    FusedRMSQuantKey(kFp8StaticTensorSym, False):
+    # FusedRMSQuantKey(kFp8StaticTensorSym, False):
-    torch.ops._C.rms_norm_static_fp8_quant.default,  # noqa
+    # torch.ops._C.rms_norm_static_fp8_quant.default,  # noqa
-    FusedRMSQuantKey(kFp8StaticTensorSym, True):
+    # FusedRMSQuantKey(kFp8StaticTensorSym, True):
-    torch.ops._C.fused_add_rms_norm_static_fp8_quant.default,  # noqa
+    # torch.ops._C.fused_add_rms_norm_static_fp8_quant.default,  # noqa
-    FusedRMSQuantKey(kFp8DynamicTokenSym, False):
+    # FusedRMSQuantKey(kFp8DynamicTokenSym, False):
-    torch.ops._C.rms_norm_dynamic_per_token_quant.default,  # noqa
+    # torch.ops._C.rms_norm_dynamic_per_token_quant.default,  # noqa
-    FusedRMSQuantKey(kFp8DynamicTokenSym, True):
+    # FusedRMSQuantKey(kFp8DynamicTokenSym, True):
-    torch.ops._C.rms_norm_dynamic_per_token_quant.default,  # noqa
+    # torch.ops._C.rms_norm_dynamic_per_token_quant.default,  # noqa
 }