remove SUPPORT_MOE_MARLIN_W16A16

564cbe7a · zhuwenwen · 0328ef06 · 564cbe7a · 564cbe7a
Commit 564cbe7a authored Jan 19, 2026 by zhuwenwen
Show whitespace changes
Inline Side-by-side

Showing with 1 addition and 6 deletions

vllm/platforms/rocm.py vllm/platforms/rocm.py +1 -5

vllm/utils/__init__.py vllm/utils/__init__.py +0 -1

No files found.
--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
@@ -16,11 +16,7 @@ from vllm.utils import cuda_device_count_stateless

 from .interface import DeviceCapability, Platform, PlatformEnum, _Backend

-from vllm.utils import SUPPORT_TC, SUPPORT_MOE_MARLIN_W16A16
-
-if SUPPORT_MOE_MARLIN_W16A16:
-    os.environ['VLLM_USE_MARLIN_W16A16_MOE'] = '1'
-    os.environ['MOE_NN'] = '0'
+from vllm.utils import SUPPORT_TC
    
 if not SUPPORT_TC:
    os.environ['VLLM_USE_V1'] = '0'

--- a/vllm/utils/__init__.py
+++ b/vllm/utils/__init__.py
@@ -87,7 +87,6 @@ MULTIMODAL_MODEL_MAX_NUM_BATCHED_TOKENS = 5120

 GPU_ARCH = torch.cuda.get_device_properties("cuda").gcnArchName
 SUPPORT_TC = any(arch in GPU_ARCH for arch in ["gfx928", "gfx936", "gfx938"])
-SUPPORT_MOE_MARLIN_W16A16 = any(arch in GPU_ARCH for arch in ["gfx936"])

 def _generate_random_int8(
    tensor: torch.Tensor,