add SUPPORT_MOE_MARLIN_W16A16 to use moe marlin on bw

cabf690f · zhuwenwen · c47f7e61 · cabf690f · cabf690f
Commit cabf690f authored Jan 16, 2026 by zhuwenwen
Hide whitespace changes
Inline Side-by-side

Showing with 6 additions and 1 deletion

vllm/platforms/rocm.py vllm/platforms/rocm.py +5 -1

vllm/utils/__init__.py vllm/utils/__init__.py +1 -0

No files found.
--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
@@ -16,8 +16,12 @@ from vllm.utils import cuda_device_count_stateless

 from .interface import DeviceCapability, Platform, PlatformEnum, _Backend

-from vllm.utils import SUPPORT_TC
+from vllm.utils import SUPPORT_TC, SUPPORT_MOE_MARLIN_W16A16

+if SUPPORT_MOE_MARLIN_W16A16:
+    os.environ['VLLM_USE_MARLIN_W16A16_MOE'] = '1'
+    os.environ['MOE_NN'] = '0'
+    
 if not SUPPORT_TC:
    os.environ['VLLM_USE_V1'] = '0'
    os.environ['VLLM_USE_FLASH_ATTN_PA'] = '0'

--- a/vllm/utils/__init__.py
+++ b/vllm/utils/__init__.py
@@ -87,6 +87,7 @@ MULTIMODAL_MODEL_MAX_NUM_BATCHED_TOKENS = 5120

 GPU_ARCH = torch.cuda.get_device_properties("cuda").gcnArchName
 SUPPORT_TC = any(arch in GPU_ARCH for arch in ["gfx928", "gfx936", "gfx938"])
+SUPPORT_MOE_MARLIN_W16A16 = any(arch in GPU_ARCH for arch in ["gfx936"])

 def _generate_random_int8(
    tensor: torch.Tensor,