hotfix: ipex fails since cuda moe kernel is not supported (#2532)

Signed-off-by: Wang, Yi A <yi.a.wang@intel.com>

hotfix: ipex fails since cuda moe kernel is not supported (#2532)
Signed-off-by: Wang, Yi A <yi.a.wang@intel.com>
f478aa77 · Wang, Yi · GitHub · abd24dd3 · f478aa77
Unverified Commit f478aa77 authored Sep 20, 2024 by Wang, Yi Committed by GitHub Sep 20, 2024
Show whitespace changes
Inline Side-by-side

Showing with 3 additions and 1 deletion

server/text_generation_server/models/custom_modeling/flash_deepseek_v2_modeling.py ...rver/models/custom_modeling/flash_deepseek_v2_modeling.py +3 -1

No files found.
--- a/server/text_generation_server/models/custom_modeling/flash_deepseek_v2_modeling.py
+++ b/server/text_generation_server/models/custom_modeling/flash_deepseek_v2_modeling.py
@@ -15,7 +15,6 @@
 from typing import List, Optional, Tuple
-from moe_kernels.fused_moe import grouped_topk
 import torch
 import torch.distributed
 from text_generation_server.layers import (
@@ -41,6 +40,9 @@ from torch import nn
 from transformers.activations import ACT2FN
 from transformers.configuration_utils import PretrainedConfig
+if SYSTEM != "ipex":
+    from moe_kernels.fused_moe import grouped_topk
 if SYSTEM == "rocm":
    try:
        from vllm import _custom_C