Merge pull request #911 from kvcache-ai/patch_v0.2.3post2

🔧 update multi-gpu-fp8-linear and multi-gpu marlin yaml

Merge pull request #911 from kvcache-ai/patch_v0.2.3post2
🔧 update multi-gpu-fp8-linear and multi-gpu marlin yaml
8a8311cb · ZiWei Yuan · GitHub · 0e93a09d · 19f058ec · 8a8311cb
Unverified Commit 8a8311cb authored Mar 17, 2025 by ZiWei Yuan Committed by GitHub Mar 17, 2025
2 changed files
--- a/ktransformers/optimize/optimize_rules/DeepSeek-V3-Chat-multi-gpu-fp8-linear-ggml-experts.yaml
+++ b/ktransformers/optimize/optimize_rules/DeepSeek-V3-Chat-multi-gpu-fp8-linear-ggml-experts.yaml
@@ -10,7 +10,7 @@
    name: "^model\\.layers\\.(0|[1-9]|[12][0-9])\\."
    class: ktransformers.models.modeling_deepseek_v3.DeepseekV3RotaryEmbedding
  replace:
-    class: ktransformers.operators.RoPE.KMoEGateDeepSeekV3
+    class: ktransformers.operators.RoPE.YarnRotaryEmbeddingV3
    kwargs:
      generate_device: "cuda:0"
      prefill_device: "cuda:0"
@@ -18,7 +18,7 @@
    name: "^model\\.layers\\.([3456][0-9])\\."
    class: ktransformers.models.modeling_deepseek_v3.DeepseekV3RotaryEmbedding
  replace:
-    class: ktransformers.operators.RoPE.KMoEGateDeepSeekV3
+    class: ktransformers.operators.RoPE.YarnRotaryEmbeddingV3
    kwargs:
      generate_device: "cuda:1"
      prefill_device: "cuda:1"

--- a/ktransformers/optimize/optimize_rules/DeepSeek-V3-Chat-multi-gpu-marlin.yaml
+++ b/ktransformers/optimize/optimize_rules/DeepSeek-V3-Chat-multi-gpu-marlin.yaml
@@ -10,7 +10,7 @@
    name: "^model\\.layers\\.(0|[1-9]|[12][0-9])\\."
    class: ktransformers.models.modeling_deepseek_v3.DeepseekV3RotaryEmbedding
  replace:
-    class: ktransformers.operators.RoPE.KMoEGateDeepSeekV3
+    class: ktransformers.operators.RoPE.YarnRotaryEmbeddingV3
    kwargs:
      generate_device: "cuda:0"
      prefill_device: "cuda:0"