Merge pull request #684 from KMSorSMS/main

fix dockerfile in devcontainer and fix expert torch

Merge pull request #684 from KMSorSMS/main
fix dockerfile in devcontainer and fix expert torch
e7ebb263 · ZiWei Yuan · GitHub · 99f6e421 · ffb86c66 · e7ebb263
Unverified Commit e7ebb263 authored Feb 26, 2025 by ZiWei Yuan Committed by GitHub Feb 26, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 3 additions and 4 deletions

.devcontainer/Dockerfile .devcontainer/Dockerfile +0 -1

ktransformers/operators/experts.py ktransformers/operators/experts.py +3 -3

No files found.
--- a/.devcontainer/Dockerfile
+++ b/.devcontainer/Dockerfile
@@ -10,7 +10,6 @@ apt update -y &&  apt install -y  --no-install-recommends \
    g++ \
    cmake && 
 rm -rf /var/lib/apt/lists/* &&
-cd ktransformers &&
 pip install ninja pyproject numpy cpufeature &&
 pip install flash-attn &&
 cp /usr/lib/x86_64-linux-gnu/libstdc++.so.6 /opt/conda/lib/

--- a/ktransformers/operators/experts.py
+++ b/ktransformers/operators/experts.py
@@ -459,9 +459,9 @@ class KExpertsTorch(KExpertsBase):
                    self.up[i] = w["up"][i, ...].to(device=device, dtype=self.dtype)
                    self.down[i] = w["down"][i, ...].to(device=device, dtype=self.dtype)
-        self.up = torch.cat(self.up, dim=0)
+        self.up = torch.stack(self.up, dim=0)
-        self.gate = torch.cat(self.gate, dim=0)
+        self.gate = torch.stack(self.gate, dim=0)
-        self.down = torch.cat(self.down, dim=0)
+        self.down = torch.stack(self.down, dim=0)
        return 
    def unload(self):