perf(fused-moe): 预打包 Marlin W16A16 MoE 权重,降低 warmup 显存峰值
在 post-load hook 中对 w13/w2 做 per-expert Marlin pack,并替换为 packed 参数 Marlin fast path 仅接受 packed 权重;未预打包则 fail fast,避免运行时 packing 峰值/不确定性 更新 Marlin wrapper 的入参与 shape 推导(从 packed layout 计算 K/N)
Showing
Please register or sign in to comment