"vllm/v1/attention/backend.py" did not exist on "e6750d0b18e07631bb2ea7f256f7dd444d4936fa"
  • laibao's avatar
    feat(moe): 补齐 v0.15 中 Marlin W16A16 MoE 端到端接入 · 1e2fe58f
    laibao authored
      参考并移植 011/vllm 的关键提交逻辑
      新增 VLLM_USE_MOE_W16A16_TRITON 开关,并接入基于 lightop 的运行时能力探测与启用结果缓存。
      在权重加载后对 w13 与 w2 执行 W16A16 Marlin 预打包。
      W16A16 Marlin 启用时保留 monolithic 执行路径,并在 fused_experts_impl 中增加 packed 权重 fast-path。
      保持 Marlin 或 lightop 不可用时的回退行为不变。
    1e2fe58f
envs.py 89 KB