-
zhuwenwen authored
fuse_moe_fp8接入marlin算子 fix(v1):修复抢占恢复时 BlockTable 溢出 feat(moe):新增 VLLM_USE_MOE_W16A16_TRTION 强制 Triton MoE fix: 解决原版0消耗chunk-prefill崩溃问题 fp8增加fused_moe_gate参数
ffd123f6
fuse_moe_fp8接入marlin算子 fix(v1):修复抢占恢复时 BlockTable 溢出 feat(moe):新增 VLLM_USE_MOE_W16A16_TRTION 强制 Triton MoE fix: 解决原版0消耗chunk-prefill崩溃问题 fp8增加fused_moe_gate参数