• zhuwenwen's avatar
    fix: 修复pp资源抢占bug,修复重复判断逻辑 · ffd123f6
    zhuwenwen authored
    fuse_moe_fp8接入marlin算子
    fix(v1):修复抢占恢复时 BlockTable 溢出
    feat(moe):新增 VLLM_USE_MOE_W16A16_TRTION 强制 Triton MoE
    fix: 解决原版0消耗chunk-prefill崩溃问题
    fp8增加fused_moe_gate参数
    ffd123f6
gpu_model_runner.py 170 KB