Commits · aef3c487310cb5103519e25d25098e93f163b2d0 · OpenDAS / vllm_cscc

"vscode:/vscode.git/clone" did not exist on "3d71ab4c37de5f13da905a4b60c127176160537d"

22 Apr, 2026 1 commit
- [Feature]添加PCP功能，只支持mla架构，CPLB待验证 · aef3c487
  wangmin6 authored Apr 22, 2026
  
  aef3c487
10 Apr, 2026 1 commit
- [PD][Feat]支持pd分离dp并行 · 61ba33d5
  xuxz authored Apr 10, 2026
  
  61ba33d5
03 Apr, 2026 1 commit
- [BUGFIX] 回退 ROCm FlashAttention unified KV layout 改动并修正 unified kernel 选择逻辑 · b233584a
  laibao authored Apr 03, 2026
  
  b233584a
02 Apr, 2026 1 commit
- 优化VLLM_DISABLE_DSA的设置，加入envs中，默认关，开启可强制关闭dsa · 2888b4e5
  yangql authored Mar 28, 2026
  
  2888b4e5
26 Mar, 2026 3 commits

feat(v1 attention): 为 ROCm FlashAttention 接入 unified kv layout，并打通... · ea9b8584

laibao authored Mar 23, 2026

feat(v1 attention): 为 ROCm FlashAttention 接入 unified kv layout，并打通 mm_prefix、qq_bias 与 use_alibi_sqrt 透传
在 ROCm FlashAttention 后端增加 unified KV layout 选择逻辑
接入 unified varlen kernel 调用路径
在 FlashAttention metadata 中补充 mm_prefix_range 与 qq_bias 透传

ea9b8584

topk opt · cb68935c
wanghl6 authored Mar 26, 2026

cb68935c
The gfx928 architecture force to set VLLM_W8A8_BACKEND == 1 · 707b4891
wanglong3 authored Mar 26, 2026

707b4891

24 Mar, 2026 2 commits
- 补充1d_mrope · c07d9253
  guanyu1 authored Mar 24, 2026
  
  c07d9253
- VLLM_ENCODER_CACHE_SIZE控制encoder_cache_size大小 · 2d940766
  guanyu1 authored Mar 24, 2026
  
  2d940766
23 Mar, 2026 1 commit
- 删除1d_mrope · 2799cc7a
  guanyu1 authored Mar 23, 2026
  
  2799cc7a
21 Mar, 2026 1 commit
- 关闭sparse_mla的num_head到64/128的pad，以及添加控制fp8_use_mixed_batch模式的环境变量控制，FP8_USE_MI... · c6a45c08
  yangql authored Mar 21, 2026
```
关闭sparse_mla的num_head到64/128的pad，以及添加控制fp8_use_mixed_batch模式的环境变量控制，FP8_USE_MIXED_BATCH，默认为false，为分离模式
```
  c6a45c08
18 Mar, 2026 2 commits

feat(moe): 增加 LightOP moe_sum+mul+add 融合并打通参数透传 · 0639678c

laibao authored Mar 18, 2026

新增环境变量 VLLM_USE_LIGHTOP_MOE_SUM_MUL_ADD 用于控制
fused sum+mul+add 开关。
在 DeepseekV2MoE 中增加 fused 路径，预计算 shared_output，并下传 iqis 与 routed_scaling_factor。
扩展 FusedMoE/SharedFusedMoE 及相关 custom op 接口，统一透传 i_q/i_s/shared_output/routed_scaling_factor。
同步适配 Triton、Marlin W16A16、SlimQuant W4A8、CompressedTensors W8A8 等实现，支持在内核侧完成 sum+mul+add。

0639678c

x接入mla_cat算子仅在nmz和kvcache-fp8情况下生效，默认关闭，开启需要export VLLM_USE_CAT_MLA=1 · 3bff7958
yangql authored Mar 18, 2026

3bff7958

17 Mar, 2026 1 commit
- [perf]默认使用full graph · 81077e8d
  王敏 authored Mar 17, 2026
  
  81077e8d
16 Mar, 2026 3 commits
- [PD]添加VLLM_PP_LAYER_PARTITION_D控制d层切分 · be81eaf6
  xuxz authored Mar 16, 2026
  
  be81eaf6
- [PD][Bugfix]修复0151pd分离d卡住问题 · 0c5e5f88
  xuxz authored Mar 16, 2026
  
  0c5e5f88
- [feat]支持ray分布式异步调度，VLLM_ENABLE_RAY_ASYNC_SCHEDULING环境变量控制 · 55c719cb
  王敏 authored Mar 16, 2026
  
  55c719cb
15 Mar, 2026 1 commit

Add FA Unified Attention 2D · eb35ba1b

fanwl authored Mar 15, 2026

- Add VLLM_V1_USE_FA_UNIFIED_ATTN_2D 环境变量
- 0: Triton attention, 1: FA unified attention

eb35ba1b

12 Mar, 2026 6 commits
- [fix]添加VLLM_USE_LIGHTOP_FUSED_TOPP_TOPK控制lightop topp_topk融合算子开关 · 25a9d4b3
  王敏 authored Mar 12, 2026
  
  25a9d4b3
- feat(deepseek-mla): 接入 VLLM_USE_LIGHTOP_RMS_ROPE_CONCAT 融合链路 · cae53e46
  laibao authored Mar 10, 2026
```
新增环境变量与 MLA 融合接线（wrapper -> attention -> impl） 接入 lightop fused_rms_norm_rope_contiguous，保留回退路径
```
  cae53e46
- moe: 补齐 fill+moe_align 融合开关语义 · 706c031c
  laibao authored Mar 09, 2026
  
  706c031c
- 增加max_cudagraph_capture_size · 1b71f522
  wujl5 authored Mar 12, 2026
  
  1b71f522
- perf: DS v2增加DTBMM融合,默认关闭 · 6ca1362b
  wujl5 authored Mar 12, 2026
  
  6ca1362b
- mrope_1d修改 · ef7e1214
  guanyu1 authored Mar 12, 2026
  
  ef7e1214
09 Mar, 2026 2 commits
- 优化015 fp8 kvscale · 2bbe4385
  zhangshao authored Mar 09, 2026
  
  2bbe4385
- [PD]适配v0.15.1 · 56fef1c3
  xuxz authored Mar 09, 2026
  
  56fef1c3
07 Mar, 2026 1 commit
- feat: support shared expert fusion. · 83c871fb
  wanglong3 authored Mar 07, 2026
  
  83c871fb
06 Mar, 2026 3 commits
- perf:Deepseek v2模型增加rmsQuant和siluMulQuant融合 · 58a36508
  wujl5 authored Mar 06, 2026
  
  58a36508
- [perf]glm4_moe模型适配rmsquant和silu_quant融合算子 · 110bbdd5
  王敏 authored Mar 06, 2026
  
  110bbdd5
- [perf]添加Module支持split qkv+rmsnorm+rope+kvcache融合算子，GLM4_MOE完成适配 · f1a7696f
  王敏 authored Mar 06, 2026
  
  f1a7696f
26 Feb, 2026 1 commit

feat(sampler): 增加 reduced topk+topp 采样快速路径以降低全词表 softmax 开销 · a17c410d

laibao authored Feb 26, 2026

新增 VLLM_V1_USE_REDUCED_TOPK_TOPP_SAMPLER 开关并补充适用场景说明

在 V1 GPU 输入批预计算 max_top_k/has_any_no_top_k，native sampler 满足条件时走 reduced fast path，异常自动回退

a17c410d

24 Feb, 2026 2 commits

feat(moe): 增加 Qwen3 路由 logits 的环境变量可控采集能力 · 9ae319b3

laibao authored Feb 21, 2026

新增 router_capture 工具，用于按 num_tokens/rank 过滤并落盘 MoE router logits
在 Qwen3MoeSparseMoeBlock 中接入采集调用，并在 torch.compile 场景下自动跳过
补充 VLLM_MOE_ROUTER_CAPTURE* 环境变量

9ae319b3

• perf(v1): 增加可选的快速 token-id 拷贝路径 · d3a95d54

laibao authored Feb 20, 2026

  - 新增环境变量 `VLLM_V1_FAST_TOKEN_ID_COPY`（默认关闭）
  - 在 `CachedRequestState` 中缓存 int32 的 prompt token ids（numpy 数组）
  - 开启后在 `InputBatch` 中使用 `np.copyto` 拷贝 prompt/output token ids

d3a95d54

11 Feb, 2026 2 commits

remove unused impl and envs · b5ea93d4
zhuwenwen authored Feb 11, 2026

b5ea93d4

feat(moe): 补齐 v0.15 中 Marlin W16A16 MoE 端到端接入 · 1e2fe58f

laibao authored Feb 11, 2026

参考并移植 011/vllm 的关键提交逻辑
新增 VLLM_USE_MOE_W16A16_TRITON 开关，并接入基于 lightop 的运行时能力探测与启用结果缓存。
在权重加载后对 w13 与 w2 执行 W16A16 Marlin 预打包。
W16A16 Marlin 启用时保留 monolithic 执行路径，并在 fused_experts_impl 中增加 packed 权重 fast-path。
保持 Marlin 或 lightop 不可用时的回退行为不变。

1e2fe58f

10 Feb, 2026 1 commit
- feat: implement FP8 blockwise GEMM with hipblaslt · 8510c10c
  lixh authored Feb 09, 2026
  
  8510c10c
09 Feb, 2026 2 commits
- feat: pp balance · 76ec56bd
  jujl1 authored Feb 06, 2026
  
  76ec56bd
- pd separation uses default scheduling and set VLLM_USE_PD_SPLIT=1 · a4bcf959
  zhuwenwen authored Feb 09, 2026
  
  a4bcf959
06 Feb, 2026 2 commits
- perf(qwen3): 融合 q/k RMSNorm + RoPE · e807ec39
  zhuwenwen authored Feb 06, 2026
```
set fp8_e4m3 only supported on nmz and support q&kvcache fp8
set VLLM_PCIE_USE_CUSTOM_ALLREDUCE=1
```
  e807ec39
- [feat]支持宽松mtp · ce1d4073
  王敏 authored Feb 06, 2026
  
  ce1d4073