Commits · 624eab7c97f97319e23f99726a63077b35dfd319 · OpenDAS / vllm_cscc

23 Apr, 2026 1 commit

[BUGFIX] 修复 Qwen3.5 在新版 transformers 下的配置兼容问题并统一 ROCm unified attention 路由 · 624eab7c

laibao authored Apr 23, 2026

目的：
  修复 Qwen3.5 / Qwen3.5-MoE 在升级 transformers 后的配置解析兼容问题，并优化 ROCm 下 unified attention 的路由策略，避免prefill 和 decode落到不同实现路径上，降低后续排查和行为不一致的成本

624eab7c

22 Apr, 2026 2 commits
- [FEATURE] 为 Qwen3/Qwen3Moe 引入 QKV split + RMSNorm + RoPE 融合路径 · e220b38b
  laibao authored Apr 22, 2026
```
 为 Qwen3 和 Qwen3Moe 增加可选的 fused QKV split + RMSNorm + RoPE 执行路径，
  减少中间张量拆分与重复计算开销，统一相关模型的优化开关控制逻辑。
```
  e220b38b
- [BUGFIX] 为 Marlin MoE 路径新增 silu_and_mul_opt 优先执行及回退机制 · 2dc182c0
  laibao authored Apr 22, 2026
  
  2dc182c0
11 Apr, 2026 1 commit
- [FEATURE] 接入 LightOP 的 silu_and_mul 自定义算子并统一 OPT 路径 · 3842b316
  laibao authored Apr 11, 2026
  
  3842b316
10 Apr, 2026 3 commits
- [PD][Feat]支持pd分离dp并行 · 61ba33d5
  xuxz authored Apr 10, 2026
  
  61ba33d5
- 更新 vllm/model_executor/layers/layernorm.py, vllm/_custom_ops.py · ce47a56e
  yangyn authored Apr 03, 2026
  
  ce47a56e
- fused_add_rms_norm use lightop · 15883da4
  fanwl authored Apr 02, 2026
  
  15883da4
08 Apr, 2026 2 commits
- [FEATURE] DuSwiftConnector support glm5 model PD （attention sparse_attn_indexer layer_name change ） · bcb2ba6c
  xiabo authored Apr 08, 2026
  
  bcb2ba6c
- [BUGFIX] rms_quant融合功能适配DSA · a05d749e
  wujl5 authored Apr 08, 2026
  
  a05d749e
03 Apr, 2026 2 commits
- [BUGFIX] mrope 二维表示情况下，在dcu上kernel无法提前下发 · 456e8c10
  guanyu1 authored Apr 03, 2026
  
  456e8c10
- [BUGFIX] 回退 ROCm FlashAttention unified KV layout 改动并修正 unified kernel 选择逻辑 · b233584a
  laibao authored Apr 03, 2026
  
  b233584a
02 Apr, 2026 2 commits
- 优化VLLM_DISABLE_DSA的设置，加入envs中，默认关，开启可强制关闭dsa · 2888b4e5
  yangql authored Mar 28, 2026
  
  2888b4e5
- [PD][BugFix]修复PD中的spec decoding的kv传输问题 · 9eff7ac1
  xuxz authored Apr 02, 2026
  
  9eff7ac1
01 Apr, 2026 3 commits
- [BUGFIX] 修复 fused MoE modular kernel 路径中 shared_output 和 routed_scaling_factor 透传不完整的问题 · b281794e
  laibao authored Apr 01, 2026
  
  b281794e
- [BugFix] 合入官方pr，修复Qwen3/Qwen3.5 tool calling 不能正确调用工具的bug (github #36774) · be03cbe8
  jujl1 authored Mar 23, 2026
  
  be03cbe8
- [Perf]消除indexer build时隐式同步导致的调度空泡 · 676545b9
  王敏 authored Apr 01, 2026
  
  676545b9
28 Mar, 2026 1 commit
- feat: Support rms+quant fusion in minimax_m2 series model. · 89a8f88b
  wanglong3 authored Mar 28, 2026
  
  89a8f88b
27 Mar, 2026 3 commits
- fix get config assert error · ca158ae9
  flyingdown authored Mar 27, 2026
  
  ca158ae9
- fix(qwen3 moe): 修正 fused RMS RoPE 的 epsilon 参数传递顺序 · dec8b944
  laibao authored Mar 27, 2026
  
  dec8b944
- use tunning w4a16 moe · 6adf9d12
  flyingdown authored Mar 27, 2026
  
  6adf9d12
26 Mar, 2026 6 commits
- refactor(rocm): 提取 unified flash 的 block_size 判定逻辑 · ee989f6d
  laibao authored Mar 26, 2026
  
  ee989f6d
- feat(v1 attention): 为 ROCm FlashAttention 接入 unified kv layout，并打通... · ea9b8584
  laibao authored Mar 23, 2026
```
feat(v1 attention): 为 ROCm FlashAttention 接入 unified kv layout，并打通 mm_prefix、qq_bias 与 use_alibi_sqrt 透传
在 ROCm FlashAttention 后端增加 unified KV layout 选择逻辑
接入 unified varlen kernel 调用路径
在 FlashAttention metadata 中补充 mm_prefix_range 与 qq_bias 透传
```
  ea9b8584
- convert_req_index_to_global_index opt · 71276043
  wanghl6 authored Mar 26, 2026
  
  71276043
- per_token_group_quant_fp8 opt · a0ac95b0
  wanghl6 authored Mar 26, 2026
  
  a0ac95b0
- topk opt · cb68935c
  wanghl6 authored Mar 26, 2026
  
  cb68935c
- The gfx928 architecture force to set VLLM_W8A8_BACKEND == 1 · 707b4891
  wanglong3 authored Mar 26, 2026
  
  707b4891
24 Mar, 2026 6 commits
- 支持kvacache fp8_e4m3/fp8_e5m2 · 442abc67
  xiabo authored Mar 24, 2026
```
支持kvacache fp8_e4m3/fp8_e5m2的RMS_ROPE_CONCAT
```
  442abc67
- 补充1d_mrope · c07d9253
  guanyu1 authored Mar 24, 2026
  
  c07d9253
- fix(moe): 补齐非Marlin量化路径 shared_output/routed_scaling_factor 透传 · 6ef5d322
  laibao authored Mar 24, 2026
  
  6ef5d322
- 处理VLLM_USE_LIGHTOP_MOE_SUM_MUL_ADD导致的awq推理bug问题 · beae085a
  yangql authored Mar 24, 2026
  
  beae085a
- VLLM_ENCODER_CACHE_SIZE控制encoder_cache_size大小 · 2d940766
  guanyu1 authored Mar 24, 2026
  
  2d940766
- 支持kvacache fp8_e4m3/fp8_e5m2 · 0e5a20b3
  xiabo authored Mar 24, 2026
```
支持kvacache fp8_e4m3/fp8_e5m2的RMS_ROPE_CONCAT
```
  0e5a20b3
23 Mar, 2026 1 commit
- 删除1d_mrope · 2799cc7a
  guanyu1 authored Mar 23, 2026
  
  2799cc7a
21 Mar, 2026 6 commits
- 修复get_gcn_arch_name的导入bug · 53889c8b
  yangql authored Mar 21, 2026
  
  53889c8b
- 修复get_gcn_arch_name的导入bug · 7c8db5e7
  yangql authored Mar 21, 2026
  
  7c8db5e7
- 关闭sparse_mla的num_head到64/128的pad，以及添加控制fp8_use_mixed_batch模式的环境变量控制，FP8_USE_MI... · c6a45c08
  yangql authored Mar 21, 2026
```
关闭sparse_mla的num_head到64/128的pad，以及添加控制fp8_use_mixed_batch模式的环境变量控制，FP8_USE_MIXED_BATCH，默认为false，为分离模式
```
  c6a45c08
- feat:flash_mla，q去掉pad · 256749c9
  liuchy5 authored Mar 21, 2026
  
  256749c9
- 增加triton的indexer的kcahche读写操作 · 656944ac
  yangql authored Mar 21, 2026
  
  656944ac
- [perf]DSA架构模型支持mtp>1 · 7eb2446c
  王敏 authored Mar 21, 2026
  
  7eb2446c
20 Mar, 2026 1 commit
- fix(moe): 仅在 fused moe_sum+mul+add 开启时透传 shared_output · 839dc88e
  laibao authored Mar 20, 2026
  
  839dc88e