Commits · 6adf9d12cd5bd58fa456892f9caa4a8a081bcb2d · OpenDAS / vllm_cscc

27 Mar, 2026 1 commit
- use tunning w4a16 moe · 6adf9d12
  flyingdown authored Mar 27, 2026
  
  6adf9d12
26 Mar, 2026 9 commits
- Merge branch 'v0.15.1-dev_lightop_moe_sum_mul_add' into 'v0.15.1-dev' · 54e03934
  wangmin6 authored Mar 26, 2026
```
feat(v1 attention): 为 ROCm FlashAttention 接入 unified kv layout，并打通 mm_prefix、qq_bias 与 use_alibi_sqrt 透传

See merge request dcutoolkit/deeplearing/vllm!526
```
  54e03934
- refactor(rocm): 提取 unified flash 的 block_size 判定逻辑 · ee989f6d
  laibao authored Mar 26, 2026
  
  ee989f6d
- feat(v1 attention): 为 ROCm FlashAttention 接入 unified kv layout，并打通... · ea9b8584
  laibao authored Mar 23, 2026
```
feat(v1 attention): 为 ROCm FlashAttention 接入 unified kv layout，并打通 mm_prefix、qq_bias 与 use_alibi_sqrt 透传
在 ROCm FlashAttention 后端增加 unified KV layout 选择逻辑
接入 unified varlen kernel 调用路径
在 FlashAttention metadata 中补充 mm_prefix_range 与 qq_bias 透传
```
  ea9b8584
- Merge branch 'wanglong3-v0.15.1-dev-patch-50277' into 'v0.15.1-dev' · b81573da
  wangmin6 authored Mar 26, 2026
```
The gfx928 architecture force to set VLLM_W8A8_BACKEND == 1

See merge request dcutoolkit/deeplearing/vllm!533
```
  b81573da
- Merge branch 'wanghl_glm5_kernel_opt' into 'v0.15.1-dev' · 714c12da
  wangmin6 authored Mar 26, 2026
```
glm5 融合算子优化

See merge request dcutoolkit/deeplearing/vllm!534
```
  714c12da
- convert_req_index_to_global_index opt · 71276043
  wanghl6 authored Mar 26, 2026
  
  71276043
- per_token_group_quant_fp8 opt · a0ac95b0
  wanghl6 authored Mar 26, 2026
  
  a0ac95b0
- topk opt · cb68935c
  wanghl6 authored Mar 26, 2026
  
  cb68935c
- The gfx928 architecture force to set VLLM_W8A8_BACKEND == 1 · 707b4891
  wanglong3 authored Mar 26, 2026
  
  707b4891
25 Mar, 2026 3 commits

Merge branch 'v0.15.1-dev-kvfp8-fuse' into 'v0.15.1-dev' · 0bd5fcd2
wangmin6 authored Mar 25, 2026
```
支持kvacache fp8_e4m3的RMS_ROPE_CONCAT

See merge request dcutoolkit/deeplearing/vllm!531
```
0bd5fcd2

Merge branch 'v0.15.1-dev-yql-3.24' into 'v0.15.1-dev' · c3d75cdf

wangmin6 authored Mar 25, 2026

处理VLLM_USE_LIGHTOP_MOE_SUM_MUL_ADD导致的awq推理bug问题

See merge request dcutoolkit/deeplearing/vllm!528

c3d75cdf

Merge branch 'v0.15.1_mul_add' into 'v0.15.1-dev' · f28b6574

wangmin6 authored Mar 25, 2026

fix(moe): 补齐非Marlin量化路径 shared_output/routed_scaling_factor 透传

See merge request dcutoolkit/deeplearing/vllm!529

f28b6574

24 Mar, 2026 7 commits
- 支持kvacache fp8_e4m3/fp8_e5m2 · 442abc67
  xiabo authored Mar 24, 2026
```
支持kvacache fp8_e4m3/fp8_e5m2的RMS_ROPE_CONCAT
```
  442abc67
- Merge branch 'gy_v015-1dmrope' into 'v0.15.1-dev' · 9dc40d38
  wangmin6 authored Mar 24, 2026
```
Gy v015 1dmrope

See merge request dcutoolkit/deeplearing/vllm!530
```
  9dc40d38
- 补充1d_mrope · c07d9253
  guanyu1 authored Mar 24, 2026
  
  c07d9253
- fix(moe): 补齐非Marlin量化路径 shared_output/routed_scaling_factor 透传 · 6ef5d322
  laibao authored Mar 24, 2026
  
  6ef5d322
- 处理VLLM_USE_LIGHTOP_MOE_SUM_MUL_ADD导致的awq推理bug问题 · beae085a
  yangql authored Mar 24, 2026
  
  beae085a
- VLLM_ENCODER_CACHE_SIZE控制encoder_cache_size大小 · 2d940766
  guanyu1 authored Mar 24, 2026
  
  2d940766
- 支持kvacache fp8_e4m3/fp8_e5m2 · 0e5a20b3
  xiabo authored Mar 24, 2026
```
支持kvacache fp8_e4m3/fp8_e5m2的RMS_ROPE_CONCAT
```
  0e5a20b3
23 Mar, 2026 4 commits

Merge branch 'gy_151-delet_1dmrope' into 'v0.15.1-dev' · 06185134
wangmin6 authored Mar 23, 2026
```
删除1d_mrope

See merge request dcutoolkit/deeplearing/vllm!525
```
06185134
删除1d_mrope · 2799cc7a
guanyu1 authored Mar 23, 2026

2799cc7a

Merge branch 'v0.15.1-dev_3.21_yql' into 'v0.15.1-dev' · 34d497a1

wangmin6 authored Mar 23, 2026

关闭sparse_mla的num_head到64/128的pad，以及添加控制fp8_use_mixed_batch模式的环境变量控制，FP8_USE_MI...

See merge request dcutoolkit/deeplearing/vllm!524

34d497a1

Merge branch 'v0.15.1-dev' into 'v0.15.1-dev_3.21_yql' · ed5b3425

yangql authored Mar 23, 2026

# Conflicts:
#   vllm/model_executor/layers/sparse_attn_indexer.py
#   vllm/v1/attention/backends/mla/flashmla_sparse.py

ed5b3425

21 Mar, 2026 8 commits
- Merge branch 'v0.15.1-flash_mla_nopad' into 'v0.15.1-dev' · 31be48ea
  wangmin6 authored Mar 21, 2026
```
feat:flash_mla，q去掉pad

See merge request dcutoolkit/deeplearing/vllm!522
```
  31be48ea
- 修复get_gcn_arch_name的导入bug · 53889c8b
  yangql authored Mar 21, 2026
  
  53889c8b
- 修复get_gcn_arch_name的导入bug · 7c8db5e7
  yangql authored Mar 21, 2026
  
  7c8db5e7
- 关闭sparse_mla的num_head到64/128的pad，以及添加控制fp8_use_mixed_batch模式的环境变量控制，FP8_USE_MI... · c6a45c08
  yangql authored Mar 21, 2026
```
关闭sparse_mla的num_head到64/128的pad，以及添加控制fp8_use_mixed_batch模式的环境变量控制，FP8_USE_MIXED_BATCH，默认为false，为分离模式
```
  c6a45c08
- feat:flash_mla，q去掉pad · 256749c9
  liuchy5 authored Mar 21, 2026
  
  256749c9
- Merge branch 'v0.15.1-dev-wm' into 'v0.15.1-dev' · adbd3d7b
  wangmin6 authored Mar 21, 2026
```
[perf]DSA架构模型支持mtp>1

See merge request dcutoolkit/deeplearing/vllm!521
```
  adbd3d7b
- 增加triton的indexer的kcahche读写操作 · 656944ac
  yangql authored Mar 21, 2026
  
  656944ac
- [perf]DSA架构模型支持mtp>1 · 7eb2446c
  王敏 authored Mar 21, 2026
  
  7eb2446c
20 Mar, 2026 2 commits
- Merge branch 'v0.15.1-dev_lightop_moe_sum_mul_add' into 'v0.15.1-dev' · 12b5bcb1
  wangmin6 authored Mar 20, 2026
```
fix(moe): 仅在 fused moe_sum+mul+add 开启时透传 shared_output

See merge request dcutoolkit/deeplearing/vllm!520
```
  12b5bcb1
- fix(moe): 仅在 fused moe_sum+mul+add 开启时透传 shared_output · 839dc88e
  laibao authored Mar 20, 2026
  
  839dc88e
19 Mar, 2026 5 commits

Merge branch 'v0.15.1-dev-wm' into 'v0.15.1-dev' · 84b9fe55
wangmin6 authored Mar 19, 2026
```
[fix]修复GLM mtp精度问题

See merge request dcutoolkit/deeplearing/vllm!518
```
84b9fe55
[fix]修复GLM mtp精度问题 · 44d4976d
王敏 authored Mar 19, 2026

44d4976d
Merge branch 'gy-015-qwen3py-fused_mrope' into 'v0.15.1-dev' · dfb597c8
wangmin6 authored Mar 19, 2026
```
qwen3.py合入fused_morpe

See merge request dcutoolkit/deeplearing/vllm!516
```
dfb597c8

Merge branch 'v0.15.1-dev_lightop_moe_sum_mul_add' into 'v0.15.1-dev' · fca0956a

wangmin6 authored Mar 19, 2026

feat(moe): 修复 shared_output 透传被覆盖并兼容 torch.compile 启动路径

See merge request dcutoolkit/deeplearing/vllm!517

fca0956a

feat(moe): 修复 shared_output 透传被覆盖并兼容 torch.compile 启动路径 · eb933fe1

laibao authored Mar 19, 2026

移除 forward 中对 experts.use_overlapped/_shared_experts 的状态改写，避免 torch.compile 启动期 shared/non-shared 路径不一致
FusedMoE.forward_impl 仅在 shared_output 为空时计算 shared experts，防止透传值被本地重算覆盖

eb933fe1

18 Mar, 2026 1 commit
- 修改VLLM_USE_FUSED_RMS_ROPE的不同路径 · ef79626d
  guanyu1 authored Mar 18, 2026
  
  ef79626d