Commits · 46b9d30f797503db3196420d28ae87f5752e888e · OpenDAS / vllm_cscc

08 Jan, 2026 4 commits
- Merge branch 'v0.11.0-dev' of http://10.16.6.30/dcutoolkit/deeplearing/vllm into v0.11.0-dev · 46b9d30f
  zhuwenwen authored Jan 08, 2026
  
  46b9d30f
- 解决custom allreduce在dp情况下的其服务错误问题 · ef5ebdbf
  zhuwenwen authored Jan 08, 2026
  
  ef5ebdbf
- Merge branch 'v0.11.0-dev_tc_opt' into 'v0.11.0-dev' · 77bec956
  zhuwenwen authored Jan 08, 2026
```
V1 采样器：新增 reduced top-k/top-p 采样路径

See merge request dcutoolkit/deeplearing/vllm!350
```
  77bec956
- V1 采样器：新增 reduced top-k/top-p 采样路径 · 17f59521
  laibao authored Jan 08, 2026
  
  17f59521
07 Jan, 2026 8 commits

Merge branch 'v0.11.0-dev_tc_opt' into 'v0.11.0-dev' · 1c04646a

zhuwenwen authored Jan 07, 2026

perf(fused-moe): 接入 W16A16 Marlin MoE 并缓存 pack 权重

See merge request dcutoolkit/deeplearing/vllm!347

1c04646a

perf(fused-moe): 接入 W16A16 Marlin MoE 并缓存 pack 权重 · 2b0c9835

laibao authored Jan 07, 2026

 - fused_experts_impl 增加 VLLM_USE_MARLIN_W16A16_MOE fast path：首次对 w1/w2 做 Marlin pack 后缓存，避免重复 reorder；并将原始
    权重 offload 到 CPU，降低 GPU 双份驻留
  - envs 补齐环境变量 VLLM_USE_LIGHTOP_MOE_SUM_MUL_ADD
  - 更新 fuse_moe_w16a16_marlin.py 的报错提示为 VLLM_USE_LIGHTOP=1

2b0c9835

Merge branch 'v0.11.0-dev' of http://10.16.6.30/dcutoolkit/deeplearing/vllm into v0.11.0-dev · 5e19613e
zhuwenwen authored Jan 07, 2026

5e19613e
update indexer_k_cache_kernel · 51f194f2
zhuwenwen authored Jan 07, 2026

51f194f2

Merge branch 'v0.11.0-dev_tc_opt' into 'v0.11.0-dev' · b12cca5e

zhuwenwen authored Jan 07, 2026

perf: 加速 v1 InputBatch.add_request 的 token_ids 拷贝

See merge request dcutoolkit/deeplearing/vllm!346

b12cca5e

remove USE_FUSED_RMS_QUANT and USE_FUSED_SILU_MUL_QUANT · c2ef7fdd
zhuwenwen authored Jan 07, 2026

c2ef7fdd

perf: 加速 v1 InputBatch.add_request 的 token_ids 拷贝 · 8da572a9

laibao authored Jan 07, 2026

新增环境变量开关 VLLM_V1_FAST_TOKEN_ID_COPY（默认关闭）。开启后在 CachedRequestState 中缓存 prompt_token_ids 的 np.int32，并在 add_request 里用 np.copyto 写入 token_ids_cpu，避免长 prompt 场景反复 list->NumPy 转换开销（尤其是抢占/反复进出 batch 时）

8da572a9

skip indexer_k_cache · 383f2ce8
zhuwenwen authored Jan 07, 2026

383f2ce8

06 Jan, 2026 4 commits
- add bw gpt-oss-20b-BF16 tp1&2 moe (nn) configs · 65f79b5a
  zhuwenwen authored Jan 06, 2026
  
  65f79b5a
- [gpt-oss-120b] MoE configs for BW1000 TP=8 · 8a72bd23
  zhuwenwen authored Jan 06, 2026
  
  8a72bd23
- update indexer_k_cache · d068b568
  zhuwenwen authored Jan 06, 2026
  
  d068b568
- 适配glm4_1v量化模型 · e03b1b33
  zhuwenwen authored Jan 06, 2026
  
  e03b1b33
05 Jan, 2026 13 commits
- update indexer_k_cache_kernel · fea96436
  zhuwenwen authored Jan 05, 2026
  
  fea96436
- add bw gpt-oss-20b-BF16 tp1&2 moe (tn) configs · 1af252cb
  zhuwenwen authored Jan 05, 2026
```
add indexer_k_cache_kernel
```
  1af252cb
- add moe configs · 90d4a822
  zhuwenwen authored Jan 05, 2026
  
  90d4a822
- Merge branch 'v0.11.0-dev' of http://10.16.6.30/dcutoolkit/deeplearing/vllm into v0.11.0-dev · 64a2aa19
  zhuwenwen authored Jan 05, 2026
  
  64a2aa19
- update DeepseekV32IndexerCache · 2cbda743
  zhuwenwen authored Jan 05, 2026
  
  2cbda743
- Merge branch 'v0.11.0-dev-ds' into 'v0.11.0-dev' · 36c58b10
  zhuwenwen authored Jan 05, 2026
```
fix: 修复deepseek量化模型的若干问题

See merge request dcutoolkit/deeplearing/vllm!338
```
  36c58b10
- fix: 修复deepseek量化模型的若干问题 · d10b80ce
  jujl1 authored Jan 05, 2026
  
  d10b80ce
- update sparse_attn_indexer · 734f52d8
  zhuwenwen authored Jan 05, 2026
  
  734f52d8
- update mqa_logits and paged_mqa_logits · f441aca2
  zhuwenwen authored Jan 05, 2026
  
  f441aca2
- add sinks of vllm_flash_attn_varlen_func · cc7715fd
  zhuwenwen authored Jan 05, 2026
  
  cc7715fd
- support sinks · 965934b8
  zhuwenwen authored Jan 05, 2026
  
  965934b8
- update _forward_encoder_attention interface · 8b1077ba
  zhuwenwen authored Jan 05, 2026
  
  8b1077ba
- Merge branch 'v0.11.0-dev-qwen3moe-rms-mrope-fuse' into 'v0.11.0-dev' · 98f111f9
  zhuwenwen authored Jan 05, 2026
```
[feat] 支持 mRoPE 的 fused RMSNorm+RoPE 路径，并修正 torch.compile 动态维度标注

See merge request dcutoolkit/deeplearing/vllm!334
```
  98f111f9
04 Jan, 2026 1 commit

[feat] 支持 mRoPE 的 fused RMSNorm+RoPE 路径，并修正 torch.compile 动态维度标注 · e08422ae

laibao authored Jan 04, 2026

实现了用于优化张量计算的 rms_mrope_fuse 和 rms_mrope_fuse_fake 方法
更新了 forward：在满足条件时走新的 M-RoPE 融合路径
增强了 Qwen3MoeModel 对动态参数维度的支持，以适配该功能

e08422ae

24 Dec, 2025 6 commits
- Merge branch 'v0.11.0-dev-yql-12.24' into 'v0.11.0-dev' · ca4598a4
  zhuwenwen authored Dec 24, 2025
```
在v0.11中暂不支持w4a16的moe算子scale和zero合并操作

See merge request dcutoolkit/deeplearing/vllm!318
```
  ca4598a4
- 在v0.11中暂不支持awq的scale和zero合并操作 · 0ba1219a
  yangql authored Dec 24, 2025
  
  0ba1219a
- [Perf] Change default CUDAGraphMode from FULL_AND_PIECEWISE to PIECEWISE · 9ff617d7
  zhuwenwen authored Dec 24, 2025
  
  9ff617d7
- Merge branch 'v-0.11.0-pa' into 'v0.11.0-dev' · fd8764b3
  zhuwenwen authored Dec 24, 2025
```
[PD][Feat]支持fa_pa kvcahe类型模型推理

See merge request dcutoolkit/deeplearing/vllm!317
```
  fd8764b3
- update flash_mla_with_kvcache · fd8e4a76
  zhuwenwen authored Dec 24, 2025
```
set VLLM_USE_PIECEWISE=0
```
  fd8e4a76
- [PD][Feat]支持fa_pa kvcahe类型模型推理 · 2241085d
  Your Name authored Dec 24, 2025
  
  2241085d
23 Dec, 2025 2 commits
- Merge branch 'v0.11.0-dev-12.23-yql' into 'v0.11.0-dev' · 1871c26c
  zhuwenwen authored Dec 23, 2025
```
适配gptq/awq的triton moe算子

See merge request dcutoolkit/deeplearing/vllm!313
```
  1871c26c
- 适配gptq/awq的triton moe算子 · 25e8b412
  yangql authored Dec 23, 2025
  
  25e8b412
22 Dec, 2025 2 commits
- fix weights_not_loaded · 10349d37
  zhuwenwen authored Dec 22, 2025
  
  10349d37
- update deepgemm interface · bcd4dc84
  zhuwenwen authored Dec 22, 2025
  
  bcd4dc84