Commits · 327fdf18ac3d37331763bfc8ec97a4df5448d821 · OpenDAS / vllm_cscc

"tests/models/decoder_only/language/test_aqlm.py" did not exist on "2b7949c1c2e34de41d9cfc84dd0e377cc6bd58c2"

24 Nov, 2025 1 commit
- feat: pipeline_parallel新增pp域请求数均衡,VLLM_USE_PP_BALANCE控制，默认开启 · f4b01cd4
  jujl1 authored Oct 31, 2025
  
  f4b01cd4
15 Nov, 2025 1 commit
- [feat]1.w8a8 marlin适配deepep低延迟;2.非naive ep模式，去掉多余的dp padding,避免allreduce耗时 · 4a943d35
  王敏 authored Nov 15, 2025
  
  4a943d35
13 Nov, 2025 6 commits

[fix]解决moe_fused_gate编译错误，去掉mla中mtp部分的修改 · b956fc64

zhuwenwen authored Nov 13, 2025

restore the default settings of disable_cascade_attn
add VLLM_USE_OPT_ZEROS to replace triton_ (torch.zeros)
set default_max_num_batched_tokens = 10240
update qwen3_moe of layernorm

b956fc64

Support blaslt w8a8 GEMM op. · 1a9b2fa9
zhuwenwen authored Nov 13, 2025
```
解决w8a8 pp16开启marlin的oom问题
```
1a9b2fa9
add VLLM_USE_PD_SPLIT to split prefill and decode · 97fed613
zhuwenwen authored Nov 13, 2025

97fed613
replace triton_ of rms and act_and_mul · 3912d41c
zhuwenwen authored Nov 13, 2025

3912d41c

feat: 添加输出占位符功能以优化调度 · 613edd7d

zhuwenwen authored Nov 13, 2025

- 在环境变量中引入 `VLLM_SCHED_ENABLE_MINIMAL_INJECTION` 以控制流水线并行调度的最小注入。
- 调整 Scheduler 逻辑以使用新的最小注入功能。
- 更新调度逻辑以利用输出占位符，确保在解码过程中避免 0-token 停滞。
- 增强 Scheduler，根据批次队列状态管理最小进度注入。

613edd7d

[feat]w4a8和w8a8适配deepep低延迟 · 92761bde
王敏 authored Nov 13, 2025

92761bde

10 Nov, 2025 1 commit
- [fix]修复mtp中的笔误 · 91c0a497
  王敏 authored Nov 10, 2025
  
  91c0a497
08 Nov, 2025 1 commit
- [fix]解决开启mtp后，在极端情况碰到显存不足时，导致mla中申请的tensor数据错乱问题 · b6074f33
  王敏 authored Nov 08, 2025
  
  b6074f33
07 Nov, 2025 4 commits
- 请求进入到waitting队列后，增加request.is_finished()判断 · 46d16787
  zhuwenwen authored Nov 07, 2025
  
  46d16787
- the prefix cache interface implemented using fa on kme · 651e756b
  zhuwenwen authored Nov 07, 2025
  
  651e756b
- add contiguous+rmsnorm to replace triton_ · dc54fefe
  zhuwenwen authored Nov 07, 2025
  
  dc54fefe
- feat: w8a8_marlin 接入，通过-q slimquant_marlin开启，优化w4a8_marlin代码 · 944a8aab
  zhuwenwen authored Nov 07, 2025
  
  944a8aab
06 Nov, 2025 2 commits
- [fix]解决同时开启chunked-prefill和并行解码出现的指标统计错误问题 · 9dab474d
  王敏 authored Nov 06, 2025
  
  9dab474d
- [fix]修复开启mtp并且显存不足时发生的超出维度限制问题 · a3e6d682
  王敏 authored Nov 06, 2025
  
  a3e6d682
04 Nov, 2025 1 commit
- fix index · 6b58062d
  zhuwenwen authored Nov 04, 2025
  
  6b58062d
03 Nov, 2025 3 commits
- use apply_rotary_emb_torch for z100l&k100 · a3695a2b
  zhuwenwen authored Nov 03, 2025
  
  a3695a2b
- update moe configs name · 5ca1259e
  zhuwenwen authored Nov 03, 2025
  
  5ca1259e
- [fix]修复mori报错 · 0e35e124
  王敏 authored Nov 03, 2025
  
  0e35e124
01 Nov, 2025 1 commit
- [feat]整合mori和deepep相关代码 · d698d6f2
  王敏 authored Nov 01, 2025
  
  d698d6f2
31 Oct, 2025 1 commit
- fix pp1 rank error · db2c32b0
  zhuwenwen authored Oct 31, 2025
  
  db2c32b0
29 Oct, 2025 3 commits
- 增加pd分离单实例跨机第二个ip通过配置文件获取。配置文件上设置如下： · 832033f2
  zhuwenwen authored Oct 29, 2025
```
# 第一个ip为D的第一个节点，第二个ip为D的第二个节点,配置:export IP_CONFIG_FILE=/data/xiabo/w4a8_1/ip_config.txt
192.168.1.1 192.168.1.100
192.168.1.2 192.168.1.101
192.168.1.3 192.168.1.102
10.16.1.75 10.16.1.76
```
  832033f2
- remove fp8_e5m2 error · 397b9edd
  zhuwenwen authored Oct 29, 2025
  
  397b9edd
- remove redundant envs · c26cfd1a
  zhuwenwen authored Oct 29, 2025
  
  c26cfd1a
28 Oct, 2025 1 commit
- 修复数据集推理时候decode侧卡住 · 7cbb7097
  maxiao1 authored Oct 28, 2025
  
  7cbb7097
27 Oct, 2025 1 commit
- [feat]w4a8适配deepep ht模式，解决开启dp时mtp>1时卡住问题 · 98b7432a
  王敏 authored Oct 27, 2025
  
  98b7432a
24 Oct, 2025 1 commit

add VLLM_USE_LIGHTOP_MOE_SUM_MUL_ADD · c2e6f453

zhuwenwen authored Oct 24, 2025

support prefix cache on kme
fix the error in test_moe caused by moe align not supporting 511 and 211
multi-modal switching to torch implementation on z100l&k100

c2e6f453

20 Oct, 2025 1 commit
- 修复pd分离开启异步发送时decode侧判断条件卡住 · 4d044f5b
  maxiao1 authored Oct 20, 2025
  
  4d044f5b
17 Oct, 2025 3 commits
- Set the default value of routed_scaling_factor to 1 · 4c20b890
  zhuwenwen authored Oct 17, 2025
  
  4c20b890
- fix v0 eager fa-pa acc error · 2c16c7a4
  zhuwenwen authored Oct 17, 2025
  
  2c16c7a4
- 支持pd分离p2p_async & 解决oom问题 · 6ca3d790
  zhuwenwen authored Oct 17, 2025
  
  6ca3d790
15 Oct, 2025 7 commits
- 修复awq 的mtp中的blockint8的问题 · 0cc9bc74
  yangql authored Oct 15, 2025
  
  0cc9bc74
- update deepseek_v2.py · 4b3e2d5e
  zhuwenwen authored Oct 15, 2025
  
  4b3e2d5e
- update deepseek_v2.py · 4ae3fc04
  zhuwenwen authored Oct 15, 2025
  
  4ae3fc04
- 删除DPSK_FP16_QUICK，以及增加awq和blockwiseint8的shared_output接口 · 50cb9270
  yangql authored Oct 15, 2025
  
  50cb9270
- set VLLM_USE_OPT_MOE_SUM=1 and VLLM_USE_LIGHTOP_MOE_SUM=1 · 15ef12c1
  zhuwenwen authored Oct 15, 2025
  
  15ef12c1
- 删除DPSK_FP16_QUICK，以及增加awq和blockwiseint8的shared_output接口 · 7f459b46
  yangql authored Oct 15, 2025
  
  7f459b46
- support --no-enable-chunked-prefill of v1 · 2c4b2c80
  zhuwenwen authored Oct 15, 2025
  
  2c4b2c80
14 Oct, 2025 1 commit
- remove redundant maybe_calc_kv_scales · c3b8a0ae
  zhuwenwen authored Oct 14, 2025
  
  c3b8a0ae