Commits · cea85c3806cca8ccb85eda9df4e8fefeb7c4a9cf · OpenDAS / vllm_cscc

16 Jan, 2026 3 commits
- set VLLM_USE_FUSED_RMS_ROPE=1 · 6d8c8719
  zhuwenwen authored Jan 16, 2026
  
  6d8c8719
- 1、pcie 解决custom cudagraph模式需要拷贝的问题，这个需要配合dtk进行使用。 · 7bc904d7
  xiabo authored Jan 16, 2026
```
   vllm：export VLLM_CUSTOM_CACHE=1
   dtk：export HIP_KERNEL_EVENT_SYSTENFENCE=1
2、kvcache支持fp8
```
  7bc904d7
- add SUPPORT_MOE_MARLIN_W16A16 to use moe marlin on bw · ad60a973
  zhuwenwen authored Jan 16, 2026
  
  ad60a973
15 Jan, 2026 2 commits
- remove unused · f4cef40c
  zhuwenwen authored Jan 15, 2026
  
  f4cef40c
- support fa kvcache fp8 · c8bd8db7
  zhuwenwen authored Jan 15, 2026
```
todo: add VLLM_USE_QUERY_QUANT to not use q quant
```
  c8bd8db7
14 Jan, 2026 4 commits
- fix return of schedule · 3dd7fd64
  zhuwenwen authored Jan 14, 2026
  
  3dd7fd64
- fix tests of kernels · 0e607f8e
  zhuwenwen authored Jan 14, 2026
```
set VLLM_USE_PD_SPLIT=1
update moe_align_block_size
```
  0e607f8e
- 适配block-wise fp8接口 · 284b2450
  SAC_fanth authored Jan 14, 2026
  
  284b2450
- Switch default w8a8 gemm impl to blaslt. · 80e71eb8
  wanglong3 authored Jan 14, 2026
  
  80e71eb8
12 Jan, 2026 1 commit
- 处理test_concat的ds_cat的导入bug · 184fb9e4
  yangql authored Jan 12, 2026
  
  184fb9e4
10 Jan, 2026 6 commits
- perf(fused-moe): 预打包 Marlin W16A16 MoE 权重，降低 warmup 显存峰值 · 402c8b1e
  laibao authored Jan 10, 2026
```
在 post-load hook 中对 w13/w2 做 per-expert Marlin pack，并替换为 packed 参数
Marlin fast path 仅接受 packed 权重；未预打包则 fail fast，避免运行时 packing 峰值/不确定性
更新 Marlin wrapper 的入参与 shape 推导（从 packed layout 计算 K/N）
```
  402c8b1e
- fix _forward_encoder_attention · b949b805
  zhuwenwen authored Jan 10, 2026
  
  b949b805
- 解决custom cudagraph模式需要拷贝的问题，需要配合dtk进行使用。 · b93c3473
  zhuwenwen authored Jan 10, 2026
```
区分pcie和hglink custom allreduce的使用
vllm：export VLLM_CUSTOM_CACHE=1
dtk：export HIP_KERNEL_EVENT_SYSTENFENCE=1
```
  b93c3473
- remove attn_masks · 58de8cd6
  zhuwenwen authored Jan 10, 2026
  
  58de8cd6
- remove medusa tree decoding · 99f4d1c2
  zhuwenwen authored Jan 10, 2026
  
  99f4d1c2
- remove pa · 29a9e952
  zhuwenwen authored Jan 10, 2026
  
  29a9e952
09 Jan, 2026 4 commits
- update on_gfx9 · 941c2260
  zhuwenwen authored Jan 09, 2026
  
  941c2260
- update SUPPORT_TC · d4cc442a
  zhuwenwen authored Jan 09, 2026
  
  d4cc442a
- set VLLM_PCIE_USE_CUSTOM_ALLREDUCE=1 · f1481fe0
  zhuwenwen authored Jan 09, 2026
  
  f1481fe0
- [Bugfix] Fixing trying to import non-existent symbols from libnccl.so · 227dd87c
  Your Name authored Jan 09, 2026
  
  227dd87c
08 Jan, 2026 2 commits
- 解决custom allreduce在dp情况下的其服务错误问题 · ef5ebdbf
  zhuwenwen authored Jan 08, 2026
  
  ef5ebdbf
- V1 采样器：新增 reduced top-k/top-p 采样路径 · 17f59521
  laibao authored Jan 08, 2026
  
  17f59521
07 Jan, 2026 4 commits

perf(fused-moe): 接入 W16A16 Marlin MoE 并缓存 pack 权重 · 2b0c9835

laibao authored Jan 07, 2026

 - fused_experts_impl 增加 VLLM_USE_MARLIN_W16A16_MOE fast path：首次对 w1/w2 做 Marlin pack 后缓存，避免重复 reorder；并将原始
    权重 offload 到 CPU，降低 GPU 双份驻留
  - envs 补齐环境变量 VLLM_USE_LIGHTOP_MOE_SUM_MUL_ADD
  - 更新 fuse_moe_w16a16_marlin.py 的报错提示为 VLLM_USE_LIGHTOP=1

2b0c9835

remove USE_FUSED_RMS_QUANT and USE_FUSED_SILU_MUL_QUANT · c2ef7fdd
zhuwenwen authored Jan 07, 2026

c2ef7fdd

perf: 加速 v1 InputBatch.add_request 的 token_ids 拷贝 · 8da572a9

laibao authored Jan 07, 2026

新增环境变量开关 VLLM_V1_FAST_TOKEN_ID_COPY（默认关闭）。开启后在 CachedRequestState 中缓存 prompt_token_ids 的 np.int32，并在 add_request 里用 np.copyto 写入 token_ids_cpu，避免长 prompt 场景反复 list->NumPy 转换开销（尤其是抢占/反复进出 batch 时）

8da572a9

skip indexer_k_cache · 383f2ce8
zhuwenwen authored Jan 07, 2026

383f2ce8

06 Jan, 2026 3 commits
- add bw gpt-oss-20b-BF16 tp1&2 moe (nn) configs · 65f79b5a
  zhuwenwen authored Jan 06, 2026
  
  65f79b5a
- [gpt-oss-120b] MoE configs for BW1000 TP=8 · 8a72bd23
  zhuwenwen authored Jan 06, 2026
  
  8a72bd23
- 适配glm4_1v量化模型 · e03b1b33
  zhuwenwen authored Jan 06, 2026
  
  e03b1b33
05 Jan, 2026 9 commits
- add bw gpt-oss-20b-BF16 tp1&2 moe (tn) configs · 1af252cb
  zhuwenwen authored Jan 05, 2026
```
add indexer_k_cache_kernel
```
  1af252cb
- add moe configs · 90d4a822
  zhuwenwen authored Jan 05, 2026
  
  90d4a822
- update DeepseekV32IndexerCache · 2cbda743
  zhuwenwen authored Jan 05, 2026
  
  2cbda743
- fix: 修复deepseek量化模型的若干问题 · d10b80ce
  jujl1 authored Jan 05, 2026
  
  d10b80ce
- update sparse_attn_indexer · 734f52d8
  zhuwenwen authored Jan 05, 2026
  
  734f52d8
- update mqa_logits and paged_mqa_logits · f441aca2
  zhuwenwen authored Jan 05, 2026
  
  f441aca2
- add sinks of vllm_flash_attn_varlen_func · cc7715fd
  zhuwenwen authored Jan 05, 2026
  
  cc7715fd
- support sinks · 965934b8
  zhuwenwen authored Jan 05, 2026
  
  965934b8
- update _forward_encoder_attention interface · 8b1077ba
  zhuwenwen authored Jan 05, 2026
  
  8b1077ba
04 Jan, 2026 1 commit

[feat] 支持 mRoPE 的 fused RMSNorm+RoPE 路径，并修正 torch.compile 动态维度标注 · e08422ae

laibao authored Jan 04, 2026

实现了用于优化张量计算的 rms_mrope_fuse 和 rms_mrope_fuse_fake 方法
更新了 forward：在满足条件时走新的 M-RoPE 融合路径
增强了 Qwen3MoeModel 对动态参数维度的支持，以适配该功能

e08422ae

24 Dec, 2025 1 commit
- 在v0.11中暂不支持awq的scale和zero合并操作 · 0ba1219a
  yangql authored Dec 24, 2025
  
  0ba1219a