Commits · 8cbcac5dc5abcd2963049ea020fa1951ed34429c · OpenDAS / vllm_cscc

16 Jan, 2026 3 commits

set VLLM_USE_MARLIN_W16A16_MOE=0 on bw · 8cbcac5d
zhuwenwen authored Jan 16, 2026

8cbcac5d

解决custom cudagraph模式需要拷贝的问题，需要配合dtk进行使用。 · f1bc9890

zhuwenwen authored Jan 16, 2026

区分pcie和hglink custom allreduce的使用
vllm：export VLLM_CUSTOM_CACHE=1
dtk：export HIP_KERNEL_EVENT_SYSTENFENCE=1

set VLLM_USE_FUSED_RMS_ROPE=1
add SUPPORT_MOE_MARLIN_W16A16 to use moe marlin on bw
support fa kvcache fp8 (todo: add VLLM_USE_QUERY_QUANT to not use q quant)
update moe_align_block_size

f1bc9890

Switch default w8a8 gemm impl to blaslt. · f06d1125
zhuwenwen authored Jan 16, 2026
```
fix _forward_encoder_attention
remove medusa
set VLLM_PCIE_USE_CUSTOM_ALLREDUCE=1
```
f06d1125

09 Jan, 2026 1 commit
- [Bugfix] Fixing trying to import non-existent symbols from libnccl.so · 7f558594
  zhuwenwen authored Jan 09, 2026
  
  7f558594
08 Jan, 2026 2 commits
- remove rms_norm_opt and fused_add_rms_norm_opt · 4457d4f5
  zhuwenwen authored Jan 08, 2026
  
  4457d4f5
- 解决custom allreduce在dp情况下的其服务错误问题 · cbff8d34
  zhuwenwen authored Jan 08, 2026
  
  cbff8d34
07 Jan, 2026 7 commits
- remove SPLIT_K · 47067fcc
  zhuwenwen authored Jan 07, 2026
  
  47067fcc
- fix weights_not_loaded · a1eba087
  zhuwenwen authored Jan 07, 2026
  
  a1eba087
- update weights_not_loaded · e74c54bc
  zhuwenwen authored Jan 07, 2026
  
  e74c54bc
- remove lm_faster_rmsquant · d82ded56
  zhuwenwen authored Jan 07, 2026
  
  d82ded56
- remove USE_FUSED_RMS_QUANT · 8cfec41a
  zhuwenwen authored Jan 07, 2026
  
  8cfec41a
- remove USE_FUSED_RMS_QUANT and USE_FUSED_SILU_MUL_QUANT · 60b37c6b
  zhuwenwen authored Jan 07, 2026
  
  60b37c6b
- skip indexer_k_cache · c964b9ad
  zhuwenwen authored Jan 07, 2026
  
  c964b9ad
06 Jan, 2026 18 commits
- remove qiyuan-8b-v2 and FM9GForCausalLM · ac4f685b
  zhuwenwen authored Jan 06, 2026
  
  ac4f685b
- update lightop import · 05e8b083
  zhuwenwen authored Jan 06, 2026
  
  05e8b083
- update indexer_k_cache_kernel · afa769a6
  zhuwenwen authored Jan 06, 2026
  
  afa769a6
- [gpt-oss-20b] MoE configs for BW1000 TP=1&2 · a45673d2
  zhuwenwen authored Jan 06, 2026
```
[gpt-oss-120b] MoE configs for BW1000 TP=8
```
  a45673d2
- [feat] 支持 mRoPE 的 fused RMSNorm+RoPE 路径，并修正 torch.compile 动态维度标注 · 874d2aaa
  zhuwenwen authored Jan 06, 2026
```
实现了用于优化张量计算的 rms_mrope_fuse 和 rms_mrope_fuse_fake 方法
更新了 forward：在满足条件时走新的 M-RoPE 融合路径
增强了 Qwen3MoeModel 对动态参数维度的支持，以适配该功能
```
  874d2aaa
- 暂不支持awq的scale和zero合并操作 · 2907adfa
  zhuwenwen authored Jan 06, 2026
  
  2907adfa
- [Perf] Change default CUDAGraphMode from FULL_AND_PIECEWISE to PIECEWISE · d3fa2342
  zhuwenwen authored Jan 06, 2026
  
  d3fa2342
- [PD][Feat]支持fa_pa kvcahe类型模型推理 · 55989b60
  zhuwenwen authored Jan 06, 2026
  
  55989b60
- fix weights_not_loaded · 451af742
  zhuwenwen authored Jan 06, 2026
```
update weights_not_loaded and flash_mla_with_kvcache
update paged_mqa_logits
```
  451af742
- [Fix] nccl暂不支持ncclCommWindowDeregister接口，引入nccl.so时报错问题解决 · aa05dfd5
  zhuwenwen authored Jan 06, 2026
  
  aa05dfd5
- 解决gptq的不能开启graph的问题 · 56983e67
  zhuwenwen authored Jan 06, 2026
  
  56983e67
- fix: 修复deepseek量化模型的若干问题 · e4bff95c
  zhuwenwen authored Jan 06, 2026
  
  e4bff95c
- add moe configs · b8d1aec3
  zhuwenwen authored Jan 06, 2026
  
  b8d1aec3
- [Qwen3-480B] MoE configs for BW1000 TP=8(nn) & 16(nn) & 32(tn) · d8a13c8d
  zhuwenwen authored Jan 06, 2026
  
  d8a13c8d
- [Qwen3-30B] MoE configs for BW1000 TP=2 (bs390) · 8f16b592
  zhuwenwen authored Jan 06, 2026
  
  8f16b592
- 适配glm4_1v量化模型 · c7c3415a
  zhuwenwen authored Jan 06, 2026
  
  c7c3415a
- add indexer_k_cache_kernel · 4ec64732
  zhuwenwen authored Jan 06, 2026
  
  4ec64732
- update mqa_logits and paged_mqa_logits · 25ec6a34
  zhuwenwen authored Jan 06, 2026
  
  25ec6a34
05 Jan, 2026 4 commits
- update fused_moe.py · 8a4a6fd8
  zhuwenwen authored Jan 05, 2026
  
  8a4a6fd8
- update _forward_encoder_attention interface and support sinks · f48aca62
  zhuwenwen authored Jan 05, 2026
  
  f48aca62
- back to forward_native · c5ac5cf7
  zhuwenwen authored Jan 05, 2026
  
  c5ac5cf7
- back to forward_static · 424fa81f
  zhuwenwen authored Jan 05, 2026
  
  424fa81f
04 Jan, 2026 2 commits
- add self · 57e945fd
  zhuwenwen authored Jan 04, 2026
  
  57e945fd
- fix index error · ab613ab4
  zhuwenwen authored Jan 04, 2026
  
  ab613ab4
25 Dec, 2025 2 commits
- fix run error · 1217257c
  zhuwenwen authored Dec 25, 2025
  
  1217257c
- fix ninja: error: dependency cycle: , -> , · 8301427e
  zhuwenwen authored Dec 25, 2025
  
  8301427e
23 Dec, 2025 1 commit
- fix index of break · 51ede96d
  zhuwenwen authored Dec 23, 2025
  
  51ede96d