Commits · 0dfb30d5752950abe72701d98d3e263a75142d43 · OpenDAS / vllm_cscc

10 Feb, 2026 1 commit

support fa kvcache fp8, add VLLM_USE_QUERY_QUANT to not use q quant(todo) · 0dfb30d5

zhuwenwen authored Feb 10, 2026

[opt] 优化epsp代码, 零消耗添加epsp
update VLLM_USE_FUSED_RMS_ROPE=0 (default). for qwen3, VLLM_USE_FUSED_RMS_ROPE=1 (default)
feat(moe/marlin): Marlin W16A16 MoE 自动探测并预打包（去掉手动开关）
perf(qwen3): 融合 q/k RMSNorm + RoPE
fused_moe_fp8接入lmslim

0dfb30d5

19 Aug, 2025 1 commit
- update v1 fa layout · 864c718a
  zhuwenwen authored Aug 19, 2025
  
  864c718a
24 Jul, 2025 1 commit
- update fa v1 interface · f9408aff
  zhuwenwen authored Jul 24, 2025
  
  f9408aff
27 Jun, 2025 1 commit
- Quick Fix by adding conditional import for flash_attn_varlen_func in flash_attn (#20143) · dec197e3
  Chendi.Xue authored Jun 27, 2025
```
Signed-off-by: Chendi.Xue <chendi.xue@intel.com>
```
  dec197e3
26 Jun, 2025 1 commit
- [Hardware][Intel GPU] Add v1 Intel GPU support with Flash attention backend. (#19560) · b69781f1
  Kunshang Ji authored Jun 27, 2025
```
Signed-off-by: Kunshang Ji <kunshang.ji@intel.com>
```
  b69781f1
03 Jun, 2025 1 commit
- [Misc] Add SPDX-FileCopyrightText (#19100) · 02f0c7b2
  Simon Mo authored Jun 03, 2025
```
Signed-off-by: simon-mo <simon.mo@hey.com>
```
  02f0c7b2
28 Apr, 2025 1 commit

[BugFix] Fix vllm_flash_attn install issues (#17267) · d8bccde6

Lucas Wilkinson authored Apr 27, 2025


Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>
Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>
Co-authored-by: Aaron Pham <contact@aarnphm.xyz>

d8bccde6