Commits · 21833462afa53ed88e3018616800a64cf96a3331 · OpenDAS / vllm_cscc

28 Mar, 2025 3 commits
- update beta version · 21833462
  zhuwenwen authored Mar 28, 2025
  
  21833462
- Merge branch 'v0.7.2-dev-wm' into 'v0.7.2-dev' · feeb058b
  zhuwenwen authored Mar 28, 2025
```
[feat]添加VLLM_SPEC_DECODE_EAGER环境变量，用于选择draft model是否强制使用eager模式，在hygon cpu上ds3 mtp提升较大

See merge request dcutoolkit/deeplearing/vllm!91
```
  feeb058b
- [feat]添加VLLM_SPEC_DECODE_EAGER环境变量，用于选择draft model是否强制使用eager模式，在hygon cpu上ds3 mtp提升较大 · 7488257b
  王敏 authored Mar 28, 2025
  
  7488257b
27 Mar, 2025 1 commit
- 更新bw以及k500sm_ai的支持 · 18ec9eaa
  yangql authored Mar 27, 2025
  
  18ec9eaa
26 Mar, 2025 8 commits
- Merge remote-tracking branch 'origin/v0.7.2-dev-quant' into v0.7.2-dev · d01a8fa8
  zhuwenwen authored Mar 26, 2025
  
  d01a8fa8
- update mla kernel and configs · e1600abd
  zhuwenwen authored Mar 26, 2025
  
  e1600abd
- 增加blockint8支持优化 · 5f2801b1
  gaoqiong authored Mar 26, 2025
  
  5f2801b1
- 增加blockint8支持优化 · 96bfa3ce
  gaoqiong authored Mar 26, 2025
  
  96bfa3ce
- 增加blockint8支持优化 · 5f15bdb5
  gaoqiong authored Mar 26, 2025
  
  5f15bdb5
- 增加blockint8支持优化 · f3deca99
  gaoqiong authored Mar 26, 2025
  
  f3deca99
- update custom_all_reduce · 5c241fa9
  zhuwenwen authored Mar 26, 2025
  
  5c241fa9
- [FEAT] [ROCm] [Embedding] Add encoder-only model support into ROCm Flash... · 3b81dd6c
  zhuwenwen authored Mar 26, 2025
```
[FEAT] [ROCm] [Embedding] Add encoder-only model support into ROCm Flash Attention to enable embedding models.
```
  3b81dd6c
25 Mar, 2025 2 commits
- Merge branch 'v0.7.2-dev-custom' into 'v0.7.2-dev' · b5a9a18d
  zhuwenwen authored Mar 25, 2025
```
V0.7.2 dev custom

See merge request dcutoolkit/deeplearing/vllm!90
```
  b5a9a18d
- add custom allreduce check · c8a63b38
  xiabo authored Mar 25, 2025
  
  c8a63b38
24 Mar, 2025 5 commits
- Merge branch 'v0.7.2-dev-wm' into 'v0.7.2-dev' · ae0ed592
  zhuwenwen authored Mar 24, 2025
```
[fix]修复fused_moe.py中fused_moe接口未初始化moe_ep_size导致的deekseek等模型报错

See merge request dcutoolkit/deeplearing/vllm!89
```
  ae0ed592
- [fix]修复fused_moe.py中fused_moe接口未初始化moe_ep_size导致的deekseek等模型报错 · 4b7f382f
  王敏 authored Mar 24, 2025
  
  4b7f382f
- update triton_mla.py · a54eca71
  zhuwenwen authored Mar 24, 2025
  
  a54eca71
- add mla tuning configs of k100-ai · 30e0b082
  zhuwenwen authored Mar 24, 2025
  
  30e0b082
- add mla tuning script and configs · 13b1dcfe
  zhuwenwen authored Mar 24, 2025
  
  13b1dcfe
22 Mar, 2025 1 commit
- add custom allreduce cudagraph · a8c92908
  xiabo authored Mar 22, 2025
  
  a8c92908
18 Mar, 2025 1 commit
- update benchmarks · b95d1275
  zhuwenwen authored Mar 18, 2025
  
  b95d1275
17 Mar, 2025 2 commits
- add custom allreduce · 2d6bccd9
  xiabo authored Mar 17, 2025
  
  2d6bccd9
- update version · d9e67e78
  zhuwenwen authored Mar 17, 2025
  
  d9e67e78
15 Mar, 2025 12 commits
- update fused_moe.py · 8a7c4451
  zhuwenwen authored Mar 15, 2025
  
  8a7c4451
- update qwen2-vl and qwen2.5-vl layout · 37ef8dd3
  zhuwenwen authored Mar 15, 2025
  
  37ef8dd3
- set llama and qwen tn layout · b845811e
  zhuwenwen authored Mar 15, 2025
  
  b845811e
- add cust2 · 72de3bf9
  zhuwenwen authored Mar 15, 2025
  
  72de3bf9
- Merge remote-tracking branch 'origin/0.7.2-zhangshao' into v0.7.2-pa · c9d28c80
  zhuwenwen authored Mar 15, 2025
  
  c9d28c80
- 调整pa tc和非tc调用关系 · 0d2ccb8d
  zhangshao authored Mar 15, 2025
  
  0d2ccb8d
- Merge branch 'v0.7.2-dev' into v0.7.2-pa · 6a72a6b4
  zhuwenwen authored Mar 15, 2025
  
  6a72a6b4
- Merge branch 'v0.7.2-dev_yangql' into 'v0.7.2-dev' · 87351a28
  zhuwenwen authored Mar 15, 2025
```
V0.7.2 dev yangql

See merge request dcutoolkit/deeplearing/vllm!85
```
  87351a28
- 支持fusemoe对int4的scale合zero合并读取操作 · 50424a23
  yangql authored Mar 15, 2025
  
  50424a23
- 支持fusemoe对int4的scale合zero合并读取操作 · f78a0510
  yangql authored Mar 15, 2025
  
  f78a0510
- Merge remote-tracking branch 'origin/0.7.2-zhangshao' into v0.7.2-pa · 87bdb89f
  zhuwenwen authored Mar 15, 2025
  
  87bdb89f
- Merge branch 'v0.7.2-pa' of http://10.6.10.68/dcutoolkit/deeplearing/vllm into v0.7.2-pa · e6fd8fda
  zhuwenwen authored Mar 15, 2025
  
  e6fd8fda
14 Mar, 2025 5 commits
- Merge branch 'v0.7.2-dev-quant' into 'v0.7.2-dev' · 9c7191c3
  zhuwenwen authored Mar 14, 2025
```
V0.7.2 dev deepseek v3/r1 block-int8量化支持

See merge request dcutoolkit/deeplearing/vllm!83
```
  9c7191c3
- 解决bf16精度问题，解决cudagraph精度问题 · 4f8d38c8
  zhangshao authored Mar 14, 2025
  
  4f8d38c8
- 增加线性int8 gemm配置 · 268d8a77
  gaoqiong authored Mar 14, 2025
  
  268d8a77
- [feat]add gen_mla_pa_tables.py and optimize triton config configuration · 71c60bd5
  zhuwenwen authored Mar 14, 2025
  
  71c60bd5
- 增加deepseek v3 block-int8量化支持 · 92545504
  gaoqiong authored Mar 14, 2025
  
  92545504