upload whl

1f7b7ce3 · luopl · a0dcaa80 · 1f7b7ce3 · 1f7b7ce3 · 1f7b7ce3
Commit 1f7b7ce3 authored Feb 16, 2026 by luopl
4 changed files
--- a/README.md
+++ b/README.md
@@ -49,7 +49,7 @@ docker load -i pytorch2.9.1-ubuntu22.04-dtk26.04-0130-py3.10-20260204.tar.gz
 - 挂载地址`-v` 根据实际模型情况修改
 ```bash
 docker run -it \
-    --shm-size 60g \
+    --shm-size 200g \
    --network=host \
    --name qwen3.5 \
    --privileged \
@@ -110,9 +110,6 @@ export HIP_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
 export VLLM_SPEC_DECODE_EAGER=1
 export VLLM_MLA_DISABLE=0
 export VLLM_USE_FLASH_MLA=1
-
-# K100_AI集群建议额外设置的环境变量：
-export VLLM_ENFORCE_EAGER_BS_THRESHOLD=44
 export VLLM_RPC_TIMEOUT=1800000

 # 海光CPU绑定核

--- a/flash_mla-1.0.0-cp310-cp310-manylinux_2_28_x86_64.whl
+++ b/flash_mla-1.0.0-cp310-cp310-manylinux_2_28_x86_64.whl
--- a/model.properties
+++ b/model.properties
@@ -11,4 +11,4 @@ appCategory=对话问答
 # 框架类型
 frameType=vllm
 # 加速卡类型
-accelerateType=K100AI,BW1000
\ No newline at end of file
+accelerateType=BW1000
\ No newline at end of file
--- a/vllm-0.15.1+das.opt1.alpha.dtk2604-cp310-cp310-linux_x86_64.whl
+++ b/vllm-0.15.1+das.opt1.alpha.dtk2604-cp310-cp310-linux_x86_64.whl