modify bugs

1fac49dc · chenych · 468b77ef · 1fac49dc · 468b77ef · 1fac49dc
Commit 1fac49dc authored Sep 30, 2025 by chenych
Hide whitespace changes
Inline Side-by-side

Showing with 9 additions and 8 deletions

README.md README.md +8 -7

doc/arch.png doc/arch.png +0 -0

inference/config_671B_v3.2.json inference/config_671B_v3.2.json +1 -1

start_vllm.sh start_vllm.sh +0 -0

No files found.
--- a/README.md
+++ b/README.md
@@ -3,11 +3,15 @@
 [DeepSeek_V3.2](./DeepSeek_V3_2.pdf)

 ## 模型结构
+DeepSeek-V3.2-Exp模型是一个实验版本，作为迈向下一代架构的中间步骤，V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek 稀疏注意力机制--一种旨在探索和验证在长上下文场景中训练和推理效率优化的稀疏注意力机制。
+这个实验版本代表了deepseek团队对更高效变压器架构的持续研究，特别关注在处理扩展文本序列时提高计算效率。

-
+<div align=center>
+    <img src="./doc/arch.png"/>
+</div>

 ## 算法原理
-
+DeepSeek 稀疏注意力机制（DSA）首次实现了细粒度的稀疏注意力，在保持几乎相同的模型输出质量的同时，显著提高了长上下文训练和推理效率。

 ## 环境配置
 ### 硬件需求
@@ -44,11 +48,7 @@ torch: 2.5.1+das.opt1.dtk25041
 vllm: 0.9.2+das.opt1.rc2.dtk25041
 transformers: 4.55.0
 ```
-`Tips：以上dtk驱动、pytorch等DCU相关工具版本需要严格一一对应`, 其它库安装方式如下：
-
-```bash
-
-```
+`Tips：以上dtk驱动、pytorch等DCU相关工具版本需要严格一一对应`

 ## 数据集
 无
@@ -63,6 +63,7 @@ cd inference
 # fp8转bf16
 python fp8_cast_bf16.py --input-fp8-hf-path /path/to/DeepSeek-V3.2-Exp --output-bf16-hf-path /path/to/DeepSeek-V3.2-Exp-bf16
 ```
+
 2. 进行模型划分
 ```bash
 python convert.py --hf-ckpt-path /path/to/DeepSeek-V3.2-Exp-bf16 --save-path /path/to/DeepSeek-V3.2-Demo --n-experts 256 --model-parallel 32

--- a/doc/arch.png
+++ b/doc/arch.png
--- a/inference/config_671B_v3.2.json
+++ b/inference/config_671B_v3.2.json
@@ -18,7 +18,7 @@
    "qk_nope_head_dim": 128,
    "qk_rope_head_dim": 64,
    "v_head_dim": 128,
-    "dtype": "fp8",
+    "dtype": "bf16",
    "scale_fmt": "ue8m0",
    "index_n_heads": 64,
    "index_head_dim": 128,

--- a/start_vllm.sh
+++ b/start_vllm.sh