## DeepSeek-V4
## 论文
[DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence](https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf)

## 模型简介
DeepSeek-V4 系列的预览版本，包含两款强大的混合专家（Mixture-of-Experts, MoE）语言模型：DeepSeek-V4-Pro（总参数量 1.6T，激活参数量 49B）和 DeepSeek-V4-Flash（总参数量 284B，激活参数量 13B），两者均支持 百万 token 的上下文长度。

DeepSeek-V4 系列在架构与优化方面引入了多项关键升级：

- 混合注意力架构：设计了一种混合注意力机制，结合压缩稀疏注意力（Compressed Sparse Attention, CSA）与重度压缩注意力（Heavily Compressed Attention, HCA），显著提升长上下文处理效率。在百万 token 上下文场景下，DeepSeek-V4-Pro 相比 DeepSeek-V3.2 仅需 27% 的单 token 推理 FLOPs 和 10% 的 KV 缓存。
- 流形约束超连接（Manifold-Constrained Hyper-Connections, mHC）：在传统残差连接基础上引入 mHC，增强跨层信号传播的稳定性，同时保留模型的表达能力。
- Muon 优化器：采用 Muon 优化器，以实现更快的收敛速度和更高的训练稳定性。

## 环境依赖
| 软件 |   版本    |
| :------: |:-------:|
|     DTK      |  26.04  |
|    Python    | 3.10.12 |
|    Torch     |  2.9.0+das.opt1.dtk2604.20260331.g4e3c1e7  |
|   Tilelang   |  0.1.7.post3+cpu.git52700923  |

当前仅支持镜像: harbor.sourcefind.cn:5443/dcu/admin/base/custom:torch-2.9.0-ubuntu22.04-dtk26.04-deepseek-v4-0425

- 挂载地址`-v`根据实际模型情况修改

```bash
docker run -it \
    --shm-size 200g \
    --network=host \
    --name deepseek-v4 \
    --privileged \
    --device=/dev/kfd \
    --device=/dev/dri \
    --device=/dev/mkfd \
    --group-add video \
    --cap-add=SYS_PTRACE \
    --security-opt seccomp=unconfined \
    -u root \
    -v /opt/hyhal/:/opt/hyhal/:ro \
    -v /path/your_code_data/:/path/your_code_data/ \
    harbor.sourcefind.cn:5443/dcu/admin/base/custom:torch-2.9.0-ubuntu22.04-dtk26.04-deepseek-v4-0425 bash
```

更多镜像可前往[光源](https://sourcefind.cn/#/service-list)下载使用。

## 数据集
`暂无`

## 训练
`暂无`

## 推理
### Pytorch
#### 单机推理
##### BF16
1. 模型转换与切分
```bash
#注意将脚本中对应的路径及参数设置成用户实际值
#其中：INPUT_FP8_HF_PATH为原始模型路径；OUTPUT_BF16_HF_PATH为bf16模型存放路径；SAVE_PATH为切分好的模型路径；mp根据实际卡数调整
cd convert_weight
bash convert_weight.sh
```

2. 启动对话推理
```bash
#注意将脚本中对应的路径及参数设置成用户实际值
cd ../inference-bf16
sh start_torch.sh
```

##### FP8
1. 模型转换与切分
```bash
#注意将脚本中对应的路径及参数设置成用户实际值
#其中：--hf-ckpt-path为原始模型路径；--save-path为切分好的FP8模型的存放路径；MP根据实际卡数调整（默认为8）
cd inference-fp8
bash cast_fp4_to_fp8.sh
```

2. 启动对话推理
```bash
#注意将脚本中对应的路径及参数设置成用户实际值
sh start_torch_fp8.sh
```

## 效果展示

**注意**：首次对话时由于kernel编译，可能会出现dtk hipcc编译警告，属于正常现象

<div align=center>
    <img src="./doc/result_dcu.png"/>
</div>

### 精度
`DCU与GPU精度一致，推理框架：pytorch。`

## 预训练权重
| 模型名称  | 权重大小 | DCU型号  | 最低卡数需求 |下载地址|
|:-----:|:----:|:------:|:------:|:----------:|
| DeepSeek-V4-Flash | 284B | BW1100 |   8    | [Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash) |

## 源码仓库及问题反馈
- https://developer.sourcefind.cn/codes/modelzoo/deepseek-v4

## 参考资料
- https://github.com/deepseek-ai