# DeepSeek-V2
## 论文
`DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model`
- [https://arxiv.org/abs/2405.04434](https://arxiv.org/abs/2405.04434)
## 模型结构
DeepSeek-V2 是一种强大的专家混合(MoE)语言模型,其特点是经济的训练和高效的推理。模型结构上,该模型采用创新架构,包括多头潜在注意力(MLA)和DeepSeekMoE。MLA 通过将键值(KV)缓存显著压缩为潜在向量来保证高效推理,而 DeepSeekMoE 则通过稀疏计算以经济的成本训练强大的模型。DeepSeek-V2模型总共包含 236B 个参数,其中每个Token激活21B参数,支持长达128K的上下文长度。与 DeepSeek 67B 相比,DeepSeek-V2 实现了更强的性能,同时节省了 42.5% 的训练成本,KV 缓存降低了 93.3%,并将最大生成吞吐量提升到 5.76 倍。
DeepSeek-V2-Lite模型则凭借其轻量级设计和高效的性能,为MoE模型研究和应用开辟了新的方向。DeepSeek-V2-Lite总共 16B 参数,每个Token激活2.4B参数。相比于DeepSeek-V2,其参数量减少了近10倍,对训练和推理方面的显存需求都大大减少。
## 算法原理
DeepSeek-V2仍然采用Transformer架构,其中每个Transformer块由一个注意力模块和一个前馈网络(FFN)组成。然而,对于注意力模块和FFN,都设计和采用了创新架构。对于注意力机制,设计MLA,它利用低秩K-V联合压缩来消除推理时间K-V缓存的瓶颈,从而支持高效推理。对于FFN,采用DeepSeek MoE架构,这是一种高性能的MoE架构,能够以经济的成本训练出强大的模型。下图展示了DeepSeek-V2的架构:其中MLA 通过显著减少生成的 KV 缓存来确保高效推理,而 DeepSeek MoE 通过稀疏架构以经济的成本训练出强大的模型。
## 环境配置
### Docker(方式一)
推荐使用docker方式运行,提供拉取的docker镜像:
```
docker pull image.sourcefind.cn:5000/dcu/admin/base/pytorch:2.1.0-centos7.6-dtk24.04-py310
```
进入docker,安装docker中没有的依赖:
```
docker run -dit --network=host --name=deepseekv2-train --privileged --device=/dev/kfd --device=/dev/dri --ipc=host --shm-size=16G --group-add video --cap-add=SYS_PTRACE --security-opt seccomp=unconfined -u root --ulimit stack=-1:-1 --ulimit memlock=-1:-1 -v /opt/hyhal/:/opt/hyhal/:ro image.sourcefind.cn:5000/dcu/admin/base/pytorch:2.1.0-centos7.6-dtk24.04-py310 /usr/sbin/init
docker exec -it deepseekv2-train /bin/bash
pip install -r requirements.txt -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com
```
### Dockerfile(方式二)
```
docker build -t deepseekv2-train:latest .
docker run -dit --network=host --name=deepseekv2-train --privileged --device=/dev/kfd --device=/dev/dri --ipc=host --shm-size=16G --group-add video --cap-add=SYS_PTRACE --security-opt seccomp=unconfined -u root --ulimit stack=-1:-1 --ulimit memlock=-1:-1 -v /opt/hyhal/:/opt/hyhal/:ro deepseekv2-train:latest
docker exec -it deepseekv2-train /bin/bash
```
### Conda(方法三)
1. 创建conda虚拟环境:
```
conda create -n deepseekv2-train python=3.10
```
2. 关于本项目DCU显卡所需的工具包、深度学习库等均可从[光合](https://developer.hpccube.com/tool/)开发者社区下载安装。
- [DTK 24.04](https://cancon.hpccube.com:65024/1/main/DTK-24.04)
- [Pytorch 2.1.0](https://cancon.hpccube.com:65024/4/main/pytorch/DAS1.0)
- [Deepspeed 0.12.3](https://cancon.hpccube.com:65024/4/main/deepspeed/DAS1.0)
- [Flash_attn 2.0.4](https://cancon.hpccube.com:65024/4/main/flash_attn/DAS1.0)
Tips:以上dtk驱动、python、deepspeed等工具版本需要严格一一对应。
3. 其它依赖库参照requirements.txt安装:
```
pip install -r requirements.txt
```
## 数据集
数据可按需进行自行准备,项目中已提供用于试验训练的数据集,因数据较大,已压缩至./examples/deepseek_v2/data.tar.gz,请解压后自行放至合适位置,并按数据位置修改./examples/deepseek_v2/run_pretrain_deepseek_xx.sh内数据路径为对应数据的绝对路径,具体可见训练步骤,训练数据目录结构如下,用于正常训练的完整数据集请按此目录结构进行制备:
```
── data
│ ├── mmap_deepseekv2_datasets_text_document.bin
│ └── mmap_deepseekv2_datasets_text_document.idx
```
## 预训练模型下载
ModelScope模型下载地址:
[DeepSeek-V2-Lite-Chat](https://www.modelscope.cn/models/deepseek-ai/DeepSeek-V2-Lite-Chat)
[DeepSeek-V2-Chat](https://www.modelscope.cn/models/deepseek-ai/DeepSeek-V2-Chat)
## 模型格式转换
若您需要进行模型的从头预训练,则可以跳过该步骤;若您想进行模型的继续预训练,则需要进行模型格式的转换,MoE模型的格式转换命令如下,其中模型切分方式可以根据需求自行修改:
```
cd ./toolkits/model_checkpoints_convertor/deepseek \
bash hf2mcore_deepseek_v2_moe_convertor.sh \
A2.4B \
/mnt/deepseek-ckpts/DeepSeek-V2-Lite \
/mnt/deepseek-ckpts/DeepSeek-V2-Lite-to-mcore-tp1-pp1-ep4 \
1 \
1 \
4 \
false
```
## 训练
### 作业提交
通过mpirun进行测试提交,运行相应参数均位于./examples/deepseek_v2/run_pretrain_deepseek_xx.sh,可按实际需要进行相应修改,目前默认参数为实测推荐参数,注意到该参数配置是基于K100_AI给出。
此外,多机训练需配置机间/容器间免密登录。对于容器间的免密登录,在主机间已免密的情况下,可在启动容器时挂载主机的.ssh文件夹` -v /root/.ssh:/root/.ssh`,并在进入容器后通过命令指定一个端口,如:` /usr/sbin/sshd -p 2727`。
修改好之后,可按下述方式进行作业提交:
```
cd ./examples/deepseek_v2/
chmod u+x run_pretrain_deepseek_xx.sh
mpirun -np 16 --hostfile 2node --allow-run-as-root -mca plm_rsh_args "-p 2727" --bind-to none run_pretrain_deepseek_16B.sh node90
```
## 应用场景
### 算法类别
`自然语言处理`
### 热点应用行业
`医疗,教育,科研,金融`
## 源码仓库及问题反馈
- https://developer.hpccube.com/codes/modelzoo/deepseekv2_pytorch
## 参考资料
- [Pai-Megatron-Patch](https://github.com/alibaba/Pai-Megatron-Patch/tree/main)