# DeepSeek-V2 ## 论文 `DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model` - [https://arxiv.org/abs/2405.04434](https://arxiv.org/abs/2405.04434) ## 模型结构 DeepSeek-V2 是一种强大的专家混合(MoE)语言模型,其特点是经济的训练和高效的推理。模型结构上,该模型采用创新架构,包括多头潜在注意力(MLA)和DeepSeekMoE。MLA 通过将键值(KV)缓存显著压缩为潜在向量来保证高效推理,而 DeepSeekMoE 则通过稀疏计算以经济的成本训练强大的模型。DeepSeek-V2模型总共包含 236B 个参数,其中每个Token激活21B参数,支持长达128K的上下文长度。与 DeepSeek 67B 相比,DeepSeek-V2 实现了更强的性能,同时节省了 42.5% 的训练成本,KV 缓存降低了 93.3%,并将最大生成吞吐量提升到 5.76 倍。 DeepSeek-V2-Lite模型则凭借其轻量级设计和高效的性能,为MoE模型研究和应用开辟了新的方向。DeepSeek-V2-Lite总共 16B 参数,每个Token激活2.4B参数。相比于DeepSeek-V2,其参数量减少了近10倍,对训练和推理方面的显存需求都大大减少。 ## 算法原理 DeepSeek-V2仍然采用Transformer架构,其中每个Transformer块由一个注意力模块和一个前馈网络(FFN)组成。然而,对于注意力模块和FFN,都设计和采用了创新架构。对于注意力机制,设计MLA,它利用低秩K-V联合压缩来消除推理时间K-V缓存的瓶颈,从而支持高效推理。对于FFN,采用DeepSeek MoE架构,这是一种高性能的MoE架构,能够以经济的成本训练出强大的模型。下图展示了DeepSeek-V2的架构:其中MLA 通过显著减少生成的 KV 缓存来确保高效推理,而 DeepSeek MoE 通过稀疏架构以经济的成本训练出强大的模型。
## 环境配置 ### Docker(方式一) 推荐使用docker方式运行,提供拉取的docker镜像: ``` docker pull image.sourcefind.cn:5000/dcu/admin/base/pytorch:2.1.0-centos7.6-dtk24.04-py310 ``` 进入docker,安装docker中没有的依赖: ``` docker run -dit --network=host --name=deepseekv2-train --privileged --device=/dev/kfd --device=/dev/dri --ipc=host --shm-size=16G --group-add video --cap-add=SYS_PTRACE --security-opt seccomp=unconfined -u root --ulimit stack=-1:-1 --ulimit memlock=-1:-1 -v /opt/hyhal/:/opt/hyhal/:ro image.sourcefind.cn:5000/dcu/admin/base/pytorch:2.1.0-centos7.6-dtk24.04-py310 /usr/sbin/init docker exec -it deepseekv2-train /bin/bash pip install -r requirements.txt -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com ``` ### Dockerfile(方式二) ``` docker build -t deepseekv2-train:latest . docker run -dit --network=host --name=deepseekv2-train --privileged --device=/dev/kfd --device=/dev/dri --ipc=host --shm-size=16G --group-add video --cap-add=SYS_PTRACE --security-opt seccomp=unconfined -u root --ulimit stack=-1:-1 --ulimit memlock=-1:-1 -v /opt/hyhal/:/opt/hyhal/:ro deepseekv2-train:latest docker exec -it deepseekv2-train /bin/bash ``` ### Conda(方法三) 1. 创建conda虚拟环境: ``` conda create -n deepseekv2-train python=3.10 ``` 2. 关于本项目DCU显卡所需的工具包、深度学习库等均可从[光合](https://developer.hpccube.com/tool/)开发者社区下载安装。 - [DTK 24.04](https://cancon.hpccube.com:65024/1/main/DTK-24.04) - [Pytorch 2.1.0](https://cancon.hpccube.com:65024/4/main/pytorch/DAS1.0) - [Deepspeed 0.12.3](https://cancon.hpccube.com:65024/4/main/deepspeed/DAS1.0) - [Flash_attn 2.0.4](https://cancon.hpccube.com:65024/4/main/flash_attn/DAS1.0) Tips:以上dtk驱动、python、deepspeed等工具版本需要严格一一对应。 3. 其它依赖库参照requirements.txt安装: ``` pip install -r requirements.txt ``` ## 数据集 数据可按需进行自行准备,项目中已提供用于试验训练的数据集,因数据较大,已压缩至./examples/deepseek_v2/data.tar.gz,请解压后自行放至合适位置,并按数据位置修改./examples/deepseek_v2/run_pretrain_deepseek_xx.sh内数据路径为对应数据的绝对路径,具体可见训练步骤,训练数据目录结构如下,用于正常训练的完整数据集请按此目录结构进行制备: ``` ── data │   ├── mmap_deepseekv2_datasets_text_document.bin │   └── mmap_deepseekv2_datasets_text_document.idx ``` ## 预训练模型下载 ModelScope模型下载地址: [DeepSeek-V2-Lite-Chat](https://www.modelscope.cn/models/deepseek-ai/DeepSeek-V2-Lite-Chat) [DeepSeek-V2-Chat](https://www.modelscope.cn/models/deepseek-ai/DeepSeek-V2-Chat) ## 模型格式转换 若您需要进行模型的从头预训练,则可以跳过该步骤;若您想进行模型的继续预训练,则需要进行模型格式的转换,MoE模型的格式转换命令如下,其中模型切分方式可以根据需求自行修改: ``` cd ./toolkits/model_checkpoints_convertor/deepseek \ bash hf2mcore_deepseek_v2_moe_convertor.sh \ A2.4B \ /mnt/deepseek-ckpts/DeepSeek-V2-Lite \ /mnt/deepseek-ckpts/DeepSeek-V2-Lite-to-mcore-tp1-pp1-ep4 \ 1 \ 1 \ 4 \ false ``` ## 训练 ### 作业提交 通过mpirun进行测试提交,运行相应参数均位于./examples/deepseek_v2/run_pretrain_deepseek_xx.sh,可按实际需要进行相应修改,目前默认参数为实测推荐参数,注意到该参数配置是基于K100_AI给出。 此外,多机训练需配置机间/容器间免密登录。对于容器间的免密登录,在主机间已免密的情况下,可在启动容器时挂载主机的.ssh文件夹` -v /root/.ssh:/root/.ssh`,并在进入容器后通过命令指定一个端口,如:` /usr/sbin/sshd -p 2727`。 修改好之后,可按下述方式进行作业提交: ``` cd ./examples/deepseek_v2/ chmod u+x run_pretrain_deepseek_xx.sh mpirun -np 16 --hostfile 2node --allow-run-as-root -mca plm_rsh_args "-p 2727" --bind-to none run_pretrain_deepseek_16B.sh node90 ``` ## 应用场景 ### 算法类别 `自然语言处理` ### 热点应用行业 `医疗,教育,科研,金融` ## 源码仓库及问题反馈 - https://developer.hpccube.com/codes/modelzoo/deepseekv2_pytorch ## 参考资料 - [Pai-Megatron-Patch](https://github.com/alibaba/Pai-Megatron-Patch/tree/main)