Commit 9afffea2 authored by dengjb's avatar dengjb
Browse files

Update README.md

parent 937d9770
...@@ -5,7 +5,7 @@ DeepSeek Coder系列包括1B、5.7B、6.7B及33B多个版本,涵盖广泛的 ...@@ -5,7 +5,7 @@ DeepSeek Coder系列包括1B、5.7B、6.7B及33B多个版本,涵盖广泛的
[deepseek-coder](https://arxiv.org/pdf/2401.14196) [deepseek-coder](https://arxiv.org/pdf/2401.14196)
## 模型结构 ## 模型结构
DeepSeek-Coder LLM架构主要参照了LLama,并建立在与DeepSeek LLM同样的架构之下。每个模型都是一个decoder-only的Transformer架构。在同size的情况下,DeepSeek超越Codellama等模型,表现SOTA DeepSeek-Coder LLM架构主要参照了LLama,并建立在与DeepSeek LLM同样的架构之下。每个模型都是一个decoder-only的Transformer架构。在同size的情况下,DeepSeek-Coder在多个代码生成任务上表现出色,包括代码生成、跨文件代码补全以及程序解决数学问题等,其性能超过了多个开源基准模型,如CodeLlama等
![model_framework.png](assets%2Fmodel_framework.png) ![model_framework.png](assets%2Fmodel_framework.png)
## 算法原理 ## 算法原理
其中33B模型使用了GQA模块,能够在带来一定模型表征能力的同时,也能够对提高模型的性能。而6.7B等则使用了MHA,以提高模型的表征能力。并且在该系列的模型中使用了RoPE旋转位置编码,使得模型能够具有更好的外推性。 其中33B模型使用了GQA模块,能够在带来一定模型表征能力的同时,也能够对提高模型的性能。而6.7B等则使用了MHA,以提高模型的表征能力。并且在该系列的模型中使用了RoPE旋转位置编码,使得模型能够具有更好的外推性。
...@@ -59,14 +59,14 @@ finetune训练样例数据采用nickrosh/Evol-Instruct-Code-80k-v1 [下载地址 ...@@ -59,14 +59,14 @@ finetune训练样例数据采用nickrosh/Evol-Instruct-Code-80k-v1 [下载地址
![dataset.png](assets%2Fdataset.png) ![dataset.png](assets%2Fdataset.png)
## 训练 ## 训练
单机四卡<br> ###单机四卡
具体参数更改请在train_ft.sh文件中进行,以下为必要参数 <br> 具体参数更改请在train_ft.sh文件中进行,以下为必要参数 <br>
DATA_PATH="{数据集地址}" <br> DATA_PATH="{数据集地址}" <br>
OUTPUT_PATH="{训练文件保存地址}" <br> OUTPUT_PATH="{训练文件保存地址}" <br>
MODEL_PATH="{预训练模型加载地址}" <br> MODEL_PATH="{预训练模型加载地址}" <br>
```bash ```bash
cd finetune cd finetune
./trian_ft.sh ./trian.sh
``` ```
## 推理 ## 推理
基于Huggingface's Transformers进行推理.<br> 基于Huggingface's Transformers进行推理.<br>
...@@ -75,6 +75,7 @@ cd finetune ...@@ -75,6 +75,7 @@ cd finetune
```python ```python
HIP_VISIBLE_DEVICES=0 python inference.py HIP_VISIBLE_DEVICES=0 python inference.py
``` ```
## Result
prompt:用verilog写一个读和写的FIFO模块<br> prompt:用verilog写一个读和写的FIFO模块<br>
result:![result.png](assets%2Fresult.png) result:![result.png](assets%2Fresult.png)
### 精度 ### 精度
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment