Update README.md

9afffea2 · dengjb · 937d9770 · 9afffea2
Commit 9afffea2 authored May 24, 2024 by dengjb
Hide whitespace changes
Inline Side-by-side

Showing with 4 additions and 3 deletions

README.md README.md +4 -3

No files found.
--- a/README.md
+++ b/README.md
@@ -5,7 +5,7 @@ DeepSeek Coder系列包括1B、5.7B、6.7B及33B多个版本，涵盖广泛的
 [deepseek-coder](https://arxiv.org/pdf/2401.14196)
 ## 模型结构
-DeepSeek-Coder LLM架构主要参照了LLama，并建立在与DeepSeek LLM同样的架构之下。每个模型都是一个decoder-only的Transformer架构。在同size的情况下，DeepSeek超越Codellama等模型，表现SOTA
+DeepSeek-Coder LLM架构主要参照了LLama，并建立在与DeepSeek LLM同样的架构之下。每个模型都是一个decoder-only的Transformer架构。在同size的情况下，DeepSeek-Coder在多个代码生成任务上表现出色，包括代码生成、跨文件代码补全以及程序解决数学问题等，其性能超过了多个开源基准模型，如CodeLlama等。
 ![model_framework.png](assets%2Fmodel_framework.png)
 ## 算法原理
 其中33B模型使用了GQA模块，能够在带来一定模型表征能力的同时，也能够对提高模型的性能。而6.7B等则使用了MHA,以提高模型的表征能力。并且在该系列的模型中使用了RoPE旋转位置编码，使得模型能够具有更好的外推性。
@@ -59,14 +59,14 @@ finetune训练样例数据采用nickrosh/Evol-Instruct-Code-80k-v1 [下载地址
 ![dataset.png](assets%2Fdataset.png)
 ## 训练
-单机四卡<br>
+###单机四卡
 具体参数更改请在train_ft.sh文件中进行,以下为必要参数 <br>
 DATA_PATH="{数据集地址}" <br>
 OUTPUT_PATH="{训练文件保存地址}" <br>
 MODEL_PATH="{预训练模型加载地址}" <br>
 ```bash
 cd finetune
-./trian_ft.sh
+./trian.sh
 ```
 ## 推理
 基于Huggingface's Transformers进行推理.<br>
@@ -75,6 +75,7 @@ cd finetune
 ```python
 HIP_VISIBLE_DEVICES=0 python inference.py
 ```
+## Result
 prompt：用verilog写一个读和写的FIFO模块<br>
 result：![result.png](assets%2Fresult.png)
 ### 精度