修改readme

d9a6ee2d · hepj987 · 17814e61 · d9a6ee2d · d9a6ee2d · d9a6ee2d
Commit d9a6ee2d authored Sep 08, 2023 by hepj987
Hide whitespace changes
Inline Side-by-side

Showing with 39 additions and 7 deletions

README.md README.md +39 -7

gpt2.jpg gpt2.jpg +0 -0

image-gpt.png image-gpt.png +0 -0

No files found.
--- a/README.md
+++ b/README.md
 # Generative Pre-Training2(GPT2)

-### 模型介绍
+## 论文
+
+`Language Models are Unsupervised Multitask Learners`
+
+-   https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf
+
+## 模型介绍

 ```
 GPT2模型：第二代生成式预训练模型（Generative Pre-Training2）。
 ```

-### 模型结构
+## 模型结构
+
+![gpt2](gpt2.jpg)

 ```
-GPT2使用 Transformer 的 Decoder 结构，并对 Transformer Decoder 进行了一些改动，并通过Megatron和deepspeed可以使用DP、TP、PP的3D并行式的分布式方式训练
+GPT2使用Transformer的Decoder结构，并对 Transformer Decoder 进行了一些改动。主要在于将归一化层移到Block的输入位置；在最后一个自注意力块之后加了一层归一化；增大词汇量等。
 ```

-### 数据集
+## 算法原理
+
+![image-gpt](image-gpt.png)
+
+## 数据集
+
+`oscar-1GB`
+
+-   https://huggingface.co/bigscience/misc-test-data/resolve/main/stas/oscar-1GB.jsonl.xz

 ```
 #下载数据集
@@ -36,9 +52,14 @@ xz -d oscar-1GB.jsonl.xz
 sh creat-data.sh
 ```

-## GPT2预训练
+```
+#处理后的数据集格式
+├── my-gpt2_text_document.bin
+├── my-gpt2_text_document.idx
+└── oscar-1GB.jsonl
+```

-### 环境配置
+## 环境配置

 推荐使用docker方式运行，提供[光源](https://www.sourcefind.cn/)拉取的docker镜像：

@@ -52,6 +73,8 @@ docker pull image.sourcefind.cn:5000/dcu/admin/base/pytorch:1.10.0-centos7.6-dtk
 pip install -r requirements.txt  -i https://mirrors.aliyun.com/pypi/simple/  --trusted-host mirrors.aliyun.com
 ```

+## GPT2预训练
+
 ### GPT2单节点训练

 ```
@@ -209,9 +232,17 @@ mpirun -np 1 run-inf.sh
 --num-samples			生成样本个数
 ```

+## 应用场景
+
+### 算法类别

+`文本生成`

-## loss收敛情况
+### 热点应用行业
+
+
+
+## result

 16B模型使用oscar数据集收敛情况如下：

@@ -228,3 +259,4 @@ https://developer.hpccube.com/codes/modelzoo/gpt2-pytorch/
 ## 参考

 https://github.com/bigscience-workshop/Megatron-DeepSpeed
+
--- a/gpt2.jpg
+++ b/gpt2.jpg
--- a/image-gpt.png
+++ b/image-gpt.png