Commit 67472ca4 authored by zhouxiang's avatar zhouxiang
Browse files

修改readme

parent c36a00b4
...@@ -12,6 +12,8 @@ Baichuan-13B是由百川智能继Baichuan-7B之后开发的包含130亿参数模 ...@@ -12,6 +12,8 @@ Baichuan-13B是由百川智能继Baichuan-7B之后开发的包含130亿参数模
Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿Tokens 的高质量语料训练。 Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿Tokens 的高质量语料训练。
![baichuan](doc/transformer.jpg)
模型具体参数: 模型具体参数:
| 模型名称 | 隐含层维度 | 层数 | 头数 | 词表大小 | 位置编码 | 最大序列长度 | | 模型名称 | 隐含层维度 | 层数 | 头数 | 词表大小 | 位置编码 | 最大序列长度 |
...@@ -20,7 +22,9 @@ Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 ...@@ -20,7 +22,9 @@ Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6
| Baichuan2-13B | 5,120 | 40 | 40 | 125696 | ALiBi | 4096 | | Baichuan2-13B | 5,120 | 40 | 40 | 125696 | ALiBi | 4096 |
## 算法原理 ## 算法原理
Baichuan整体模型基于标准的Transformer结构,采用了和LLaMA一样的模型设计。其中,Baichuan-7B在结构上采用Rotary Embedding位置编码方案、SwiGLU激活函数、基于RMSNorm的Pre-Normalization。Baichuan-13B使用了ALiBi线性偏置技术,相对于Rotary Embedding计算量更小,对推理性能有显著提升 Baichuan整体模型基于标准的Transformer结构,采用了和LLaMA一样的模型设计。其中,Baichuan-7B在结构上采用Rotary Embedding位置编码方案、SwiGLU激活函数、基于RMSNorm的Pre-Normalization。Baichuan-13B使用了ALiBi线性偏置技术,相对于Rotary Embedding计算量更小,对推理性能有显著提升.
![baichuan](doc/transformer.png)
## 环境配置 ## 环境配置
...@@ -113,7 +117,7 @@ chmod +x benchmark ...@@ -113,7 +117,7 @@ chmod +x benchmark
## result ## result
![baochuan推理](baichuan-13b.gif) ![baochuan推理](doc/baichuan-13b.gif)
### 精度 ### 精度
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment