Update README.md

78bed18c · zhaoying1 · 74999e8d · 78bed18c
Commit 78bed18c authored May 28, 2024 by zhaoying1
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

README.md README.md +2 -2

No files found.
--- a/README.md
+++ b/README.md
@@ -33,7 +33,7 @@ LLaMA2相较于LLaMA采用了更强大的数据清洗、更多的tokens训练、


 ## 算法原理
-LoRA微调是一种高效模型微调方法，在LoRA训练过程中，固定预训练模型参数报吃不变，而在原本权重矩阵旁路添加低秩矩阵的乘积作为可训练参数，用以模拟参数的变化量。具体来说，假设预训练权重为$W_0 \in \mathbb{R}^{d*k} $，可训练参数为$ \Delta W=BA$,其中$B  \in \mathbb{R}^{d*r} $,$A  \in \mathbb{R}^{r*d} $。初始化时，矩阵 $ A $通过高斯函数初始化，矩阵$ B $为
+LoRA微调是一种高效模型微调方法，在LoRA训练过程中，固定预训练模型参数报吃不变，而在原本权重矩阵旁路添加低秩矩阵的乘积作为可训练参数，用以模拟参数的变化量。具体来说，假设预训练权重为$ W_0 \in \mathbb{R}^{d*k} $，可训练参数为$ \Delta W=BA$,其中$B  \in \mathbb{R}^{d*r} $,$A  \in \mathbb{R}^{r*d} $。初始化时，矩阵 $ A $通过高斯函数初始化，矩阵$ B $为
 零初始化，使得训练开始之前旁路对原模型不造成影响，即参数改变量为 0。对于该权重的输入$X$来说，输出可以表示为：$h=W_0x+\Delta Wx=W_0x+BAx$。LoRA可以在缩减训练参数量和显存占用的同时，使训练后的模型具有与全量微调相当的性能。LoRA方法的计算流程如下图所示：

 ![img](./LoRA示意图.png)
@@ -69,7 +69,7 @@ conda create -n llama2_lora python=3.10
 ```

 2. 关于本项目DCU显卡所需的工具包、深度学习库等均可从[光合](https://developer.hpccube.com/tool/)开发者社区下载安装。
- [DTK 23.04](https://cancon.hpccube.com:65024/1/main/DTK-24.04)
+- [DTK 24.04](https://cancon.hpccube.com:65024/1/main/DTK-24.04)
 - [Pytorch 2.1.0](https://cancon.hpccube.com:65024/4/main/pytorch/DAS1.0)
 - [Deepspeed 0.12.3](https://cancon.hpccube.com:65024/4/main/deepspeed/DAS1.0)
 - [Flash_attn 2.0.4](https://cancon.hpccube.com:65024/4/main/flash_attn/DAS1.0)