修改readme

60a64b85 · hepj987 · 0ba88bf5 · 60a64b85 · 60a64b85
Commit 60a64b85 authored Sep 11, 2023 by hepj987
Hide whitespace changes
Inline Side-by-side

Showing with 25 additions and 3 deletions

README.md README.md +25 -3

qwen.jpg qwen.jpg +0 -0

No files found.
--- a/README.md
+++ b/README.md
-# Qwen Efficient Tuning
+# Qwen-7B-chat

-## 模型介绍
+## 论文
+
+Qwen-7B-chat语言模型目前只有技术报告，报告地址：
+
+https://github.com/QwenLM/Qwen-7B/blob/main/tech_memo.md
+
+Qwen-7B上增加视觉编码器得到Qwen-VL，论文与地址：
+
+`Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities`
+
+https://arxiv.org/pdf/2308.12966.pdf
+
+## 模型结构
+
+![qwen](qwen.jpg)

 ```
 通义千问-7B（Qwen-7B） 是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、代码等。
 ```

-## 模型结构
+## 算法原理

 ```
 模型架构：Qwen-7B的构建采用了类似LLaMA的架构。与标准transformer的主要差异有：1）使用非连接嵌入、2）使用旋转位置嵌入、3）在注意力中除了QKV外不使用偏置、4）使用RMSNorm代替LayerNorm、5）使用SwiGLU代替ReLU、以及6）采用快速注意力来加速训练。该模型共有32层，嵌入维度为4096，注意力头数为32。
@@ -64,7 +78,15 @@ sbatch run-dtk23.04.sh
 | :-------------------: | :----: |
 | 1.44epoch（8780step） | 1.3917 |

+## 应用场景
+
+### 算法类别
+
+`自然语言处理`
+
+### 热点应用行业

+`nlp，智能聊天助手`

 ## 源码仓库及问题反馈


--- a/qwen.jpg
+++ b/qwen.jpg