"router/vscode:/vscode.git/clone" did not exist on "e8bfe199bacb2778153bf0029b20dab866733c75"
Commit 60a64b85 authored by hepj987's avatar hepj987
Browse files

修改readme

parent 0ba88bf5
# Qwen Efficient Tuning
# Qwen-7B-chat
## 模型介绍
## 论文
Qwen-7B-chat语言模型目前只有技术报告,报告地址:
https://github.com/QwenLM/Qwen-7B/blob/main/tech_memo.md
Qwen-7B上增加视觉编码器得到Qwen-VL,论文与地址:
`Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities`
https://arxiv.org/pdf/2308.12966.pdf
## 模型结构
![qwen](qwen.jpg)
```
通义千问-7B(Qwen-7B) 是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。
```
## 模型结构
## 算法原理
```
模型架构:Qwen-7B的构建采用了类似LLaMA的架构。与标准transformer的主要差异有:1)使用非连接嵌入、2)使用旋转位置嵌入、3)在注意力中除了QKV外不使用偏置、4)使用RMSNorm代替LayerNorm、5)使用SwiGLU代替ReLU、以及6)采用快速注意力来加速训练。该模型共有32层,嵌入维度为4096,注意力头数为32。
......@@ -64,7 +78,15 @@ sbatch run-dtk23.04.sh
| :-------------------: | :----: |
| 1.44epoch(8780step) | 1.3917 |
## 应用场景
### 算法类别
`自然语言处理`
### 热点应用行业
`nlp,智能聊天助手`
## 源码仓库及问题反馈
......
qwen.jpg

32.7 KB

Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment