Skip to content
GitLab
Menu
Projects
Groups
Snippets
Loading...
Help
Help
Support
Community forum
Keyboard shortcuts
?
Submit feedback
Contribute to GitLab
Sign in / Register
Toggle navigation
Menu
Open sidebar
ModelZoo
Qwen_pytorch
Commits
60a64b85
"router/vscode:/vscode.git/clone" did not exist on "e8bfe199bacb2778153bf0029b20dab866733c75"
Commit
60a64b85
authored
Sep 11, 2023
by
hepj987
Browse files
修改readme
parent
0ba88bf5
Changes
2
Hide whitespace changes
Inline
Side-by-side
Showing
2 changed files
with
25 additions
and
3 deletions
+25
-3
README.md
README.md
+25
-3
qwen.jpg
qwen.jpg
+0
-0
No files found.
README.md
View file @
60a64b85
# Qwen
Efficient Tuning
# Qwen
-7B-chat
## 模型介绍
## 论文
Qwen-7B-chat语言模型目前只有技术报告,报告地址:
https://github.com/QwenLM/Qwen-7B/blob/main/tech_memo.md
Qwen-7B上增加视觉编码器得到Qwen-VL,论文与地址:
`Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities`
https://arxiv.org/pdf/2308.12966.pdf
## 模型结构

```
通义千问-7B(Qwen-7B) 是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。
```
##
模型结构
##
算法原理
```
模型架构:Qwen-7B的构建采用了类似LLaMA的架构。与标准transformer的主要差异有:1)使用非连接嵌入、2)使用旋转位置嵌入、3)在注意力中除了QKV外不使用偏置、4)使用RMSNorm代替LayerNorm、5)使用SwiGLU代替ReLU、以及6)采用快速注意力来加速训练。该模型共有32层,嵌入维度为4096,注意力头数为32。
...
...
@@ -64,7 +78,15 @@ sbatch run-dtk23.04.sh
| :-------------------: | :----: |
| 1.44epoch(8780step) | 1.3917 |
## 应用场景
### 算法类别
`自然语言处理`
### 热点应用行业
`nlp,智能聊天助手`
## 源码仓库及问题反馈
...
...
qwen.jpg
0 → 100644
View file @
60a64b85
32.7 KB
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
.
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment