Skip to content
GitLab
Menu
Projects
Groups
Snippets
Loading...
Help
Help
Support
Community forum
Keyboard shortcuts
?
Submit feedback
Contribute to GitLab
Sign in / Register
Toggle navigation
Menu
Open sidebar
ModelZoo
Codestral_pytorch
Commits
ee04b641
Commit
ee04b641
authored
Aug 13, 2024
by
dengjb
Browse files
Update README.md
parent
6bb9de77
Changes
1
Show whitespace changes
Inline
Side-by-side
Showing
1 changed file
with
3 additions
and
7 deletions
+3
-7
README.md
README.md
+3
-7
No files found.
README.md
View file @
ee04b641
...
@@ -5,14 +5,10 @@ Codestral模型支持80+的编程语言
...
@@ -5,14 +5,10 @@ Codestral模型支持80+的编程语言
## 模型结构
## 模型结构
Transformer 架构是一种在自然语言处理(NLP)中广泛应用的深度学习架构。
Transformer 架构是一种在自然语言处理(NLP)中广泛应用的深度学习架构。
它的核心特点包括:
它的核心特点包括:
-
多头注意力机制(Multi-head Attention):这使得模型能够同时关注输入序列的不同位置,并学习到不同的表示。例如,在翻译任务中,能够同时关注源语言句子中的不同词汇与目标语言词汇的关系。
多头注意力机制(Multi-head Attention):这使得模型能够同时关注输入序列的不同位置,并学习到不同的表示。例如,在翻译任务中,能够同时关注源语言句子中的不同词汇与目标语言词汇的关系。
-
前馈神经网络(Feed Forward Network):用于对注意力机制的输出进行进一步的特征提取和转换。
-
位置编码(Positional Encoding):由于 Transformer 本身不具有捕捉序列顺序的天然能力,位置编码为输入序列中的每个位置添加了位置信息,以便模型理解词语的顺序。
前馈神经网络(Feed Forward Network):用于对注意力机制的输出进行进一步的特征提取和转换。
位置编码(Positional Encoding):由于 Transformer 本身不具有捕捉序列顺序的天然能力,位置编码为输入序列中的每个位置添加了位置信息,以便模型理解词语的顺序。
<div
align=
center
>
<div
align=
center
>
<img
src=
"./assets/model_framework.png"
/>
<img
src=
"./assets/model_framework.png"
/>
...
...
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
.
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment