Commit ee04b641 authored by dengjb's avatar dengjb
Browse files

Update README.md

parent 6bb9de77
......@@ -5,14 +5,10 @@ Codestral模型支持80+的编程语言
## 模型结构
Transformer 架构是一种在自然语言处理(NLP)中广泛应用的深度学习架构。
它的核心特点包括:
多头注意力机制(Multi-head Attention):这使得模型能够同时关注输入序列的不同位置,并学习到不同的表示。例如,在翻译任务中,能够同时关注源语言句子中的不同词汇与目标语言词汇的关系。
前馈神经网络(Feed Forward Network):用于对注意力机制的输出进行进一步的特征提取和转换。
位置编码(Positional Encoding):由于 Transformer 本身不具有捕捉序列顺序的天然能力,位置编码为输入序列中的每个位置添加了位置信息,以便模型理解词语的顺序。
- 多头注意力机制(Multi-head Attention):这使得模型能够同时关注输入序列的不同位置,并学习到不同的表示。例如,在翻译任务中,能够同时关注源语言句子中的不同词汇与目标语言词汇的关系。
- 前馈神经网络(Feed Forward Network):用于对注意力机制的输出进行进一步的特征提取和转换。
- 位置编码(Positional Encoding):由于 Transformer 本身不具有捕捉序列顺序的天然能力,位置编码为输入序列中的每个位置添加了位置信息,以便模型理解词语的顺序。
<div align=center>
<img src="./assets/model_framework.png"/>
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment