修改格式

11e2452b · yangql · 25aec340 · 11e2452b
Commit 11e2452b authored Oct 10, 2023 by yangql
Hide whitespace changes
Inline Side-by-side

Showing with 4 additions and 1 deletion

README.md README.md +4 -1

No files found.
--- a/README.md
+++ b/README.md
@@ -5,9 +5,12 @@
 ## 模型结构
 以往的预训练模型的结构会受到单向语言模型（从左到右或者从右到左）的限制，因而也限制了模型的表征能力，使其只能获取单方向的上下文信息。而BERT利用MLM进行预训练并且采用深层的双向Transformer组件（单向的Transformer一般被称为Transformer decoder，其每一个token（符号）只会attend到目前往左的token。而双向的Transformer则被称为Transformer encoder，其每一个token会attend到所有的token）来构建整个模型，因此最终生成能融合左右上下文信息的深层双向语言表征。
+<img src="./Doc/Images/bert_01.png" style="zoom:55%;" align=middle>
 ## 算法原理
-BERT的全称为Bidirectional Encoder Representation from Transformers，是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的masked language model（MLM），以致能生成深度的双向语言表征。
+BERT的全称为Bidirectional Encoder Representation from Transformers，是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的masked language model（MLM），以致能生成深度的双向语言表征。bert的输入可以是单一的一个句子或者是句子对，实际的输入值是segment embedding与position embedding相加，BERT的输入词向量是三个向量之和：Token Embedding：WordPiece tokenization subword词向量。
+Segment Embedding：表明这个词属于哪个句子（NSP需要两个句子）。Position Embedding：学习出来的embedding向量。
+<img src="./Doc/Images/bert_01.png" style="zoom:55%;" align=middle>
 ## 环境配置