v1.2.1

c727dd02 · chenzk · 67a0c14f · c727dd02
Commit c727dd02 authored Aug 18, 2023 by chenzk
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 0 deletions

README.md README.md +2 -0

No files found.
--- a/README.md
+++ b/README.md
@@ -5,9 +5,11 @@
 - https://arxiv.org/abs/2010.11929
 ## 模型结构
 Vision Transformer先将图像用卷积进行分块以降低计算量，再对每一块进行展平处理变成序列，然后将序列添加位置编码和cls token，再输入多层Transformer结构提取特征，最后将cls tooken取出来通过一个MLP（多层感知机）用于分类。
 ![img](./images/vit.png)
 ## 算法原理
 图像领域借鉴《Transformer is all you need！》算法论文中的Encoder结构提取特征，Transformer的核心思想是利用注意力模块attention提取特征：
 ![img](./images/attention.png)
 ## 环境配置
 ### Docker