Commit a8126505 authored by suily's avatar suily
Browse files

添加README等

parent e4399a52
...@@ -11,10 +11,15 @@ ViT主要包括patch embeding、transformer encoder、MLP head三部分:以图 ...@@ -11,10 +11,15 @@ ViT主要包括patch embeding、transformer encoder、MLP head三部分:以图
## 算法原理 ## 算法原理
整个模型结构可以分为五个步骤进行: 整个模型结构可以分为五个步骤进行:
1、将图片切分成多个patch。 1、将图片切分成多个patch。
2、将得到的patches经过一个线性映射层后得到多个token embedding。 2、将得到的patches经过一个线性映射层后得到多个token embedding。
3、将得到的多个token embedding concat一个额外的cls_token,然后和位置编码相加,构成完整的encoder模块的输入。 3、将得到的多个token embedding concat一个额外的cls_token,然后和位置编码相加,构成完整的encoder模块的输入。
4、 将相加后的结果传入Transformer Encoder模块。 4、 将相加后的结果传入Transformer Encoder模块。
5、Transformer Encoder 模块的输出经过MLP Head 模块做分类输出。 5、Transformer Encoder 模块的输出经过MLP Head 模块做分类输出。
<div align=center> <div align=center>
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment