Commit baf38459 authored by yuhai's avatar yuhai
Browse files

Update README.md

parent 2f8803dc
...@@ -7,6 +7,7 @@ SAM是23年4月发布的先进图像分割模型。SAM分为图像编码器和 ...@@ -7,6 +7,7 @@ SAM是23年4月发布的先进图像分割模型。SAM分为图像编码器和
## 模型结构 ## 模型结构
![](./assets/model_diagram.png) ![](./assets/model_diagram.png)
如图,该模型的网络结构主要分三个部分:Image encoder、Prompt encoder和Lightweight mask decoder。 如图,该模型的网络结构主要分三个部分:Image encoder、Prompt encoder和Lightweight mask decoder。
### Image encoder ### Image encoder
通常,Image encoder可以是输出C×H×W图像嵌入的任何网络。受可扩展性和强大的预训练的启发,使用MAE预训练的视觉转换器(ViT),具有最小的适应性来处理高分辨率输入,特别是具有14×14窗口注意力和四个等距全局注意力块的ViT-H/16。图像编码器的输出是输入图像的16倍缩小的嵌入。使用1024×1024的输入分辨率,该分辨率是通过重新缩放图像并填充短边获得的。因此,图像嵌入是64×64。为了降低通道维度,使用1×1卷积来获得256个通道,然后使用3×3卷积来获得同样具有256个通道的通道。 通常,Image encoder可以是输出C×H×W图像嵌入的任何网络。受可扩展性和强大的预训练的启发,使用MAE预训练的视觉转换器(ViT),具有最小的适应性来处理高分辨率输入,特别是具有14×14窗口注意力和四个等距全局注意力块的ViT-H/16。图像编码器的输出是输入图像的16倍缩小的嵌入。使用1024×1024的输入分辨率,该分辨率是通过重新缩放图像并填充短边获得的。因此,图像嵌入是64×64。为了降低通道维度,使用1×1卷积来获得256个通道,然后使用3×3卷积来获得同样具有256个通道的通道。
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment