Update README.md

baf38459 · yuhai · 2f8803dc · baf38459
Commit baf38459 authored May 24, 2023 by yuhai
Hide whitespace changes
Inline Side-by-side

Showing with 1 addition and 0 deletions

README.md README.md +1 -0

No files found.
--- a/README.md
+++ b/README.md
@@ -7,6 +7,7 @@ SAM是23年4月发布的先进图像分割模型。SAM分为图像编码器和
 ## 模型结构

 ![](./assets/model_diagram.png)
+
 如图，该模型的网络结构主要分三个部分：Image encoder、Prompt encoder和Lightweight mask decoder。
 ### Image encoder
 通常，Image encoder可以是输出C×H×W图像嵌入的任何网络。受可扩展性和强大的预训练的启发，使用MAE预训练的视觉转换器（ViT），具有最小的适应性来处理高分辨率输入，特别是具有14×14窗口注意力和四个等距全局注意力块的ViT-H/16。图像编码器的输出是输入图像的16倍缩小的嵌入。使用1024×1024的输入分辨率，该分辨率是通过重新缩放图像并填充短边获得的。因此，图像嵌入是64×64。为了降低通道维度，使用1×1卷积来获得256个通道，然后使用3×3卷积来获得同样具有256个通道的通道。