Skip to content
GitLab
Menu
Projects
Groups
Snippets
Loading...
Help
Help
Support
Community forum
Keyboard shortcuts
?
Submit feedback
Contribute to GitLab
Sign in / Register
Toggle navigation
Menu
Open sidebar
ModelZoo
RT-DETR_pytorch
Commits
b1199179
"src/include/Sequence.hpp" did not exist on "b7d052459d1f67cd3c1fdcb331027da18a479e63"
Commit
b1199179
authored
Nov 29, 2024
by
suily
Browse files
Update README.md
parent
91b8c2fb
Changes
1
Hide whitespace changes
Inline
Side-by-side
Showing
1 changed file
with
5 additions
and
11 deletions
+5
-11
README.md
README.md
+5
-11
No files found.
README.md
View file @
b1199179
...
...
@@ -3,7 +3,7 @@
`DETRs Beat YOLOs on Real-time Object Detection`
-
https://arxiv.org/abs/2304.08069
## 模型结构
RT-DETR是一种
先进
的实时物体检测器,它建立在视觉转换器(Vision Transformer)架构之上:
RT-DETR是一种
端到端
的实时物体检测器,它建立在视觉转换器(Vision Transformer)架构之上:
模型利用主干网络的最后三个阶段的输出特征{S3,S4,S5}作为编码器的输入;
混合编码器通过度内特征交互(AIFI)和跨尺度特征融合模块(CCFM)将多尺度特征转换成图像特征序列;
随后采用loU感知查询选择从编码器输出的特征序列中选择固定数量的特征,作为解码器的初始目标查询;
...
...
@@ -21,7 +21,7 @@ RT-DETR-R50/101 做主干方便和现有的 DETR 变体进行对比,而 RT-DET
它首先将二维的 S5 特征拉成向量,然后交给 AIFI 模块处理,其数学过程就是多头自注意力与 FFN,随后,再将输出 Reshape 回二维,记作 F5,以便去完成后续的所谓的“跨尺度特征融合”。
CCFM模块是由 2 个 1×1 卷积和 N 个 RepBlock 构成的,通过调整 CCFM 中 RepBlock 的数量和 Encoder 的编码维度分别控制 Hybrid Encoder 的深度和宽度,同时对 backbone 进行相应的调整即可实现检测器的缩放。
3、loU:
过
在训练期间约束检测器对高 IoU 的特征产生高分类分数,对低 IoU 的特征产生低分类分数。从而使得模型根据分类分数选择的 Top-K 特征对应的预测框同时具有高分类分数和高 IoU 分数。
3、loU:在训练期间约束检测器对高 IoU 的特征产生高分类分数,对低 IoU 的特征产生低分类分数。从而使得模型根据分类分数选择的 Top-K 特征对应的预测框同时具有高分类分数和高 IoU 分数。
4、解码器:支持不同层数的灵活推理,无需重训练。
...
...
@@ -29,12 +29,6 @@ CCFM模块是由 2 个 1×1 卷积和 N 个 RepBlock 构成的,通过调整 CC
<img
src=
"./doc/RT-DETR.PNG"
/>
</div>
## 代码改动说明
项目要求torch==2.0.1、torchvision==0.15.2,dcu的torch==2.1.0、torchvision==0.16.0版本过高。
问题主要集中在torchvison.datapoints、torchvison.transformers等库的调用中,其中torchvision的datapoints依赖库在高版本中完全被移除了。
因此进行了代码适配修改,根据api替换了一遍,由于修改过多不再一一展示,可在仓库内搜索"TODO"查看。
ps:仓库中是改动后的代码,不需再次修改
## 环境配置
### Docker(方法一)
```
...
...
@@ -78,9 +72,9 @@ pip install -r requirements.txt
## 数据集
### 训练数据集
`Coco2017`
仅需要annotations_trainval2017.zip、val2017.zip、train2017.zip作为数据集。可通过
[
scnet
](
http://113.200.138.88:18080/aidatasets/coco2017
)
或
[
官网链接
](
https://cocodataset.org/#download
)
进行下载,下载后的压缩包需要解压缩。通过官网下载和解压数据集的代码如下:
仅需要annotations_trainval2017.zip、val2017.zip、train2017.zip作为数据集。可通过
[
scnet
](
http://113.200.138.88:18080/aidatasets/coco2017
)
或
[
官网链接
](
https://cocodataset.org/#download
)
进行下载,下载后的压缩包需要解压缩。通过官网下载和解压
完整
数据集的代码如下:
ps:本仓库内准备了小数据集供训练测试,位于
。。。。。
ps:本仓库内
已
准备了小数据集供训练测试,位于
dataset/
```
cd RT-DETR/datasets
...
...
@@ -176,4 +170,4 @@ CUDA_VISIBLE_DEVICES=0,1,2,3 torchrun --nproc_per_node=4 rtdetr_pytorch/tools/tr
## 源码仓库及问题反馈
-
https://developer.sourcefind.cn/codes/modelzoo/rt-detr_pytorch
## 参考资料
-
https://github.com/huangb23/VTimeLLM
\ No newline at end of file
-
https://github.com/huangb23/VTimeLLM
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
.
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment