DETR是一个端到端(不需要后处理的操作)的目标检测论文,是一个目标检测的趋势。
具体步骤如下:
- 输入一个图片(38001066)
- 使用CNN提取特征(20482534) 2048是通道数、25和34是长宽
- 经过一个降维操作,变成(2562534)
- 与位置编码(transformer 的输入是256)相加,然后压平(850,256)
- 输入transformer encoder,输出还是(850,256)
- 采用一百个queries进行查询,输出还是(100,256)
- 通过分类头和检测头,输入一百个框和类别
疑问解答:
Q:疑问queries是怎么来的?
A:object queries是可学习的embedding,与当前输入图1像的内容无关。
首先,它随机初始化,并随着网络的训练而更新,因此隐式建模了整个训练集上的统计信息。
CoLab上最小的DETR模型:
Google Colaboratory