Untitled

DETR是一个端到端(不需要后处理的操作)的目标检测论文,是一个目标检测的趋势。

具体步骤如下:

  1. 输入一个图片(38001066)
  2. 使用CNN提取特征(20482534) 2048是通道数、25和34是长宽
  3. 经过一个降维操作,变成(2562534)
  4. 与位置编码(transformer 的输入是256)相加,然后压平(850,256)
  5. 输入transformer encoder,输出还是(850,256)
  6. 采用一百个queries进行查询,输出还是(100,256)
  7. 通过分类头和检测头,输入一百个框和类别

疑问解答:

Q:疑问queries是怎么来的?

A:object queries是可学习的embedding,与当前输入图1像的内容无关。

首先,它随机初始化,并随着网络的训练而更新,因此隐式建模了整个训练集上的统计信息

CoLab上最小的DETR模型:

Google Colaboratory