DETR | Notion

Untitled

DETR是一个端到端（不需要后处理的操作）的目标检测论文，是一个目标检测的趋势。

具体步骤如下：

输入一个图片（38001066）
使用CNN提取特征（20482534） 2048是通道数、25和34是长宽
经过一个降维操作，变成（2562534）
与位置编码（transformer 的输入是256）相加，然后压平（850，256）
输入transformer encoder，输出还是（850，256）
采用一百个queries进行查询，输出还是（100，256）
通过分类头和检测头，输入一百个框和类别

疑问解答：

Q：疑问queries是怎么来的？

A：object queries是可学习的embedding，与当前输入图1像的内容无关。

首先，它随机初始化，并随着网络的训练而更新，因此隐式建模了整个训练集上的统计信息。

CoLab上最小的DETR模型：

Google Colaboratory