北航 & 百度通过对检测变换器的查询选择进行 Knowledge 蒸馏！编程频道|福州电脑网

北航 & 百度通过对检测变换器的查询选择进行 Knowledge 蒸馏！

变形器（Transformers）通过对检测器（Detection Transformers，简称DETRs）的革命性引入，实现了目标检测技术的大变革，因其简单和有效性而备受好评。尽管它们具有诸多优势，但这些模型的巨大大小对于实际部署产生了巨大挑战，尤其是在资源受限的环境中。本文旨在利用知识蒸馏技术解决基于变形器（Transformer）的检测器压缩问题，该技术能够在保持模型性能的同时减小模型大小。DETR的关键性能依赖其依赖 Query 以准确解释目标表示。传统的蒸馏方法通常仅关注通过二分匹配确定的积极 Query ，忽视了硬负 Query 中蕴含的丰富信息。作者的视觉分析显示，主要关注前景元素的硬负 Query 对于提高蒸馏结果至关重要。为此，作者提出了一种新颖的群组 Query 选择策略，该策略在根据与真实目标之间的广义交集对 Query 进行分段的基础上，发掘了有价值的硬负 Query ，从而进行蒸馏。作者接着提出了知识蒸馏经由 Query 选择框架，该框架综合了注意力引导特征蒸馏和局部对齐预测蒸馏（Local Alignment Prediction Distillation，简称LAPD）。这些组成部分通过关注教师模型中间特征以及输出的最具信息量的部分来优化蒸馏过程。作者对MS-COCO数据集进行了全面实验评估，结果表明作者的方法显著提高了各种DETR架构的平均精确度（AP），而没有产生大量的计算成本。具体来说，Conditional DETR ResNet-18的AP从35.8提高到了39.9，DAB DETR ResNet-18从36.2提高到了41.5，而DINO ResNet-50也从49.0提高到了51.4。知识蒸馏变形器（Transformer）检测器（Detector）目标检测（Object Detection）模型压缩（Model Compression）计算机视觉（Computer Vision）

1 Introduction

知识蒸馏（KD）Hinton等人；Chen等人（2017）；Song等人（2024）是一种有效的模型压缩策略，可以实现从复杂的教师模型到轻量级的学生模型的知识迁移。然而，该技术的应用主要局限于基于卷积神经网络（CNN）的检测器，如Ren等人（2015）、Tian等人（2019）和Xie等人（2024）。这主要是因为这种方法在架构上存在不匹配，使其在新型基于 Transformer 的检测器，如Wang等人（2023）、Tang等人（2023）和Korban等人（2023）中效果不佳或不适用。鉴于 Transformer 模型在目标检测领域的主导地位，为这些架构量身定制的KD算法的发展已经变得至关重要。

由于基于 Transformer 的检测器能够通过收集图像特征信息来预测边界框，因此 Query （Query）发挥着重要作用。在这个背景下，物体 Query 可以从中提取图像特征信息，同时促进教师模型和学生模型预测的协调对齐。然而，仅通过二分区匹配结果无法充分代表这些有价值的 Query ，导致蒸馏过程效率低下。作者认为，有效的方法应该关注那些具有信息价值的 Query ，而不仅仅是基于二分区匹配的阳性 Query 或所有 Query 的综合。

作者认为，在二分匹配中无法与真实值匹配但准确定位物体的硬负 Query (hard-negative queries) 中包含有丰富的知识，对于蒸馏 (distillation) 有价值。作者首先分析了各个广义交并集 (Generalized Intersection over Union, GIoU) 阈值下与每个真实值目标相关联的平均 Query 数，结果详细见表1。通过调整GIoU阈值，作者可以筛选出每个目标对应的匹配 Query 。这些统计数据表明，除了正 Query 之外，其他 Query 也能在不同GIoU阈值下产生与真实值目标相匹配的准确预测。作者进一步在图1中可视化目标 Query 与图像特征之间的关系。虽然正 Query 在计算GIoUmetric时获得最大值，但它只关注于物体区域的较小部分，限制了知识提取的范围。然而，当GIoU metric降低时， Query 会扩展到物体的附近，包含更多物体知识。作者相信，具有精确空间定位的这些硬负 Query (hard-negative queries) 可以通过增强蒸馏结果。

此外，作者还引入了 Query 选择知识蒸馏 (Query Selection Knowledge Distillation, QSKD) 框架，包括两个关键组件：基于注意力的特征蒸馏（Attention-Guided Feature Distillation, AGFD）和局部对齐预测蒸馏（Local Alignment Prediction Distillation, LAPD）。对于AGFD，作者提出了一个基于所有被选中 Query 的背景Mask,以确保在特征蒸馏中更全面的覆盖前景区域。作者还进一步研究了具有不同层数的编码器之间的蒸馏，并发现一个简单的 Transformer 编码器层作为 Adapter 可以显著提高AGFD性能，尤其在学生模型中没有编码器层时。在LAPD模块中，作者提出了一种高效且有效的策略，将教师和学生检测器预测进行对齐，该策略通过将GQS应用到两个预测集合并将选定的预测进行二分匹配来保证稳健的匹配过程，同时显著降低二分匹配过程的参与者数量，二分匹配过程的复杂度为 Query 数的立方。因此，LAPD可以有效用于具有大量 Query 的检测器，例如张等人（2023a）的DINO检测器，具有900个 Query 。

大量的实验证明了作者的框架的准确性和高效性。在MS-COCO数据集上，作者的框架将Conditional DETR Meng et al. (2021) ResNet-18的AP（平均精确率）从35.8提高到39.9（+4.1），将DAB DETR Liu et al. (2022) ResNet-18从36.2提高到41.5（+5.3），将DINO ResNet-50从49.0提高到51.4（+2.4）。作者的方法超过了现有方法，在检测向量蒸馏方面实现了新的最先进状态。通过一系列的消融研究，作者证明了每个单一模块的可用性，证实了每个组成部分都在实现这种高级性能中起着关键作用。

简而言之，作者的贡献可以归结为三个方面：

对于DETR蒸馏的 Query 选择，作者引入了新颖的组 Query 选择（GQS）方法，该方法识别并选择出最适合蒸馏目的的最有价值的 Query ，从而提高了知识传递过程的效率和有效性。
作者提出了一种名为“检测向量蒸馏通过 Query 选择”（QSKD）的框架，包含注意力引导的编码器特征蒸馏（AGFD）和局部对齐预测蒸馏（LAPD）。AGFD巧妙地减轻了学生在教师模型与学生模型之间编码器层数不匹配带来的挑战，而LAPD则促进了局部蒸馏对的快速建立，优化了预测对齐过程。
通过在COCO数据集上的广泛实验，包括各种设置，作者全面地证明了作者提出的方法的有效性和灵活性。实验结果不仅验证了作者的方法的优越性能，还突显了它们在不同模型配置和场景中的广泛适用性。

2 Related Work

Detection Transformer

与传统的检测算法不同，DETR Carion等人（2020）采用一组可训练的向量作为 Query ，从而提出了一个新的方法。然而，它面临着诸如慢的覆盖速度和高计算成本等挑战。为了解决这些问题并提高检测精度，出现了几种后续工作。条件DETR Meng等人（2021），DAB DETR Liu等人（2022），AdaMixer Gao等人（2022），DN DETR Li等人，变形的DETR Zhu等人（2021）和DINO Zhang等人（2023a）主要关注增强注意力机制和显式 Query 定义。另外，一些其他的研究试图通过在训练期间引入一对多匹配技术来提高训练覆盖率，例如Chen等人（2023）；Jia等人（2023）；Zong等人（2023）。集团DETR Chen等人（2023）引入了多个并行 Query 组，并在每个组内应用一对一匹配，允许一个GT匹配多个 Query 组中的多个 Query 。HDETR Jia等人（2023）在训练过程中提出，训练中可以包含一对多匹配的多个分支。CoDETR Zong等人（2023）进一步扩充了这个想法，引入了受传统卷积检测器启启示的灵活标签分配方法。

传统检测器的特性越来越在农村在DETR Query 定义，变形注意和DETR一对一策略的改进中日益彰显。作者的方法着重复合和理解不同 Query 对DETR稀释的影响，而不是致力于设计新的结构来增强DETR。

Knowledge Distillation for Object Detection

知识蒸馏是一种流行的技术，用于压缩模型并提高准确性，通过将来自更大、更复杂的教师模型的知识传输到较小的学生模型中。知识蒸馏的概念最早由Hinton等人（2014年）提出，学生学习模仿教师做出的软预测。以下蒸馏方法可以分为三类：响应型Hinton等人（2014年），基于特征的Romero等人（2015年），和基于关系的Park等人（2019年）。响应型方法利用大型深度模型中logits的洞见。基于特征的方法强调中间层特征的张平和Ma（2021年）； Wang等人（2022a）； Li等人。关系型方法进一步将特征、激活和样本对之间的关系考虑在内，de Rijk等人（2022年）； Yang等人（2022年）。此外，由于前景区域对于检测任务非常重要，忽略前景和背景的不平衡将导致结果不佳，Chen等人（2017年）。各种选择有信息特征进行蒸馏的策略已在文献中讨论，如Li等人（2017年）； Wang等人（2019年）； Sun等人（2020年）。例如，Guo等人（2021年）认为来自排除目标的区域的特征对于有效地训练学生检测器也很重要。此外，Du等人（2021年）强调通过使用FRS在边界框外检索关键特征并移除这些框内的有害特征。

Knowledge Distillation for Detection Transformer

随着DETR检测器变得受欢迎，针对它的蒸馏方法也应运而生，如黄等人（2023）。例如，张等人（2023）在特征和logits Level 都进行了DETR的蒸馏，通过使用正 Query 和特征计算的相似性重新加权特征蒸馏，并利用二分匹配选择相应的教师logits来指导匹配的学生logits。他们还将教师的 Query 传递给学生模型以获得与教师的对齐预测。同样，除了logits蒸馏外，陈等人（2022b）在解码器中引入了特征蒸馏，也利用二分匹配建立相应的蒸馏关系。

此外，王等人（2022b）为学生和教师模型引入了额外的 Query 并蒸馏相应的预测，以确保蒸馏的一致性。对于编码器中的特征蒸馏，这些工作主要针对正 Query ，忽略了未与二分匹配的目标匹配的 Query ，但识别出了目标。在解码器的logits或特征蒸馏中，这些工作要么在所有教师和学生的 Query 之间进行二分匹配，要么引入新的 Query 以建立一致性，而没有区分不同 Query 的作用，引入了一些不必要的计算成本。

3 Method

本文段首先对基于 Transformer 检测器进行了简要概述，详细内容参见第3.1节。在这一基础概述之后，第3.2节对作者的组 Query 选择（GQS）方法进行了深入的分析和讨论。

随后，作者进入了 Query 选择知识蒸馏（QSKD）框架，该框架包含两个基本的组件：注意力引导特征蒸馏（AGFD）和局部对齐预测蒸馏（LAPD）。这些模块在第3.3节和第3.4节中进行了详细阐述。

最后，本文段在第3.5节中对计算和实现总损失的详细描述，包括AGFD、LAPD以及其他损失组成部分的贡献。总之，作者的工作基于深度学习技术，对图像分类任务进行了深入研究。通过对图像进行分析和处理，作者开发了一种新型的GQS方法，并将其与QSKD框架相结合，以提高分类性能和效率。

Preliminaries

典型的基于 Transformer （Transformer）检测器，例如DETR Carion等人（2020年）[1]，由三个主要组成部分构成：backbone ，transformer encoder 和transformer decoder 。给定一个输入图像，backbone 用于提取图像特征。这些特征通过encoder ，采用自注意力机制进行精炼，得到。

decoder 处理以及一组可学习的物体 Query 作为输入，其中是 Query 数量，是嵌入维度。对于每个 Query ，decoder 生成预测，其中和分别代表分类和边界框预测。decoder 的最终输出表示为。

真实世界目标被表示为。为了与 Query 数量保持一致，被填充为，表示目标不存在，从而得到目标。

Group Query Selection

Query 选择的关键在于识别出对蒸馏最具有信息价值的 Query 。一个基本的 Query 选择方法是对预测值和目标值应用二分匹配算法。这种算法将预测值划分为两类：正样本和负样本。这些组的索引分别表示为和。

由于 Query 和预测之间具有直接对应关系，可以将 Query 划分为正 Query 和负 Query ，分别匹配和。然而，尽管仅使用正 Query 进行蒸馏并忽略负 Query 可能具有直观性，但作者已经观察到许多负 Query 也具有信息量，如图1所示。因此，作者提出了一种分组 Query 选择（GQS）方法，尽可能多地获取有信息价值的 Query ，如果不可能是全部。

如图2（a）所示，作者提出的方法包括正选择器和硬负选择器。正选择器直接在预测值和真实值目标之间应用二分匹配。对于每个负预测，硬负选择器首先计算其与真实值目标之间的Generalized Intersection over Union (GIoU)相对值。然后，与具有最高GIoU的真实值目标关联，将此最大GIoU定义为的GIoU度量。这个过程创建了个负预测的簇。在每个簇内，具有比阈值更大的GIoU的预测被分类为硬负预测，其余的被归为易负预测。作者的假设是，与硬负预测相关的 Query ，称为硬负 Query ，也含有丰富的信息，对蒸馏过程有益。因此，正和硬负 Query 都对蒸馏有价值。为了明确，选择硬负 Query 的索引表示为，相应的 Query 表示为，相应的GIoU度量表示为。

Attention-Guided Feature Distillation

之前关于目标检测知识蒸馏的研究表明，前景区域比背景区域更有信息价值（Chen等人，2017年）。例如，DETRDISTILL采用相似矩阵来强调前景区域，该矩阵将正 Query 和图像特征进行比较。然而，作者认为仅关注可能会忽略前景的大量重要信息。针对这一点，作者提出的Group Query Selection（GQS）算法提出了更适合的选择，它包括正 Query 和硬负 Query ，从而提供了更广泛的前景区域强调范围。

与这种方法一致，作者引入了自注意力机制引导的特征蒸馏（AGFD）。如图2（b）所示，该技术利用和之间的注意力矩阵来生成前景 Mask 。作者定义了第一层教师解码器的注意力矩阵，其中表示第i个 Query 和之间的注意力矩阵。

作者进一步探究了在具有不同层数的编码器中的编码器特征蒸馏，并发现一个有趣的发现：利用单个编码器层作为 Adapter 显著提升了蒸馏性能。值得注意的是，即使将编码器层数减少到零，这种方法仍然有效。这种经验观察得到了图3中可视化的支持，这些可视化表明六层编码器的输出特征与基于CNN的背书特征显著不同（_即_，没有编码器）。

因此，直接将前景 Mask 应用到学生的图像特征可能无法有效地突出需要蒸馏的区域。然而，通过将编码器层作为一个 Adapter ，学生的图像特征变得与教师更相似。这种对齐使得前景 Mask 能够更准确地强调需要蒸馏的区域，从而增强作者的AGFD的有效性。

Local Aligned Prediction Distillation

作者的局部对齐预测蒸馏（LAPD）的目标是将教师的预测转移到学生的预测。在这个过程中，建立和之间的对应关系是一个关键阶段。尽管之前的做法主要使用二分匹配来实现这个目的，但它面临着精度与效率方面的巨大挑战，无论是精度还是效率都存在问题。

二分匹配的精度问题源于负面预测固有的多样性。由于这种多样性，二分匹配可能会错误地匹配无关的预测，从而在蒸馏过程中引入噪声。至于计算效率，二分匹配的成本会随着 Query 数量的增加而呈平方增长。这对于拥有大量 Query 的检测器来说是一个严重的问题。例如，在DINO检测器中，执行二分匹配的成本是 Baseline 方法的5倍。这种明显增加的计算需求使得二分匹配在这种场景下变得不可行。

作者提出的局部对齐预测蒸馏（LAPD）方法通过对 Query 进行采样，有效地解决了精度与效率问题。首先，应用群体 Query 选择（GQS）对教师的预测和学生的预测进行处理。对于每个 GT 目标，作者匹配相应的阳性预测，和。然后，在关联的选择的负面预测的二分匹配是在选择的 Query 内进行。值得注意的是，这种匹配限制在选择的 Query 中，有助于有效地抑制噪声。

这种方法在和之间产生了部分匹配，显著降低了计算成本。部分匹配可表示为，其中和是大小为的两个排列，是匹配的 Query 对的数量。然后在这些匹配的预测之间进行蒸馏：

，

其中代表分类损失，表示回归损失。和是相应的损失权重。

Experiment Setup

数据集作者在 MS-COCO 2017 数据集上进行实验，该数据集包含训练图像118,287张和验证图像5,000张。作者报告平均精确度（AP）作为评价指标，并报告在不同比例下的AP，即，，。

实现细节作者作者在 GB NVIDIA Tesla V100 GPU 上进行实验，总批量大小为。作者的方法基于广受好评的模型的官方版本：条件DETR Meng等人（2021），DAB DETR Liu等人（2022），和 DINO 张等人（2023），这些模型因其受欢迎程度和快速收敛性而受到认可。强调作者蒸馏方法的可模块化性质，作者严格遵循每个模型的原始配置，包括其超参数、学习率计划和优化器设置。教师和学生的模型训练分别使用了 50/36/12 个 epoch，使用 AdamW 优化器，特征权衰减为。作者将编码器的损失权重设置为，将解码器的损失权重设置为，以确保训练动态的平衡。为了定量评估作者方法的有效性，作者在 GB NVIDIA Tesla V100 GPU 上进行推理，提供了作者在实际环境中的模型性能的实际基准。

Main Results

在这项研究中，作者评估了作者的降维方法在三个检测Transformer变体上的性能：Conditional DETR和DAB DETR，均为单尺度、一阶段模型，以及DINO，一个多尺度、两阶段模型，以其最先进的性能而著称。作者采用了多种教师 Backbone ，包括ResNet-101 He等人（2016），ResNet-50和Swin-Large Liu等人（2021），以指导在ResNet-18和ResNet-50 Backbone 上的学生模型。训练将持续50个周期，用于Conditional DETR和DAB DETR学生模型，而DINO学生模型的训练周期为12个。作者的实验设置旨在探索在各种条件下降维的有效性，包括相同教师模型指导不同学生模型以及使用多种教师模型为相同学生 Backbone 。使用一个Conditional DETR ResNet-101教师模型进行的初步实验表明，ResNet-18和ResNet-50学生 Backbone 分别实现了4.1 AP和2.8 AP的显著提升。值得注意的是，使用ResNet-50学生 Backbone 的Conditional DETR模型甚至超过了其教师的表现，详情见表2。使用DAB DETR教师（ResNet-101和ResNet-50）训练ResNet-18学生的实验带来了统一的提升，各配置上提升 AP。此提升的一致性突显了作者的降维方法的多功能性。此外，作者的方法显著提升了DINO检测器的性能，当使用一个ResNet-50教师和一个ResNet-18学生时，其AP实现了3.3 AP的增加。使用Swin-L Backbone 进行教师模型的尝试进一步证明了作者的方法的有效性，为基于ResNet-50的DINO学生模型带来了2.4 AP的提升。这些发现说明了作者的降维方法在各种检测Transformer配置和训练场景下的广泛适用性和鲁棒性。通过在不增加额外 Query 或进行复杂修改的情况下显著提升模型性能，作者的方法在目标检测领域的模型训练高效性和有效性方面实现了重大突破。

在目标检测模型的降维策略领域，作者的提出的方法展示了卓越的性能，超越了现有的基准。具体来说，将其与Conditional ResNet-50框架中的DETRDISTILL Chang等人（2023）进行对比，作者的方法获得了43.7 AP，远高于他们的 reported 42.9 AP。值得注意的是，这一提升在训练阶段无需将额外的教师 Query 集成到学生解码器中。此外，作者的方法通过在Conditional ResNet-18和ResNet-50配置下分别超越D3ETR Chen等人（2022）的优势，实现了0.3和0.4 AP的分别提升。这一成就强调了训练过程的特点，即速度的提高和简单性的增加。在作者与KD-DETR Wang等人（2022）的比较中，作者的策略为ResNet-18学生模型导引的DINO ResNet-50教师带来了1.9 AP的优势，这一巨大的领先优势通过降低速度和简化训练过程得以实现。

作者的方法的显著区别在于其策略性地利用了原始学生 Query 内嵌的固有知识，而非依赖额外的 Query 来进行降维。这种方法不仅简化了降维过程，还提高了效率，提供了一个简化的知识传递途径。必须承认的是，作者的方法并不排除涉及额外 Query 的降维的潜在优势，表明作者的方法与涉及额外 Query 的降维策略之间存在互补而非冲突的关系。这样的对比分析强调了作者的降维方法的优势，突显了其在提高模型训练的高效性和有效性方面的潜力。通过巧妙地结合创新和战略洞察，作者的方法在领域内设定了一个新的基准，有望催生降维技术的新进展。

Self-Distillation Results

作者的方法在教师模型和学生模型具有相同的主体框架时仍然有效。特别地，作者在实验中采用了 ResNet-50 作为教师模型和学生模型的通用主体框架。如表3 所示的结果证实了作者方法的有效性：作者的模型在条件 DETR 中实现了 1.3 AP 的提升，在 DAB DETR 中达到了 0.7 AP，在 DINO 中达到了 0.7 AP。这表明了作者的方法具有很大的柔性，能够在教师模型和学生模型具有相同的主体框架时实现显著的提升。

消融研究

在这部分，作者在 QSKD 的每个组件上进行消融实验：注意力引导特征蒸馏、局部对准预测蒸馏和无编码器蒸馏。作者专门使用条件 DETR ResNet-101 作为教师模型，使用条件 DETR ResNet-18 作为学生模型。在主要的消融实验中，作者将学生模型训练了 50 个周期。在更专注于组件的消融研究中，学生模型经过 12 个周期的训练，在第 11 个周期中出现了学习率的定期降低。

4.4.1 Main Ablation

为了研究作者方法中各个组件的影响，作者在表4中报告了各个模块的性能。实验结果表明，使用AGFD alone可以获得3.6 AP的性能提升，而使用LAPD alone可以获得2.0 AP的性能提升。由于编码器和解码器组件保持不变，作者直接将教师模型的参数预加载到学生模型中，这可以被视为一种特征蒸馏。这不仅加速了Kang等人（2021年）模型的收敛，还通过提高0.3 AP的准确度，如图4的最后一行所示。将所有这些元素结合在一起，为作者相对于Conditional DETR ResNet-18 Baseline 的性能提高了4.1 AP，证实了作者的方法的有效性。

4.4.2 Ablations on the AGFD

在本研究中，作者探讨了在DETR（检测Transformer）模型中有效地应用交叉注意力以增强编码器特征浓缩的方法。作者的方法包括各种编码器特征浓缩策略，并采用不同的通用交点over union（GIoU）阈值进行 Query 选择和基于GIoU的重评分方法。作为比较的基础，作者建立了一个 Baseline ，不需要应用屏蔽重权。详细的结果请参阅表5。

作者的发现表明，仅仅依赖于编码器特征浓缩的纯方法在检测器上取得了32.4的AP，表明仍有改进的空间。后续，仅使用阳性 Query 构建重新加权屏蔽，实现了轻微的准确率提升至32.7。请参阅表5的第二行。当集成具有大于0.5的GIoU的硬负 Query 时，观察到浓缩效率的提升至33.4，请参阅表5的第四行。将较低的GIoU阈值至0.0的硬负 Query 包括在内将进一步提升性能，达到33.7。

使用GIoU评分进行自适应加权微调，结果达到了33.9，强调了所提出的策略的有效性。然而，将不符合地面真相的容易负 Query 集成在一起，导致模型准确率减少0.8，如表5的第三行所示。这一结果突出了 Query 选择和利用GIoU阈值在优化DETR模型编码器特征浓缩中的关键作用。

4.4.3 Abaltions on the Encoder-Free Distillation

在这一节中，作者研究了在DETection Transformer（DETR）模型内减少编码层数量对性能指标（如AP和FPS）的影响。作者使用通过新颖的编码层 Adapter 实现编码层蒸馏来解决来自层数减少产生的性能差异。具体而言，作者将编码层数量减少到3时，编码层蒸馏的功效并未显著降低，实现了AP的显著提高6.1。然而，完全删除编码层会导致蒸馏提高1.8 AP的效果降低，这归因于编码层与ResNet基础骨架特征的有效对齐存在挑战。

为了解决这个问题，作者在训练方案中引入了编码层 Adapter ，显著提高了性能，将蒸馏AP从24.6提高到27.1。此外，当将编码层数量调整到3时， Adapter 额外提高了0.4 AP，强调了它提高特征对齐的有效性。这种改进在仅使用AGFD的0层编码配置中尤为明显，与原ResNet-18的6层编码配置相比，实现了0.7 AP的提高。值得一提的是，这种改进伴随着FPS的超过1.5倍提升，凸显了作者的方法的有效性。作者的研究结果表明，在编码层 Adapter 的集成可以使DETR模型在准确率和效率方面具有前景，尤其是在编码复杂性减少的场景中。

4.4.4 Abaltions on the LAPD

在本研究中，作者通过一系列六个实验组探讨了局部对齐预测蒸馏（LAPD）在Detection Transformer模型的解码组件中的有效性。这些实验旨在系统地评估不同 Query 选择对解码预测蒸馏的影响。作者使用了一个基于Conditional DETR ResNet-的 Baseline ，训练了个周期没有蒸馏，来评估作者LAPD策略的增量收益。起初，作者专注于从教师模型到学生模型的正负 Query 之间的蒸馏，这导致了 mAP的适度提高，如表6的第二行所示。然后，作者尝试了蒸馏容易的负预测（GIoU大于的真实边界框），这导致了 AP的降低，突显了蒸馏低质量预测的有效性。在将两个子图像的预测进行配对以确定蒸馏对之后，作者观察到在硬负预测（GIoU大于）和每个真实目标的正向预测之间进行蒸馏显著提高了 AP。通过逐步调整包括在蒸馏过程中的硬负预测数量，作者优化了性能，在将阈值设置为时，达到了 AP的最高结果。值得注意的是，由于作者只选择具有大于的GIoU与目标的 Query ，并且在一个图像中的平均目标数量小于，因此在极端情况下，进行配对的所有硬负 Query 要计算的远少于总的 Query 数量（或）。此外，仅将硬负预测与正预测专注于LAPD，而不包括正预测仍实现了显著的 AP，如表6的最后一行所示。这些发现强调了 Query 选择在解码预测蒸馏中的微妙作用，突显了LAPD通过有策略的蒸馏方法增强Detection Transformer模型性能的潜力。这项工作有助于理解基于自注意力的Detection Transformer模型中有效的蒸馏技术，提供了优化模型准确性和效率的见解。

在作者的进一步实验中，详细内容请参见表7，作者评估了局部对齐预测蒸馏（LAPD）对降低与蒸馏Detection Transformer模型有关的计算成本的影响。这些实验特别关注了ResNet-18后端学生模型，比较了各种对齐方法下的每个周期训练时间与包括学生训练和老师推理的 Baseline 。

作者的结果凸显了用全局对齐方法所承担的计算负担，该方法由Chang等人（2023年）和Chen等人（2022b年）采用。对于DINO模型，它需要对所有教师和学生的预测进行配对，共有个 Query ，每个周期需要近小时。相比之下，采用LAPD将训练时间大大缩短到约小时，这演示了比全局对齐少了不到的时间。这种效率提升并不仅限于具有大量 Query 的模型；

即使是使用个 Query 的Conditional DETR和DAB DETR模型，LAPD的局部对齐方法也极大地缓解了计算时间的负担。这些发现强调了对DETR模型的训练效率进行改进的有效性，为作者提供了一个可扩展的解决方案，在降低计算成本的同时并不牺牲最终的性能。

这些结果的含义远远超出了时间的节省，表明LAPD可能在促进DETR模型在各种领域的可扩展性方面发挥关键作用。通过显著降低模型蒸馏的计算要求，LAPD为实现更可持续和可访问的部署，可能会加速在资源受限的环境中创新和应用的推广。

Visualization

表8：作者在不同编码层设置下AGFD的有效性及引入一个编码层作为 Adapter 的影响。

图4提供了一种细致的图像 Query 与相应图像特征相关性的可视化展示，通过随机选择一些随机例子加深作者对模型中目标感知理解。与此相反，图1采用一种新颖的方法聚合特定帧间隔内所有预测的平均特征进行详细可视化检查。

值得注意的是，具有较高但为负的广义交越率(GIoU)分数的 Query 重点关注目标的 foreground 元素。相反，具有较低 GIoU 分数，作者称之为易于负的 Query ，在目标轮廓描绘精度方面表现降低，突显了在知识蒸馏背景下其有限的有效性。

特别地，这种分析揭示出第一行的阳性 Query 主要捕捉到人的中央部分，省略了身体 extremities 的很大一部分。从第1个到第7个随机选择的预测，人形越来越集中于下半身。相反，从第8个到第20个预测逐渐倾向于人的 Head 。图4的第二行表明，虽然阳性 Query 主要关注椅子坐垫，但硬负 Query 会将注意力扩展到涵盖椅子的背部或腿部。

这些洞见表明，硬负 Query 与阳性 Query 结合提供了一种更全面的目标识别视角。这种细腻的理解强调了仅依赖阳性 Query 或合并包括所有 Query ，包括易于负的 Query ，对目标感知可能存在的局限性。通过这种详细的视觉分析，作者的研究为增强目标检测模型知识蒸馏技术的发展做出了贡献，倡导在模型训练和性能中平衡包括了 Query 类型。

5 Discussion and Conclusions

在本节中，作者将讨论作者的研究成果并总结主要的发现。作者首先会对作者的方法进行评估，然后将深入分析实验结果，最后讨论作者的研究成果在理论和实践中的应用。

Discussion

在 Detection Transformer (DT) 蒸馏算法中， Query 的选择是一个关键环节。认识到 Query 在增强蒸馏过程中所起的关键作用，这在先前的研究中得到了证明

，这是作者方法的基础。然而，值得关注的是，用于建立学生 Query 和教师 Query 之间的蒸馏关系的二分匹配过程导致了过度的计算时间。当尝试在 DINO 中复制实验结果时，这个过程变得特别繁重，涉及900个 Query ，一个epoch的训练可能需要几天时间，使该方法变得不切实际。

在对 Chang 等人（2023）的研究的进一步分析中，作者注意到存在一个假设，即在编码器蒸馏中使用的所有 Query 都被认为比仅选择的部分正 Query （称为子集）更无效，这与解码器蒸馏中所有 Query 都被认为可以提升性能的场景形成对比。

这一观察提出了一个关于在 Detection Transformers 中对蒸馏过程做出显著贡献的具体 Query 的问题。因此，本文提出了一种创新的 Query 划分方法，超越了传统的二分匹配 GT 框的传统方法。

此外，澄清作者的方法与集团 DETR Chen 等人（2023）之间的区别至关重要。与集团 DETR 不同，作者的方法没有引入任何额外的 Query ，而是仅基于与 GT 框的GIoU将原始 Query 集中的关键 Query 分类，以便它们可以被包含在和学生 Query 教师 Query 之间的精确一对一蒸馏对应关系中，通过二分匹配建立。

Conclusions and Future Work

在本研究中，作者提出了一个用于检测Transformer的Query Selection for Detection Transformer（QSKD）知识蒸馏方法。实验结果表明，该方法在各种DETR模型中，如Conditional DETR、DAB DETR和DINO中表现出显著的有效性。

作者的方法，通过Attention-Guided特征蒸馏和局部对齐预测蒸馏，战略性地选择有用的 Query 来指导蒸馏过程，在MS-COCO数据集的实验中展示了有前途的结果。例如，作者观察到Conditional DETR ResNet-18模型的显著改进，AP值从35.8提高到39.9。与用于检测Transformer蒸馏的现有方法相比，这种方法不仅提供了一种使用 Query 进行知识蒸馏的新视角，而且有助于提高模型准确性和降低蒸馏过程中的计算成本。

作者还调查了蒸馏跨越 transformer模块和卷积模块，引入了一种新颖的方法来进一步降低DETRs的计算复杂性。

传统的离线蒸馏方法，包括作者的QSKD，依赖于预训练的教师模型来指导学生模型。为了克服这个限制，作者计划在将来探索DETR的在线蒸馏技术，消除训练教师模型的需求。此外，作者计划尝试用于跨DETR模型，例如使用DAB DETR蒸馏Conditional DETR，进一步验证作者的QSKD方法的适用性。

参考

[1].Knowledge Distillation via Query Selection for Detection Transformer.

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2024-10-10，如有侵权请联系 cloudcommunity@tencent 删除效率性能百度编码模型

北航 & 百度通过对检测变换器的查询选择进行 Knowledge 蒸馏！