R

论文链接:R-C3D: Region Convolutional 3D Network for Temporal Activity Detection
代码地址(论文提供地址):/

该论文借鉴图像物体检测中的Faster-RCNN的思想,文章采用3D卷积来获取视频的时序信息,然后通过类似Faster-RCNN的rpn层和roi层输出时间维度的boundingbox,也就是视频中待检测动作的时间段。

一、网络结构

R-C3D的网络结构如下图所示:

从上图可以看出,网络由三个部分组成,一个是共享的卷积层(3D ConvNet),一个是类似于Faster-RCNN的rpn层(Proposal Subnet),一个是Faster-RCNN的roi层(Classification Subnet)。下面来详解介绍一下三个结构。

1.1 3D卷积特征提取网络

这个共享的卷积层主要是用来获取时序和空间上的特征信息,网络的结构采用的是C3D的网络(用于视频分类的一个网络)。

网络的输入为RGB三通道的图像帧,输入维度为 3 × L × H × W 3\times L \times H \times W 3×L×H×W( C × T × H × W C \times T\times H \times W C×T×H×W),经过C3D网络的conv1a到conv5b后,网络输出维度变为 512 × L 8 × H 16 × W 16 512\times \frac{L}{8} \times \frac{H}{16} \times \frac{W}{16} 512×8L​×16H​×16W​(512为网络的输出维度)。文章中输入的H、W为112,L是边长的只受限于内存或者显存大小。

1.2 Temporal Proposal Subnet

经过C3D网络可以得到维度为 512 × L 8 × H 16 × W 16 512\times \frac{L}{8} \times \frac{H}{16} \times \frac{W}{16} 512×8L​×16H​×16W​的输出,在Proposal Subnet里面经过一个kernel size为 3 × 3 × 3 3\times 3\times 3 3×3×3的3D卷积核来增加时序维度的感受野,之后再经过一个大小为 1 × H 16 × W 16 1\times \frac{H}{16}\times\frac{W}{16} 1×16H​×16W​的max pooling得到维度为 512 × L 8 × 1 × 1 512\times \frac{L}{8}\times 1\times 1 512×8L​×1×1的特征。

512 × L 8 × 1 × 1 512\times \frac{L}{8}\times 1\times 1 512×8L​×1×1的输出特征在时序维度上,每一个时间点上都可以认为是一个anchor点,如果每个anchor点上预定义K个anchor框,那么该特征就可以获得 L 8 × K \frac{L}{8}\times K 8L​×K个anchor框。将这些anchor框截取的特征输入给两个 1 × 1 × 1 1\times 1\times 1 1×1×1的卷积,可以获得两个结果,一个是对框的回归,一个是框是否为正样本的分类结果。

1.3 Activity Classification Subnet

activity classification stage包含三个主要功能:

  1. 从1.2中得到的Proposal中选取合适的Proposal
  2. 根据选择好的Proposal,利用3维的RoI pooling提取出对应的固定大小的特征
  3. 基于提取出的固定大小的特征得到动作的类别和回归出更精确的动作边界

1.3.1 Proposal的选择

经过Temporal Proposal Subnet阶段后,可以得到大量的Proposal,类似于faster rcnn,利用nms筛选出高质量的Proposal,nms的阈值定位0.7。

1.3.2 3D RoI Pooling

经过nms筛选出的Proposal,可以在3D卷积得到的特征(特征维度为 512 × L 8 × H 16 × W 16 512\times \frac{L}{8} \times \frac{H}{16} \times \frac{W}{16} 512×8L​×16H​×16W​)中截取对应的特征区域,类似于faster rcnn的RoI pooling,文章使用3D RoI pooling,文章pooling将时序维度、H维度、W维度分别划分为1、4、4,所以经过Proposal的截取得到维度为 512 × l p × 7 × 7 512\times l_p \times 7 \times 7 512×lp​×7×7的特征,再经过3D RoI pooling后输出维度为 512 × 1 × 4 × 4 512\times 1\times 4\times 4 512×1×4×4的特征。

1.3.3 输出动作类别与边界

在经过3D RoI pooling后输出维度为 512 × 1 × 4 × 4 512\times 1\times 4\times 4 512×1×4×4的特征,输入两个全连接层,然后分别送入两个全连接,一个用于分类一个用于回归。

二、训练阶段的设置

对于Temporal Proposal Subnet中正负样本的定义如下

  1. 与gt的IoU大于0.7的anchor segment定义为正样本
  2. 与某个gt的IoU是最大的,该anchor segment为正样本
  3. anchor与所有gt的IoU都小于0.3那么该anchor为负样本
  4. 其它anchor不参与训练
    该阶段正负样本控制在1:1进行网络的训练。

对于 Activity Classification Subnet中正负样本定义如下

  1. 某个Proposal与某个gt的IoU最大,且IoU大于0.5则该Proposal为正样本
  2. 某个Proposal与所有的gt的IoU都小于0.5,则该Proposal为负样本
    该阶段正负样本控制在1:3进行网络训练。
三、推断阶段的设置
  1. 首先经过Temporal Proposal Subnet,对anchor进行边界回归和正负样本的判断,这样就得到了大量的Proposal
  2. 得到的Proposal经过阈值为0.7的nms得到质量好的Proposal
  3. 根据高质量的Proposal截取对应范围的特征,送入Activity Classification Subnet,得到时序检测框和对应的类别
  4. 将得到的检测框经过阈值为0.1的nms得到最终的结果
四、loss计算

loss的计算和fasterrcnn也是很类似的,无论是emporal Proposal Subnet还是Activity Classification Subnet,分类采用softmax loss, 回归采用smooth l1 loss。同fasterrcnn回归loss根据训练的数量加入了一下权重的操作,用公式表示如下:
L o s s = 1 N c l s ∑ i L c l s ( a i , a i ∗ ) + λ 1 N r e g ∑ i a i ∗ L r e g ( t i , t i ∗ ) Loss = \frac{1}{N_{cls}}\sum_{i}L_{cls}(a_i, a^{*}_i)+\lambda\frac{1}{N_{reg}}\sum_{i}a^{*}_i L_{reg}(t_i, t^{*}_i) Loss=Ncls​1​∑i​Lcls​(ai​,ai∗​)+λNreg​1​∑i​ai∗​Lreg​(ti​,ti∗​)
其中 N c l s N_{cls} Ncls​表示训练的batchsize, N r e g N_{reg} Nreg​表示anchor或者Proposal的数量,且只有anchor或者Proposal为正样本时才计算回归的loss值。回归也是回归一个片段的中心点位置的 δ \delta δ和片段长度的 δ \delta δ值,如下式表示
δ c i = ( c i ∗ − c i ) / l i ) \delta c_i = (c^{*}_i - c_i)/l_i) δci​=(ci∗​−ci​)/li​)
δ l i = l o g ( l i ∗ ) / l i ) \delta l_i = log(l^{*}_i)/l_i) δli​=log(li∗​)/li​)
上式中, c i c_i ci​和 l i l_i li​分别代表anchor或Proposal的中心和时长, c i ∗ c^{*}_i ci∗​和 l i ∗ l^{*}_i li∗​代表gt的中心和时长

视频算法交流qq群:657626967