基于深度学习的视频小目标检测与跟踪技术研究文献综述

 2023-08-11 10:08
  1. 文献综述(或调研报告):

目标跟踪技术可大致分为生成式方法和判别式方法。其中生成式方法是从通过提取的相关特征中学习目标的外观模板,在搜索区域寻找匹配程度最高的区域作为目标的方法[1]。相比之下,另一种方法,判别式方法,把跟踪问题转化为一个背景与前景的二分类问题,通过提取的相关特征训练一个分类器,在目标区域实现前景与背景的区分,这种方法能兼顾利用前景和背景的信息,所以其所达到的效果往往比第一种方法更优秀[1]。在判别式方法中,具有代表性的算法有:

2011年,Hare等人提出了Struck(Structured Output Tracking with Kernels)算法,提出一种基于结构输出预测的自适应视觉目标跟踪的框架,引入输出空间满足跟踪功能,避免中间分类环节,直接输出跟踪结果[2]。

2012年,Zdenek Kalal等人提出了TLD(Tracking Learning Detection)算法,一种单目标长时间跟踪算法,该算法将跟踪算法和检测算法相结合,来解决跟踪目标在被跟踪过程中发生的形变、遮挡等问题,同时通过一种在线学习机制来更新跟踪模块和检测模块的参数[3]。除此之外,相关滤波方法在速度与性能之间做出了很好的平衡,占据了一席之地。其中具有代表性的算法有:

2011年,Bolme等人提出了最小输出军方误差和滤波(Minimum Output Sum of Squared Error filter, MOSSE)方法,这个方法基于信号中相关性原理,提取图像的灰度特征,运用最小均方误差的原理找到使得目标能够得到最大响应的滤波器[4]。

2014年,Henriques等人提出了KCF(Kernelized Correlation Filters)方法,其利用循环矩阵原理,将相关滤波器的求解过程通过快速傅里叶变换转换到频域,同时提出了多特征融合的方法[5]。

2014年,Danelljan等人提出DSST(Discriminative Scale Space Tracking)方法,通过分别训练位置滤波器和尺度滤波器得到目标位置的响应[6]。

2015年,Danelljan等人在KCF方法的基础上提出了SRDCF(Spatially Regularized Discriminative Correlation Filters)方法,其加入惩罚措施来对超越跟踪目标边界的像素权重进行调整,并且通过使用不同大小的尺寸进行特征搜索来解决多尺度输入的问题[7]。2018年,Lu等人通过整合DSST方法和PCA(Principle component analysis)相关滤波,取得了更高的准确率[8]。

随着深度学习的发展,深度学习算法对于目标强大的特征表示能力以及对目标运动过程的拟合能力渐渐受到研究者的重视,研究者们也提出了许多基于深度网络的目标跟踪方法。将深度学习应用在目标跟踪领域,可以利用深度特征对目标物体强大的特征表示能力,将深度特征代替传统的手工特征放入相关滤波器中以加强语义信息提高跟踪精度;也可以利用深度网络强大的拟合能力,使用一个或多个网络结构的组合实现目标跟踪,即基于深度学习的目标跟踪通常可分为基于深度特征的目标跟踪和基于深度网络的目标跟踪[1]。

对于基于深度特征的目标跟踪,代表性的方法有:

2015年,Ma等人提出了HCF(Hierarchical Convolutional Features for visual tracking)方法,其利用已知图像的位置,根据对应的三个卷积层中的特征,训练三个不同的相关滤波器,在下一帧中与相同区域范围内的相同层的特征滤波得到响应的位置分数,通过三层位置的最大响应点做逐层精细地位置预测,并以最终最底层的带有最多空间信息的预测结果作为输出[9]。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版