基于协方差权重分配的分割方法研究文献综述

 2022-11-28 06:11
  1. 前言

目标检测与语义分割作为人工智能的两个重要任务,在日常生活中的应用十分广泛。其中,目标检测主要是模拟人的视觉系统,通过检测算法对摄像头采集到的图像数据进行识别分析,以检测图像中出现的物体目标信息从而辅助智能系统做出决策。而语义分割则是对图像进行像素级别的检测与预测,以分割出图像中的语义部分,例如道路,建筑物,行人等等。随着神经网络的研究兴起及计算机的飞速发展,基于图像的目标检测与语义分割算法效益得到极大改善,理论开始转向实际,应用产品也层出不穷,成为人工智能应用的急先锋。无人驾驶、安全检测、人脸跟踪等都是图像目标检测与语义分割技术快速普及的一个缩影。

本文旨在研究基于注意力模型的分割方法。基于自关注机制,通过捕获丰富的上下文依赖关系来解决场景分割问题。

  1. 相关文献的研究现状
  2. 背景

当前的主流的语义分割网络应该就是空洞卷积和解码器这两个元素的组合。

一个通用的语义分割体系结构可以被广泛认为是一个编码器网络,然后是一个解码器网络:编码器通常是一个预先训练的分类网络,如vgg/resnet,然后是一个解码器网络。解码器的任务是将编码器学习到的识别特征(低分辨率)语义投影到像素空间(高分辨率)上,得到密集的分类。

传统分类网络通过连续的pooling或者其他下采样层来整合多尺度上下文信息,这种方式会损失一些分辨率。并且,分类网络与稠密预测不同,稠密预测需要多尺度上下文信息,同时还要求足够大的输出分辨率。空洞卷积是针对图像语义分割中的像素级别的预测分类提出了一种新的卷积网络模块。通过空洞卷积进行多尺度上下文信息聚合而不降低特征图大小,空洞卷积支持感受野的指数增长。

  1. DANet优势及解决的问题

之前的一些方法,往往有两个问题。第一个是,如果某些目标受到光照,遮挡等因素不够显著,那么这些位置的预测结果很可能就被一些显著性的物体所影响了。第二个问题是,一张图像中很多物体的尺度是不一样的,占比不一样,那么不同尺度的特征应该被同等对待。

人们提出了基于完全卷积网络(FCNs)的最新方法来解决上述问题。一种方法是利用多尺度的上下文融合。尽管上下文融合有助于捕获不同尺度的对象,但它不能在全局视图中利用对象或对象之间的关系,这也是场景分割必不可少的。另一种方法利用递归神经网络挖掘长距离相关性,从而提高场景分割精度。但是这个方法利用递归神经网络隐式地捕捉全局关系,其有效性在很大程度上依赖于长期记忆的学习结果。

为了解决上述问题,提出了一种新的自然场景图像分割框架,称为双注意网络(DANet)。作者认为局部特征对应的全局性的依赖是很重要的。

主要的优势有:

  • 提出了一种新颖的对偶注意力网络,利用自注意力机制提高特征表示的判别性。
  • 位置注意力模块用于学习特征的空间依赖性,通道注意力模块用来学习通道之间的内部关联性。
  • 在cityscapes,PASCAL context,COCO stuff上实现了更好的性能
  1. DANet方法

基于Self Attention mechanism来捕获上下文依赖。提出了DualAttention Networks (DANet)来自适应地整合局部特征和全局依赖。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版