内容简介
《基于深度学习的视频物体分割方法与技术》介绍了视频物体分割任务的理论、技术与应用。《基于深度学习的视频物体分割方法与技术》分为四大部分,**部分(第1章~第3章)介绍了视频物体分割的研究现状和理论基础,主要包含国内外相关研究、视频物体分割基础概念、两类融合算法的具体实现与实验分析;第二部分(第4,5章)介绍了视频物体分割算法在训练阶段和测试阶段的优化技巧,主要包含训练阶段针对性的样本扩充、损失函数设计与测试阶段的后处理算法对比分析;第三部分(第6章)介绍了算法的评价方式,重点针对无监督条件下如何评价算法性能进行了细致解析;第四部分(第7,8章)给出了技术的具体应用,包括视频编辑、人机交互、智能监控、智慧医疗等场景,并对视频物体分割进行总结、展望未来发展趋势。
精彩书摘
第1章绪论
视觉信息大约占人类对外部世界的感觉信息量的80%[1],为人类认知提供了*重要的基石。视频作为大数据和互联网时代*主要的非接触式视觉信号的交流和表达方式,为人们的生产生活提供了强大的安全保障,为人们的工作提供了极大的便利,同时也对智能算法提出了高难度的信息提取和处理的挑战。如何高效精准地处理、提取视频传达的视觉信息尤为重要,因此,智能视频处理领域涌现出诸多实用任务的研究,如视频运动片段分割[2]、视频异常检测[3]、视频物体分割[4]等。本章阐述智能视频处理中关键技术之一的视频物体分割技术的概念、应用领域、关键问题和研究现状。
1.1视频物体分割的概念
1.1.1计算机视觉处理任务的语义层级划分
计算机视觉处理的任务按照语义层级划分,可分为低层级、中层级和高层级三种级别。
在低层级视觉处理任务中,算法的处理方式大多与视频或图像的内容无关,通常算法的输入为图像,则输出也为图像,输入为视频,则输出也为视频,如图像去雾算法[5,6]、图像去模糊算法[7,8]、图像过分割算法[9]等。这些任务中的视觉处理并不需要理解图像语义,图像内容的类别、图像中目标位置等信息并不影响任务的处理结果,算法只通过统计规律或者预估参数便可完成图像处理任务。如图1.1所示的单图暗通道图像去雾算法,基于暗通道假设和大气光传输模型进行了数学建模,从带雾图像的像素值中,使用暗通道先验估计出透射系数,将大气光强度A设置为常数,然后通过转换公式直接计算,便可得出去雾图像。该处理过程对森林山谷图像、湖面天鹅图像的处理流程是一样的,不涉及对图像内容的识别和理解。
图1.1低层级视觉任务示例(暗通道图像去雾算法[5])
中层级视觉任务要求算法能够从视频、图像中提取特征,进行解析和处理,从输入的图像、视频数据中估计出其相关关系,或预测出新类型的数据,如视频光流预测[10]、基于聚类算法的图像分割[11]、视频追踪[12]与图像匹配[13]等。算法基于数据特点对其进行一定程度的抽象和特征提取,但并未上升至人类语义级别,如图1.2所示,文献[12]所提算法根据图像中层语义特征提取待匹配图像对的局部关键点,并计算特征距离实现图像对的关键点匹配,为两张图像的对齐和拼接提供了信息。
高层级视觉任务蕴含的语义信息与人类认知接壤,要求算法能够理解和掌握人类认知层级的语义信息,如识别图像中的目标类别和位置[14,15]、鉴定人类面部图像表达的情感[16]等。几种常见的高层级视觉任务有图像分类、目标检测和图像分割。这几种任务的难度逐级上升:图像分类任务仅要求算法对整张图像进行归类,如分类为含狗的图像、含飞机的图像、含汽车的图像等;目标检测任务需要算法输出坐标框级别的物体类别;图像分割任务则要求算法给出图像中像素级别的类别信息。图1.3所示为图像分类、检测、分割任务的算法常见预测结果表现形式示例。其中,分类结果c表示图像分类任务的类别号,一般为整数;检测任务的预测结果中,分别代表预测出的物体检测框在图像中的左下角点坐标(x,y),以及检测框的宽度w和高度h;分割任务中则直接给出像素级别的分类结果图掩模,掩模大小和原图一致。
图1.2中层级视觉任务示例(基于关键点匹配的图像配准任务[13])
图1.3常见的图像分类、检测、分割任务及其预测结果
1.1.2视频物体分割的定义
视频物体分割与1.1.1节中所述的图像分割类似,都需要算法给出像素级别
的类别结果。在视频物体分割任务中,算法需要给出视频每帧图像中的像素级
别物体掩模。视频物体分割与图像分割的主要不同点在于以下几个方面。
(1)类别的未知性。图像分割算法仅处理已知类别的物体图像,如在算法的训练阶段使用包含“人”“车”“狗”等20类物体掩模的标注图像进行训练,则算法在处理图像时也仅能分割出这些特定类别的物体掩模;视频物体分割则大多不给出物体类别的预定义,需要算法根据运动信息等自动区分出视频中的主要物体并进行分割,或者通过在某一帧指定一个任意类别的目标物体,要求算法分割出该目标在全部视频中的掩模。
(2)图像的连贯性。在图像分割中,算法处理的图像数据不存在关联性,每张图均可视为*立的处理任务;在视频物体分割中,由于视频是流体结构,其每一帧图像内像素包含的空域信息与相邻帧图像直接存在时域(视频在时间上的信息)的连续性。
图1.4直观地给出了图像分割和视频物体分割任务的联系与区别示例。图像分割和视频物体分割均要求算法从可见光图片数据中分割出像素级别的物体掩模。图1.4(a)中的图像分割任务物体掩模用红色、绿色表示,可以看出,图像之间相互*立,不存在类别、运动等对应关系;图1.4(b)中的视频物体分割任务物体掩模用红色表示,**行彩色图为视频帧间运动信息的示意图,显示了视频帧图像之间强烈的时空联系
目录
目录
前言
第1章 绪论 1
1.1 视频物体分割的概念 1
1.1.1 计算机视觉处理任务的语义层级划分 1
1.1.2 视频物体分割的定义 4
1.1.3 视频物体分割的任务划分 5
1.2 视频物体分割的应用领域 8
1.3 视频物体分割中的关键问题 10
1.4 视频物体分割的研究现状 11
1.4.1 图像分割技术的研究现状 11
1.4.2 无监督视频物体分割的研究现状 14
1.4.3 半监督视频物体分割的研究现状 15
1.4.4 交互式视频物体分割的研究现状 17
1.5 本章小结 18
第2章 运动和表观特征融合的视频物体分割技术 21
2.1 引言 21
2.2 视频的运动光流预测 22
2.3 基于运动和表观特征融合的视频物体分割模型 23
2.3.1 神经网络架构 25
2.3.2 双向传播与迭代优化 27
2.4 实验结果与分析 30
2.4.1 数据集和评测指标 30
2.4.2 算法的有效性验证 31
2.4.3 算法评价 32
2.5 本章小结 38
第3章 追踪和前景分割融合的视频物体分割技术 39
3.1 引言 39
3.2 视频目标追踪算法 40
3.3 基于部件追踪的快速视频物体分割技术 42
3.3.1 部件追踪 43
3.3.2 部件分割 46
3.3.3 基于相似度的掩模合成 47
3.4 实验结果与分析 49
3.4.1 数据集和评测指标 49
3.4.2 追踪器对比实验 50
3.4.3 算法有效性验证实验 51
3.4.4 算法评价 53
3.5 本章小结 57
第4章 视频物体分割算法的训练优化 59
4.1 引言 59
4.2 训练样本扩增技术 60
4.2.1 视频物体分割中的掩模数据扩充 60
4.2.2 视频物体分割中的光流数据扩充 62
4.3 训练损失函数设计 64
4.3.1 联合学习 64
4.3.2 视频物体分割中的掩模边缘问题分析 65
4.3.3 视频物体分割的掩模-边缘联合损失函数设计 66
4.4 实验结果与分析 69
4.4.1 数据集和评测指标 69
4.4.2 训练样本扩增技术的有效性验证 70
4.4.3 掩模-边缘联合损失函数的参数分析 73
4.4.4 掩模-边缘联合损失函数的有效性验证 75
4.4.5 联合学习网络的性能分析 76
4.5 本章小结 78
第5章 视频物体分割算法的掩模优化 79
5.1 引言 79
5.2 掩模优化技术概述 80
5.3 条件随机场掩模优化技术 82
5.3.1 基于平均场近似的 CRF 掩模优化 82
5.3.2 基于神经网络的 CRF 掩模优化 84
5.4 基于空间传播网络的掩模优化 86
5.5 基于目标连通域的掩模优化 89
5.6 实验结果与分析 92
5.6.1 CRF掩模优化效果 92
5.6.2 SPN掩模优化效果 93
5.6.3 基于连通域的掩模优化效果 94
5.7 本章小结 95
第6章 视频物体分割算法的质量评估 96
6.1 引言 96
6.2 分割掩模质量评估方法 97
6.2.1 有标注条件下的掩模质量评估 97
6.2.2 无标注条件下的掩模质量评估 100
6.3 基于深度学习的视频物体分割掩模质量自动评估算法 102
6.3.1 数据准备 102
6.3.2 模型介绍 106
6.3.3 模型训练 107
6.3.4 模型应用 107
6.4 实验结果与分析 108
6.4.1 网络各模块有效性分析 108
6.4.2 网络对不同评价指标的预测能力分析 109
6.4.3 模型参数分析 110
6.4.4 模型特征组合方式分析 111
6.4.5 模型通用性验证 113
6.5 自动质量评估算法的实际应用 114
6.5.1 自动质量评估算法用于掩模筛选 114
6.5.2 自动质量评估算法用于参数搜索 114
6.5.3 自动质量评估算法用于任意视频的掩模质量评价 116
6.6 本章小结 118
第7章 视频物体分割算法的应用推广 119
7.1 引言 119
7.2 视频物体分割在视频编辑中的应用实例 119
7.2.1 背景替换 119
7.2.2 实时特效 121
7.3 视频物体分割在人机交互中的应用实例 122
7.3.1 人机交互 122
7.3.2 增强现实 124
7.4 视频物体分割在智能监控中的应用实例 125
7.4.1 天网地面监控 125
7.4.2 无人机遥感监控 127
7.5 视频物体分割在智能医疗中的应用实例 128
7.5.1 医学影像分析 128
7.5.2 手术机器人 130
7.6 视频物体分割在自动驾驶中的应用实例 131
7.7 本章小结 133
第8章 总结与展望 134
参考文献 135
彩图
试读
第1章绪论
视觉信息大约占人类对外部世界的感觉信息量的80%[1],为人类认知提供了*重要的基石。视频作为大数据和互联网时代*主要的非接触式视觉信号的交流和表达方式,为人们的生产生活提供了强大的安全保障,为人们的工作提供了极大的便利,同时也对智能算法提出了高难度的信息提取和处理的挑战。如何高效精准地处理、提取视频传达的视觉信息尤为重要,因此,智能视频处理领域涌现出诸多实用任务的研究,如视频运动片段分割[2]、视频异常检测[3]、视频物体分割[4]等。本章阐述智能视频处理中关键技术之一的视频物体分割技术的概念、应用领域、关键问题和研究现状。
1.1视频物体分割的概念
1.1.1计算机视觉处理任务的语义层级划分
计算机视觉处理的任务按照语义层级划分,可分为低层级、中层级和高层级三种级别。
在低层级视觉处理任务中,算法的处理方式大多与视频或图像的内容无关,通常算法的输入为图像,则输出也为图像,输入为视频,则输出也为视频,如图像去雾算法[5,6]、图像去模糊算法[7,8]、图像过分割算法[9]等。这些任务中的视觉处理并不需要理解图像语义,图像内容的类别、图像中目标位置等信息并不影响任务的处理结果,算法只通过统计规律或者预估参数便可完成图像处理任务。如图1.1所示的单图暗通道图像去雾算法,基于暗通道假设和大气光传输模型进行了数学建模,从带雾图像的像素值中,使用暗通道先验估计出透射系数,将大气光强度A设置为常数,然后通过转换公式直接计算,便可得出去雾图像。该处理过程对森林山谷图像、湖面天鹅图像的处理流程是一样的,不涉及对图像内容的识别和理解。
图1.1低层级视觉任务示例(暗通道图像去雾算法[5])
中层级视觉任务要求算法能够从视频、图像中提取特征,进行解析和处理,从输入的图像、视频数据中估计出其相关关系,或预测出新类型的数据,如视频光流预测[10]、基于聚类算法的图像分割[11]、视频追踪[12]与图像匹配[13]等。算法基于数据特点对其进行一定程度的抽象和特征提取,但并未上升至人类语义级别,如图1.2所示,文献[12]所提算法根据图像中层语义特征提取待匹配图像对的局部关键点,并计算特征距离实现图像对的关键点匹配,为两张图像的对齐和拼接提供了信息。
高层级视觉任务蕴含的语义信息与人类认知接壤,要求算法能够理解和掌握人类认知层级的语义信息,如识别图像中的目标类别和位置[14,15]、鉴定人类面部图像表达的情感[16]等。几种常见的高层级视觉任务有图像分类、目标检测和图像分割。这几种任务的难度逐级上升:图像分类任务仅要求算法对整张图像进行归类,如分类为含狗的图像、含飞机的图像、含汽车的图像等;目标检测任务需要算法输出坐标框级别的物体类别;图像分割任务则要求算法给出图像中像素级别的类别信息。图1.3所示为图像分类、检测、分割任务的算法常见预测结果表现形式示例。其中,分类结果c表示图像分类任务的类别号,一般为整数;检测任务的预测结果中,分别代表预测出的物体检测框在图像中的左下角点坐标(x,y),以及检测框的宽度w和高度h;分割任务中则直接给出像素级别的分类结果图掩模,掩模大小和原图一致。
图1.2中层级视觉任务示例(基于关键点匹配的图像配准任务[13])
图1.3常见的图像分类、检测、分割任务及其预测结果
1.1.2视频物体分割的定义
视频物体分割与1.1.1节中所述的图像分割类似,都需要算法给出像素级别
的类别结果。在视频物体分割任务中,算法需要给出视频每帧图像中的像素级
别物体掩模。视频物体分割与图像分割的主要不同点在于以下几个方面。
(1)类别的未知性。图像分割算法仅处理已知类别的物体图像,如在算法的训练阶段使用包含“人”“车”“狗”等20类物体掩模的标注图像进行训练,则算法在处理图像时也仅能分割出这些特定类别的物体掩模;视频物体分割则大多不给出物体类别的预定义,需要算法根据运动信息等自动区分出视频中的主要物体并进行分割,或者通过在某一帧指定一个任意类别的目标物体,要求算法分割出该目标在全部视频中的掩模。
(2)图像的连贯性。在图像分割中,算法处理的图像数据不存在关联性,每张图均可视为*立的处理任务;在视频物体分割中,由于视频是流体结构,其每一帧图像内像素包含的空域信息与相邻帧图像直接存在时域(视频在时间上的信息)的连续性。
图1.4直观地给出了图像分割和视频物体分割任务的联系与区别示例。图像分割和视频物体分割均要求算法从可见光图片数据中分割出像素级别的物体掩模。图1.4(a)中的图像分割任务物体掩模用红色、绿色表示,可以看出,图像之间相互*立,不存在类别、运动等对应关系;图1.4(b)中的视频物体分割任务物体掩模用红色表示,**行彩色图为视频帧间运动信息的示意图,显示了视频帧图像之间强烈的时空联系