分类号:
UDC:
学校代号:11847
密级:
学
号:2111751017
佛山科学技术学院
硕士学位论文
(工学硕士)
光照剧烈变化环境中移动机器人鲁
棒性视觉地点识别方法研究
作者姓名:
周林
学科专业:
机械工程
导师姓名:
吴俊君 副教授
完成时间:
二〇二〇年五月
Foshan University
A dissertation for master’s degree
(master of science)
Research on Robust Visual Place
Recognition Method for Mobile
Robots in Dramatic Illumination
Environment
Author:
Zhou Lin
Specialty:
Mechanical engineering
Supervisors:
Associate Prof. Wu Junjun
Finished time:
May, 2020
摘要
摘
要
同时定位与构建地图(Simultaneous Localization and Mapping,SLAM)是实现
移动机器人自主导航的关键技术,也被广泛应用于自动驾驶汽车和无人车等领域。
作为视觉 SLAM 的重要组成部分,视觉地点识别(Visual Place Recognition,VPR)
可以实现机器人定位,同时视觉地点识别对环境条件变化的鲁棒性影响着机器人
构建环境地图的准确性。因此,如何提高视觉地点识别的鲁棒性是视觉 SLAM
研究方向的关键科学问题之一。
然而当机器人在室外自然环境中长时间运动时,难免面临着剧烈光照变化
(时移、季节或雨雾天气因素)的挑战,导致机器人的地点识别能力受到较大制
约。本文提出了一种对剧烈光照变化具有较强鲁棒性的机器人视觉地点识别方法,
将生成对抗网络(Generative Adversarial Network,GAN)引入到视觉 SLAM 中用
于增强机器人地图候选关键帧图像的光照质量,为后续提取丰富的不变性特征提
供保障;并且提出了基于图像全局描述符的地图候选关键帧质量增强后地理位置
真实性表达评估方法,以确保后续的图像匹配对应的是正确的地理位置;随后采
用深度卷积神经网络(Convolutional Neural Network,CNN)从光照质量增强后的
地图候选关键帧图像中提取光照不变性特征(DEep Local Feature,DELF),然后
基于 DELF 特征向量矩阵生成环境表达不变性图像描述符用于图像匹配,最后实
现机器人光照变化鲁棒性视觉地点识别。在含有剧烈光照变化环境的公开数据集
Oxford RobotCar 上,实验验证了本文提出的地图候选关键帧质量增强后真实地
理位置表达评估方法的有效性,然后验证了本文提出的图像描述符的环境表达不
变性,进而验证了本文提出的视觉地点识别方法的鲁棒性,并将本文方法与现有
代表性方法进行了对比分析,实验结果表明本文方法比现有方法在鲁棒性方面具
有更加显著的优异性。
本文提出的视觉地点识别方法使得机器人在面对剧烈光照变化环境时仍能
表现出高鲁棒性的地点识别能力,有利于提升环境地图关键帧节点的质量,能实
现机器人的精准定位,为机器人自主导航提供有力的保障。
I
摘要
关键词:移动机器人;视觉 SLAM;视觉地点识别;光照变化;鲁棒性
II
ABSTRACT
ABSTRACT
Simultaneous Localization and Mapping is the key technology to realize
autonomous navigation of mobile robots. As an important part of visual SLAM,
Visual Place Recognition can realize robot location. At the same time, the robustness
of visual place recognition to changes in environmental conditions affects the
accuracy of robots in constructing environmental maps. Therefore, how to improve
the robustness of visual place recognition is one of the key scientific issues in the
research direction of visual SLAM.
However, when the robot moves in the outdoor natural environment for a long
time, it will inevitably face the challenge of drastic illumination changes (time shift,
season, or rain and fog), which causes the robot's place recognition ability to be
greatly restricted. This paper proposes a method for robot visual place recognition that
is more robust to severe illumination changes. Firstly, GAN is introduced into visual
SLAM to enhance the illumination quality of robot map candidate keyframe images,
which provides a guarantee for the subsequent extraction of rich invariant features.
Secondly, this paper proposes a method for evaluating the geographic location
authenticity with the enhanced quality of map candidate keyframes, based on the
global image descriptor to ensure that subsequent image matches correspond to the
correct geographic location. Next, a deep convolutional neural network is used to
extract the illumination invariant feature DELF from the map candidate keyframe
image with enhanced illumination quality and an environment invariant image
descriptor based on the DELF feature vector matrix is generated for image matching.
Finally, a robust visual place recognition of robot with illumination changes is
realized. On the Oxford RobotCar, a public dataset containing severely changing
illumination environments, experiments verify the effectiveness of the proposed
method for evaluating the true geographic location expression after the map candidate
keyframes are enhanced in quality, and then verify the invariance of the
III
ABSTRACT
environmental descriptors for the image descriptors proposed in this paper. Then, the
robustness of the visual place recognition method proposed in this paper is verified,
and the method in this paper is compared with the existing representative methods.
The experimental results show that the method in this paper is more significant than
the existing methods in terms of robustness.
The visual place recognition method proposed in this paper enables the robot to
show a highly robust place recognition ability in the face of changing environments
with severe illumination, which is conducive to improving the quality of keyframes’
node in the environmental map, achieving accurate location of the robot, providing
strong guarantees to autonomous navigation.
Keywords: mobile robot; visual SLAM; visual place recognition; illumination change;
robustness
IV
目录
目
摘
录
要 ....................................................................................................................... I
ABSTRACT...............................................................................................................III
第一章 绪论................................................................................................................1
1.1 研究背景及意义 ...............................................................................................1
1.2 国内外研究现状 ...............................................................................................3
1.2.1 视觉 SLAM 研究现状 ................................................................................3
1.2.2 视觉地点识别研究现状 .............................................................................4
1.2.3 基于 GAN 的图像生成方法研究现状 .......................................................5
1.3 研究内容及章节安排........................................................................................6
第二章 地图候选关键帧质量增强方法 ....................................................................8
2.1 GAN 基本原理 ...................................................................................................8
2.2 几种典型的 GAN 模型 ...................................................................................10
2.2.1 CycleGAN 模型 .........................................................................................10
2.2.2 WESPE 模型 .............................................................................................. 11
2.2.3 TodayGAN 模型 ........................................................................................12
2.3 几种典型的 GAN 模型性能对比实验 ...........................................................13
2.3.1 实验数据集 ...............................................................................................13
2.3.2 实验结果与分析 .......................................................................................13
2.4 本章小结 .........................................................................................................14
第三章 候选关键帧光照质量增强后地理位置真实性表达评估 ...........................16
3.1 地理位置真实性表达评估方法 ......................................................................16
3.1.1 场景描述与评估方法 ...............................................................................18
3.1.2 算法流程 ...................................................................................................18
3.2 实验验证 .........................................................................................................19
3.2.1 实验数据集 ...............................................................................................19
3.2.2 评价指标 ...................................................................................................20
3.2.3 实验结果与分析 .......................................................................................20
V
目录
3.3 本章小结 .........................................................................................................22
第四章 鲁棒性视觉地点识别方法 ..........................................................................24
4.1 鲁棒性视觉地点识别方法 ..............................................................................24
4.1.1 鲁棒性图像描述符构建 ...........................................................................25
4.1.2 图像匹配与相似性矩阵 ...........................................................................25
4.1.3 算法流程 ...................................................................................................26
4.2 实验验证 .........................................................................................................28
4.2.1 实验环境 ...................................................................................................28
4.2.2 实验数据集 ...............................................................................................28
4.2.3 图像描述符对于光照变化鲁棒性实验验证 ............................................30
4.2.4 视觉地点识别鲁棒性验证 .......................................................................32
4.3 本章小结 .........................................................................................................36
第五章 总结与展望 ..................................................................................................37
5.1 论文总结 .........................................................................................................37
5.2 未来工作展望 .................................................................................................38
参 考 文 献..............................................................................................................39
致 谢 .........................................................................................................................46
攻读硕士期间取得的研究成果 ................................................................................48
VI
第一章 绪论
第一章 绪论
1.1 研究背景及意义
移动机器人作为人类最伟大的发明之一,对于移动机器人系统中相关技术的
研究一直都是广大科研工作者的不懈追求,特别是对于机器人本体机械设计制造
技术、自动化控制技术以及相关人工智能技术已逐渐成为当今机器人研究领域的
热点。移动机器人也经过一段很长时间的发展,最初始于 20 世纪 60 年代,美国
斯坦福大学的 Nils Nilssen 和 Charles Rosen 等人在 1966 至 1972 年期间研制出
了世界上第一台移动机器人 Shakey[1],并且首次实现了机器人在复杂变化的环境
下进行自主运动感知,路径规划和自动控制。但由于当时计算机的性能较差,运
算速度极慢,导致 Shakey 机器人需要花费很长时间对外部环境进行感知和;到
了 20 世纪 60 年代后期,美国和苏联为实现月球探测的计划,分别研制出美国“探
测者”号和苏联“登月者”号移动机器人来执行相关任务;时间发展到 20 世纪
70 年代初期,日本早稻田大学学者们研制出仿人的足式移动机器人;进入 21 世
纪以来,移动机器人已经开始逐渐走近我们的生活,如 iRobot 机器人公司研制
出的扫地机器人 Roomba,其具有自主避障功能,移动机器人开始实现产业化发
展;2010 年,Tully Foote 和 Melonee Wise 两人基于 iRobot Create 机器人平台
进行开发,并结合微软的 Kinect 相机研制出移动机器人 TurtleBot,后来在
TurtleBot 机器人基础上形成了 TurtleBot-2、TurtleBot-3,如图 1.1 所示。现如今
移动机器人在军事侦查、救援救灾、物流仓储以及民生服务等多个社会领域开始
发挥作用,并在未来将扮演更加重要的角色。
移动机器人在自主导航运动的过程中,需要解决三个问题:(1)我在哪?(2)
我周围的环境是什么样的?(3)我如何运动到目标点。以上三个问题分别对应着
机器人的定位、构图和路径规划,其中自主定位与环境地图构建是实现路径规划
的前提。而 SLAM 技术可以实现机器人自身的定位和增量式地图的构建[2,3]。自
Smith Self 和 Cheeseman 于 1986 年首次提出 SLAM 技术以来,SLAM 技术一直
都是机器人和计算机视觉领域研究的热点。当前基于 SLAM 技术进行机器人自
1
第一章 绪论
主导航的方式主要有两种:基于激光雷达传感器的 SLAM、基于视觉传感器的
SLAM。激光 SLAM 比视觉 SLAM 起步早,在理论和技术方面都比较成熟,但
是激光传感器的成本相对较高,价格从几千元到几十万元不等。此外,由于激光
传感器仅具有距离信息,无法感知场景中更多的边缘、纹理和语义信息,在自然
的非结构化环境中适应能力较差,因此激光 SLAM 目前主要应用在室内结构化
环境中。进入 21 世纪以来,视觉 SLAM 技术经历了快速的发展,相比于激光
SLAM 所用的激光雷达,视觉 SLAM 采用的相机价格更低廉,而且相机可以感
知丰富的环境信息,并能从中获得高层的环境语义信息,实现了“所见即所得”
的效果,更贴近人类观察世界的方式。随着视觉传感器和计算机性能快速发展,
视觉 SLAM 技术在虚拟现实[4]、增强现实[5]、无人驾驶[6]等领域上取得了广泛的
应用,并逐渐在机器人自主导航中占据主导地位。
图 1.1 TurtleBot 机器人
Figure 1.1 TurtleBot Robot
随着视觉 SLAM 研究的深入,视觉 SLAM 的框架已趋于稳定,主要包括:
传感器数据的输入、前端视觉里程计、后端非线性优化、回环检测、建图五个模
块组成[7,8],如图 1.2 所示。传感器数据输入主要包括相机拍摄的图像或由惯性
测量单元(Inertial Measurement Unit,IMU)测得的相关数据,其中相机主要包括
单目相机、双目摄相机以及 RGB-D 相机。单目相机成本低廉,不受距离限制,
但无法获取深度信息;双目相机可以计算深度信息,也不受距离限制,但相关配
置比较复杂、且计算量较大;RGB-D 相机可以测量深度信息,但测量距离有所
限制。前端视觉里程计主要根据相邻帧图像的多视几何关系来估算相机运动,后
端优化的用途是将前端得到的相机位姿结果进行优化,目前采用的方法大多数是
基于非线性优化对相机的位姿信息进行优化,常见的方法有光束法平差(Bundle
Adjustment)[9]和图优化(Pose Graph)[10]。但由于前端视觉里程计每次相机位姿估
2
第一章 绪论
计都会产生误差,经过长时间的积累就会产生较大的轨迹漂移,无法形成与运动
轨迹一致的地图,为减少机器人构建地图时的累积误差,需要进行回环检测[11-13]。
回环检测的目的是判断机器人曾经是否来过当前的地点,如果存在回环,则将回
环信息输入给后端进行处理;相反,若不存在回环,则将当前场景作为机器人新
建地图的一部分。回环检测环节将有效消除误差的累计,实现运动轨迹与构建地
图的一致性。建图环节根据后端优化和回环检测信息构建环境地图。
图 1.2 视觉 SLAM 框架
Figure 1.2 The framework of visual SLAM
视觉 SLAM 中回环检测环节是针对机器人在构建场景地图过程中容易出现
误差累计问题而设计,而本文提出的视觉地点识别方法主要是为了解决机器人的
定位问题。从本质上看视觉地点识别也可以作为视觉 SLAM 中是否存在回环的
重要判断依据,两者都通过判别机器人当前获取的候选关键帧图像与地图关键帧
的相似性来实现在线的图像匹配。当前机器人视觉地点识别主要应用场景是室内
和外部环境条件变化较小的室外场景,当机器人处于室外自然环境时,由时移、
天气变化和季节变化所引起的剧烈光照变化给机器人视觉地点识别带来极大的
挑战,会导致机器人无法判断自身所处的地理位置,因此光照变化的鲁棒性视觉
地点识别是机器人 SLAM 研究方向的关键科学问题之一,开展本研究对提升
SLAM 系统性能具有积极意义。
1.2 国内外研究现状
1.2.1 视觉 SLAM 研究现状
Davison 等人在 2007 年提出了第一个可以实时运行的单目视觉 SLAM 系统
—MonoSLAM[14]。它采用扩展卡尔曼滤波[15]作为后端优化的方法,还可以跟踪
前端视觉里程计稀疏的特征点。在早期 SLAM 的研究中,MonoSLAM 作为 SLAM
3
第一章 绪论
的研究基础,在其基础上出现了基于粒子滤波的 Fast-SLAM[16]系统。但是单目
SLAM 系统使用的单目相机难以得到图像的深度信息,不能直接判断图像中物体
的远近。Klein 等人在 2007 年提出了一种实现跟踪和构建地图并行化的系统
PTAM[17],视觉 SLAM 早期阶段的研究主要都是基于滤波器的线性优化方法对后
端进行处理,而 PTAM 系统第一次提出了利用非线性优化方法对后端优化。
Labbe
等人在 2014 年提出了基于 RGB-D 相机的 RTAB-MAP[18]SLAM 系统,其基于
特征点作为前端,运用词袋模型进行闭环检测,在当时取得了优异的表现。但由
于 RGB-D 相机对于光线十分敏感,只能适用于小范围的室内场景。Mur-Artal
等人于 2015 提出了 ORB-SLAM[19]系统,相比于传统特征 SIFT[20]、SURF[21],
ORB[22]特征可以实现实时运行的单目 SLAM 系统。Mur-Artal 等人于 2016 年又
提出了 ORB-SLAM2[23]系统,其增加了对于双目相机和 RGB-D 相机以及 ROS
的支持,ORB-SLAM 和 ORB-SLAM2 系统都包含了视觉 SLAM 系统四大模块:
跟踪、建图、重定位、回环检测,两者都表现出了良好的实时性和稳定性。
1.2.2 视觉地点识别研究现状
视觉地点识别技术主要包括早期地图与地图的匹配[24],地图与图像的匹配
[25]
,两者都极容易出现假阳性的匹配。而图像与图像的匹配[26]方法主要利用图
像特征进行匹配,现有的具有代表性的基于特征描述的视觉地点识别方法
(FAB-MAP[27]、ORB-SLAM[19]、SeqSLAM[28])主要是基于人工设计的特征生成
图像描述符,然后通过计算图像描述符之间的相似性进行图像匹配从而完成地点
识别任务。其中 FAB-MAP 系统采用了 SIFT 特征构建词袋模型进行在线的地点
识别,在相对稳定的室外环境中取得了良好的效果,但是以 SIFT 为代表局部不
变性人工特征本身对光照变化的抗干扰能力较弱,导致 FAB-MAP 并不能适应光
照变化环境。此外,ORB-SLAM 采用的 FAST 特征提取器和 BRIEF 特征描述符
构造的词袋模型,在面对光照变化时也存在 FAB-MAP 同样的缺陷。相比前两种
采用单张图像描述符进行地点识别的系统而言,SeqSLAM 系统采用了较长的图
像序列进行视觉地点识别并取得了更好的鲁棒性,但是对剧烈光照变化的适应能
力仍然存在较大的局限性。
近些年来,随着深度学习技术在图像分类[29-31]、目标检测[32-35]、语义分割[36-39]
4
第一章 绪论
等视觉应用领域的发展,研究者们尝试将深度卷积神经网络得到的视觉特征应用
在视觉 SLAM 定位、地点识别或回环检测等关键环节,使得 SLAM 的鲁棒性相
比前期人工特征阶段得到了进一步改善。例如:Chen[40-42]等人提出基于 CNN 的
视觉地点识别算法,其方法均要优于基于人工设计特征的视觉地点识别方法;
Gao[43]等人提出非监督学习的自编码器网络来提取图像特征,利用相似性矩阵来
检测闭环,在公开数据集下取得了不错的效果;Hou[44,45]等人通过 PlaceCNN 模
型来提取图像特征,在光照变化条件下具有一定的鲁棒性;Sünderhauf [46]等人将
预训练好的模型 AlexNet[29]在不同变化条件下的中间层输出作为图像的描述符,
结果发现 Conv3 层的输出特征具有对光照变化的鲁棒性,FC6 和 FC7 层输出的
特征描述具有对视角变化的鲁棒性,而当光照和视角都发生变化时,卷积神经网
络的各层输出的特征描述性能大幅下降;Bai[47]等人提出了一种 SeqCNNSLAM
的方法,该方法结合了模型 AlexNet 和 SeqSLAM 来同时解决场景中视角及光照
的鲁棒性,但该方法在场景更换时需在线调整相关参数,过程繁琐。
1.2.3 基于 GAN 的图像生成方法研究现状
生成对抗网络模型(Generative Adversarial Networks, GAN)[48]是由“GANs
之父 ”Goodfellow 在 2014 年提出的,其可以生成与真实数据分布一致的样本,
针对不同的任务,可以生成图像、语音、视频等[49]。其中利用 GAN 生成图像代
表性的成果有:Mriza 等人[50]提出了一种对生成器模型和判别器模型都施加条件
的 CGAN 方法,使得生成的图像相比于基本的 GAN 模型更具有多样性;Larsen
等人[51,52]利用 GAN 结合自动编码器和变分自动编码器,提升了 GAN 生成图像
的质量和多样性;Isola 等人[53]提出了一种解决原图像到目标图像的生成方法
Pix2Pix,但它需要训练集中包含成对的训练样本;Zhu 等人[54]为了解决不同图
像风格的转换,提出了一种 CycleGAN 模型,它无须建立训练数据间的一一映射,
而且取得了不错的效果。Anoosheh 等人[55]提出一种无监督学习的生成对抗网络
模型 TodayGAN,能将黑夜场景恢复至白天场景,并将其应用于机器人定位。该
方法虽然验证了模型对场景的恢复能力,但是并未对场景恢复前后图像对应的地
理位置的一致性进行对比评估,并且采用了 VLAD[56]对 SIFT 进行特征编码生成
的图像描述符在光照变化下图像匹配的鲁棒性方面存在明显的局限性。
5
第一章 绪论
1.3 研究内容及章节安排
针对光照剧烈变化条件下机器人视觉地点识别的鲁棒性不足的问题,本论文
认真分析发现影响地点识别鲁棒性的两个主要环节包括:新增地图关键帧和图像
匹配。因此,与现有的方法在面对剧烈光照干扰时大多侧重于追求高精度的图像
匹配环节(即:看得懂)相比,本研究致力于让机器人首先“看的清”,然后再
“看得懂”,让高准确性的图像匹配在高质量的地图关键帧之间进行,从而进一
步提升视觉地点识别的鲁棒性。
本论文的主要研究内容如下:
(1)研究构建高质量地图关键帧的方法。当机器人在光照剧烈变化的场景
中移动时,新捕获的图像若未经质量评估就直接作为地图关键帧,则必然会增加
后续图像匹配失败的概率。因此本文将首先重点研究如何构建高质量的地图关键
帧,该部分的研究内容可以细分为两个子内容:如何有效地增强机器人新捕获的
候选关键帧,以降低图像受光照条件变化的影响;如何对光照质量增强前后的关
键帧对应的地理位置的一致性做必要的评估,以确保关键帧质量提升后仍然对地
理位置保持着真实性的表达。研究构建高质量的地图关键帧的方法对确保机器人
能“看得清”具有重要作用。
(2)研究高准确性图像匹配方法。机器人视觉地点识别过程本质上是持续
地将新观测的场景图像与地图关键帧进行匹配的过程,因此图像匹配的准确性决
定了视觉地点识别的鲁棒性。为了探索高准确性的图像匹配方法,本文拟细化为
两步开展研究工作:研究构建高稳定性的场景图像描述符以及合适的图像描述符
的相似性度量方法。
本论文的章节安排具体如下:
第一章主要介绍机器人视觉 SLAM 地点识别的研究背景及意义,并评述了
国内外关于视觉 SLAM、视觉地点识别以及基于生成对抗网络的图像生成方法的
研究现状,阐述了本文的主要工作以及章节安排。
第二章主要阐述了基于 GAN 的地图候选关键帧光照质量增强方法。在介绍
GAN 基本原理以及评述了现有的代表性 GAN 模型的技术特点的基础上,对现有
的代表性 GAN 模型在剧烈光照变化环境下增强图像光照质量的性能进行了实验
对比分析,随后采用性能相对最优的模型对地图候选关键帧进行了增强,实验结
6
第一章 绪论
果证明了方法的有效性。
第三章主要阐述了提出的地图候选关键帧光照质量增强前后的地理位置一
致性评估方法。首先详细描述了方法的理论过程与具体实现,然后在实验数据集
上验证了方法的有效性,并对实验结果进行了总结。
第四章主要阐述了提出的对剧烈光照变化具有较高鲁棒性的视觉地点识别
方法,首先描述了光照不变性图像描述符的构建方式以及图像匹配方法,然后通
过实验验证与对比分析,证明了本文视觉地点识别方法相对于其他方法具有更强
的光照变化鲁棒性。
第五章主要对全文进行了总结和展望。
7
第二章 地图候选关键帧质量增强方法
第二章 地图候选关键帧质量增强方法
移动机器人在室外长时间的运动时,难免会受到时移、天气以及季节变化引
起的光照变化影响,不易于实现自身的定位,从而将导致机器人构建周围环境地
图的误差变大,对于整个视觉 SLAM 系统的稳定性产生较大影响。
目前视觉 SLAM 无论是采用前期基于人工特征的视觉地点识别方法还是当
前基于深度学习特征的方法都是将可能发生剧烈变化的原始观测图像直接作为
输入数据进行计算,这种不稳定的输入必然造成机器人视觉地点识别能力大大减
弱。因此,若能在机器人获取候选地图候选关键帧之后对图像质量进行增强,将
视觉地点识别变为高质量的候选关键帧与高质量的地图关键帧之间的匹配计算,
则必然有利于避免糟糕的观测图像给地点识别带来的负面影响。而且对于构建深
度学习模型的训练数据集而言,变化剧烈的观测图像往往给人带来糟糕的视觉感
知,影响数据标注的准确率和效率。
现有的视觉 SLAM 系统对特征提取、图像描述符生成等直接影响视觉地点
识别准确性的关键环节进行了较多的研究,而很少有从增强地图候选关键帧质量
的角度来实现机器人在光照变化条件下的视觉地点识别。因此,本章节利用生成
对抗网络模型对光照变化剧烈的候选关键帧图像进行质量增强,其克服了剧烈光
照变化对机器人视觉地点识别的影响,为下一步实现鲁棒的视觉地点识别提供了
保障。在视觉地点识别过程中,对于光照变化剧烈的候选关键帧图像质量增强的
方法将有利于实现机器人的自主定位,更进一步地为机器人自主运动导航奠定基
础。
2.1 GAN 基本原理
生成对抗网络是一种深度学习模型,其核心思想起源于博弈论中的零和博弈
(即收益方和损失方之和为零,最终实现纳什平衡状态)。GAN 基本结构由两部分
组成,分别是生成器模型(Generator)和判别器模型(Discriminator),其中生成器模
型的目的是学习到服从样本数据集中真实数据的分布,而判别器模型的目的是判
断输入数据是来自真实数据还是生成器模型生成的伪数据,GAN 模型的基本结
8
第二章 地图候选关键帧质量增强方法
构如图 2.1 所示。从符合高斯概率分布𝑃𝑃𝑧𝑧 中采样的随机噪声 z 经过生成器模型 G
的作用生成接近真实数据分布的 G(z),而判别器模型 D 主要对真实数据分布 x
和接近真实数据分布的 G(z)进行真伪判别,最终输出一个概率相关值。如果判别
器模型 D 的输入数据为真实数据分布 x,则判别器模型 D 输出概率值 1;如果输
入数据为生成器 G 生成的接近真实数据分布的 G(z),则判别器模型 D 输出概率
值 0。从判别器模型 D 的作用机制可以看出,本质上其目的就是实现对输入数据
的二分类问题。生成器模型 G 的目标就是使得生成的接近真实数据分布 G(z)“骗
过”判别器模型 D,使得 G(z)与 x 的表现相当。于是,生成器模型 G 和判别器
模型 D 在彼此相互作用下中分别达到最优状态,最终判别器模型 D 无法判断输
入数据是 x 或者 G(z),而生成器模型 G 也生成了基本符合真实数据 x 的分布。
图 2.1 GAN 模型基本结构
Figure 2.1 GAN model’s basic structure
根据文献中提到的生成器和判别器之间的对抗关系如式(2.1)所示:
min max 𝑉𝑉(𝐷𝐷, 𝐺𝐺) = 𝐸𝐸𝑥𝑥~𝑃𝑃𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑(𝑥𝑥) [logD(x)] + 𝐸𝐸𝑧𝑧~𝑃𝑃𝑧𝑧 (𝑧𝑧) �log �1 − D�G(z)���
𝐺𝐺
𝐷𝐷
(2.1)
其中𝑃𝑃𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 是真实数据分布,𝑃𝑃𝑧𝑧 是噪声数据分布,而对数 log 的计算是为了降
低噪声数据对整个数据分布的影响,期望值 E 的计算是为了生成数据的分布𝑃𝑃𝑔𝑔 与
真实数据分布𝑃𝑃𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 一致,D(x)代表真实数据 x 通过判别器模型 D 判别后的概率,
而 D(G(z))代表经过生成器模型 G 生成的数据 G(z)通过判别器模型 D 判别后的概
率。判别器模型 D 的目的是使得 D(x)的概率值越接近 1 越好,同时 D(G(z))越接
近 0 越好;而生成器模型 G 的目的是使 D(G(z))的概率值越接近 1 越好,同时
D(x)概率越接近 0 越好。所以,生成器模型 G 的目标是使函数 V(D,G)达到最小
化,使生成数据 G(z)和真实数据 x 在空间分布的距离减小;反之,判别器模型 D
的目标是使函数 V(D,G)最大化,尽可能地将 x 和 G(z)区分开。而当𝑃𝑃𝑔𝑔 =𝑃𝑃𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 时,
生成器模型 G 和判别器模型 D 均实现各自的目标,达到一种平衡状态。
9
第二章 地图候选关键帧质量增强方法
2.2 几种典型的 GAN 模型
机器人在进行长时间和大范围定位和建图的过程中,当前观测到的候选关键
帧图像有黑夜的,白天的,春季的,冬季的等各种场景,其中光照变化大的黑夜
候选关键帧图像在与地图关键帧图像进行地点识别时,难免会遇到感知偏差和感
知变异情况,这样将不利于实现机器人准确地定位,最终导致机器人自主运动导
航出现障碍。近些年来,研究者们利用基础 GAN 模型的变体来进行图像生成的
方法引起了广泛的关注[57-61],并且都取得了各自领域优异的表现。本文为解决光
照变化对机器人视觉地点识别的影响问题,选取了典型的 CycleGAN[54] 、
WESPE[57]、TodayGAN[55]模型来对光照变化剧烈的图像进行质量增强,并比较
各自增强的效果。以下对三种模型的技术特点进行评述。
2.2.1 CycleGAN 模型
CycleGAN 模型是一种采用对偶思想的图像风格迁移技术,它是由 Zhu
Junyan 等人在 2017 年提出的,其模型作用原理如图 2.2 所示。CycleGAN 模型可
以实现在不成对的源域和目标域间进行转化。图中 X 域中的图像 x 经过生成器模
型 G 生成图像 G(x),判别器模型𝐷𝐷𝑌𝑌 判断当前输入图像为生成图像 G(x)还是 Y 域
中本身的图像 y。CycleGAN 模型为克服模型中 X 域中的所有图像都有可能生成
Y 域中的同一张图像的现象,提出了另一个生成器 F,生成器 F 可以实现生成图
像 G(x)重新生成图像 F(G(x)),并且使得 F(G(x))≈x。同理,CycleGAN 模型中还
存在着 Y 域到 X 域的映射关系,也需要满足 G(F(y))≈y。
图 2.2 CycleGAN 模型基本结构
Figure 2.2 CycleGAN model’s basic structure
10
第二章 地图候选关键帧质量增强方法
CycleGAN 相对于传统的 GAN 模型,在训练时增加了一种循环一致性损失。
当 CycleGAN 模型实现 X 域到 Y 域的映射关系时,此时训练的目标函数如式(2.2)
所示。其中𝐷𝐷𝑌𝑌 (𝑦𝑦)代表判别器输入是真实图像的概率,而𝐷𝐷𝑌𝑌 (𝐺𝐺(𝑥𝑥))表示输入是生
成图像 G(x)的概率,为了优化判别器𝐷𝐷𝑌𝑌 函数,需使得𝐷𝐷𝑌𝑌 (𝑦𝑦)接近 1,𝐷𝐷𝑌𝑌 (𝐺𝐺(𝑥𝑥))接
近 0;同理,式(2.3)描述了 Y 域到 X 域训练时的目标函数。
𝐿𝐿𝐺𝐺𝐺𝐺𝐺𝐺 (𝐺𝐺, 𝐷𝐷𝑌𝑌 , 𝑋𝑋, 𝑌𝑌) = 𝐸𝐸𝑦𝑦~𝑝𝑝𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 (𝑦𝑦) [𝑙𝑙𝑙𝑙𝑙𝑙𝐷𝐷𝑌𝑌 (𝑦𝑦)] + 𝐸𝐸𝑥𝑥~𝑝𝑝𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 (𝑥𝑥) [𝑙𝑙𝑙𝑙𝑙𝑙(1 − 𝐷𝐷𝑌𝑌 (𝐺𝐺(𝑥𝑥))] (2.2)
𝐿𝐿𝐺𝐺𝐺𝐺𝐺𝐺 (𝐹𝐹, 𝐷𝐷𝑥𝑥 , 𝑌𝑌, 𝑋𝑋) = 𝐸𝐸𝑥𝑥~𝑝𝑝𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 (𝑥𝑥) [𝑙𝑙𝑙𝑙𝑙𝑙𝐷𝐷𝑋𝑋 (𝑥𝑥)] + 𝐸𝐸𝑦𝑦~𝑝𝑝𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 (𝑦𝑦) [𝑙𝑙𝑙𝑙𝑙𝑙(1 − 𝐷𝐷𝑋𝑋 (𝐹𝐹(𝑦𝑦))] (2.3)
而式(2.4)则描述了区别于基本 GAN 模型的一种新的损失方式,其通过将生
成图像重新转换为最初真实图像,使得𝐹𝐹(𝐺𝐺(𝑥𝑥)) ≈ 𝑥𝑥,𝐺𝐺(𝐹𝐹(𝑦𝑦)) ≈ 𝑦𝑦。循环一致性
损失方式将有效解决生成器网络训练时的过拟合问题。综合式(2.2)、(2.3)、(2.4),
得到 CycleGAN 模型训练时的总损失函数,如式(2.5)所示。
𝐿𝐿(𝐺𝐺, 𝐹𝐹) = 𝐸𝐸𝑥𝑥~𝑝𝑝𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 (𝑥𝑥) [||𝐹𝐹(𝐺𝐺(𝑥𝑥)) − 𝑥𝑥||1 ] + 𝐸𝐸𝑦𝑦~𝑝𝑝𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 (𝑦𝑦) [||𝐺𝐺(𝐹𝐹(𝑦𝑦)) − 𝑦𝑦||1 ]
𝐿𝐿𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 �𝐺𝐺, 𝐹𝐹, 𝐷𝐷𝑥𝑥 , 𝐷𝐷𝑦𝑦 � = 𝐿𝐿𝐺𝐺𝐺𝐺𝐺𝐺 (𝐺𝐺, 𝐷𝐷𝑌𝑌 , 𝑋𝑋, 𝑌𝑌) + 𝐿𝐿𝐺𝐺𝐺𝐺𝐺𝐺 (𝐹𝐹, 𝐷𝐷𝑥𝑥 , 𝑌𝑌, 𝑋𝑋) + 𝐿𝐿(𝐺𝐺, 𝐹𝐹)
2.2.2 WESPE 模型
(2.4)
(2.5)
WESPE 模型是 2018 年 Andrey Ignatov 等人提出的一种弱监督的图像质量增
强技术,其模型结构如图 2.3 所示。作者提出了一种利用深度学习的解决方案,
将普通相机拍摄的照片自动转换为高质量的图像。WESPE 是一种基于图像到图
像生成的对抗性网络结构,其在弱监督条件下进行训练,而且不需要相同内容的
数据集对。在数据集选取方式上,该方法对数据集的要求形式与 CycleGAN 模型
基本相同,即不需要成对的数据集,但 CycleGAN 模型提出的循环一致性损失方
法可以实现两个不同的图像域间相互转换。
图 2.3 WESPE 模型基本结构
Figure 2.3 WESPE model’s basic structure
从 WESPE 网络模型结构图可以看出,低质量的图像 x 经过生成器 G 生成增
强后的图像𝑦𝑦� = 𝐺𝐺(𝑥𝑥),然后再经过一个反向生成器 F 重新生成低质量图像𝑥𝑥�,再
11
第二章 地图候选关键帧质量增强方法
将𝑥𝑥�与 x 输入到卷积神经网络 vgg-19 中,最终将𝐿𝐿𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 损失定义为图像特征间
的𝐿𝐿2 范数形式。
对于判别器𝐷𝐷𝑐𝑐 来说,y 是输入的高质量图像,将 y 和生成图像𝑦𝑦�经过高斯模
糊之后送入判别器𝐷𝐷𝑐𝑐 中得到颜色损失𝐿𝐿𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 。其中高斯模糊方法可以去除其他因
素(纹理、内容)对颜色损失的影响,因为作者使用的训练数据集内容不一样,
通过高斯模糊后可以使判别器尽量专注分析图像颜色分布(亮度、对比度)问题。
这样一来,颜色损失函数将使增强图像𝑦𝑦�具有与高质量图像相似的色彩分布,颜
色损失函数如式(2.6)所示:
𝐿𝐿𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 = − � log 𝐷𝐷𝑐𝑐 (𝐺𝐺(𝑥𝑥))
(2.6)
同理,对于判别器𝐷𝐷𝑡𝑡 来说,通过将生成图像𝑦𝑦�和高质量真实图像 y 经过灰度
化处理(去除颜色因素的影响),然后将两者输入到𝐷𝐷𝑡𝑡 中得到纹理损失𝐿𝐿𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑟𝑟𝑟𝑟 ,
训练判别器𝐷𝐷𝑡𝑡 使得𝐿𝐿𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 不断减小,使得判别器𝐷𝐷𝑡𝑡 无法区分原高质量真实图像
和经过增强后的低质量图像,纹理损失函数如式(2.7)所示:
𝐿𝐿𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 = − � log 𝐷𝐷𝑡𝑡 (𝐺𝐺(𝑥𝑥))
(2.7)
而𝐿𝐿𝑡𝑡𝑡𝑡 损失是为了使原始低质量图像经过生成器 G 生成增强图像𝑦𝑦�尽量平滑。
2.2.3 TodayGAN 模型
TodayGAN 模型是 2019 年由 Asha Anoosheh 等人提出了一种可将黑夜图像
进行质量增强的 GAN 模型,其结构如图 2.4 所示。生成器网络 G 会对当前候选
关键帧图像 x 进行质量增强,生成增强图像 G(x),为保证生成的增强图像和真实
候选关键帧图像在内容上保持一致,生成器网络 F 对生成的增强图像 G(x)进行
逆过程生成,得到图像 F(G(x)),并且使得图像 F(G(x))与真实图像 x 基本一致。
同时判别器网络 D 对生成的增强图像 G(x)和地图关键帧图像 y 进行判别。判别
器网络主要由三部分组成:图像纹理判别网络𝐷𝐷𝑡𝑡 ,图像颜色判别网络𝐷𝐷𝑐𝑐 ,图像梯
度判别网络𝐷𝐷𝑔𝑔 ,三者共同作用确保候选关键帧图像经过生成器作用后的质量得
到明显增强。
12
第二章 地图候选关键帧质量增强方法
TodayGAN 模型中判别器𝐷𝐷𝑐𝑐 、𝐷𝐷𝑡𝑡 是利用 WESPE 模型中的方法,而梯度判别
网络𝐷𝐷𝑔𝑔 的引入是在不考虑图像颜色和纹理的情况下,图像梯度可以看成是对图
像二维离散函数求导,实际上图像梯度可以看成是两个相邻像素间的差值,所以
图像梯度可以用来增强图像。
图 2.4 TodayGAN 模型基本结构
Figure 2.4 TodayGAN model’s basic structure
2.3 几种典型的 GAN 模型性能对比实验
2.3.1 实验数据集
本实验测试数据集来自 Oxford RobotCar[62],它包含了汽车在一年内围绕着
英国牛津市同一条路线拍摄的多个序列图像,经历了不同的季节、天气、光照的
变化,其中也存在着部分低质量且光照条件恶劣的图像,如图 2.5 所示。本实验
采用的测试数据集含有白天和夜间图像,白天图像子集和夜间图像子集均来自不
同时间段下的同一个遍历,白天数据集作为参考数据集。由于本文考虑的是增强
低质量的图像,故只需验证测试集中黑夜图像经过不同模型增强后的效果。
2.3.2 实验结果与分析
实验采用的硬件平台:CPU-2.2GHz,RAM:64GB,显卡:NVIDIA Geforce
GTX 1080Ti;软件平台及工具语言:Ubuntu 16.04,python;深度学习平台 PyTorch。
实验利用以上三种 GAN 模型分别对测试集中的夜间图像进行质量增强,并
13
第二章 地图候选关键帧质量增强方法
图 2.5 数 据 集 中 光 照 条 件 较 差 的 图 像
Figure 2.5 Images with poor illumination conditions in the dataset
且以相同遍历的白天数据集做参考数据集,以此来衡量增强结果好坏。当输入图
像为若干光照变化剧烈的夜间图像时,经过 CycleGAN、WESPE、TodayGAN 三
种 GAN 模型增强后的效果如图 2.6 所示。
实验结果显示:使用 CycleGAN 模型只是对输入图像进行了部分场景颜色变
化,没有改变光照对场景表达的影响;使用 WESPE 模型对输入图像的作用几乎
没有变化,这样将不利于本文鲁棒性视觉地点识别方法的顺利进行;而使用
TodayGAN 模型对输入图像光照质量增强后的效果与相应的白天参考数据集最
相似,以此证明了 TodayGAN 模型针对于黑夜图像风格转换上的优势,也进一
步地为实现本文光照剧烈变化下的视觉地点识别提供了保障,特别是在机器人候
选关键帧质量增强方面,TodayGAN 模型将对机器人当前观测到的光照变化大的
图像进行处理,生成让机器人“看得懂”的候选关键帧图像。
2.4 本章小结
本章在阐述 GAN 基本原理的基础上对现有的几种典型的 GAN 模型技术特
点进行了评述,随后在光照变化剧烈的数据集上对典型的 GAN 模型在图像光照
质量增强方面的效果进行了验证、对比分析。实验结果表明:与 CycleGAN 和
WESPE 相比,TodayGAN 对夜间光照较差的图像增强效果最佳,因此本文视觉
地点识别方法在地图候选关键帧生成环节拟采用 TodayGAN 来对图像光照质量
进行增强,以确保后续能提取到丰富的特征,而且图像的匹配是发生在高质量的
关键帧之间,为最终实现鲁棒的视觉地点识别奠定了基础。
14
第二章 地图候选关键帧质量增强方法
Input
CycleGAN
WESPE
TodayGAN
GroudTruth
图 2.6 不同 GAN 模型对光照变化剧烈图像增强效果图
Figure 2.6 Image enhancement of different GAN models on dramatic changes in illumination
15
第三章 候选关键帧光照质量增强后地理位置真实性表达评估
第三章 候选关键帧光照质量增强后地理位置真实性
表达评估
当机器人当前观测到的光照剧烈变化的候选关键帧图像经过质量增强后,虽
然图像的质量得到了保证,还需要确保生成图像与原始图像在地理位置真实性表
达上保持一致性,因为对于整个视觉地点识别系统来说,当前的场景图像表明的
地理位置无论经过光照质量增强与否,需保证质量增强前后的图像位置真实性不
丢失。所以,本章提出了一种针对候选关键帧质量增强后地理位置一致性评估的
方法,通过评估将有效保证光照质量增强的候选关键帧图像对真实场景位置的一
致性表达,有利于提高整个视觉地点识别系统的准确性。
本章首先分析现有的对 GAN 模型评估的方法(IS、FID)在评估候选关键帧质
量增强后地理位置真实性描述的不足;然后提出一种利用全局特征 Gist 描述符
间的余弦相似度来度量质量增强前后的图像地理位置的一致性方法;随后在公开
的数据集中对质量增强前后的候选关键帧图像的地理位置一致性进行了有效地
验证;实验结果表明对于增强前后的候选关键帧图像在地理位置表达上具有高度
的一致性。
3.1 地理位置真实性表达评估方法
在生成对抗网络模型中,生成器和判别器的目标函数通常是用来衡量各自的
性能好坏,生成器的目的是使生成的图像能骗过判别器,而判别器是为了能够区
分真实图像和生成图像。两者都不能从整体上衡量生成图像的质量和多样性,质
量的好坏一般需要从两个方面来考虑:(1)生成的图像是否清晰;(2)生成的图像
是否具有多样性。如果生成图像不清晰,说明生成器性能欠佳;如果生成图像清
晰,但不具备多样性,训练时会出现模式崩溃情况。所以对于 GAN 模型的评价
机制必须首先要确保生成图像和原始图像在内容上保持一致性,目前常见的方法
有 IS(Inception Score)[63]、FID(Frechet-Inception Distance)[64]等。
其中 IS 方法通过将生成图像 x 输入到在 ImageNet 数据集上预训练好的深度
16
第三章 候选关键帧光照质量增强后地理位置真实性表达评估
学习模型 Inception Net-V3[65]中,并对网络最终输出做统计分析,即图像属于数
据集中 1000 种类别的概率,输出的 1000 维向量中每一维向量的值表示其属于某
一类的概率。IS 的计算公式如式(3.1)所示:
𝐼𝐼𝐼𝐼(𝐺𝐺) = exp (𝐸𝐸𝑥𝑥~𝑃𝑃𝑃𝑃 𝐷𝐷𝐾𝐾𝐾𝐾 (𝑃𝑃(𝑦𝑦|𝑥𝑥)‖𝑃𝑃(𝑦𝑦))
(3.1)
其中𝑥𝑥~𝑝𝑝𝑔𝑔 表示 x 是从𝑝𝑝𝑔𝑔 中生成的图像;𝐷𝐷𝐾𝐾𝐾𝐾 (𝑝𝑝||𝑞𝑞)表示 p 和 q 间的 KL 散度,
即衡量两个分布的距离;𝑝𝑝(𝑦𝑦|𝑥𝑥)表示在给定图像 x 下分类为 y 的概率;exp 是为
了便于比较最终计算的 IS 值。IS 计算出的数值越大,说明生成图像的质量越好。
但是由于 IS 值没有考虑原始真实图像,不能够反映生成图像和真实图像在内容
上的一致性,所以无法用来评估图像增强前后地理位置一致性。
FID 方法是用来计算生成图像和真实图像的特征向量之间距离的度量,同样
图像特征向量也是由 Inception Net-V3 得到的。由于 Inception Net-V3 网络结构的
最后两层的形式为全连接层,FID 方法采用的是倒数第二个全连接层输出的 2048
维向量来度量图像间的距离。其中 FID 的计算公式可由式(3.2)得知。
1
𝐹𝐹𝐹𝐹𝐹𝐹(𝑥𝑥, 𝑔𝑔) = �𝜇𝜇𝑥𝑥 − 𝜇𝜇𝑔𝑔 � 22+𝑇𝑇𝑇𝑇(Σ𝑥𝑥 + Σ𝑔𝑔 + 2�Σ𝑥𝑥 Σ𝑔𝑔 �2 )
(3.2)
其中 Tr 表示计算出的矩阵对角线元素总和,均值为 μ,协方差为∑。x 代表
真实的图像,g 表示生成图像。如果 FID 的值越低,表示生成图像数据的分布更
接近真实图像数据的分布,也就意味着生成图像的质量高,具备多样性。相对于
IS 方法来说,FID 方法更适合衡量 GAN 模型的多样性。
由于 FID 和 IS 方法都是将生成图像输入到 Inception Net-V3 模型中,最终输
出的结果只属于 ImageNet 数据集 1000 类中的某一类,而且对网络权重的改变及
其敏感,不太适用于本文所需的地理位置一致性评估任务。
为了解决上述评估问题,本章采用基于图像外观特征的方法来进行质量增强
前后的图像地理位置一致性评估。图像的外观特征有很多种类,本文采用了比较
适用于描述室外开阔场景的全局特征描述符 Gist[66],当然在该环节也可以选择其
他类型的图像描述符。因为本章节关注的重点不是提出新的图像描述符,而是当
GAN 模型的指标无法直接适用于本文的评估任务时,探索一种能有效解决地理
位置一致性评估问题的方法。事实上,后续的实验结果较好地证明了本文的评估
方法的有效性。
17
第三章 候选关键帧光照质量增强后地理位置真实性表达评估
3.1.1 场景描述与评估方法
当候选关键帧图像经过 TodayGAN 模型进行光照质量增强后,对于增强前
后图像的地理位置一致性评估至关重要,其影响着视觉地点识别方法的可行性。
本文评估方法首先提取增强前后的候选关键帧图像的全局特征 Gist,具体实现过
程如下:
(1)采用 128 个 Gabor 滤波器[67]对输入图像进行卷积滤波,其中每个 Gabor
滤波器分别从不同的方向和不同尺度对图像进行滤波处理。
(2)将经过 Gabor 滤波器滤波后的图像划分成 4×4 的小区域网格,在每个
网格中取平均信息,得到局部 Gist 信息。
(3)将每个小区域网格取得的平均值特征信息级联起来,形成本文方法图
像的 Gist 特征。
当图像 Gist 特征信息提取出来后,本文利用图像的原始 Gist 特征向量作为
图像的描述符,候选关键帧光照质量增强前后地理位置一致性评估就相当于比较
两个特征向量间的相似性关系。具体评估方法为比较特征向量间的余弦相似度,
从而来定义真实图像和生成图像的地理位置相似性,如式(3.3)所示:
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 =
𝑎𝑎. 𝑏𝑏
‖𝑎𝑎‖‖𝑏𝑏‖
(3.3)
其中 a,b 分别代表经过增强前后候选关键帧图像提取的 Gist 特征向量,余
弦相似度值越接近于 1,说明两个向量越相似,也就能说明生成图像和原始图像
在地理位置上保持高度一致性。
3.1.2 算法流程
由表 3.1 所示,为候选关键帧光照质量增强后地理位置真实性评估的算法流
程伪代码。
表 3.1 地理位置真实性评估算法伪代码
Table 3.1 Geographic location authenticity assessment algorithm
输入:候选关键帧𝑓𝑓𝑖𝑖 、增强的候选关键帧𝑓𝑓′𝑖𝑖 。
输出:𝑓𝑓𝑖𝑖 和𝑓𝑓′𝑖𝑖 的地理位置相似度矩阵 M
步骤 1:候选关键帧增强
1
model(TodayGAN)← 𝑓𝑓𝑖𝑖
步骤 2:候选关键帧增强前后图像描述
18
第三章 候选关键帧光照质量增强后地理位置真实性表达评估
2
����⃗𝚤𝚤 ) ←Gist(𝑓𝑓𝑖𝑖 , 𝑓𝑓′𝑖𝑖 )
�⃗𝚤𝚤 ,𝑓𝑓′
Features(𝑓𝑓
步骤 3:单一的候选关键帧增强前后地理位置相似度
3
����⃗𝚤𝚤 )
�⃗𝚤𝚤 ,𝑓𝑓′
S ←Cal_cossim(𝑓𝑓
步骤 4:连续的候选关键帧增强前后地理位置相似度矩阵
4
i=1
5
for i in range(100)
6
7
8
����⃗𝚤𝚤 )
�⃗𝚤𝚤 ,𝑓𝑓′
Matrix(i,i) ←Similarity(𝑓𝑓
end for
return M
本文提出的评估方法首先提取光照质量增强前后的候选关键帧图像的全局
����⃗𝚤𝚤 ,然后计算特征描述符向量的余弦相似
�⃗𝚤𝚤 、𝑓𝑓′
特征 Gist,并形成特征描述符向量𝑓𝑓
度,从相似度大小可以得出候选关键帧图像经过质量增强前后的地理位置关系,
其中,相似度越高,则表明增强前后的图像表达的场景地理位置保持一致性。最
后从连续的候选关键帧图像集合出发,计算匹配后的相似性矩阵,从相似性矩阵
中得出本文提出的评估方法的有效性。
3.2 实验验证
3.2.1 实验数据集
为了验证经过 TodayGAN 模型生成的图像和真实图像在地理位置上的一致
性,实验采用了牛津大学 RobotCar 自动驾驶数据集,该数据集包含了汽车在一
年内围绕英国牛津市固定路线重复运动产生的数据,数据集存在各种外界环境变
化情况,包括季节,雨雪等。本文选取了该数据集中某一天夜间连续的场景图像
100 张,并且利用 TodayGAN 模型对夜间图像进行光照质量增强,形成光照质量
增强的夜间数据集,从而实现对增强前后的夜间数据集的地理位置真实性评估。
如图 3.1 所示,为数据集中光照变化剧烈的夜间图像经过增强前后的实际效果图。
19
第三章 候选关键帧光照质量增强后地理位置真实性表达评估
(a)夜间图像
(b)光照质量增强的夜间图像
图 3.1 经过光照质量增强前后的数据集图像
Figure 3.1 The dataset image before and after the illumination quality enhancement
3.2.2 评价指标
经过光照质量增强后的候选关键帧图像如果仍能表达真实的地理位置,那么
对应位置增强前后的两幅图像应该保持非常高的相似度,因此增强前后的两组候
选关键帧图像序列的多条相似性曲线应该表现出高度一致的波形和波峰位置。基
于这个事实,本方法采用图像全局描述符 Gist 来描述候选关键帧图像,并计算
出光照质量增强前后的候选关键帧图像序列的相似度矩阵,进而分析相似矩阵的
每一行对应的相似度曲线之间的波形一致性和波峰位置分布,以此来对质量增强
后的图像能否继续保持对真实地理位置的表达进行有效性评估。
3.2.3 实验结果与分析
事实上:候选关键帧光照质量增强前后的图像描述符,若仍能保持较高的相
似度,则表明先后图像所描述的地理位置具有一致性。基于该逻辑推理,本实验
采用 Gist 作为图像的全局描述符,计算了质量增强前后的两组图像序列的相似
20
第三章 候选关键帧光照质量增强后地理位置真实性表达评估
度矩阵,该相似度矩阵的横轴为黑夜图像序列,纵轴为黑夜图像被光照质量增强
后的图像序列。如图 3.2(a)所示,为计算后的相似度矩阵。图 3.2(b)是对结果归
一化后的相似度矩阵,从实验结果可以看出,相似度矩阵具有非常连续且亮度明
显高于外部区域的对角线,这表明黑夜图像在经过光照增强后所描述的地理位置
仍然与之前保持了较高的一致性。
(a)原始相似度矩阵
(b)相似度矩阵归一化
图 3.2 候选关键帧序列增强前后的图像相似度矩阵
Figure 3.2 Image similarity matrix before and after candidate keyframe enhancement
为了进一步定量分析,实验对相似矩阵数据逐行进行了抽样分析。例如:实
验选取了相似矩阵的第 6、16、26、36、46、56、66、76、86、96 行数据,每行
数据分别描述了第 i 个增强后的图像与黑夜图像序列的相似度曲线 Si。如图 3.3
所示,曲线 Si 的波峰总是出现在黑夜图像序列的第 i 个位置,由此可知:第 i 个
黑色图像经过光照质量增强后得到的新图像所描述的地理位置仍然是原来的真
实地理位置,而且图 3.3 中的多条曲线的波形呈现高度的一致性,这充分验证了
本方法在候选关键帧质量增强前后对地理位置描述的一致性方面具有较高的普
遍性,为后续鲁棒性地点识别计算奠定了基础。
21
第三章 候选关键帧光照质量增强后地理位置真实性表达评估
(a)第 6、16、26、36、46 张匹配相似度曲线
(b)第 56、66、76、86、96 张匹配相似度曲线
图 3.3 若干候选关键帧增强前后的图像相似度曲线
Figure 3.3 Image similarity curve before and after enhancement of several candidate
keyframes
3.3 本章小结
本章节提出了一种基于图像 Gist 特征描述符间的相似度方法来衡量生成图
像与原始图像在地理位置上的一致性。首先分析评估了 GAN 模型的通用指标 IS、
FID 在对生成图像地理位置真实性表达方面的不足之处;然后阐述了本文提出的
基于图像 Gist 特征向量间相似度的地理位置一致性评估方法,分别从场景描述
方式和评估指标来进行阐述,说明了采用图像 Gist 特征描述符间的相似度来评
估生成图像与原始图像在地理位置上一致性理论上的可行性;最后本章实验部分
22
第三章 候选关键帧光照质量增强后地理位置真实性表达评估
从定性和定量的角度分别分析了采用 Gist 特征向量间的相似性来进行候选关键
帧光照质量增强后地理位置真实性表达评估方法的有效性,从实验结果中的相似
度矩阵及相似度曲线中可以得出,对于采用图像 Gist 特征向量间的相似度方法
来进行光照质量增强前后地理位置一致性判别具有实际可行性。质量增强的候选
关键帧只有经过地理位置一致性评估后,才能进行视觉地点识别,从而实现机器
人的定位与构建地图。
23
第四章 鲁棒性视觉地点识别方法
第四章 鲁棒性视觉地点识别方法
当机器人运动时新观测到的候选关键帧图像经过光照质量增强并对增强前
后的候选关键帧图像进行地理位置一致性评估后,接下来就是实现地点识别的具
体过程—图像特征提取及匹配。本章提出了一种基于图像特征原始特征包形成的
图像描述符来对图像进行表征的方法,以便实现图像匹配和地点识别。为验证本
文视觉地点识别方法相对于其他方法的鲁棒性,本章首先在公开的数据集 Oxford
RobotCar 中将 DELF[68]特征分别与基于传统人工设计图像特征 SIFT、SURF 及经
典深度学习特征 SuperPoint[69]进行光照不变性特征的性能比较,确保了本文视觉
地点识别方法中光照不变性特征描述符的构建;另外,本章通过对四种特征各自
的原始特征包形成的图像描述符进行图像间的匹配,从匹配的相似性矩阵结果表
明本文视觉地点识别方法相对于其他三种方法具有明显的优势,并且从各自的图
像匹配相似度数值大小以及效果图中直观地展示了本文视觉地点识别方法的鲁
棒性。本文提出的视觉地点识别方法将有力地推动视觉 SLAM 的发展,解决了
光照剧烈变化环境对移动机器人定位的影响,同时机器人精准的定位也保证了机
器人构建环境地图的准确性,真正地实现了移动机器人的自主运动导航。
4.1 鲁棒性视觉地点识别方法
视觉地点识别作为实现机器人定位的有效方法,如何实现机器人鲁棒性视觉
地点识别已经成为视觉 SLAM 中研究的热点和难点。视觉地点识别一般通过机
器人当前观测到的候选关键帧图像与地图关键帧图像进行匹配来实现,而对于图
像的描述方法主要有:基于人工设计的图像局部特征描述方法、基于人工设计的
图像全局特征描述方法、基于深度学习的特征描述方法。由于基于人工设计的特
征带有人类的经验及主观意愿,其对于外界环境中视角及光照变化所表现出的鲁
棒性较差。但随着近些年来深度学习模型中隐藏层提取出的特征具备对于外界环
境变化的鲁棒性[68-77],深度特征已逐渐代替传统的基于人工设计的特征(SIFT、
SURF)来完成相关视觉任务。于是,本文提出了一种基于卷积神经网络模型的特
征描述方法来实现鲁棒性的视觉地点识别。
24
第四章 鲁棒性视觉地点识别方法
4.1.1 鲁棒性图像描述符构建
本文采用了一种基于深度学习的图像深度局部特征 DELF。该特征主要通过
微调预训练的卷积神经网络 ResNet[31]来提取图像深层特征。不同于其他典型深
度学习特征,DELF 特征还具有高层的语义信息,其通过在 ResNet50 网络模型
中的卷积层 Conv4_x 输出接入注意力机制模块来选择图像关键特征点,这使得
图像局部关键特征点具备对外界环境变化的鲁棒性。另外,不同于传统特征 SIFT
先进行特征关键点检测再进行特征表达的方式,DELF 特征是先进行特征表达再
进行关键点检测。
此外,DELF 特征提取后的特征维度经过主成分分析法(Principal Component
Analysis,PCA)处理后变为 40 维,相当于每个关键特征点所形成的特征向量的
维度也为 40。对于图像特征点数目不多且维度较低的情况,本文提出了一种以
若干原始特征点所形成的特征包作为图像的描述符的方法,如式(4.1)所示。
𝐷𝐷(𝑛𝑛) = {𝑓𝑓(1), 𝑓𝑓(2), 𝑓𝑓(3), … , 𝑓𝑓(𝑛𝑛)}
(4.1)
式(4.1)中 n 代表图像的特征点数,f(n)表示第 n 个特征点的向量,维度为 40;
D(n)表示图像描述符,其维度值为 40×n。由于 DELF 特征提取时注意力机制的
作用,将使得图像描述符对于外部环境变化的鲁棒性较好,这样将有利于实现在
光照变化条件下的图像匹配,进而为本文鲁棒的视觉地点识别方法提供了保障。
4.1.2 图像匹配与相似性矩阵
视觉地点识别过程包括图像特征提取和匹配。由 4.1.1 小节得出的图像描述
符需进一步地进行描述符间的匹配,机器人才能从匹配的结果判断当前场景是否
曾经来过,从而实现视觉地点识别。于是,本文提出了一种衡量图像匹配后相似
度大小的方法,如式(4.2)所示。
𝑆𝑆(𝐴𝐴, 𝐵𝐵) =
𝑀𝑀(𝐴𝐴, 𝐵𝐵)
𝐾𝐾(𝐴𝐴) + 𝐾𝐾(𝐵𝐵) − 𝑀𝑀(𝐴𝐴, 𝐵𝐵)
(4.2)
式(4.2)中 M(A,B)表示图像 A 和图像 B 的特征点正确匹配数目,其数值大小
主要是基于特征点的最近邻搜索(Nearest Neighbor Search,NNS)匹配方法以及随
机抽样一致性(RANdom SAmple Consensus,RANSAC)算法进行几何验证后得出
的;K(A)表示图像 A 的特征点数目,K(B)表示图像 B 的特征点数目,S(A,B)代表
25
第四章 鲁棒性视觉地点识别方法
两张图像进行匹配后的相似度大小,取值范围为[0,1]。
相似性判断是视觉地点识别的重要环节,当相似性 S(A,B)的大小超过某一阈
值时,可以认为两张图像是相似的;当相似性 S(A,B)的值低于所设阈值时,则认
为两幅图像是不相似的。通过比较图像间的相似度大小,并且将结果矩阵化,最
终可以得到相似性矩阵,如图 4.1 所示为一相似性矩阵示意图。其中对角线为高
亮部分,表示 S(A,B)的结果为 1,则对角线上的点表示的两幅图像是相似的;而
除对角线外其他暗的区域表示两幅图像不相似。所以,本文利用相似性矩阵来衡
量机器人在光照变化剧烈条件下视觉地点识别的鲁棒性。
图 4.1 相似性矩阵示意图
Figure 4.1 Schematic diagram of similarity matrix
4.1.3 算法流程
本文提出的鲁棒性视觉地点识别方法的算法流程伪代码如表 4.1 所示。
表 4.1 鲁棒性视觉地点识别算法伪代码
Table 4.1 Robust visual place recognition algorithm
输入:新增候选关键帧𝑓𝑓𝑖𝑖
输出:地图关键帧𝐹𝐹𝑗𝑗 或者闭环𝐿𝐿𝑜𝑜𝑜𝑜𝑜𝑜𝑖𝑖
步骤 1:新增候选关键帧𝒇𝒇𝒊𝒊 增强。
1
model(TodayGAN)← 𝑓𝑓𝑖𝑖
步骤 2:增强的候选闭环关键帧𝒇𝒇′′𝒊𝒊 。
2
𝒇𝒇′′𝒊𝒊 ←Similarity(Gist(𝑓𝑓𝑖𝑖 ),Gist(𝑓𝑓′𝑖𝑖 ))
步骤 3:增强的候选关键帧 𝒇𝒇′′𝒊𝒊 与单一地图关键帧𝐹𝐹𝑗𝑗 匹配。
3
4
num_features(𝒇𝒇′′ 𝒊𝒊 ,𝐹𝐹𝑗𝑗 ) ←locations(𝒇𝒇′′𝒊𝒊 ,𝐹𝐹𝑗𝑗 )
Matches(𝐟𝐟 ′′ 𝐢𝐢 ,𝐹𝐹𝑗𝑗 ) ←Algorithm(KDtree)
26
#Read DELF features
#Find nearest-neighbor matches
第四章 鲁棒性视觉地点识别方法
Inliers(𝒇𝒇′′ 𝒊𝒊 ,𝐹𝐹𝑗𝑗 ) ←Algorithm(RANSAC)
5
6
#Perform geometric verification
Similarity(𝒇𝒇′′ 𝒊𝒊 ,𝐹𝐹𝑗𝑗 ) ←Inliers(𝒇𝒇′′ 𝒊𝒊 ,𝐹𝐹𝑗𝑗 )/(num_features(𝒇𝒇′′ 𝒊𝒊 )+num_feaures(𝐹𝐹𝑗𝑗 )-Inliers
(𝒇𝒇′′ 𝒊𝒊 ,𝐹𝐹𝑗𝑗 ))
#Calculate single similarity
步骤 4:将候选关键帧集合{𝒇𝒇′′ ′𝒊𝒊 }
与地图关键帧集合{𝑭𝑭𝒋𝒋 }进行匹配。
7
i=100,j=100
8
for i in range(100)
9
for j in range(100)
10
Matrix(i,j) ← Similarity(𝑓𝑓 ′′ 𝑖𝑖 ,𝐹𝐹𝑗𝑗 )
11
12
end for
end for
13 return Matrix
#calculate similarity matrix
具体而言,本文通过相关技术对机器人采集到的图像做初步筛选,形成候选
关键帧图像。而当机器人长期在室外运动时,自然难免遇到一些光照变化剧烈的
场景,本文利用 TodayGAN 模型对当前候选关键帧图像进行质量增强,形成增
强候选关键帧图像;然后,通过利用质量增强前后图像的 Gist 特征向量相似性
来进行场景地理位置一致性检测,形成候选闭环关键帧图像。上述两个环节分别
在本文的第二章、第三章进行了介绍。
视觉地点识别过程在计算本质上就是闭环候选关键帧图像与地图关键帧图
像间的在线地点匹配问题。本文利用深度学习技术提取了图像的 DELF 特征,并
利用 DELF 特征的原始特征包构成了图像的描述符,最后利用描述符间的特征匹
配实现地点识别,并且从匹配后的相似度大小来判断当前闭环候选关键帧图像表
达的场景曾经是否来过,若判断来过,则实现了机器人的准确定位,为构造精准
的场景地图提供了保障;若判断为未来过,则在线将闭环候选关键帧图像添加到
地图关键帧图像中去,即在线更新地图。
本文提出的方法为实现光照变化剧烈条件下移动机器人视觉地点识别提供
了解决方案,总体具有可行性,也将促进机器人在光照变化条件下自主导航技术
的发展,使得机器人-人-物三者实现真正的交互。本文鲁棒性视觉地点识别方法
流程图如图 4.2 所示。
27
第四章 鲁棒性视觉地点识别方法
地图关键
帧集合
输入
图像
候选关键帧
TodayGAN
GIST
特征
候选增强关
键帧
场景地理位置
的一致性检测
地图更新
候选闭环关键帧
DELF特征提取
光照不变性图像
描述符
特征匹配
视觉地点识别
新地点?
否
出现闭环
是
图 4.2 鲁棒性视觉地点识别方法流程图
Figure 4.2 Flow chart of robust visual place recognition method
4.2 实验验证
4.2.1 实验环境
本实验所涉及的软硬件环境如表 4.2 所示:
表 4.2 实验环境配置
Table 4.2 Experimental environment configuration
配置项
环境参数
CPU:2.2GHz Inter Xeon Sliver 4114,RAM:64GB 显卡:NVIDIA
计算机硬件
Geforce GTX 1080Ti 显存:11G
编程语言
Python
操作系统
Ubuntu 16.04 LTS(64-bit)
4.2.2 实验数据集
为了验证本文视觉地点识别方法对于剧烈光照变化的鲁棒性,实验采用了牛
28
第四章 鲁棒性视觉地点识别方法
津大学 RobotCar 自动驾驶数据集,该数据集包含了汽车在英国牛津市区沿着预
定的路线长时间运动的图像序列,包括了由一年四季变化、雨雪天气变化等带来
的剧烈光照变化场景,比较符合移动机器人对光照剧烈变化条件下鲁棒性视觉地
点识别验证的需要。虽然本文利用的是汽车自动驾驶数据集,但数据集中包含的
剧烈光照变化与移动机器人在室外运动所经历的场景类似,且该数据集也被众多
学者用来研究移动机器人视觉地点识别的公开数据集,相关评估工作也都在该数
据集上完成。所以,该数据集完全能满足本文研究工作的需求。如图 4.3 所示为
数据集中同一场景不同的光照表现形式。
图 4.3 数据集中同一地点光照变化
Figure 4.3 Illumination changes at the same place in the dataset
本文从整个测试数据集中分别提取了白天和黑夜图像各 100 张,形成两个测
试数据子集,两个子集里的图像序列均描述了同一条观测路径,而且两个序列里
的逐帧图像对应着相同的地理位置,以便对视觉地点识别方法的鲁棒性进行验证
29
第四章 鲁棒性视觉地点识别方法
分析。
4.2.3 图像描述符对于光照变化鲁棒性实验验证
为了验证本文基于深度学习的 DELF 特征描述符在视觉地点识别中的鲁棒
性,本实验将其与传统人工设计特征 SIFT、SURF 和典型深度学习特征 SuperPoint
所形成的特征描述符进行比较。实验利用四种图像描述符来分别量化表达黑夜图
像序列 A(100 张)、白天图像序列 B(100 张),然后采用图像原始特征包匹配方法
计算 A 和 B,最终得到图像相似度矩阵 M,四种特征匹配后的相似度矩阵如图
4.4 所示。其中相似度矩阵的横轴为白天图像序列,纵轴为黑夜图像序列。
(a)SIFT_M
(b)SURF_M
(c)SuperPoint_M
(d)DELF_M
图 4.4 图像序列特征匹配后的相似性矩阵曲线
Figure 4.4 Similarity matrix curve after image sequence feature matching
从图 4.4 结果可知,相似性矩阵 DELF_M 及相似性矩阵 SuperPoint_M 在特
征匹配上的相似度要比基于人工特征的相似性矩阵 SIFT_M、SURF_M 要高很多,
而且当光照剧烈变化时,SIFT、SURF 特征几乎无法完成场景图像的匹配。而相
似性矩阵 DELF_M 又比相似性矩阵 SuperPoint_M 具有更加连续且大范围高亮的
对角线区域,这表明由 DELF 特征形成的特征描述符具有对于光照变化的鲁棒性。
同时,实验也对相似性矩阵行数据进行定量地抽样分析,如图 4.5 所示。通
30
第四章 鲁棒性视觉地点识别方法
过选取夜间数据集中第 49 张图像与白天图像序列进行四种特征描述符的匹配,
实验结果表明,DELF 特征描述符相对于其他三种特征有明显的差异,能实现
夜间图像在白天数据集图像下精准的匹配。
图 4.5 单张图像与图像序列特征匹配后的相似性曲线
Figure 4.5 Similarity curve between a single image and the image sequence after feature
matching
为进一步定量分析匹配过程中各个变量的变化信息,表 4.3 对黑夜图像(序
号为 49)与白天图像(序号为 49)进行匹配时的特征点数、正确匹配数以及最终的
匹配相似度大小进行了说明。
表 4.3 特征匹配时的变量数值关系
Table 4.3 Variable numerical relationship during feature matching
SIFT 特征
SURF 特征
SuperPoint 特征
DELF 特征
夜间图像(49)
1966
3373
350
551
白天图像(49)
3603
5637
557
820
匹配数
12
8
29
95
相似度
0.0022
0.0009
0.0330
0.0745
从表 4.3 结果可知,基于传统人工设计特征 SIFT、SURF 提取的特征点数较
多,而最终能匹配的数目极少,导致最终匹配的相似度偏低;而基于深度学习的
特征相比较而言,特征点数减少,匹配数增加,这样使得最终的匹配率提升了很
多倍,更进一步说明了在光照变化的情况下,基于深度学习的特征相比较基于传
31
第四章 鲁棒性视觉地点识别方法
统的人工设计特征在图像地点识别上具有更高的鲁棒性。如图 4.6 所示,展示了
夜间图像(序号为 49)与白天图像(序号为 49)进行四种特征匹配的效果图。
(a)SIFT
(b)SURF
(c)SuperPoint
(d)DELF
图 4.6 四种特征匹配的效果图
Figure 4.6 Effect of four features matching
4.2.4 视觉地点识别鲁棒性验证
第三章验证了候选关键帧经过光照质量增强后不会出现对地理位置的失真
性描述现象,为进一步实现鲁棒的视觉地点识别提供了前提保障。本实验继续验
证本文视觉地点识别方法的鲁棒性,进行了两组必要的实验:(1)验证候选关键
帧质量增强环节对视觉地点识别的鲁棒性提升作用;(2)验证本文视觉地点识别
方法比其他代表性方法表现更加优异。
实验(1)采用光照不变性图像描述符 DELF 来分别量化表达黑夜图像序列 A、
黑夜图像被光照质量增强后的图像序列 A'、白天图像序列 B,然后采用本文提出
的基于原始特征包的图像匹配方法计算 A 和 B、A'和 B,得到图像相似度矩阵,
即:视觉地点识别的判断矩阵 M1(如图 4.7 所示)和 M2(如图 4.8 所示), 该相似
性矩阵的横轴为白天图像序列,纵轴为黑夜图像被光照质量增强后的图像序列。
由图 4.7 和图 4.8 可知:地图候选关键帧的光照质量被增强后,用于视觉地
点识别计算时能获得辨识度更高的判断矩阵。与矩阵 M1 间断的对角线相比,矩
阵 M2 的对角线更加连续,亮度更高,由此说明:在面对剧烈光照变化的场景时,
32
第四章 鲁棒性视觉地点识别方法
本文视觉地点识别方法所采用的候选关键帧光照质量增强的方式对提升视觉地
点识别的鲁棒性具有积极意义。
为了进一步地验证本文视觉地点识别方法的鲁棒性,实验(2)将本文视觉地
点识别方法与代表性方法进行了对比。首先将候选关键帧全部进行光照质量增强,
然后分别基于典型的人工设计特征 SIFT 和 SURF、代表性深度学习特征
SuperPoint 来构建图像描述符,并按判别矩阵 M2 的生成过程,依次计算得到用
于视觉地点识别的相似判断矩阵:SIFT_GAN、SURF_GAN、SUPERPOINT_GAN。
本文视觉地点识别方法生成的相似判断矩阵为 DELF_GAN。
图 4.7 原始候选关键帧序列的视觉地点识
别判断矩阵 M1
Figure 4.7 Visual place recognition judgment
matrix M1 of the original candidate keyframe
sequence
图 4.8 候选关键帧增强后的视觉地点识别
判断矩阵 M2
Figure 4.8 Visual place recognition judgment
matrix M2 after candidate keyframe
enhancement
如图 4.9 所示,基于深度学习特征包的矩阵 DELF_GAN 和 SuperPoint_GAN
在地点识别的辨识度比前两个基于人工特征包的矩阵要高很多,而且当光照剧烈
变化时,前两个矩阵的地点辨识度几乎无效,本文视觉地点识别方法的矩阵
DELF_GAN 又比矩阵 SuperPoint_GAN 具有更加连续的高亮对角线区域,这意味
着本文视觉地点识别方法的鲁棒性表现更加优异。
实验还对上述四个矩阵的行数据进行了定量的抽样分析对比,如图 4.10 所
示,显示了在某个位置(比如:序号 49),本文视觉地点识别方法对同一地点的视
觉辨识度相比其他方法具有更加明显的差异性,其能实现最大的匹配分数,能较
好地实现鲁棒的视觉地点识别。
33
第四章 鲁棒性视觉地点识别方法
为进一步定量分析匹配过程中各个变量的变化信息,表 4.4 对经过质量增强
黑夜图像(序号为 49)与白天图像(序号为 49)匹配后的特征点数、匹配数以及最后
的相似度大小进行了说明。
(a)SIFT_GAN
(b)SURF_GAN
(c)SuperPoint_GAN
(d)DELF_GAN
图 4.9 视觉地点识别相似矩阵对比分析
Figure 4.9 Comparative analysis of similarity matrix for visual place recognition
从表 4.4 结果可知,在夜间图像序列在经过质量增强后,四种图像特征描述
符匹配后的相似度大小都有一定的提升。但基于深度学习的特征提升的速度要比
基于人工设计的特征多几个数量级,特别是本文视觉地点识别方法采用的基于深
度学习的 DELF 特征原始特征包的匹配,能实现最大的匹配相似度,实现了鲁棒
的视觉地点识别。
34
第四章 鲁棒性视觉地点识别方法
图 4.10 单张增强图像与图像序列匹配后的相似性曲线
Figure 4.10 Similarity curve between single enhanced image and image sequence matching
表 4.4 特征匹配时的变量数值关系
Table 4.4 Variable numerical relationship during feature matching
增强夜间图像
(49)
白天图像(49)
匹配数
相似度
SIFT_GAN
SURF_GAN
SUPERPOINT_GAN
DELF_GAN
438
570
107
145
469
8
0.0089
654
12
0.0099
113
16
0.0784
194
88
0.3506
如图 4.11 所示,展示了经过光照质量增强后的夜间图像(序号为 49)与白天
图像(序号为 49)分别利用四种特征描述符进行匹配时的效果图,匹配结果与图
4.6 的结果相比,表现得更加优异,也定量地验证了本文视觉地点识别方法在光
照变化剧烈条件下仍然保持着较强的鲁棒性。
(a)SIFT_GAN
(b)SURF_GAN
35
第四章 鲁棒性视觉地点识别方法
(c)SUPERPOINT_GAN
(d)DELF_GAN
图 4.11 四种特征匹配效果图
(夜间图像经过质量增强后)
Figure 4.11 Picture of the four features matching effects
(The night image has been enhanced for quality)
4.3 本章小结
本章对本文提出的鲁棒性视觉地点识别方法进行了实验验证。首先阐述了基
于深度学习特征的图像描述方法相对于基于传统人工设计特征图像描述的优势;
然后提出了一种基于 DELF 特征原始特征包的图像描述符,其在面对光照变化条
件下具有一定的鲁棒性。此外,本章还提出了一种图像间相似度的评估方法,进
而实现视觉地点识别。本文提出的视觉地点识别方法利用 TodayGAN 模型对候
选关键帧增强以及基于 DELF 特征原始特征包构成的图像描述符来对图像描述,
为验证本文视觉地点识别方法的鲁棒性,本章首先通过实验对比分析基于 DELF
特征描述符相对于典型深度学习特征 SuperPoint 及传统特征 SIFT、SURF 所形成
的描述符在面对剧烈光照变化下地点识别的鲁棒性、然后从有无候选关键帧增强
环节来验证其对于视觉地点识别鲁棒性的影响,最后实验将本文视觉地点识别方
法与其他的典型方法进行了对比,实验结果表明本文视觉地点识别方法具有较强
的鲁棒性。本文提出的视觉地点识别方法能实现机器人在光照变化剧烈环境下的
精准定位,同时也为机器人构建准确的地图提供了保障,提高了视觉 SLAM 系
统的稳定性。
36
第五章 总结与展望
第五章 总结与展望
5.1 论文总结
视觉 SLAM 技术在移动机器人、虚拟现实、自动驾驶等领域上得到了广泛
的应用,而视觉地点识别作为实现视觉 SLAM 闭环检测环节的重要判断依据也
吸引了广大学者的研究。视觉地点识别可以实现移动机器人的定位,并使 SLAM
系统构造的地图与周围环境保持一致性。然而由于机器人长期在室外运动时,难
免会遇到一些天气变化、季节变化等,这无疑加大了视觉地点识别的难度,导致
移动机器人出现感知混淆的情况,不利于机器人的自主导航。本文针对剧烈光照
变化环境中移动机器人视觉地点识别方法的鲁棒性局限问题,提出了一种基于候
选关键帧光照质量增强的鲁棒性地点识别方法。根据论文的研究内容所述的具体
问题,本文提出了相应的解决方法并通过实验验证了方法的可行性和有效性,论
文的创新点归纳如下:
(1)与机器人以往的视觉地点识别方法相比,本研究在视觉地点识别流程中
的图像匹配环节之前加入了地图关键帧质量增强模块,力求让机器人在能看懂之
前,先看的清,而且该新增模块可以和现有的其他方法方便集成,对提升现有方
法的鲁棒性具有积极意义。此外,在对质量增强后的地图关键帧地理位置真实性
表达评估时,经过分析,现有的 GAN 模型评估指标无法直接适用于本任务的评
估,故研究设计了一种基于图像外观特征的地理位置一致性评估方法,表现效果
良好,解决了实际问题的需要。
(2)在视觉地点识别的图像匹配环节,现有的匹配方法存在光照变化鲁棒性
弱、词袋量化后的感知混淆等不足,本文构建了一种具有较强光照不变性的图像
描述符并且在图像匹配时能有效避免因词袋量化导致的特征分布消失产生的感
知混淆问题,为高准确性的图像匹配与地点识别提供了一种有实用价值的解决办
法。
37
第五章 总结与展望
5.2 未来工作展望
本文提出的鲁棒性视觉地点识别方法虽然取得了一定的效果,但仍然存在一
些不足,今后笔者将从以下几个方面进行改进:
(1)本文方法仅在 RobotCar 数据集下进行实验验证,今后的研究中将尝试利
用其它数据集进行实验,扩大本文方法的应用场景。
(2)对于本文中采用的生成对抗网络模型的学习,未来将尝试利用神经架构
搜索(Neural Architecture Search,NAS)技术来使计算机自己得出一种新的 GAN
模型来适应本文的工作需要。
(3)尝试将图像语义信息应用到视觉地点识别方法中,以增强机器人自主导
航系统的人机交互能力。
38
参考文献
参 考 文 献
[1] Nilson N. A mobile automation: An application of artificial intelligence techniques[C].
Proceedings of the Fith International Joint Conference on Artificial Intelligence, 1969: 509.
[2] Durrant-Whyte H, Bailey T. Simultaneous localization and mapping: part I[J]. IEEE Robotics
& Automation Magazine, 2006, 13(2): 99-110.
[3] Bailey T, Durrant-Whyte H. Simultaneous localization and mapping (SLAM): Part II[J]. IEEE
Robotics & Automation Magazine, 2006, 13(3): 108-117.
[4] Nagao K, Yang M, Cao X, et al. Building-Scale Virtual Reality: Another Way to Extend Real
World[C]. IEEE Conference on Multimedia Information Processing and Retrieval, 2019:
205-211.
[5] Egodagamage R, Tuceryan M. Distributed monocular visual SLAM as a basis for a
collaborative augmented reality framework[J]. Computers & Graphics, 2018, 71: 113-123.
[6] Milz S, Arbeiter G, Witt C, et al. Visual slam for automated driving: Exploring the applications
of deep learning[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition Workshops, 2018: 247-257.
[7] 刘威. 应用于移动机器人视觉 SLAM 的地点识别研究[D]. 杭州电子科技大学, 2019.
[8] 赵洋, 刘国良, 田国会, 等. 基于深度学习的视觉 SLAM 综述[J]. 机器人, 2017, 39(6):
889-896.
[9] Triggs B, Mclauchlan P F, Hartley R I, et al. Bundle adjustment—a modern synthesis[C].
International Workshop on Vision Algorithms, 1999: 298-372.
[10] Dubbelman G, Browning B. COP-SLAM: Closed-form online pose-chain optimization for
visual SLAM[J]. IEEE Transactions on Robotics, 2015, 31(5): 1194-1213.
[11] 刘强, 段富海, 桑勇, 等. 复杂环境下视觉 SLAM 闭环检测方法综述[J]. 机器人, 2019,
41(1): 112-123,136.
[12] 杨孟军. 基于视觉 SLAM 的移动机器人闭环检测研究[D]. 广东工业大学, 2018.
[13] 何元烈, 陈佳腾, 曾碧. 基于精简卷积神经网络的快速闭环检测方法[J]. 计算机工程,
2018, 44(6): 182-187.
39
参考文献
[14] Davison A J, Reid I D, Molton N D, et al. MonoSLAM: Real-time single camera SLAM[J].
IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(6): 1052-1067.
[15] Zhao H, Wang Z. Motion measurement using inertial sensors, ultrasonic sensors, and
magnetometers with extended kalman filter for data fusion[J]. IEEE Sensors Journal, 2011,
12(5): 943-953.
[16] Eade E, Drummond T. Scalable monocular SLAM[C]. IEEE Computer Society Conference
on Computer Vision and Pattern Recognition, 2006: 469-476.
[17] Klein G, Murray D. Parallel tracking and mapping for small AR workspaces[C]. IEEE and
ACM International Symposium on Mixed and Augmented Reality, 2007: 225-234.
[18] Labbé M, Michaud F. RTAB-Map as an open-source lidar and visual simultaneous
localization and mapping library for large-scale and long-term online operation[J]. Journal of
Field Robotics, 2019, 36(2): 416-446.
[19] Mur-Artal R, Montiel J M M, Tardos J D. ORB-SLAM: a versatile and accurate monocular
SLAM system[J]. IEEE Transactions on Robotics, 2015, 31(5): 1147-1163.
[20] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal
of Computer Vision, 2004, 60(2): 91-110.
[21] Bay H, Tuytelaars T, Van Gool L. Surf: Speeded up robust features[C]. European Conference
on Computer Vision, 2006: 404-417.
[22] Rublee E, Rabaud V, Konolige K, et al. ORB: An efficient alternative to SIFT or SURF[C].
International Conference on Computer Vision, 2011: 2564-2571.
[23] Mur-Artal R, Tardós J D. Orb-slam2: An open-source slam system for monocular, stereo, and
rgb-d cameras[J]. IEEE Transactions on Robotics, 2017, 33(5): 1255-1262.
[24] Clemente L A, Davison A J, Reid I D, et al. Mapping Large Loops with a Single Hand-Held
Camera[C]. Robotics: Science and Systems, 2007.
[25] Williams B, Cummins M, Neira J, et al. A comparison of loop closing techniques in
monocular SLAM[J]. Robotics and Autonomous Systems, 2009, 57(12): 1188-1197.
[26] 朱建亮. 基于卷积神经网络提取特征的视觉位置识别技术研究[D]. 中国科学院大学
(中国科学院人工智能学院), 2018.
[27] Cummins M, Newman P. FAB-MAP: Probabilistic localization and mapping in the space of
40
参考文献
appearance[J]. The International Journal of Robotics Research, 2008, 27(6): 647-665.
[28] Milford M J, Wyeth G F. SeqSLAM: Visual route-based navigation for sunny summer days
and stormy winter nights[C]. IEEE International Conference on Robotics and Automation,
2012: 1643-1649.
[29] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional
neural networks[C]. Advances in Neural Information Processing Systems, 2012: 1097-1105.
[30] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image
recognition[C]. International Conference on Learning Representations, 2015.
[31] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]. Proceedings of
the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.
[32] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]. Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition, 2015: 1-9.
[33] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection
and semantic segmentation[C]. Proceedings of the IEEE Conference on Computer Vision and
Pattern Recognition, 2014: 580-587.
[34] Girshick R. Fast r-cnn[C]. Proceedings of the IEEE International Conference on Computer
Vision, 2015: 1440-1448.
[35] Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region
proposal networks[C]. Advances in Neural Information Processing Systems, 2015: 91-99.
[36] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C].
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015:
3431-3440.
[37] Badrinarayanan V, Kendall A, Cipolla R. Segnet: A deep convolutional encoder-decoder
architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine
Intelligence, 2017, 39(12): 2481-2495.
[38] Chen L-C, Papandreou G, Kokkinos I, et al. Semantic image segmentation with deep
convolutional nets and fully connected crfs[J]. Computer Science, 2014, 4: 357-361.
[39] Chen L-C, Papandreou G, Kokkinos I, et al. Deeplab: Semantic image segmentation with
deep convolutional nets, atrous convolution, and fully connected crfs[J]. IEEE Transactions
41
参考文献
on Pattern Analysis and Machine Intelligence, 2017, 40(4): 834-848.
[40] Chen Z, Lam O, Jacobson A, et al. Convolutional Neural Network-based Place
Recognition[C]. Australasian Conference on Robotics and Automation, 2014: 4.
[41] Chen Z, Jacobson A, Sünderhauf N, et al. Deep learning features at scale for visual place
recognition[C]. IEEE International Conference on Robotics and Automation, 2017:
3223-3230.
[42] Chen Z, Maffra F, Sa I, et al. Only look once, mining distinctive landmarks from convnet for
visual place recognition[C]. IEEE/RSJ International Conference on Intelligent Robots and
Systems, 2017: 9-16.
[43] Gao X, Zhang T. Unsupervised learning to detect loops using deep neural networks for visual
SLAM system[J]. Autonomous Robots, 2017, 41(1): 1-18.
[44] Hou Y, Zhang H, Zhou S. Convolutional neural network-based image representation for
visual loop closure detection[C]. IEEE International Conference on Information and
Automation, 2015: 2238-2245.
[45] 侯毅. 基于深度卷积神经网络的移动机器人视觉地点识别[D]. 国防科技大学, 2017.
[46] Sünderhauf N, Shirazi S, Dayoub F, et al. On the performance of convnet features for place
recognition[C]. IEEE/RSJ International Conference on Intelligent Robots and Systems, 2015:
4297-4304.
[47] Dongdong B, Chaoqun W, Zhang B, et al. CNN feature boosted SeqSLAM for real-time loop
closure detection[J]. Chinese Journal of Electronics, 2018, 27(3): 488-499.
[48] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]. Advances in
Neural Information Processing Systems, 2014: 2672-2680.
[49] 王坤峰, 苟超, 段艳杰, 等. 生成式对抗网络 GAN 的研究进展与展望[J]. 自动化学报,
2017, 43(3): 321-332.
[50] Mirza M, Osindero S. Conditional generative adversarial nets[J]. arXiv preprint
arXiv:1411.1784, 2014.
[51] Larsen A B L, Sønderby S K, Larochelle H, et al. Autoencoding beyond pixels using a
learned similarity metric[J]. arXiv preprint arXiv:1512.09300, 2015.
[52] Rosca M, Lakshminarayanan B, Warde-Farley D, et al. Variational approaches for
42
参考文献
auto-encoding generative adversarial networks[J]. arXiv preprint arXiv:1706.04987, 2017.
[53] Isola P, Zhu J-Y, Zhou T, et al. Image-to-image translation with conditional adversarial
networks[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition, 2017: 1125-1134.
[54] Zhu J-Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent
adversarial networks[C]. Proceedings of the IEEE International Conference on Computer
Vision, 2017: 2223-2232.
[55] Anoosheh A, Sattler T, Timofte R, et al. Night-to-day image translation for retrieval-based
localization[C]. International Conference on Robotics and Automation, 2019: 5958-5964.
[56] Jégou H, Douze M, Schmid C, et al. Aggregating local descriptors into a compact image
representation[C]. IEEE Computer Society Conference on Computer Vision and Pattern
Recognition, 2010: 3304-3311.
[57] Ignatov A, Kobyshev N, Timofte R, et al. WESPE: weakly supervised photo enhancer for
digital cameras[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition Workshops, 2018: 691-700.
[58] Choi Y, Choi M, Kim M, et al. Stargan: Unified generative adversarial networks for
multi-domain image-to-image translation[C]. Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition, 2018: 8789-8797.
[59] Anoosheh A, Agustsson E, Timofte R, et al. Combogan: Unrestrained scalability for image
domain translation[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition Workshops, 2018: 783-790.
[60] Jiang Y, Gong X, Liu D, et al. Enlightengan: Deep light enhancement without paired
supervision[J]. arXiv preprint arXiv:1906.06972, 2019.
[61] Ignatov A, Kobyshev N, Timofte R, et al. DSLR-quality photos on mobile devices with deep
convolutional networks[C]. Proceedings of the IEEE International Conference on Computer
Vision, 2017: 3277-3285.
[62] Maddern W, Pascoe G, Linegar C, et al. 1 year, 1000 km: The Oxford RobotCar dataset[J].
The International Journal of Robotics Research, 2017, 36(1): 3-15.
[63] Salimans T, Goodfellow I, Zaremba W, et al. Improved techniques for training gans[C].
43
参考文献
Advances in Neural Information Processing Systems, 2016: 2234-2242.
[64] Heusel M, Ramsauer H, Unterthiner T, et al. Gans trained by a two time-scale update rule
converge to a local nash equilibrium[C]. Advances in Neural Information Processing Systems,
2017: 6626-6637.
[65] Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer
vision[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,
2016: 2818-2826.
[66] Oliva A, Torralba A. Building the gist of a scene: The role of global image features in
recognition[J]. Progress in Brain Research, 2006, 155: 23-36.
[67] Prasad V S N, Domke J. Gabor filter visualization[J]. J. Atmos. Sci, 2005, 13: 2005.
[68] Noh H, Araujo A, Sim J, et al. Large-scale image retrieval with attentive deep local
features[C]. Proceedings of the IEEE International Conference on Computer Vision, 2017:
3456-3465.
[69] Detone D, Malisiewicz T, Rabinovich A. Superpoint: Self-supervised interest point detection
and description[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition Workshops, 2018: 224-236.
[70] Dusmanu M, Rocco I, Pajdla T, et al. D2-net: A trainable cnn for joint detection and
description of local features[J]. arXiv preprint arXiv:1905.03561, 2019.
[71] Revaud J, Weinzaepfel P, De Souza C, et al. R2d2: Repeatable and reliable detector and
descriptor[J]. arXiv preprint arXiv:1906.06195, 2019.
[72] Luo Z, Shen T, Zhou L, et al. Contextdesc: Local descriptor augmentation with
cross-modality context[C]. Proceedings of the IEEE Conference on Computer Vision and
Pattern Recognition, 2019: 2527-2536.
[73] Zhang J, Sun D, Luo Z, et al. Learning two-view correspondences and geometry using
order-aware network[C]. Proceedings of the IEEE International Conference on Computer
Vision, 2019: 5845-5854.
[74] Ono Y, Trulls E, Fua P, et al. LF-Net: learning local features from images[C]. Advances in
neural information processing systems, 2018: 6234-6244.
[75] Moo Yi K, Trulls E, Ono Y, et al. Learning to find good correspondences[C]. Proceedings of
44
参考文献
the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 2666-2674.
[76] Mishchuk A, Mishkin D, Radenovic F, et al. Working hard to know your neighbor's margins:
Local descriptor learning loss[C]. Advances in Neural Information Processing Systems, 2017:
4826-4837.
[77] Yi K M, Trulls E, Lepetit V, et al. Lift: Learned invariant feature transform[C]. European
Conference on Computer Vision, 2016: 467-483.
45
致谢
致 谢
时光荏苒,三年的研究生生活即将画上句点。回首过往岁月,从入学时的欣
喜到进入课题后的迷茫,再到对课题的深入后得出结果的开心,最后到论文的撰
写,那些场景依稀历历在目。在研究生阶段遇到了很多人,也遇到了很多事,幸
运的是每一步走来都有他们的陪伴与鼓舞,才让我顺利地完成了研究生毕业论文。
值此毕业之际,想对在研究生生涯对我有所帮助的人都致以衷心地感谢。
首先,我想对我的导师吴俊君老师说声谢谢。吴老师对待学术的严谨性、对
学生的热爱以及对我们的谆谆教导令我印象深刻。清楚记得,我们课题组每周一
次的组会,吴老师都会对我们一一做出指导,强调做学问的方法,课题实验结果
的不足之处以及下一步该如何进展。正是吴老师平时的督促和指导才让我能顺利
完成毕业论文的撰写。同时在小论文的发表上吴老师都是亲力亲为地帮我修改,
从文章的题目、摘要、引言、正文一句一句地完善,这种对待学术的精神深深地
影响着我。在私底下,吴老师也十分关注我的生活,我们既是师生关系又是朋友
关系,我们一起打篮球、聊天,用欢声笑语充实了科研之外的生活。最后,祝吴
老师工作顺利,身体健康!
其次,我还想对元祺龙老师说声谢谢。元老师渊博的学识、做人做事的态度
对我影响颇深,每每遇到一些困难,元老师总是鼓舞我一步一步地解决问题,不
断尝试。在科研中,元老师无私地为我提供实验器材和相关经费支持,在此向元
老师表示衷心地感谢!
同时我还想对课题组卢清华老师、罗陆锋老师、乔健老师、杨景卫老师、张
清华老师、张云志老师、陈为林老师等表示衷心地感谢,正是因为您们的无私奉
献,才有了我们先进机器人技术与应用实验室这个温馨的大家庭。同时还想对实
验室的陈世浪、王好男、杨士林、黄豪杰、黄铭贤以及同门师弟师妹邝辉宇、施
清武、朱小满、文汉锦等说声谢谢,谢谢你们的帮助和陪伴。
我也要特别感谢我的父母、亲人。正是有了他们无私的爱,我才能完成我的
学业,他们一直在背后负重而行,也是我遇到困难时前进的动力,我会怀着一颗
感恩的心去面对我的父母,最后想对您们说:您们辛苦啦!我爱您们!
46
致谢
另外,此时正值全国人民共同抗击疫情的时刻,也想对全国广大医护人员说
句:您们辛苦了!感谢您们辛勤地付出,才换来了社会的安全。疫情终会过去,
春天总会到来,待春暖花开时,我们再相见!
最后,衷心地感谢评审本论文和参加论文答辩的专家教授,并向您们致以崇
高的谢意!
周林
2020 年 5 月于湖北
47
攻读硕士期间取得的研究成果
攻读硕士期间取得的研究成果
发表论文:
[1] Lin Zhou, Junjun Wu and Shilang Chen. Robust Visual Place Recognition
Method for Robot Facing Drastic Illumination Changes. (SCI 评审中)
[2] Shilang Chen, Junjun Wu, Yanran Wang, Lin Zhou, et al. Robust Loop-Closure
Detection with a Learned Illumination Invariant Representation for Robot
vSLAM[C]. 2019 IEEE 4th International Conference on Advanced Robotics and
Mechatronics (ICARM). IEEE, 2019: 342-347. (EI收录)
申请发明专利:
[1] 吴俊君,周林,陈世浪.一种具有场景理解能力的多足轮式移动机器人系统,
发明专利,申请号:201911180535.0
[2] 吴俊君,周林,卢建佳.一种具有识字能力的双足移动机器人系统,发明专利,
申请号:201911180528.0
48
0
You can add this document to your study collection(s)
Sign in Available only to authorized usersYou can add this document to your saved list
Sign in Available only to authorized users(For complaints, use another form )