Uploaded by Yang Lv

硕士毕业论文-李亚坤-最终公开版

advertisement
西 北 工 业 大 学
硕 士 学 位 论 文
题目: 基于事件相机的无人机实时
高动态目标感知算法研究
学科专业: 控制科学与工程
作
者:
李亚坤
指导教师:
赵春晖
2023 年 1 月
Title: Research on Event-Based Real-time High Dynamic Target
Perception of UAV
By
Yakun Li
Under the Supervision of Professor
Chunhui Zhao
A Dissertation Submitted to
Northwestern Polytechnical University
In Partial Fulfillment of The Requirement
For The Degree of
Master of Control Science and Engineering
Xi’an P. R. China
January/2023
学位论文评阅人和答辩委员会名单
学位论文评阅人名单
姓名
职称
工作单位
周巍
教授
西北工业大学
王根
研究员
西安现代控制技术研究所
答辩委员会名单
答辩日期
2023 年 03 月 06 日
答辩委员会
姓名
职称
工作单位
主席
高全学
教授
西安电子科技大学
委员
周巍
教授
西北工业大学
委员
贾秋玲
副教授
西北工业大学
委员
胡劲文
副教授
西北工业大学
委员
赵斌
副教授
西北工业大学
侯晓磊
副教授
西北工业大学
委员
委员
秘书
摘
要
摘
要
随着机器人行业的快速、蓬勃发展,智能无人系统开始逐渐渗透各类复杂、危险的
任务场景。对于操作在复杂、动态且未知场景中的无人空中系统(UAS,Unmaned Aerial
System),可靠和快速的环境感知能力是实现无人系统安全、快速执行各类任务的基本
前提,如,高动态目标物感知、快速障碍物规避以及复杂环境下灵敏飞行等任务。本文
围绕基于事件相机的复杂、高动态场景下无人机低延迟鲁棒感知技术展开研究,重点解
决高速场景下多目标物实时检测问题以及机载有限算力平台下的主威胁目标评估及跟
踪等问题。本文的主要研究内容及创新点概括如下:
(1)提出了一种融合事件传感器和惯性测量元件(IMU:Inertial Measurement Unit)
信息的低延迟、精确鲁棒的动态目标实时检测算法,能够在 10 ms 的时间窗口实现无
人机自我运动补偿、移动目标物动态阈值分割及联合抗噪声聚类输出,解决了高动态场
景下的实时运动目标检测问题。算法提出一种基于非线性运动补偿的翘曲函数,实时地
将 IMU 量测补偿到每一个事件上,并将待补偿事件的初始像素位置纳入翘曲函数的设
计中,以进一步提升运动补偿精度。算法保证了低计算负载的同时输出高质量运动补偿
结果。使用一种动态阈值分割方法将补偿后的事件分割为动态目标及静态背景两类;最
后,给出一种联合光流估计与噪声抑制的聚类算法实现多目标物的可靠聚类检测。
(2)提出了一种基于事件光流的多目标物碰撞风险(即接触时间,TTC)估计的完
整方法,实现对主威胁目标的提取和跟踪,为后续规避机动提供支持,解决了空中机器
人平台有限计算负载下难以、且无需跟踪所有威胁目标的问题。算法以基于事件的光流
估计来提供稀疏、低延迟的接触时间的估计,并对传感器输出的事件流进行完善的噪声
分析和滤除,为算法提供良好的信源。算法提出一种结合梯度极小值抑制和模长归一化
的光流模长稳定性求解方法;并提出一种利用事件极性来缓解光流计算中运动遮挡问题
的方法。算法输出了稳定、准确的事件光流估计。接着,通过选择滤波器窗口和代价函
数约束求解光流图像的扩展焦点(FOE)
,以计算威胁评估 TTC Map。最后,依据 Map
中威胁程度提取视场中的主要威胁成分,并对其完成进一步的轨迹跟踪。
(3)构建了典型复杂高动态环境下的实验场景,其中包括搭载事件相机的旋翼无人
机物理平台的设计和含有多种高速动态飞行障碍物的场景设置。通过相关场景下的多维
度、全面的实验和分析,验证了上述所提算法的有效性和先进性。
关键字 : 动态目标感知;事件相机;光流估计;碰撞威胁评估
I
西北工业大学硕士学位论文
II
Abstract
Abstract
With the fast and vigorous development of the robotics industry, intelligent unmanned systems have gradually penetrated into various complex and dangerous mission scenarios. For
unmanned aerial systems (UAS) operating in dynamic and complex scenes, reliable and fast
environmental perception capabilities are the basic prerequisites for them to safely and quickly
perform various tasks, such as high dynamic target perception, fast obstacle Evasion and sensitive flight in complex environments, etc. This paper focuses on the research of UAV low-latency
robust perception technology based on event cameras in complex and high-dynamic scenes,
mainly solving the problem of real-time detection of multiple targets in high-speed scenes and
the evaluation and tracking of main threat targets under airborne limited computing power platforms. The main research content and innovation points of this paper are summarized as follows:
(1) A low-latency, accurate and robust real-time detection algorithm for dynamic targets that
fuses information from bioinspired sensors and inertial measurement units (IMU) is proposed,
which can complete UAVs Ego-motion compensation, dynamic threshold segmentation of moving objects and joint anti-noise clustering output tasks in a time window of 10 milliseconds. It
solves the problem of real-time moving object detection in high dynamic scenes. The algorithm
proposes a warping function based on nonlinear motion compensation, which compensates the
IMU measurement to each event in real time, and incorporates the initial pixel position of the
event into the design of the warping function to further improve the accuracy of motion compensation and ensure Low computational load of the algorithm and high quality motion compensation results. The low computational load and high-quality motion compensation performance
of the algorithm are guaranteed. A dynamic threshold segmentation method is used to segment
the motion-compensated event cloud into dynamic targets and static backgrounds. Finally, a
method that combines optical flow estimation and clustering is proposed to achieve reliable
distance clustering detection of multiple targets.
(2) A complete method for estimating multi-target collision risk (TTC, Time to Contact) based
on event optical flow is proposed to realize the extraction and tracking of main threat targets
and provide support for subsequent evasive maneuvers, which solves the problem that it is difficult and unnecessary to track all threat targets under the limited computing load of the aerial
III
西北工业大学硕士学位论文
robot platform. The algorithm provides sparse, low-latency contact time estimation based on
event-based optical flow, and performs completely noise analysis and filtering on the event
data to provide a better data source for the algorithm. The algorithm proposes a method to solve
the modulus stability of optical flow based on the combination of gradient minimum suppression and modulus normalization, and proposes a method that uses event polarity to alleviate
the motion occlusion problem in optical flow calculation. Finally, a stable and accurate event
optical flow estimation is achieved. Next, the focus of expansion (FOE) of the optical flow
image is solved by selecting the filter window and the cost function constraint to calculate the
threat assessment TTC Map. Finally, the main threat componentin the field of view is extracted
according to the collision risk in the Map, and further trajectory tracking is performed on it.
(3) An experimental scene in a typical complex and highly dynamic environment is constructed,
including the design of the physical platform of the rotor UAV equipped with an event camera and the scene setting with various high-speed dynamic flight obstacles. Through multidimensional, comprehensive experiments and analysis in relevant scenarios, the effectiveness
and advancement of the proposed algorithm are verified.
Key words : Dynamic Object Perception;Event Camera;Optical Flow;Time To Contact
IV
目
录
目
摘
录
要 ........................................................................................................................ I
Abstract ...................................................................................................................... III
目
录 ........................................................................................................................ V
第 1 章 绪论 .............................................................................................................. 1
1.1
研究意义与背景 ............................................................................................. 1
1.2
国内外研究现状 ............................................................................................. 2
1.2.1
基于事件相机的目标检测技术 ................................................................ 2
1.2.2
基于光流的目标物碰撞风险评估技术 ..................................................... 7
1.2.3
小结 ........................................................................................................ 10
1.3
主要研究内容及章节安排 .............................................................................. 11
第 2 章 基于事件传感器的高动态感知框架 .............................................................. 13
2.1
引言 ............................................................................................................... 13
2.2
无人机低延迟动态目标感知问题构建 ............................................................ 13
2.3
事件传感器建模与分析 .................................................................................. 15
2.3.1
生物启发式传感器及其建模 ................................................................... 15
2.3.2
事件传感器发展现状 .............................................................................. 21
2.3.3
事件传感器的优势与局限性 ................................................................... 23
2.4
本章小结 ........................................................................................................ 24
第 3 章 融合 IMU 运动补偿的事件低延迟动态目标检测 ......................................... 25
3.1
引言 ............................................................................................................... 25
3.2
基于事件的低延迟动态目标检测 ................................................................... 25
3.3
相机运动补偿问题建模 .................................................................................. 25
3.3.1
摄像机模型 ............................................................................................. 26
3.3.2
刚体旋转运动学模型 .............................................................................. 30
3.3.3
传感器标定与数据关联 ........................................................................... 33
3.4
基于 IMU 量测的事件低延迟运动补偿 .......................................................... 35
3.4.1
基于线性的运动补偿函数 ....................................................................... 35
3.4.2
基于非线性的运动补偿函数设计 ............................................................ 35
V
西北工业大学硕士学位论文
3.5
高动态目标检测算法 ...................................................................................... 37
3.5.1 动态目标物分割 ...................................................................................... 37
3.5.2 抗噪声目标物聚类代价函数设计 ............................................................ 38
3.6 算法物理实验与对比分析 .............................................................................. 40
3.6.1 空中无人机实验平台设计 ....................................................................... 40
3.6.2 对照组运动补偿方法介绍 ....................................................................... 40
3.6.3 实验结果对比与分析 .............................................................................. 42
3.7 本章小结 ........................................................................................................ 47
第 4 章 基于事件光流的目标物碰撞风险评估与跟踪 ............................................... 49
4.1 引言 ............................................................................................................... 49
4.2 基于事件光流的目标物碰撞风险估计 ............................................................ 49
4.3 基于事件的稀疏光流估计 .............................................................................. 50
4.3.1 视觉运动流数学建模 .............................................................................. 50
4.3.2 基于局部梯度的事件光流算法设计 ........................................................ 52
4.4 基于事件光流的碰撞时间 Map 估计 .............................................................. 59
4.4.1 图像的扩展焦点估计算法设计 ................................................................ 59
4.4.2 碰撞威胁评估 TTC Map 计算 ................................................................ 62
4.5 主威胁目标物状态跟踪 .................................................................................. 63
4.5.1 主威胁目标深度恢复算法设计 ................................................................ 63
4.5.2 基于 EKF 的主威胁目标跟踪算法设计 .................................................. 64
4.6 算法物理实验验证与分析 .............................................................................. 65
4.6.1 事件光流验证实验 .................................................................................. 65
4.6.2 目标物碰撞风险评估实验 ....................................................................... 66
4.7 本章小结 ........................................................................................................ 67
第 5 章 总结与展望 ................................................................................................... 73
5.1 工作总结 ........................................................................................................ 73
5.2 未来展望 ........................................................................................................ 73
参考文献 ..................................................................................................................... 75
致
谢 ........................................................................................................................ 85
攻读硕士学位期间发表的学术论文和参加科研情况 ................................................... 87
VI
第1章
第1章
1.1
绪论
绪论
研究意义与背景
现如今,智能无人系统已经在各行各业逐渐替代人工,执行各类复杂的任务,包括
军事领域、工业制造以及民用服务、娱乐领域等。与之相关的机器人技术的研究也从原
先实现某单一、简单功能的突破迈向真正安全可靠、快速鲁棒的复杂环境交互上来,从
而让无人系统更安全、全面地完成复杂且危险的任务。微型飞行器(MAVs:Micro-Aerial
Vehicles)可能会开辟一个潜在价值数十亿人民币的市场,包括军用领域上的战场侦查、
复杂环境态势感知、集群无人作战系统,以及民用市场的航空成像技术、最后一公里的
配送交付服务等。这使得微小型无人机系统的发展极具前景和潜力。然而,由于小型无
人机系统本身较高的灵敏性和所应用场景的复杂性,安全、灵敏的飞行仍然是微小型飞
行器面临的一个关键挑战,值得进一步研究。在无人机安全可靠的飞行所面临的诸多挑
战中,动态障碍物的威胁尤为致命,它们可能是自然界中的生物(如,鸟类)
,非合作式
的独立运动目标等等。因此,让无人机能够快速躲避这些突发性障碍物是无人机快速、
安全飞行以及进一步执行上层任务的关键。而无人系统对动态复杂环境的感知时延对其
成功规避障碍物又尤为关键。感知的低延迟性(实时性)会为无人机提供更高的规避成
功率,反之,则会存在碰撞的可能。
自主机器人系统的感知技术是保证机器人安全,执行导航任务的基础,也是机器人
领域研究的热点 [1]。目前,机器人自主导航与避障技术在静态环境或是准静态环境(动
态物体移动相对缓慢)中已经得到了较好的解决,很多研究成果能够实时地在较为稠密
的复杂静态环境中敏捷地穿行,机器人系统能够感知未知的环境,并能够自主地规划一
条探索路径 [2–4]。然而,此类算法的感知时延普遍为数十甚至上百毫秒,这不足以让
机器人在复杂的高动态环境中安全导航。为了安全地避开高速移动的物体,无人机需要
低延迟的传感器和动态目标感知算法 [5, 6]。
现有的目标物感知算法已经取得可观成果,它们大多数都依赖于标准帧摄像机构
成的单目或者双目系统或是主动深度传感器来完成碰撞感知任务。不幸的是,这种主流
的人工感知系统都是基于帧的采集范式,其受到了低时间动态和冗余数据流的限制,导
致了计算成本高,运动模糊和时延等问题。且这些方法的工作假设大多基于静态或者相
对缓慢的运动场景,而小型无人机平台可能存在激烈机动,致使场景的快速变换以及动
态范围的剧烈变化。因而,传统的感知和相关计算显然与高速移动下的无人机感知任务
不兼容,后者对感知时延和计算负载都给出了严格的限制。一种可能的解决方案是使用
新型的生物启发式传感器——事件相机。它的工作方式不同于传统基于帧的 CMOS 传
感器,它不以固定的帧率采样整个环境的绝对亮度,而是依据每一个像素对环境的亮度
的变化量异步地采样,并输出一系列事件,编码了亮度变化的时间,像素位置以及符号
1
西北工业大学硕士学位论文
(变亮或变暗)
。这种采样方式和编码格式赋予了事件相机令人振奋的特性:高时间分辨
率(在微秒级以上,无运动模糊)、低冗余数据输出和高动态范围(140 dB vs. 60 dB)
等。因此,事件相机在处理高动态环境下的感知任务有着得天独厚的优势。但是,事件
带来的新采集范式也导致了传统基于帧的感知算法失效,需要开发新的方法来解锁其在
机器人应用中的潜在性能。
综上所述,本文将主要考虑微小型无人机平台下基于事件传感器的低延迟高动态目
标感知问题。本文将充分发挥事件的低数据冗余、高时间分辨率等特点,融合惯性测量
元件(IMU)提供的运动信息实时地对高动态目标物进行分割检测;并考虑无人机平台
的有限算力,对目标物进行碰撞风险评估,提取并跟踪最具威胁的主目标,保证低算力
消耗下的有效感知。本文考虑有限算力下小型无人机的低延迟动态目标感知问题,对微
小型飞行器的安全障碍物规避提供实时感知支持,提升了高动态环境中的无人机自主安
全飞行能力,具有一定的理论和工程价值。
国内外研究现状
1.2
本节将围绕基于事件的高动态目标感知技术展开研究,主要从两个方面展开,介绍
相关方法的国内外研究进展:一是基于事件相机的目标检测技术;二是基于光流的目标
物碰撞风险评估技术。最后,将引出本文对无人机平台下的复杂高动态环境中的运动目
标感知技术的研究路线。
1.2.1
基于事件相机的目标检测技术
在动态复杂的环境中,可靠和快速的独立运动目标检测能力是机器人系统,特别是
具有高机动性的轻小型无人机系统,完成自主导航任务的基本要求。最近,受到生物启
发的事件传感器逐渐成为机器人领域的一个研究热门 [7–12]。事件传感器,又称之为动
态视觉传感器(DVS:Dynamic Vision Sensor)、神经视网膜传感器或硅视网膜传感器
等。它们拥有对环境感知的高时间分辨率、仅触发有效信息的低数据冗余以及高动态感
知范围等特性,因此事件相机在传统帧相机具有挑战性的动态场景中拥有极大的优势,
如低延迟,高速和高动态感知。这些特性赋予了事件相机去解决当前机器人技术中最具
有挑战性的实时运动流分析任务的潜能,为解决复杂动态环境下的机器人实时感知问题
提供了一种新的方案。但是,发挥出事件相机的潜在优势需要推翻现有感知算法基于帧
处理的范式,从异步地事件流中恢复出环境感知问题,并开发全新的处理算法。目前,
已经有很多国内外学者对基于事件的运动目标感知算法的开发展开研究 [10, 11, 13],也
逐渐形成了基于事件的目标感知范式。
早期基于事件的目标感知技术主要集中在较低的维度或较简单的应用层面,他们大
多侧重于发挥事件驱动视觉系统的低延迟和低处理特性。例如,单自由度(DoF:Degree
of Freedom)航向调节 [14, 15]、立体摄像机注视控制 [16, 17]、二自由度极平衡 [18]、单
自由度机器人守门员 [19, 20] 或在静态障碍物中导航地面机器人 [21, 22]。在 Censi 等
2
第1章
绪论
人 [14] 的研究中,给出了一种基于机载的神经形态传感器的反馈设计来解决机器人的
航向调节器问题。在他们的另一项工作 [15] 中,利用事件相机的高带宽和低延迟的反馈
特性完成了移动平台的六维轨迹跟踪问题的一维简化,激发了事件的潜能。Glover 等人
首次将动态平台下的目标检测计算引入,在机器人本身运动的前提下,从大量的背景杂
波中滤除出独立运动的球体。他们的工作首次给出了以运动分割来分离运动目标的求解
思想,但其基于霍夫变换(Hough Transform)的球检测方法过于局限,只能检测球体。
Conradt 等人 [18] 利用基于尖锋的硅视网膜动态视觉传感器(DVS)来提供快速视觉反
馈,以控制驱动平台完成铅笔在二维平面上的竖直平衡,相当于一个二维倒立摆。得益
于事件传感器高敏感性和高时间分辨率和低数据负载,使得他们的系统能够在 100 Hz
速率来更新铅笔的位置和倾斜角度。类似地,Tobi Delbruck 等人 [20] 利用一对 DVS 传
感器从两个垂直的角度来观察铅笔,也实现了低延迟的铅笔竖直控制系统,且他们的装
置可以在多种光照条件下平衡各类细小的物体,诸如:铅笔、钢笔或筷子等。在他们的
进一步工作 [19] 中,利用该传感器构建了一个快速自校准的机器人守门员,在极低的计
算负载(仅占 4% 的 cpu)下提供高更新率(3 ms 反应时间),独立和异步地在一维层
面上跟踪足球,来避免其的射入。
以上的这些应用发挥了事件相机的低延迟,高动态等特性,并在场景设置比较单
一、控制维度低的层面上取得了令人振奋的结果,他们的工作证明了事件传感器在机器
人这类实时系统应用中的强大优势。除了这类较为简单、低维度的应用,学者们开始逐
渐探索更复杂的机器感知任务。Galluppi 等人 [21] 探索与神经类型传感器配合的神经
启发式感知和推理算法,拟在真实环境中实验闭环行为:包括环境感知,推理以及适当
的运动动作的反应。Blum 等人 [22] 展示了将配备事件传感器的移动机器人平台与神经
形态处理器来实现机器人的控制策略,利用该硬件平台来模拟一种类生物的神经网络提
供机器人的目标感知和避障的概念性验证。
基于运动分割 (Motion Segmentation) 思想来检测环境中的动态目标是事件流
目标检测领域中一类重要手段,且逐渐成为了主流的处理方法。由静止事件相机观察到
的运动物体的运动分割很简单,因为所有触发的事件都归因于独立物体的运动(假设恒
定光照)[23–25]。真正的挑战出现在移动机器人场景下,因为画面内的所有像素都会触
发事件 [26–39],这是由独立移动的物体引起的表观运动以及相机自我运动导致与静态
背景的相对运动所共同决定的。运动分割的目标则是推断出每一个事件是由哪一类运动
所触发的。然而,单独一个事件都携带非常少的信息,因此执行上述逐事件的分类具有
挑战性。比较通用的解决办法是累计一个极小的时间间隔的事件集,执行批事件处理。
一些方法通过引入额外信息量来减少分类困难,譬如,提供物体的大小或者形状 [16,40]
或是已知物体运动的模型 [6, 28, 29]。基于事件的运动分割技术包含事件集运动补偿策
略、运动目标分割及聚类检测等几个方面的问题。具体的,算法通过求解机器人自身
运动信息来剔除由其自我运动触发的事件,从而直接获得场景中动态物体的信息(如
3
西北工业大学硕士学位论文
图 1-1)
。这带来了比帧更稀疏、更低成本的信源,且能够通过统计每个事件的时间统计
量提取动态对象。按照不同方法对自身运动的求解策略,主要分成了两个类别:基于自
身位姿优化和基于额外信源量测的运动分割方法。表 1-1总结了使用两种策略的不同工
作,并做了简要的评价。
(a)原生累计事件
(b)运动补偿
(c)运动目标分割
图 1-1 基于运动分割的动态目标感知技术 [28]
表 1-1 基于运动分割的主流算法
运动分割算法
运动求解策略
运动补偿自由度
补偿精度
算法资源占用
& 耗时
Gallego 等 [30]
基于优化
3
很好
一般
Gallego 等 [27]
(光流模型)
基于优化
2
较差
且缺乏全局
一致性
较差
Gallego 等 [27]
(三维旋转模型)
基于优化
3
好
差
Gallego 等 [27]
(深度模型)
基于优化
1
较好
较差
Mitrokin 等 [28]
基于优化
4
很好
最差
Delbruck 等 [41]
基于量测
3
差
存在线性近似
误差
很好
Falanga 等 [6]
He 等 [29]
Stoffregen 等
[26]
Zhou 等 [31]
基于量测
基于量测
3
6
—
较好
最好
较好
基于优化
—
很好
较差
基于优化
—
很好
一般
基于优化的运动分割方法。这类方法通过迭代的收敛一个指标函数(图像对比度,
方差等)去求解自身运动参数并同时完成图像的运动补偿(去糊,锐化),当匹配到最
优的自身运动参数,图像的代价指标也达到最优值。根据不同的自身运动参数的设定以
及不同指标函数的选择。Gallego 等人 [30] 提出了一种基于事件的精确角速率估计方法,
该算法选择图像对比度作为估计三轴旋转运动参数的优化指标,从而在完成运动补偿
(图像对比度最大化)的同时获取自身角速率的估计。这个对比度最大化框架在他们进
一步的工作 [27] 中成为了一个通用的求解方案,通过选取不同的自身运动模型作为待
4
第1章
绪论
优化参数,如二维光流、目标物深度或是自身三维旋转运动,从而实现自身运动、光流
和深度估计等应用的统一求解。这项工作为求解机器人的多种估计任务带来了很好的启
发。在 Mitrokin 等人 [28] 的工作中,首次提出了一种四自由度运动参数(hx , hy , hz , θ)
模型来作为优化参数的两节段优化方法。这四个自由度分别代表图像平面 x,y 方向的
平移以及 z 方向的扩展和绕 z 轴的旋转 θ,它们完全编码了三维空间中的六自由度运
动在二维成像平面上的投影,因此,可以实现对相机的全运动补偿,当相机存在较大
的平移运动时,这将带来更为准确的补偿结果,但这是以牺牲算力和运行时间为代价
的,在 240*180 的图像大小和 Intel Core i7 3.2 GHz 处理器上,其算法的一次迭代就
会消耗 20 ms 左右的时间。此外,他们编码了计数图像(Count Image)和事件图像
(Time Image),并以两种图像的统计信息作为粗细两阶段优化的指标。更进一步,在
Stoffregen 和 Gallego 等人的另一项工作中 [26],使用一步优化的方法来完成运动补偿
和目标分层聚类,受到经典分层模型 [42] 的启发,他们首次提出一种分层估计不同独
立运动的目标和背景运动的模型的策略,来实现自身运动补偿和独立运动目标的分割。
他们的方法将一个时空窗口的事件分类为单独的簇(即“层”),其中每个簇代表一个
相干的移动对象(或背景)(如图 1-2)。他们利用光流对画面中的所有事件进行类别的
事件云
聚类算法
分割后的事件
运动补偿后的事件
运动参数估计 θ
事件聚类概率 P
图 1-2 基于分层聚类的动态目标感知技术 [26]
概率初始化,给每个类别赋予一个初始的运动模型,并通过迭代的优化每个事件类别的
运动参数,使得各个类别的概率最大化,最终获得每个类群的精确运动参数,每个集群
的图像也达到最清晰。这种分别估计每个类群的运动属性的方法相较于仅补偿背景运
动的方法,更全面地考虑了不同目标物的运动属性,跟适应一般的场景,且对运动目标
个数理论上没有限制。在不考虑计算量和实时性等约束时,这似乎是目前基于运动分割
的运动目标检测技术的最佳方案。受到他们的启发,Zhou 等人 [31] 也开发出一个拟合
多运动模型的最小化问题的方式来求解运动目标的分割问题。不同的是,他们从事件的
时空图(Spatio-Temporal Graph of Event)的结构上去入手,利用时空图像的三角剖分
(Delaunay Triangulation)对原生事件集进行预分类。上述的工作均采用了基于优化的
策略来实现自身运动补偿,使用了各式各样代价指标函数。Gallego 等人在 [34] 中对运
动补偿的指标函数进行了讨论,他们给出了 22 中不同的损失函数,并对比分析对于求
解运动补偿的性能优劣。文章在公开数据集上比较了所有损失函数的准确性和运行性
能,最终得出方差、梯度以及拉普拉斯量是最佳的代价函数。此外,文章给出了判断最
5
西北工业大学硕士学位论文
终运动补偿精度的判断指标——IWE(Image of Warpped Event)
,它包含两种图像的信
息:图像锐度和散度。这一指标很好地衡量了运动补偿工作的性能好坏,一定程度上为
这个小的领域制定了一种标准。
基于量测的运动分割方法。基于优化的方法在仅有图像信息的条件下,不断优化自
身运动或者目标物运动参数,从而获取更为清晰、锐化的图像,在完成了运动补偿后,
也获取了副产品——运动模型。这类方法得到了实时性约束不强的计算机视觉方面任务
的青睐,因为在离线处理的情况下,优化的方法可以不计时间和算力,得到准确而鲁棒
的运动分割结果。但是,对于操作在实时环境中的机器人系统来说,算力和实时性约束
都存在较强的限制。机器人必须在既定的时效内完成当前信息的处理,否则,这个信息
就变得“陈旧”和无意义。在导航和避障等任务中,这甚至是致命的。与有限的算力相
反的是,机器人系统为了更鲁棒,全面地执行任务,通常会搭载多种传感器:视觉、惯
性元件等。因此,机器人领域的研究学者们考虑通过额外信源直接提供自身运动的参
数,而不是通过优化求解的方式,再利用一个扭曲场函数(Warping Function)将运动
信息直接作用到事件图像上,实现运动补偿 [6, 29, 41]。这带来了算力和运行时间的显
著减少。Falanga 等人 [6] 收集 IMU 信息并预积分得到机体的旋转运动,并使用一个翘
曲函数来补偿事件,实现了无人机平台的实时动态目标分割,但他们未提供具体补偿细
节。在 Delbruck 等人的工作中 [41],给出一种基于小孔成像和刚体旋转运动模型的翘
曲函数,实现了事件的三维运动补偿,但该函数采用了一个线性近似使得激烈运动时的
补偿误差不可忽略。He 等人 [29] 通过将主动深度传感器和事件相机对齐,并联合 IMU
信息实现了对自身运动的六自由度运动补偿,并最终实现动态目标的分割,但其存在深
度与图像的逐像素对齐步骤,需要极高的对齐精度且需耗费一定时间。
当然,除了以上两种大的类别,还有一些方法别的运动分割方法。Vasco 等人 [37]
给出了一个基于事件传感的运动目标分割方法。他们检测和跟踪事件流中的角点,且当
没有独立移动的物体存在时,学习自身运动的统计特性作为机器人的关节速度的函数。
在机器人操作过程中,算法利用机体角速度的量测值与估计值的误差来检测运动目标。
Barranco 等人 [33] 给出一种不需要累计事件集的伪帧的数据处理手段,使用基于均值位
移聚类的方法实现聚类分割,并使用 kalman 滤波器对目标物进行跟踪。Parameshwara
等人 [32] 将特征跟踪与运动补偿结合在一起形成统一的管道。在一定时间窗口的事件集
中分割合并多种运动,并使用运动传播和聚类的方式来加速算法。他们联合图像平面四
自由度运动模型和对比度最大化代价指标实现运动补偿和目标分割。Rodríguez-Gómez
等人 [40] 利用事件的时间滤波器对径向分来的障碍物进行分割,并将其应用到仿生扑
翼鸟的目标物快速感知与规避任务上。
综上所述,事件传感器的低延迟采样、无运动模糊、高动态范围以及稀疏数据流等
特性对于高速高动态实时任务场景拥有天然的匹配性。且其在动态目标感知等相关技术
的研究也逐渐迈入正轨,基于事件的感知方案具备可行性和潜在的先进性。目前,最主
6
第1章
绪论
流和先进的事件流运动目标检测方法主要集中在运动分割相关方法上。考虑上述两种类
型的运动分割方法,在本论文中,关注微小型无人机平台的有限算力和其搭载的多种传
感器以及感知的低延迟性,故主要考虑一种基于 IMU 量测的自身运动求解的目标物运
动分割方法,以保证算法的实时性。但是,考虑到现有基于量测方法的翘曲函数存在补
偿精度差以及此类方法研究的匮乏性等问题,有必要对相关技术展开进一步的研究。
1.2.2
基于光流的目标物碰撞风险评估技术
自主移动机器人的一个基本导航任务是检测和避免其路径中的障碍物。在完成动态
目标物的检测后,对其进行进一步的轨迹跟踪是进行碰撞规避的重要环节。然而,对于
资源有限的机器人系统,对视场中检测到的所有运动目标都进行进一步的跟踪是不现实
的。一是平台算力限制,无法在实时性约束下完成多个目标的轨迹跟踪;二是没有必要
对任意目标都进行跟踪,因为它可能是不具威胁性的目标(譬如,正在远离机器人本体
的飞行物,运动轨迹和自身运动轨迹不相交涉的障碍物等)。因此,针对低算力、高实
时性要求的无人机平台,有必要在进行目标跟踪前完成对目标物的碰撞威胁评估,仅对
威胁程度最高的障碍物的三维轨迹跟踪,兼具实时性和规避安全性。
一种目标物的碰撞分析技术是基于主动深度传感器的。如超声波传感器、激光测距
仪或红外传感器等传感器通常被安装在机器人平台上,以提供与障碍物的实时距离信
息,或评估碰撞风险。这种主动装置通过测量由传感器发出的信息和由障碍物反射的信
号的差异来完成主动深度估计,它们的性能优劣本质上取决于其发射的透射能量(超
声波、光等等)与环境相互作用的好坏。这类传感器能够以低计算成本和高精确度返回
障碍物深度信息,受到了很多感知任务的青睐。然而,这些主动传感器也存在不少的问
题。首先是传感器自身的局限性:在超声波传感器的情况下,拐角和斜面,甚至温度变
化都可以在测量中提供伪影。红外线传感器(包括最近出现的光照时间相机或 RGB-D
相机)对阳光很敏感,如果障碍物吸收了信号,这些传感器可能会失效。激光测距仪的
读数也可能因为镜面反射而出错。此外,大多数传感器在视场和/或空间分辨率方面都
有限制,需要一个机械扫描系统或由多个传感器的网络。而这导致了在时间响应性和计
算负载方面的严重限制,难以应用到轻小型移动机器人平台。
视觉可以克服这些限制。视觉传感器通常比主动扫描传感器提供更高的分辨率、更
宽的范围。目前已经存在了几种基于视觉感知、导航的策略,最常见的策略是从视觉信
息中提取深度信息。如果能保证校准参数的稳定性和相对足够的相机间距离,立体视觉
技术也可以产生精确的深度图。然而,这些对高速和小型机器人有巨大的负载要求。
另一种基于视觉的广泛研究策略是基于对 TTC 的评估。Lee 等人 [43] 首先引入了
这个度量,它描述了如果机器人与障碍物本身之间的当前相对运动继续不变,则可以估
计出机器人与障碍物发生碰撞所需的时间。正如 Camus [44] 所证明的那样,可以仅考
虑视觉信息来计算接触时间,而无需提取相对深度信息和速度。它的计算具有使用单个
相机的优势,且无需相机校准或对环境的绑定假设。目前,大多数研究的视觉 TTC 方
7
西北工业大学硕士学位论文
法依赖于光流的估计。光流传递了来自环境 Gibson [45] 的所有必要信息,但众所周知,
它对自然场景的估计是一个难题。因此,本节将针对基于光流的接触时间 TTC 的发展
现状展开研究,主要包括:光流估计技术以及基于光流的 TTC 估计技术。
视觉运动流估计。视觉运动运动流又称之为光流(OF: Optical Flow),是指由摄
像机和场景之间的相对运动引起的视觉场景中物体、边缘或表面的表观运动概念。使用
Horn 和 Schunck [46] 给出的更精确的定义:
“光流是图像中的一个速度场,它将一幅图
像按序列转换为下一幅图像。因此,它并不是唯一确定的;另一方面,运动场是一个纯
粹的几何概念,没有任何歧义——它是对三维运动向量的图像投影。”所以光流算法产
生的输出是两帧间的一个速度场。由于光流在导航、基于运动的分割、跟踪、图像配准
和运动分析等应用中发挥着至关重要的作用,准确和快速的光流估计一直是计算机视觉
的核心课题 [46–49]。下面将从传统光流估计和基于事件的光流估计展开介绍。
(1)基于帧的传统光流估计
机器人的运动为视觉处理提供了先决条件,时刻影响着计算机视觉任务的执行。从
视觉信息流中恢复出机器人的真实运动是一个核心问题。基于视觉的运动流计算是目
前非常热门的运动估计方法之一,并得到了广泛而深入的研究。自从 Horn 和 Schunck
(HS)[46] 以及 Lucas 和 Kanade(LK)[50] 在 1981 年提出了计算光流的微分方法以来,
人们提出了大量的扩展和修改。到目前为止,传统的视觉流技术主要被分为四大类别:
基于频率(或能量)的方法、基于匹配的方法、基于梯度的方法和基于相位的方法。
基于梯度的方法。基于梯度的方法也叫基于微分的方法,它是建立在图像灰度不变
假设基础上的,算法使用一系列图像强度的时空梯度函数来估计二维速度矢量场。得益
于低计算负载和不错的光流估计结果,该方法成为一种最为受欢迎的光流计算方法,这
类方法主要有 gradient algorithm [51],Lukas-Kanade [50],Horn 和 Schunck [46] 以及
Proesmans [52]。基于梯度的方法引入了基于基本光流方程的局部光流平滑约束的进一
步假设。这也带来了以下问题:1)在计算光流方程时,大多采用一阶泰勒级数展开,将
非线性部分线性化。所以如果身体产生很大的运动,算法就会产生很大的误差。2)图
像预处理时,图像帧中的噪声和图像采集过程中的光谱混叠现象会严重影响此类方法的
输出精度。最后,在一些存在遮挡的非连续区域(如,物体边缘),图像的强度梯度在
像平面上的平滑性会被破坏,会导致无法计算光流。综上,基于梯度的算法具有计算高
效的优点,但它们存在孔径问题,时空导数的计算容易出现误差。
基于相位的方法。Fleet 和 Jepson [53] 首先提出了这种方法,其主要思想是可以将
二维图像速度建模为带通滤波器输出的相位状态。在计算光流时,根据图像相位信息来
估计光流将输出更根鲁棒的结果,因为相位比光强信息更加准确。此类相关算法优点包
括:拥有较好的图像适用性,光流估计结果也较为精确。然而,它也存在一些缺陷:1)
基于相位的模型虽然较为准确,但也带来了较高的时间复杂度;2)当图像序列的时间
出现混叠时,会影响此类光流估计方法的估计结果。
8
第1章
绪论
基于图像匹配的方法。这类包括基于区域匹配和基于特征匹配两种方法 [54–59]。实
质上都是通过在周围邻域寻找两个连续帧之间特定像素的位移来计算该像素的运动矢
量。这是通过最小化两个模板之间差异的预定义函数来实现的。其优点是:在快速运动
的情况下,它们比基于梯度的算法表现得更好;但缺点是计算负担很高(特别是,计算
时间随着允许的最大物体位移而二次增加)。
基于频率的方法。也成为基于能量的方法。它是从傅里叶域 [60–62] 中设计的速度
调谐滤波器的输出中估计光流。具体计算过程:先对图像数据进行时间和空间联合滤波,
即联合时间和空间属性来处理输入数据,才能到光流场的准确速度估计,然而,时空滤
波也会降低光流在空间和时间上的分辨率。缺点:基于频率的光流估计方法一般计算较
为密集,且目前没有可靠性的评价来分析不同方法的优劣。
(2)基于事件的光流估计技术
尽管基于帧的光流算法已经得到很广泛的研究,但是它们大多与 Horn 和 Schunck
提出的原始方法的公式非常相似,其高精度输出需要昂贵的计算代价,且帧的光流计算
很多时候是冗余的,这降低了它们在实时应用中的适用性。然而,随着基于异步事件的
人工视网膜的发展,一种很有前途的视觉信号处理新方法已经成为可能。得益于事件传
感器的低延迟、高动态范围,低数据流等特性,在 DVS 传感器输出上运行的光流算法
可以从中受益。这为基于帧的光流技术面临的挑战提供了解决方案,即快速运动中发生
的大帧间位移。例如,贝诺斯曼等人 [63] 通过计算由最近事件组成的表面上的梯度,利
用 DVS 数据的高时间精度。传统光流方法的另一个问题是对象边界处的运动不连续性。
但在 DVS 摄像机的情况下,运动不连续处的对比度边缘会准确地在不连续处生成事件,
Barranco 等人 [64] 使用它来提取轮廓的位置和运动。此外,他们将 DVS 事件与传统
强度帧相结合,以降低计算成本,同时提高性能和稳定性。远离强烈对比的边缘,在高
度纹理化的区域中,基于事件的方法会遇到困难,因为在短时间内在附近位置触发的事
件被错误地假设为源自同一边缘。巴兰科等人 [65] 开发了一种基于相位的方法来改进
纹理区域的估计。Brosch 等人 [66] 对基于事件的视觉运动估计进行了全面分析。他们
提出了一种基于事件的流量计算方法,该方法使用检测边缘方向的受生物启发的滤波器
组。Orchard 和 Etienne-Cummings [67] 对实时仿生视觉运动估计进行了回顾,尤其是
在硬件实现中。他们还提出了一种脉冲神经网络架构,该架构通过突触的时延建立对运
动信息的灵敏感知。截至目前,基于事件的光流估计也形成了几个类别:基于方向选择
滤波器 [68, 69]、基于 LK 梯度的方法 [66, 70]、基于局部平面拟合 [63, 66, 71, 72] 等。所
有这些发展都表明了基于事件的技术在解决传统的基于帧的运动流估计的一些主要问
题方面的潜力。
基于光流的 TTC 估计技术。接触时间(TTC:Time To Contact)是一种受生物启
发的障碍物检测和运动反应性控制方法,它可以只考虑视觉信息,而不提取相对深度信
息和速度,从而以极快速度给出一种态势的评估。大多数视觉 TTC 方法都依赖于光流
9
西北工业大学硕士学位论文
的估计。然而,根据上述介绍,现有的传统光流计算成本昂贵,致使 TTC 技术大多离
线使用。在全球范围内,大多数这些方法都受到了传统相机中基于帧的视觉信息采集的
限制,以相对较低的时间频率输出大量和冗余的数据流。大多数的计算都是在图像的无
信息部分上进行的,或者是专门用于弥补时间精度的缺乏。现有的实现通常是准确性和
效率之间的权衡,仅限于移动相对缓慢的移动机器人。例如,Braillon 等人 [73],Guzel
和 Bicker [74] 提出了一个轮式移动机器人平台的导航实验,使用基于光流的 TTC 计
算,应用于嵌入式传统摄像机。他们的软件运行在大约 5 Hz,移动机器人的最大速度被
限制在 0.2 m/s。从这个角度来看,神经形态相机(事件相机)的自由帧采集 [75, 76] 可
以显著改进机器人应用。此类传感器的操作基于独立像素,当处理后的信号超过可调阈
值时,这些像素会异步收集和发送自己的数据。生成的压缩事件流包括活动像素的空间
位置和发生给定信号变化的准确时间戳。事件可以在实时处理,同时对场景的额外时间
动态进行编码。目前基于事件流的 TTC 估计也逐渐应用到机器人实时感知与规避任务
上 [71, 72, 77–89]。
综上所述,相较于主动传感器,利用视觉可以实现更稳定、轻便的目标物碰撞威胁
评估(TTC)
。主流的视觉 TTC 估计方法都依赖于二维光流的计算,然而,基于传统的
帧图像光流估计存在着运动激烈性限制、计算复杂度高、数据量冗余等缺点,使得他们
不适合高动态的实时环境感知任务。事件传感器独特的事件时间编码保证了高速运动下
光流的可计算性,此外,其稀疏的事件输出会聚焦于重要的动态目标信息,从而更高效
地完成光流估计。目前,基于事件的接触时间估计正处于起步阶段,很多关于事件光流
估计、扩展焦点计算等问题还有待进一步完善,因此,本文有必要对此展开进一步学习
和研究。
1.2.3
小结
本节对本文主要研究的两个内容:基于事件的实时高动态目标检测技术和基于光流
的目标物碰撞风险评估技术展开国内外研究现状调研。分析得出了当前主流的基于事件
的运动目标检测方法难以在机器人这种平台资源受限,实时性约束较强的条件下输出准
确鲁棒的检测结果。此外,目前基于帧的光流估计代价昂贵、且不适用高动态场景,而
基于事件的光流方法也不够完善,仍需进一步研究。综上,面向轻小型无人机的低延迟
高动态目标感知任务,本文针将对实时可靠的动态目标检测问题和快速鲁棒的目标物碰
撞威胁评估问题展开研究,拟给出一个实时机载动态目标感知技术的解决方案。
10
第1章
1.3
绪论
主要研究内容及章节安排
无人机的低延迟动态目标感知技术是轻小型无人机在动态复杂环境中安全、快速执
行任务的必要保障。现如今无人机系统逐步取代人工,渗透各类复杂的任务场景,亟需
一种可靠的,低延迟、低计算负载的感知算法以保证其飞行安全。因此,本文主要针对
无人机系统在动态环境中的实时运动目标感知技术展开研究,旨在为无人机系统在具有
挑战性的动态障碍物实时感知方面作出一定的研究和帮助。本文的主要研究内容及章节
安排如下,图1-3给出了全文的组织结构图。
第一章:绪论。根据目前无人机动态感知领域所面临的机遇与挑战,分析了本文内
容的研究背景与意义。从低延迟的事件目标检测和有限机载资源下基于事件光流的主威
胁目标评估两个技术方面出发,对国内外相关技术研究现状展开详细的调研和分析,并
总结出本文确切的研究意义和研究内容。
第二章:基于事件传感器的高动态感知框架。针对无人机在复杂动态环境下的具体
挑战和问题展开,并分析其潜在的解决方案,给出本文的两个主要研究点,并搭建本文
所提的基于事件的低延迟高动态目标感知框架。此外,由于事件传感器的新颖性和采集
范式的转换,对生物启发式的事件相机进行了完备的传感器建模,包括事件生成建模、
噪声分析建模、数据流的表征建模等,旨在为进一步的算法展开做铺垫。
第三章:融合 IMU 运动补偿的低延迟动态目标检测。针对目前基于事件的动态目
标检测算法无法同时满足较好的精度和低计算负载的问题,提出一种通过融合 IMU 量
测的非线性运动补偿方法。算法以传感器融合的方法来提供运动姿态去降低自身运动求
解的运算耗时,并综合考虑无人机平台运动的激进性和边缘像素的补偿,设计非线性运
动补偿函数,提升了运动补偿的精度;进一步,在良好补偿后的事件集上进行动态阈值
分割,将动态部分分离出来;最后,为了能在分离后的动态部分中准确而鲁棒的提取运
动目标,本文设计了一种抗噪声-联合目标聚类算法,将事件时空属性,二维运动流和
DBSCAN 聚类方法整合在一个优化框架中求解独立运动的目标。最终,将所提算法进
行了大量的实验验证,证明了所提方法的有效性和先进性。
第四章:基于事件光流的目标物碰撞风险评估及跟踪。针对现有事件光流估计中存
在的噪声、光流模长求解不稳定以及运动遮挡等问题,提出了一种在低信噪比事件信源
中恢复鲁棒准确的光流方法。算法首先对构建的 SAE 表面进行时空相关滤波,恢复纯
净有效的事件表面;进一步,设计了一种梯度极小值抑制函数,对 SAE 曲面中的无效
梯度实现抑制,并结合已有的梯度模长归一化方法求解出准确而稳定的光流;最后,首
次提出将事件极性纳入 SAE 曲面的构建,来规避由运动遮挡造成的梯度错误问题。接
着,本章设计了一种基于选择滤波器的匹配窗口,以较低的计算成本在窗口内完成对图
像 FOE 的估计。最终,结合事件光流和图像 FOE 完成无人机视场内的多目标物碰撞
威胁评估(TTC),并从中提取威胁程度最高的主目标,完成对齐的进一步三维轨迹跟
踪。经过大量的实验验证,所提算法能够稳定地提取视场中的主威胁部分,极具工程应
11
西北工业大学硕士学位论文
用的潜在价值。
第五章:总结与展望。对全文工作进行总结,并对本文工作实现的规避控制内容做
出展望,期待形成一套完整的感知及规避系统,为无人机快速安全导航提供一个完备技
术方案。
第一章:绪论
国内外研究现状
研究意义与背景
第二章:基于事件传感器的高动
态感知框架
基于事件的高动态感知问题构建
事件传感器模型构建与分析
第四章:基于事件光流的目
标物碰撞风险评估与跟踪
第三章:融合IMU运动补偿
的事件低延迟动态目标检测
相机运动补偿
问题建模
基于光流的目标物碰撞威
胁问题建模
基于IMU量测的事
件低延迟运动补偿
基于光流的碰撞时间
(TTC)估计
运动补偿
实时高动态目标检测
事件集
基于事件的局部光
流估计
运动目标动态
阈值分割
联合抗噪声目标聚
类代价函数设计
碰撞时间
TTC Map 计算
主威胁目标提取与轨迹跟踪
算法物理实验与分析
算法物理实验与分析
第五章:总结与展望
未来展望
工作总结
图 1-3 论文组织结构图
12
第2章
第2章
2.1
基于事件传感器的高动态感知框架
基于事件传感器的高动态感知框架
引言
本章将对轻小型无人机在复杂动态环境中的低延迟高速移动目标感知任务所面临
的问题展开剖析,引出所提的基于事件的低延迟动态目标感知框架,并对新型事件传感
器进行完备的介绍和模型构建。首先,本章将所考虑的微型无人机在动态复杂环境中安
全、灵敏执行各类任务时所面临的问题抛出,并针对此问题分析潜在的解决方案,给出
本文的一个技术路线。接着,将对在机器人领域具有革新性启发的新型类视网膜传感器
——事件相机(Event Camera)展开介绍,从成像机理、传感器构成、噪声建模以及事
件的工作输出形式和发展现状、分类等方面,详细阐述这类传感器对于目前仍具有挑战
性的机器人应用问题(平台激进运动、挑战性照明环境、延迟模糊和数据冗余等)的潜
在解决办法,这将为可靠的算法开发做好铺垫。
2.2
无人机低延迟动态目标感知问题构建
近两年,无人机系统已经普及到多种领域,特别是在军事应用领域,它在战场上发
挥着越来越大的作用,世界上各个国家也已经越来越注重无人机的发展。无人机所要
执行的任务也越来越具有挑战性,从基本的高空侦察运输,到近地面的复杂战场环境感
知,其所面临的任务场景变得更为复杂,这对无人机安全任务导航提出了更高的要求。
考虑操作在复杂动态环境中的轻小型无人机系统,在其飞行路径上会存在较为复杂、稠
密的障碍物。对于其中静态的环境障碍物,鉴于其位置的不变性,在机载传感器的感知
下,可以对其进行较为完善和准确的表征描述,目前的研究也已经基本实现解决了这类
问题,为无人机实现安全的任务规划和上层次任务提供了保障。然而,由于任务环境的
未知性和复杂性,无人机的飞行路径中还会包含许多独立运动的动态目标,它们可能是
合作式的又或是非合作式的。对于合作式的目标,可以通过机间通信来保证其相互之间
的飞行安全性;而对于非合作目标,它们具有很高的突发性和潜在的高速性,对机载空
(a)相机自身运动产生模糊
(b)目标物高速运动导致模糊
图 2-1 传统相机在高动态场景中的运动模糊
13
西北工业大学硕士学位论文
无人机感知区域
微小型无人机平台
主威胁目标
次要威胁目标
目标物运动轨迹
树木
图 2-2 基于微小型无人机平的动态目标感知任务
中平台的飞行安全带来了极大的威胁。考虑无人机本身就带有一定的运动状态,且这些
无规律的移动障碍物具有很强的随机性,极端情况下,它们可能瞬间出现在视场内。对
于传统的视觉感知算法,此时会出现极大的运动模糊(如图 2-1),这将严重影响目标
感知算法的性能甚至失效。此外,当今的无人机感知算法的反应时间存在延迟,不足以
应对上述的非合作威胁物。为了能安全地避开非合作式的运动物体,需要开发高效的
感知算法。此外,要实现障碍物的安全规避的还需对其运动轨迹的估计。在更一般的情
况,无人机视场内可能同时出现多种独立运动的障碍物,此时,要求运算资源有限的机
载平台对所有威胁物都进行实时的轨迹预测是困难的,且是没有必要的。无人机只需考
虑当前威胁中最具碰撞风险的物体进行轨迹估计,进而实现当前状态下的动态规避(见
图 2-2)
,就可以保证飞行的安全性。至此,考虑动态复杂环境中算力有限的无人机完成
安全、敏捷的导航任务,这里抛出两个迫切需要解决的问题:1、无人机平台下的实时
动态目标感知技术;2、有限算力下的目标碰撞物威胁评估和主目标跟踪技术。
针对第一个问题,本质上需克服基于传统帧的高延迟感知流框架,探索一种基于低
延迟传感器的实时多目标物检测算法。在 1.2.1 节讨论过,事件相机是一个针对低延迟、
高动态场景任务而设计的新生传感器,近些年它在实时、动态感知方面的研究也已经呈
现出它的强大潜力, 目前已有的基于事件的方法无法兼顾感知的准确性和实时性,需要
进一步的研究。针对第二个问题,需要一种对当前视内的障碍物碰撞风险估计方法(包
括静态和动态的物体)
,以从中抓住主要跟踪目标,为无人机的快速碰撞规避提供支持。
14
第2章
基于事件传感器的高动态感知框架
在 1.2.2 节中本文分析了一种基于光流的接触时间估计方法,借助事件相机的数据稀疏
性,可以以一种低计算负载的光流估计完成准确的 TTC Map 估计,目前关于事件光流
的研究存在不少问题且较为匮乏,有待本文进一步发掘。
综上,本文考虑采用事件相机来解决轻小型无人机在动态复杂环境中的低延迟目
标感知问题,充分激发事件的特性,旨在为动态障碍物规避技术提供一种可靠的感知方
案。本文针对上述两个问题,给出了一种基于事件的低延迟目标感知方法的完整框架
(图 2-3)。 下面将对事件传感器进行详细的介绍和建模分析。
事件光流
估计
传感器
数据关联
事件流与
IMU量测
图像FOE
估计
事件集
运动补偿
计数图像
碰撞威胁
评估 Map
时间图像
动态目标
感知输出
主威胁目
标提取
动态目标
分割检测
目标深度
恢复
基于事件的低延迟
目标检测模块
三维轨迹
跟踪
基于事件光流的碰撞威
胁评估及跟踪模块
图 2-3 基于事件的低延迟动态目标感知框架
2-1-0
事件传感器建模与分析
2.3
本文期望通过新型的事件传感器来解决具有挑战性的无人机感知问题,因此有必要
对该传感器进行详细的建模及功能介绍,为进一步的算法做准备。
2.3.1
生物启发式传感器及其建模
事件相机是一种受生物视网膜工作原理启发的动态视觉传感器(DVS:Dynamic
Vision Sensors),能够高效地对场景中的动态变化采样(见图 2-4)。与以固定的速率捕
获场景的全部强度信息的传统相机不同,事件相机每个像素异步地测量对环境光的亮度
变化,并在感受的强度变化超过某一阈值时输出一系列事件。作为一种异步传感器,事
件传感器在获取视觉信息的方式上出现了范式的转变。这是因为它们根据场景动态采样
光,而不是靠一个与场景无的时钟来触发(传统相机)。这暗示了一种对动态变化的高
分辨率采样和对静态场景的零采样(理想无噪声情况下)。这个新的采集范式给予了事
件相机吸引人的特性:极高的时间分辨率(达到微秒级别)
、高动态范围(140 dB vs.60
15
to about 2005 was aimed at building complete
neuromorphic systems, i.e. no conventional processor
was wanted (e.g. [13‐15]). In 2003 there was an
西北工业大学硕士学位论文
impressive JSSC paper from Ruedi et al. [16] on a
omputation to
c nerve), an
spikes) which
ion for vision.
sors extends
ore metric: A
perfect mutual
utput and the
it depends so
is hard to pin
essful market
像素
时空尖峰事件
时间
y
5 ms
传感器
Y
Y
X
X
x
总线
地址
事
件
200 转/s
流
旋转点
状激励
n event‐based
图 2-4 事件相机工作示意图 [90]
to emulate
Fig. 1 AER vision sensor concept. This example from the
dB 标准相机)
、低数据冗余和低功耗。这使得事件相机在目前机器人极具挑战的高动态
dingly sparse,
dynamic vision sensor [5] shows how a high speed
e aspect of运动流应用具有很大的潜力,如高速,高动态范围。下图
its stimulus generates a sparse, asynchronous
2-5 digital
给出了事件相机与传统基
stream
Address‐event
于帧的相机的数据采样对比。
of address-events which rapidly signify changes in scene
ally provide a reflectance.
-
图像帧
标准
相机
前一帧
当前帧
k-1
k
2426
DVS
相机
标准相机
输出:
时间轴
时间
事件相机
输出:
事件流
k-1
k
时间轴
旋转点激励
(a)
时间
(b)
图 2-5 事件相机与传统帧相机的采样对比
NICAL UNIVERSITY.
Downloaded on November
08,2022 at 13:06:08
UTC from IEEE Xplore.
Restrictions apply.
尽管事件传感器从
2008 [7] 年才开始上市,
但得益于其的强大潜力,
它已经引起了国
内外研究学者(国外以苏黎世联邦理工大学,南洋理工大学、帝国理工大学为主,国内包
括香港科技大学,浙江大学、湖南大学等等)和各大公司(如,Samsung, Prophesee 以及
国内的 Celex 等)的热切关注,大量基于事件的机器人相关的应用如井喷般出现,包括但
不限于机器人技术与可穿戴电子设备 [91]、挑战光照环境下的低延迟和低功率操作 [92]、
物体检测与跟踪 [26,28,42]、监视和监控 [93] 以及物体/手势识别 [94–96]。此外,它还被
用于深度估计 [97,98],结构光三维扫描 [99]、光流估计 [63,100]、HDR 图像重建 [101–103]
和同步定位于建图(SLAM: Simultaneous Localization and Mapping)[104–106] 等。
(1)事件生成模型
标准可见光相机的所有像素根据外部时钟指定的速率统一曝光,生成环境的绝对强
度信息图像。生物启发式传感器的任意像素都互相独立,当一个像素感知的场景强度变
化大于一定的阈值(例如,±C)时才会触发一个事件 e。这种异步输出流格式被叫做地
址事件流(AER:Address Event Represent)
,它编码了事件触发的时间戳 t、触发像素所
.
在像素坐标 x = (x, y)T 以及极性 p ∈ {−1, 1},即 e = {x, t, p}。这里 p 表示事件极性,
16
DVS Operating Principle [Lichtsteiner, ISCAS’09]
第2章
基于事件传感器的高动态感知框架
Events are generated any time a single pixel sees a change in brightness larger than 𝐶
∆log 𝐼 ≥ 𝐶
V = ⁡log 𝐼(𝑡)
𝑂𝑁
𝑂𝑁
𝑂𝑁
𝑂𝐹𝐹 𝑂𝐹𝐹 𝑂𝐹𝐹
𝑂𝑁
𝑂𝐹𝐹 𝑂𝐹𝐹 𝑂𝐹𝐹
The intensity signal at the event time can be reconstructed by integration of ±𝐶
图 2-6 事件生成原理 [7]
当环境亮度变亮时,输出积极事件 p = 1;反之输出消极事件 p = −1。更确切的,事件相
机内部以对数强度对光强信息进行处理,以获取更高的动态范围(见图 2-6)
。对于一个
事件像素,它持续地感受光强
y, t) 变化,并以对数表示为
[Cook et al.,I(x,
IJCNN’11]
[Kim et al., BMVC’15] L(x, y, t)= log(I(x, y, t)),
则某个像素点在时间
t 的对数强度变化量:
[Lichtsteiner, Posch, Delbruck.
A 128x128 120 dB 15µs Latency Asynchronous Temporal Contrast
Vision
Sensor.
2008]- University of Zurich – Robotics and Perception Group - rpg.ifi.uzh.ch
Davide
Scaramuzza
∆L(x, y, t) = L(x, y, t) − L(x, y, t − ∆t)
(2-1)
这里,像素点两次触发事件的时间差用 ∆t 来表示。当光照强度变化达到设定的阈值 C,
该像素就会触发一个事件,具体公式表达如下:
∆L(x, y, t) ≥ pC, p ∈ {1, −1}
(2-2)
上式中,C 为对比敏感度阈值,可以根据所需的传感器敏感性来设定。触发积极事件的
正阈值与消极事件的负阈值可以不同,可根据照明强度变化范围的 15% 50% 来设置。
公式(2-2)表明了一个像素在时间 ∆t 内相邻事件的对数强度变化。当 ∆t 较小时,
可以用泰勒级数展开来近似此变化量:
∆L(x, y, t) ≈
∂L
(x, y, t)∆t
∂t
(2-3)
通过上述公式可以分析出,事件是一种对像素灰度关于时间的导数的表征:
∂L
pC
(x, y, t) ≈
∂t
∆t
(2-4)
有了上式,通过累积光强变化量,能够获取图像的绝对强度。因此,可以通过事件的连
续触发,恢复出图像的绝对强度信息,即图像帧。
当光照强度不发生变化时,当且仅当视场中存在独立运动的物体时,才会引起画面
强度变化,触发事件。因此在 ∆t 较小时,公式 2-3 对数强度变化可如下近似:
∆L ≈ −∇L · v∆t
(2-5)
其中 v 表示像素系下像素点 x(t) 的运动速度,也就是光流 ∇L(x, y, t) = (∂x L, ∂y L)T ;
表示 x,y 方向上的强度梯度。这就会引发两种特殊情况:
(1)物体运动与边缘平行,则
会有 ∇L · v = 0,此时不会产生事件。
(2)物体运动垂直于边缘,则会有 ∇L⊥v,此时,
17
西北工业大学硕士学位论文
事件将会以最大速率触发,本质上是对比度阈值 C 会在极短的时间内被满足。上述就
完成了事件产生机理的介绍。
(2)事件传感器噪声建模
为了能更好的将事件相机应用到真实的任务场景中,需要对传感器的噪声模型进
行完备的建模。事件相机的高动态感知特性是屈服于较高的噪声条件下的,它受到电
路电子噪声,传感器温度,阈值偏置不一致性的多种原因造成的。此外,由于目前主流
的 DVS 传感器的分辨率普遍较低,如 DVS240 系列仅为 240*180 分辨率,DAVIS346
系列为 346*260 分辨率,分辨率较高的 DVXplorer 的分辨率也只达到了 640*480(详
见表 2-1);虽然另有一些产品已经达到了更高的分辨率,但对于事件相机来说,更高
的分辨率将违背低数据流输出原则,且更高的分辨率在某些应用中甚至会导致性能下
降 [107]。综上,较低的分辨率和较高的噪声带来了信噪比的下降。因此,在将数据流输
入算法前,有必要完成对传感器的噪声建模以更好地从事件中提取真实事件信息。DVS
传感器主要存在以下几类噪声:
1. 背景活动噪声
背景噪声(BA:Background Activity noise)是所有噪声中最主要的一类噪声。当
一个像素在没有对比度变化时却触发了事件,则该事件就是背景噪声。很多厂商会在相
机出厂时提供和该噪声相关的性能指标,通常以“平均每个像素在 1s 内查实的噪声”
来衡量。背景噪声的强度与温度有关,与场景亮度变化无关,温度越高则噪声越强,通
常的传感器噪声值维持在 0.03 ~0.2(25◦ C 环境下)。
经过实验分析 [108],背景噪声的产生服从泊松分布,且具有不相关性,因此可以从
这个角度对其进行建模,并考虑采用相关滤波,将这类影响最大的噪声剔除,改善信源
的信噪比。
2. 像素对比度阈值不一致噪声
由于传感器电子器件的偏置导致原本应该全局一致对比度阈值 C,在各个像素上产
生了差异。这种噪声导致相机产生了特殊像素,考虑事件生成的模型:

 +1, ∆L(t ) ≥ C
i
ep =
,
 −1, ∆L(t ) ≤ −C
(2-6)
i
其中,ep 表示事件极性。阈值 C 的不一致性将导致产生以下四类异常像素:
1)热像素(Hot pixels):像素的对比度阈值低于设定值,将导致积极和消极事件
的产生频率均远超于设想。
2)冷像素(Cold pixels):像素的对比度阈值高于设定值,将导致该像素位置鲜有
事件发生(包括两种极性)。
3)温像素(Warm pixels):像素的对比度阈值存在一定的负偏差,即积极事件更
容易产生,而消极事件更不容易产生。
4)凉爽像素(Cool pixels):像素的对比度阈值存在一定的正偏差,即积极事件更
18
第2章
基于事件传感器的高动态感知框架
不容易产生,而消极事件更容易产生。
一般认为阈值噪声服从均值在 C 附近的高斯分布,若能对相机的所有像素的阈值
进行标定 [109],并针对性地对各个像素的对比度阈值进行补偿,将在很多场景下提升
算法的性能。
3. 热点噪声
这里的热点噪声不同于上述的“热像素”,和传统相机相似,事件相机也会存在热
点噪声。这可能是像素元器件损坏或是充放电装置存在问题导致了高频事件,和背景噪
声不同的是,热点噪声会在整个时间轴上高频率在某一像素产生事件(如图 2-7)。热
高频热点噪声在累积
计数图像中的体现
内为高频
热点噪声
注:计数图中像素值越亮标志着
该像素内累计的事件越多
(a)
(b)
图 2-7 热点噪声在三维时空图和二维图中的表现,图中红圈内为热点噪声
点噪声是高频出现的,且也不具有相关性。可以使用滤除 BA 噪声的方法来滤除热点噪
声,但需要根据其高频性设置相应的参数。
4. 其他类型的噪声
还有一些影响不是很大的噪声类型,包括有事件时间戳随机性噪声,空洞像素(或
假阴性像素)以及边缘数据不稳定性。事件的时间戳随机性指的是事件在密集触发时的
先后时序产生差别,这个可能是传感器的输出策略导致的;空洞像素是那些本应该产生
事件却总是没有触发真实事件的像素;最后,边缘数据不稳定性是指当一个物体边缘发
生运动时,其边缘出应触发一系列事件,这条边缘产生的事件理想情况下应该是清晰的,
但实际中却可能是聚集的,这可能是边缘强度高,运动速度快导致的一种数据不理想,
但优质的传感器一般不会产生这类问题。
本节对事件传感器常见的几类噪声进行了分析与总结,这将在本文后续章节中的数
据处理方面发挥较大帮助,获得更为准确鲁棒的结果输出。
(3)事件处理及表达模型
事件的采集范式转变导致了传统计算机视觉算法失效,需要对新型的事件流建立
通用的表达模型,从而更好地开发新的算法来发掘事件相机的潜力。这就引出了一个问
题:哪种处理表达模型是最佳的事件表示方式?本节将针对此问题展开叙述。
事件相机以异步和稀疏的方式获取信息,具有很高的时间分辨率和较低的延迟,因
此处理的事件时间延迟是一个划分事件表达和处理的重要指标。依据是否实时处理,算
法一般被分为两大处理类别:1)逐事件处理,算法的每个状态指标受到任意一个新的
19
西北工业大学硕士学位论文
事件到来的影响,这种方式可以充分发挥事件的低时延相应。2)批事件处理,即利用
一个固定的时间邻域来收集一定数量的事件,再统一批量处理,状态更新是基于一个时
间窗口的,类似帧的概念,这带来了一定延迟。逐事件处理能够保证感知的实时性,使
用这类处理方式的算法能保证对环境的细微变化的敏感性。但也同样带来了缺点,事件
传感器的噪声敏感性会淹没单个事件的有效信息,造成错误感知。批事件的方法以一定
的窗口延迟为牺牲,获得了更多的环境信息,在目前较多的任务及应用上都使用了这种
处理手段,通过缩减累积的时间窗口,可以尽可能地维持事件的低延迟特性,但这终究
隐藏了事件带来的极高时间分辨率。
根据处理事件的方式,也有相应的事件表达模型,下面将介绍几种主流的事件表示
方法:
.
1)单事件表达。每个事件 ek = {xk , tk , pk } 就是一个独立的表达,是一种逐事件处
理的表达,如概率滤波器或峰值神经网络(SNN)就使用这种方法。这种表达方式需要
额外的信息来支撑起有效的信息传递,通常这种额外信息就是先前的所有事件组成的。
.
e
2)事件包表达。事件集 ε = {ek }N
k=1 表示一个时空邻域的所有事件,并被统一打包
输出,选择合适的数据包大小 Ne 是十分重要的,这与包内数据的运动属性和任务不同
而不同。
3)事件帧/图像或 2D 直方图表达。这种方式是将事件以一种简单的方式(如,事
件的计数和极性)转换为二维图像,该图像就可以输送给传统的计算机视觉算法。这类
表达模型包含有计数图像模型(Count Image)和时间图像模型(Time Image)等。
计数图像是一种以像素内的事件个数作为像素值一种灰度图像表征,将事件流转化
为二维灰度图像,以进一步交给传统计算机视觉算法处理。具体的,根据时间窗口 δt 的
大小来收集事件该窗口内的事件,形成一个时空事件集 ε。利用事件集计算计数图像 I,
其像素坐标值 I(x, y) 记录了上述时间窗口内发生在坐标 (x, y) 处的子事件集:
ζij = {{x, y, t, p} ∈ ε, i = x, y = j},
(2-7)
这里,ζij 表示坐标点 (x, y) 的事件集合。而 Iij = |ξij | 则记录了该事件集的数量,其中
Iij ∈ I。
时间图像 T 是依托于计数图像的一种表达模型,它记录了计数图像的每个像素内
事件集的平均时间戳:
Tij =
1 X
t, t ∈ ξij .
Iij
(2-8)
时间图像描述了事件的三维运动信息,可以根据一些方法实现运动分割。
4)活动时间曲面(SAE:Surface of Active Events)。计数图像和时间图像均是在
空间尺度上累积事件信息,而 SAE 图则是在时间尺度上。活动时间表面表达模型最成
功的应用领域是二维运动估计以及前端特征提取。SAE 图的每个像素值为当前时刻发
生在该像素位置的最新事件的事件戳。具体的,可以使用一个二维到正实数的一个映射
20
第2章
函数来完成 SAE 图的构建:
基于事件传感器的高动态感知框架
P
: R2 → [0, +∞),
P
p : e (p) = t.
e
P
其中
e
(2-9)
为 SAE 曲面,p 为像素地址。
除了以上几种模型,还有一类积分重构表达模型,它可以用于恢复事件的绝对强度
值,以恢复灰度图,一般用于图像重建。
到这里主流的事件处理与表达模型就介绍完了,现在回答前面提出的问题,什么样
的事件处理或表达模型是最好的,根据学者的尝试与验证,最好的事件处理或表达模型
是依附于所要处理的任务,即所有的模型在适合的任务中都是最好的表达。考虑极高感
应灵敏度和极低延迟的任务,大多会使用逐事件的处理及对应的表达模型;而处理一些
目标分割,光流估计等任务,则需要更丰富的信息,自然需要一种批事件的处理方式,
再根据具体需求选择表达模型。本文将考虑低延迟下的高动态目标感知任务,要兼具低
延迟与多信息要求,故本文通过将批事件时间窗口压缩的无人机快速感知可接受的延迟
范围内(10 ms),实现目标运动补偿、分割以及光流估计等任务。
2.3.2
事件传感器发展现状
第一个硅视网膜传感器是由 Mahowald 和 Mead 在 1986-1992 年期间开发的,在他
们的博士论文作品中,还获得了著名的克劳瑟奖。该传感器具有对数感光像素,模仿三
层 Kufler 视网膜,并输出遵循 AER 协议的峰值事件。然而,作为第一款神经传感器,
受限于经验和当时硬件技术,它有几个缺点:每一块用电线包裹的视网膜板都需要精确
调整偏置电位器;不同像素的响应之间存在相当大的不匹配;单个像素块体积太大,不
能成为实际使用的设备。但这无疑开启了事件相机走向计算机视觉和机器人领域的大
门,在接下来的十年里,神经形态学社区发展出了一系列的硅视网膜,在 [110, 111] 中
总结了这些进展。目前,有如下三类主流的事件传感器:
1)动态视觉传感器(DVS)是最原始的一种事件传感器。该类相机仅输出纯事
件数据,并以微秒级的时间分辨率响应光照强度的相对变化。其像素模块由差分电路
(differencing)
、快速对数光感受器(photoreceptor)以及两个比较器(comparators)组
成。但最初的动态视觉传感器的分辨率较小,最大的 DVS 相机分辨率也仅有 768*640
像素,而最常见的分辨率仅为 240X320 像素。低的像素分辨率虽然可以降低数据流的
产生,有利于实时性,但会严重影响感知的有效性和成功率。但早期的 DVS 数据带宽
较窄,较高的分辨率也会影响传输速率。
2)基于异步时间的图像传感器(ATIS:Asynchronous Time Based Image Sensor)
,
在 DVS 相机上做出改进。它在 DVS 事件变化检测器(CD)的基础上加入了基于脉冲
宽度调制(PWM)的曝光测量单元,其中变化检测器检测光强变化,PWM 模块测量
绝对强度,故 ATIS 传感器可以同时输出事件流和图像帧。但这个过程是绑定的,即只
21
西北工业大学硕士学位论文
有存在事件输出时,才能输出图像帧,无法独立输出传统帧信息。ATIS 相机虽然实现
了较大的静态与动态范围,但缺点在于其像素大小至少是 DVS 相机的两倍,同等视野
下分辨率较低,功耗较大;并且黑暗环境下,两个事件的时间间隔可能较长,强度读数
可能会被新事件打断。
3)动态和主动像素视觉传感器(DAVIS:Dynamic and Active Pixel Vision Sensor
)是最受广泛使用的一类,其将相同像素的传统主动像素传感器(APS)与 DVS 相结
合(图 2-8 给出了 DVS 与 DAVIS 传感器的电路结构对比)。与 ATIS 相比,其光电二
极管是共享的,且读出电路只增加了 DVS 像素面积的约 5%。强度帧(APS)可以通过
分析 DVS 事件在恒定的帧率或按需触发。
图像帧
+
DAVIS
事件流
图 2-8 DVS 与 DAVIS 传感器电路结构 [8]
由于 ATIS 和 DAVIS 像素设计包括一个 DVS 像素(变化检测器),通常使用术语
“DVS”来指代二进制极性事件输出或电路,无论它是来自 DVS、ATIS 还是 DAVIS 设
计。表 2-1总结了当前最流行的或最新的事件相机(都属于上述三类)
,表格中有些数据
是近似的,仅供参考。
表 2-1 主流事件相机参数对比 [10]
传感器参数
供应商
相机型号
年份
分辨率
时延 (µs)
动态范围 (dB)
最小对比度 (%)
功耗 (mW )
芯片尺寸 (mm2 )
像素尺寸 (µm)
填充率 (%)
其他
灰度图
灰度帧率
带宽 (Meps)
接口
IMU(kHz)
inivation
DAVIS240 DAVIS346 DVxplorer
ATIS
Prophesee
Gen3 CD Gen3 ATIS
Gen4 CD
Samsung
DVS-Gen2 DVS-Gen3 DVS-Gen4
CelePixel
CeleX-IV CeleX-V
2014
240×180
12
120
11
5-14
5×5
18.5
22
2017
346×260
20
120
14.3-22.5
10-170
8×6
18.5
22
2020
640×480
200
90-110
13-27.5
<700
9
-
2011
304×240
3
143
13
50-175
9.9×8.2
30
20
2017
640×480
40-200
>120
12
36-95
9.6×7.2
15
25
2017
480×360
40-200
>120
12
25-87
9.6×7.2
20
20
2020
1280×720
20-150
>124
11
32-84
6.22×3.5
4.86
>77
2017
640×480
65-410
90
9
27-50
8×5.8
9
11
2018
640×480
50
90
15
40
8×5.8
9
12
2020
1280×960
150
100
20
130
8.4×7.6
4.95
22
有
35
有
40
无
NA
有
NA
无
NA
有
NA
无
NA
无
NA
无
NA
无
NA
有
50
有
100
12
USB2
1
12
USB3
1
165
USB3
8
无
66
USB3
1
66
USB3
1
1066
USB3
无
300
USB2
无
600
USB3
1
1200
USB3
无
200
无
140
无
22
2017
2019
768×640 1280×800
10
8
90
120
30
10
400
15.5×15.8 14.3×11.6
18
9.8
8.5
8
第2章
2.3.3
基于事件传感器的高动态感知框架
事件传感器的优势与局限性
1)优势:
高时间分辨率:事件能够以极高的时间分辨率触发,一般可以达到微妙级别,故不
会产生运动模糊。
极低的感知延迟性:事件像素的对比度阈值能够敏感的完成对环境亮度变化的采
样,从而能够在亮度变化的瞬间输出对应的事件,这个响应过程一般在 10 微秒以内。
高动态范围(HDR:High Dynamic Range)
:事件传感器以对数曲线来处理自然界
中的光强变化,得益于对数曲线的特殊性,事件相机能够在 120dB,甚至是 140dB 的
光线变化范围内工作。
低带宽及低功耗:最基础的事件传感器(如,DVS)仅对动态部分的亮度变化输出
事件流,不会对整个视场都进行统一批量的采样,不存在数据冗余,这带来了极低的功
耗和传输带宽。
表 2-2 给出了标准帧相机、高速帧相机以及事件相机的性能对比。
表 2-2 事件传感器与标准相机性能对比
传感器种类
常规标准相机
Matrix Vision Bluefox
高帧率相机
Photron Fastcam SA5
DVS(DVS128)
最大帧率
& 采样速率
90 Hz
1 MHz
>1 MHz
最大帧率下
的分辨率
752×480
64×16
128×128
单位像素
比特率
8-10 bits
12 bits
1 bits
重量
数据带宽
功耗
动态范围
30 g
32 MB/s
1.4 W
60 dB
6.2 Kg
1.5 GB/s
150+ W
NA
30 g
~200 KB/s
20 mW
120 dB
2)局限性:
信噪比低:事件的低分辨率和高敏感性带来了低延迟的特性,但也引入了对环境的
高敏感度采样,前面已经分析过其噪声来源。因此要想激发事件的优点,需先对其信噪
比进行提升。
低空间分辨率:以目前的技术,单个事件像素由于其功能的复杂性和独立性,其物
理尺寸远大于标准像素,一般为 18.5 微米。致使一些对分辨率要求较高的目标检测识
别等算法基本难以应用到事件器件上。
感知范式的转变:事件类生物式的触发方式带来了视觉感知范式的全面革新,不再
通过固定的时钟触发生成全局图像,要将事件应用到当前计算机视觉领域,则需要开发
全新的,适用于事件特性的算法。
23
西北工业大学硕士学位论文
2.4
本章小结
本章节分析了微小型无人机系统在动态复杂环境中安全、快速导航时所面临的两个
问题:低延迟动态目标检测和有限算力下的多目标碰撞分析及主目标提取与跟踪,并考
虑引入事件传感器来完成无人机的低延迟动态感知任务。进一步,本章将事件传感器进
行了完善的介绍和建模分析,从 2.3 节可以看出事件相机确实存在很多吸引人的特性,
很适合处理实时运动流任务。但是,它存在采集范式转换,异步的 AER 数据流致使现
有计算机算法均失效,需要开发全新的依据事件表达模型的算法来发挥事件传感器的潜
力。接下来两个章节,本文将针对上述两个问题开发出基于事件的算法处理管道,以寻
求借助新型事件传感器在当前挑战性的机器人问题中给出可行的解决方案。
24
第3章
第3章
3.1
融合 IMU 运动补偿的事件低延迟动态目标检测
融合 IMU 运动补偿的事件低延迟动态目标检测
引言
本章将针对 2.2 节提出的第一个问题:低延迟的动态目标检测算法展开研究。考虑
到无人机平台和运动目标的高动态性和任务的低延迟性需求,本章给出一种基于事件传
感器和 IMU 融合的高动态场景实时运动分割(运动目标检测)方法。通过惯性测量元
件实时捕获无人机本体的旋转信息,并进行预积分,用一个非线性翘曲场函数将该预积
分信息作用到异步事件流中,实现事件集的低延迟运动补偿;接着在运动补偿后的图像
上进行运动分割、鲁棒抗噪声联合目标聚类,将独立运动的目标从背景中分离和聚类。
本章节将从运动补偿问题建模、低延迟非线性运动补偿函数设计、高动态目标分割、聚
类检测等方面展开介绍,并在章节最后给出算法的定性和定量实验对比分析,验证所提
算法管道的有效性和先进性。
3.2
基于事件的低延迟动态目标检测
快速和高动态环境中的实时运动检测技术是某些上层应用(如机器人高速障碍物
跟踪、规避)的重要预处理过程。在相对激进的动态场景中,搭载在机动机器人平台上
的传统帧相机会因为帧率、动态范围等因素的限制,导致一些令人不愉快的模糊,拖影、
过/欠曝等问题,将严重影响目标检测任务的准确性和鲁棒性。此外,图像帧产生了大
量对静态环境的冗余采样,这对其中动态部分的提取无用且增加了额外的计算量,导致
时延。相比之下,受运动触发的事件相机的延迟可以忽略不计。其高时间分辨率的事件
流为动态场景中的目标检测提供了稀疏的背景杂波和运动敏感信号。此外,考虑到现如
今机器人平台任务的多样性,其挂载的传感器也愈发多样起来,引起了基于多源传感器
融合的任务求解潮流。因此,本文考虑使用事件传感器来求解低高动态目标检测问题,
并搭配 IMU 提供机体自我运动信息(而非通过图像信息优化求解)来降低检测管道的
计算负载。最终,所提算法能够在 10 ms 的窗口内完成包括运动补偿、动态分割和目标
聚类等步骤,为无人机提供在动态环境中的低延迟目标检测能力,且在运动补偿精度上
较原有方法提升 10 % - 15%。所提的动态目标检测算法流程结构见图 3-1。
3.3
相机运动补偿问题建模
为了对视场内动态目标的检测,需要分析实时事件流中包含哪些信息,并考虑最终
仅提取其中独立运动的部分。在机器人运动过程中,触发事件流的来源有两个,首先,
事件相机的自身运动将触发静态背景和前景运动物体的事件流,其次,物体的独立运动
将触发前景运动区域的叠加事件流。为了正确地分割场景中的移动对象,需先过滤掉由
相机本体运动产生的信源(背景杂波)。更进一步,相机的在三维世界中的运动共包含
25
西北工业大学硕士学位论文
数据关联
动态阈值分割
抗噪声-联
合聚类
对齐
时间图像
非线性翘曲场
运动补偿
δt 内的原始事件
时空
计数图像
输入
Buffer
移动
目标物
IMU
量测信息
图 3-1 算法结构图
六个自由度:三维平移和三维旋转。与平移运动相比,相机的三轴旋转会引起画面的明
显变化,触发大量的背景事件 [30],而平移运动相对于场景的景深引起的背景变化较少,
因此本算法考虑仅补偿相机的旋转运动,以较低的计算成本来对背景事件滤除。为了实
现这一点,算法将批量事件与固定时间窗口内的 IMU 姿态数据实时关联起来,并根据
相机成像模型和刚体运动学原理推导出运动补偿公式。下面将对这两个模型展开介绍。
3.3.1
摄像机模型
本小节将对最为广泛应用的针孔相机模型展开介绍,包括相机模型和透镜畸变模型
的构建,这对后续的事件图像运动补偿、目标检测以及三维目标跟踪起到关键作用。
针孔相机模型
相机将三维世界中的以米为单位的坐标点映射到以像素为单位的二维图像的过程,
其实就是一个二维投影几何。这种几何模型最为简单的表征就针孔模型,它是最常用且
有效的模型。它描述了一束光线透过针孔后,在针孔后面的像平面投影的关系。在这个
3-2
过程如图 3-2。
像平
成
物理
面
X’
平面
u
像素
O
P’
O
像素坐标系
v
O’
X’
P’
焦距
像平面坐标系
Z
f
O光
Y’
心
X
P
Z
Y
相机坐标系
P
X
相似三角形(俯视图)
图 3-2 针孔相机模型 [112]
下面进行数学建模。设 O − x − y − z 为相机坐标系,这里 z 轴指向相机前方,x
26
第3章
融合 IMU 运动补偿的事件低延迟动态目标检测
轴向右,y 轴向下。其中 O 为相机光心,也就是针孔模型的“针孔”。三维空间中的一
点 P ,其反射的某束光线在透过光心后,投影在物理像平面 O′ − x′ − y ′ 上,成像点为
P ′ 。这里定义 P = [X, Y, Z]T ,P ′ = [X ′ , Y ′ , Z ′ ]T ,相机的焦距为 f 。那么根据图 3-2右
中的相似三角形关系,则有:
Z
X
Y
= − ′ = − ′,
(3-1)
f
X
Y
其中的负号代表了像 P ′ 是倒立的。实际包括人眼在内,像也是倒立的,只不过人类大
脑将它自动处理为正像,相机的算法也同理,会将 y 轴像素翻转。此时,可以认为像在
小孔前面,负号也可以被取下:
Z
X
Y
= ′ = ′.
f
X
Y
将上式整理得:

 X′ = f X
Z
.
 Y′ = fY
(3-2)
(3-3)
Z
在人为调整了像的位置后,式(3-3)描述了针孔模型。它描述了点 P 与其像的空间关
系。这里所有的数据单位均为米,而当到了相机物理成像平面时,单位则变成了像素。
这是由于传感器尺寸的限制,无法极致地逼近无限小,这就需要对像进行采样和量化,
这就需要引入新的像素坐标系。为了描述传感器将感受到的物体转换成图像像素,需要
在物理成像平面设置一个像素平面坐标系 o − u − v。因此就可以得到 P ′ 的像素坐标
[u, v]T (图 3-2)。
像素坐标系:图像传感器的物理排线和像素排列方式,致使像素坐标的定义方式和
相机坐标系通常不同。将原点 o 设定在图像的左上角,u 指向右方与 x 轴平行,而 v
指向下方与 y 轴平行。因此,像素坐标系与物理成像平面向差了一个平移和放缩(这
个放缩是像素尺寸与真实的米制单位转换导致的)。现假设一个相机的像素坐标在 u 轴
上放缩了 α 倍,在 v 轴上放缩了 β 倍。同时,原点由原来的光心位置向左上角移动了
[cx , cy ]T 。则 P ′ 的像平面投影坐标 [X ′ , Y ′ ]T 与像素坐标 [u, v]T 之间的关系为:

 u = αX ′ + c
x
.
 v = βY ′ + c
(3-4)
y
将 X ′ , Y ′ 用 3-3 式替代:

 u = α·fX +c
x
Z
,
 v = β ·fY +c
y
Z
这里,将 α · f 合并表示为 fx ,把 β · f 合并表示为 fy ,有:

 u=f X +c
xZ
x
,
 v =f Y +c
yZ
(3-5)
(3-6)
y
3-5 式中,焦距 f 的单位是米,放缩比例 α, β 的单位是像素/米,因此,fx , fy 和 cx , cy
的单位应为像素,这样最后 u, v 的单位才会统一为像素。最后,将该式子转换为矩阵形
27
西北工业大学硕士学位论文
式来表达会更直观,但这里面涉及三维到二维坐标的映射,需要将二维像素坐标补充齐
次坐标,以保证等式的成立:
 
u
 
1
 
 v =
  Z
1



f 0 cx
X


 x


 . 1
 0 fy cy   Y  = KP .


 Z
0 0 1
Z
(3-7)
这里等式最左边的 1 补充为齐次坐标,Z 为点 P 在相机系下的深度信息,可以看出,
它在从右至左的投影过程中丢失了,这对于三维环境恢复带来了问题,后续本文将会讨
论深度恢复问题。一般 Z 会被移到等式的左边:

  

f 0 cx
u
X
   x


 .
  

Z  v  =  0 fy cy   Y  = KP .

  

1
Z
0 0 1
(3-8)
式中 K 表征了变换过程中的中间变量,它实际上是和相机本身相关的固有参数,因此
又被统称为相机的内参矩阵(Camera Intrinsics Matrix)
,它在成像投影过程中发挥
着重要的作用,因此在使用一款新的相机时,对它内参矩阵的标定是第一位的,一般认
为,相机的内参在出场后是固定的(定焦镜头),它不会在使用过程中发生变化,很多
厂商也会在其提供的相机 SDK(Software Development Kit)中将该信息告知。本文所
使用的事件传感器都配备了变焦 CMount 镜头,需要根据任务所需要使用的焦段自行
标定相机的内参(详见 3.2.3 节)。
除了内参,一旦相机产生了相对位移,就会存在有外参。这个外参就是相机在三维
空间中的六自由度运动参数。在上述推导相机针孔模型时(公式 3-1~3-3),三维点 P
是在相机坐标系下的,而一旦相机发生运动,P 点用相机坐标系表示会实时变动,因此
应当用世界坐标系来表征 P 点的真实位置 Pw 。此时,要表征 Pw 点的投影关系,需要
一个世界坐标系到相机坐标系的三维旋转 R 和三维平移 t 变换。则有:
 
u
 
 
ZPu,v = Z  v  = K(RPw + t) = KT Pw .
 
1
(3-9)
其中,Pu,v 表示像素坐标系下的齐次坐标,T 表征了包含旋转和平移的一个变换矩阵
(Transform Matrix)
,就是所谓的外参矩阵。它是一个四维矩阵,因此,在式 3-9 中
也包含了一次齐次坐标变换。以上就对针孔相机的投影模型完成了建模。下面接着介绍
相机的畸变模型。
畸变模型
虽然小孔模型很好地完成了投影过程,但是,在真实的相机中,一般会用一个透镜
来代替小孔实现光线的汇聚,透镜的好处就是能将更多的光线汇聚到这个“小孔”中,
从而更好地成像。透镜的加入并未改变小孔成像模型,但是由于透镜本身带有一定的弧
28
第3章
融合 IMU 运动补偿的事件低延迟动态目标检测
度,以及透镜模组安装时的基座安装误差,都会导致物体在投影到像平面上时产生一定
的变化,一般称这些影响为畸变(Distortion)
。主要包含两类畸变类型:一透镜本身曲
率引起的径向畸变;二镜片安装时不平行于成像平面的切向畸变。
径向畸变起因于相机镜头。在投影模型中,一条直线投影到像素平面也应该是一条
直线,但由于镜片的弧度,致使投影的像变成了曲线,当入射点越靠近像素边缘时,径
向畸变越明显。镜头片的形状将影响着畸变的类型:桶形畸变或枕形畸变(如图3-3)。
3-3
切向畸变是由相机组装过程中的机械安装误差导致的(如图3-4)。
正常图像
桶形失真
枕形失真
图 3-3 径向畸变 [112]
3-4
垂直平面
传感器平面
图 3-4 切向畸变 [112]
一般用极坐标对径向畸变和切向畸变建模。考虑成像平面上一点 p = (x, y)T ,它的
极坐标表示为 [r, θ]T ,r 表示点 p 到坐标原点的距离(注意这里不是像素坐标系,原点
在中心),θ 是方位角。径向畸变可以认为该点到坐标原点的距离 r 发生了变化:

2
4
6
 x
distorted = x(1 + k1 r + k2 r + k3 r )
,
(3-10)
 y
= y(1 + k r2 + k r4 + k r6 )
distorted
1
2
3
而切向畸变则是该点的方位角 θ 产生了变化:

2
2
 x
distorted = x + 2p1 xy + p2 (r + 2x )
,
 y
= y + p (r2 + 2y 2 ) + 2p xy
distorted
1
(3-11)
2
上两式中,[xdistorted , ydistorted ]T 表示畸变后的投影平面坐标。k1 , k2 , k3 和 p1 , p2 是 5 个
畸变系数。最终,联合径向畸变和切向畸变,得到综合畸变:
29
西北工业大学硕士学位论文

2
4
6
2
2
 x
distorted = x(1 + k1 r + k2 r + k3 r ) + 2p1 xy + p2 (r + 2x )
.
 y
= y(1 + k r2 + k r4 + k r6 ) + p (r2 + 2y 2 ) + 2p xy
distorted
1
2
3
1
将畸变后的点再通过内参矩阵投影到像素坐标系:

 u=f x
+c
x distorted
(3-12)
2
x
 v=f y
y distorted + cy
(3-13)
.
得到该点的正确图像位置。至此,相机的针孔模型和畸变模型都已介绍完毕, 这两个模
型可以将三维世界准确地投影到像平面,在后续章节中的运动补偿推导有很大作用。
3.3.2
刚体旋转运动学模型
除了相机的投影几何模型,事件集的运动补偿还根据相机本体的运动轨迹来实现
的。这里相机机体被看做为一个刚体模型(Rigid Model)。因此,本小节将对三维空
间中运动的刚体运动模型展开建模,从而为运动补偿函数的构建提供基础。
要对刚体运动学模型完成构建,就需要先建立起完善的表征方式。最常见的三维运
动的表征方式包括:旋转矩阵(Rotation Matrix)、旋转向量和欧拉角。
旋转矩阵表征。当描述三维空间中的一个刚体(如,相机)运动,首先就是定义各
种各样的坐标系。在机器人学中,通常给定一个固定的原点作为某次任务的世界坐标系
原点(或称为局部坐标系,Local Frame),可以认为这个坐标系是恒定的。而机器人本
体也有机体坐标系(称为 Body Frame)
,相机和机器人固连,二者之间相差一个常变换,
固可以认为二者为同一个坐标系。当机器人(或相机)开始在空间中运动,Body 系与
Local 系就会出现相对运动,一般用一个变换矩阵 T 来描述。
上述两种坐标系间的运动由一个旋转和一个平移组成,由于坐标系的不变性,这种
运动被称之为刚体运动。刚体运动时,同一个向量在其 Body 系下的长度和夹角都保持
3-5
不变,譬如,一个杯子抛向空中,它的长度,各个面之间的相对关系都不会改变,变的
只是在观察坐标系下的空间位置和姿态。上面所提到的 T 其实就是两个坐标系之间的
一个欧式变换(Euclidean Transform),如图 3-5。
�B
T
��
O
O
X�
XB
Y�
世界坐标系
图 3-5 欧式变换 [112]
30
机体坐标系
YB
第3章
融合 IMU 运动补偿的事件低延迟动态目标检测
欧式变换由旋转和平移组成,考虑到本次运动补偿算法仅对相机旋转运动进行补
偿,本节只对刚体旋转运动建模。设相机机体系由某个单位标准正交基 (e1 , e2 ,e3 ) 表
征,在经过一段时间的旋转运动后转换成了 (e′ 1 , e′ 2 ,e′ 3 )。则对于场景中的并未随相机旋
转而发生运动的物体,用向量 a 来表示,它在变换前后的两个坐标系下的坐标分别为
[a1 , a2 , a3 ]T 和 [a′1 , a′2 , a′3 ]T 。根据向量的不变性,这里有:




a′ 1
a1








[e1 , e2 ,e3 ]  a2  = [e′ 1 , e′ 2 ,e′ 3 ]  a′ 2  .




′
a3
a3


eT
 1 


对式 3-14 左右两边同时左乘  e2 T ,则左边的系数矩阵就成为了单位阵:


T
e3

 


T ′
T ′
T ′
′
a
e e e e e e
a
 1   1 1 1 2 1 3  1 

  T ′


 .
 a2  =  e2 e 1 e2 T e′ 2 e2 T e′ 3   a′ 2  = Ra′ .

 


T ′
T ′
T ′
′
a3
e3 e 1 e3 e 2 e3 e 3
a3
(3-14)
(3-15)
此时,右边的系数矩阵就可以被定义为矩阵 R,它是两组基的内积得到,刻画了从一个
坐标系到另一个坐标系的旋转过程。对于一个给定的旋转,就会对应一个矩阵 R,即二
者是一一对应的(在不出现周期旋转的情况下)。该矩阵 R 就是旋转矩阵(Rotation
Matrix)。由于它是由两个基内积得到的,而基向量的模长又为 1,故实际的内积就是
各基向量的夹角余弦值,所以该矩阵也叫方向余弦矩阵(Direction Cosine Matrix)
。
旋转矩阵有些特殊的性质。根据单位基和余弦值的特殊性,旋转矩阵的行列式的值
为 1,即 det(R) = 1,反之,行列式为 1 的正交矩阵就是旋转矩阵,所以有更一般的定
义:
SO(n) = {R ∈ Rn×n |RRT = I, det(R) = 1},
(3-16)
其中,SO(n) 是 n 维特殊正交群。上式定义了 n 维旋转矩阵集合,当 n=3 时,它就成
为了三维空间旋转矩阵群。本文需要用到三个最基本的旋转矩阵:
1. 绕 z 轴旋转的矩阵:

cos θ − sin θ 0


Rz (θ) =  sin θ

0



0 .

1
cos θ
0
(3-17)
2. 绕 x 轴旋转的矩阵:


1
0
0


Rx (φ) =  0 cos φ − sin φ

0 sin φ cos φ
31


.

(3-18)
西北工业大学硕士学位论文
3. 绕 y 轴旋转的矩阵:



Ry (γ) = 


cos γ
0
0 sin γ
1
0
− sin γ 0 cos γ


.

(3-19)
此外,由于旋转矩阵是一个正交阵,所以有:
a′ = R−1 a = RT a.
(3-20)
以上就是用旋转矩阵表征的刚体旋转过程。
旋转向量和欧拉角表征。用旋转矩阵能够直观地描述刚体三维旋转,但是,可以发
现处在 SO(3) 群的旋转矩阵用九个量描述了仅有三个自由度的旋转,这种表征方式存
在严重冗余。此外,旋转矩阵本身也存在正交约束(行列式值为 1)
,这有时候在优化求
解时会带来困难。因此需要一种紧凑的旋转表征方式,事实上,任何一次旋转都可以用
一个旋转轴和一个旋转角来刻画。这就推出了旋转向量(Rotation Vector),该矢量
的方向就是旋转轴,其模长是旋转角的大小,与旋转轴平行的两个方向表征旋转角的正
负。在三维空间中,一次三维旋转就正好可以用一个三维旋转向量来描述。
具体的,一个给定三维旋转矩阵 R,用一个方向向量 n = [n1 , n2 , n3 ]T 和一个旋转角
度为 θ 的乘积,即向量 θn 也可以表征。这两者之间的变换由罗德里格斯公式(Rodrigues’
s Formula)[112, 113] 给出:
R = cos θI + (1 − cos θ)nnT + sin θn∧ .

(3-21)

0 −n3 n1




∧
其中 n 表示向量 n 的反对称矩阵  n3
0 −n2 。反之,也可以从旋转矩阵到


−n1 n2
0
旋转向量的转换,对式 3-21 两边取迹:
tr(R) = cos θtr(I) + (1 − cos θ)tr(nnT ) + sin θtr(n∧ )
= 3 cos θ + (1 − cos θ)
(3-22)
= 1 + 2 cos θ.
整理一下得到转角 θ:
θ = arccos
tr(R) − 1
.
2
(3-23)
对于转轴 n,根据旋转轴的旋转不变性,有:
Rn = n.
(3-24)
至此,就有了两者转换的完整公式。且通过式 3-24,可以得出转轴 n 对应了旋转矩阵
R 特征值为 1 的特征向量。
32
第3章
融合 IMU 运动补偿的事件低延迟动态目标检测
除了旋转向量可以紧凑表示,欧拉角也能对旋转进行紧凑表征。它使用三个分离的
角度,分别表征相机轴的三轴旋转角度,即 (φ, θ, γ)。但是这种表征在特殊旋转后会存
3-6
在万向锁问题(如图 3-6):
Z
Y
O
X
原始坐标轴
Z
万象锁情况:
Y
Y
O
X
Z
第一次旋转(绕z轴)
Y
O
O
X
第二次旋转90°(绕y轴)
图 3-6 欧拉角的万向锁问题 [112]
Z
X
第三次旋转变成和第一次相同
(绕x轴)
到这里,本小节对刚体三维旋转问题进行了完备的建模介绍,它将和小孔成像模型
一同在后面章节的运动补偿函数构建中体现。
3.3.3
传感器标定与数据关联
除了刚体运动补偿模型,传感器间的数据关联和标定也对算法性能起着举足轻重的
作用。每个传感器在出厂时的具体参数设置和多传感器之间的机械安装都存在不确定
性,传感器能得到准确真实的环境采样,事先需要科学和准确的标定。本小节将对所使
用的事件相机进行标定,包括相机内参矩阵 K、畸变参数和镜头焦距 f 。此外,相机的
运动参数由 IMU 捕获,IMU 系与相机系存在一定的安装角度,要将运动信息从 IMU
传递到相机体,需要二者之间的标定(包含时间和空间对齐)。
事件传感器标定
由于事件相机采集范式的转换,致使纯 DVS 传感器没有绝对强度帧输出(DAVIS
和 ATIS 除外)。这就导致了传统被动式相机标定方案失效,他们使用帧图像拍出的网
格图像进行标定 [114]。因此,事件相机的学者们着手开发适合于 DVS 相机的标定方法,
包括对内参和镜头焦距的标定。
内参矩阵 K 和畸变参数标定。DVS 相机的光学原理和传统相机一致,都满足小孔
成像模型,不同的只是事件传感器需要主动运动激励。学者们起初使用带有闪烁的 LED
灯矩阵来构成亮度变化条件 [115],随后就可以使用标准的标定工具实现标定。但这种
方法需要基础准备复杂且光闪烁引起的早点太多,标定精度难以达标。后来主流的方法
以从事件流中恢复灰度图像帧来使用 [114] 中的成熟方法来完成标定 [116],这种方法通
过一个事件的积分重构模型(见 2.3.1 节)
,将事件积分得到绝对强度图像,再将恢复的
帧输送到张正有标定方法完成标定。本节使用的标定方法也是如此,借助 inivation 发
布的 DV Software 软件库实现相机内参标定(如图 3-7的 a,b)。
33
西北工业大学硕士学位论文
DVS相机
张正友相机
标定模块
积分器模块
(使用泊松模型)
可视化
(a)
(b)
图 3-7 事件相机内参标定与内参调整
(c)
镜头焦距标定。焦距调整可以通过一整调整图像完成。手动调整镜头焦距,直至拍
摄到图 3-7-c 中的最里面的正方形也清晰时,焦距就调整完成了。
IMU 与事件相机关联
IMU 数据与异步事件流的数据对齐有时和空间层面上两种,当两者都完成标定,才
能准确地服务于算法。
空间标定(外参标定)
。相机在三维空间中的旋转可以分解为相机系下的 x、y 和 z
轴的旋转。角速度 (ϕ̇, θ̇, ψ̇) 分别贡献了这三个轴上的倾斜(tilt)、平移(pan)和滚动
(roll)角率。而与相机固连的惯性测量单元能够提供这些旋转信息。由于二者之间存在
安装角度偏移,因此需要通过两个坐标系之间的角速度旋转矩阵来转换:
.
这里,定义 wc =
h
ϕ̇c θ̇c
wc = Rci wi ,
(3-25)
iT
h
iT
.
ψ̇ c , wi = ϕ̇i θ̇i ψ̇ i , Rci ∈ R3×3 分别是相机系(角
标 c)和 IMU 系(角标 i)下的三轴角速率和两者之间的角速率旋转矩阵。这里没有纠
正两者平移误差,因为纯旋转运动与平移不耦合。
δt = 10 ms
时间轴
帧间插值
帧间插值
事件流
IMU量测
IMU帧间插值
图 3-8 IMU 与事件数据时间对齐
时间对齐。在所提算法中,事件是以 10 ms 的时间间隔收集,而 IMU 提供了 1kHz
(1 ms)的采样率,为了能得到 10 ms 内的准确 IMU 量测,算法调用两个线程分别接收
两个传感器的回调函数,并在第一批有效事件到来前,抛去所有已有的 IMU 量测,从
零重新积累(系统初始化过程)
。但这样还不能准确对齐数据,可能会出现两帧 IMU 间
夹了一次事件集的更新(如图 3-8)。此时需要对 IMU 进行一次数据插值(图中黄色的
色条),这里使用了简单的线性插值来实现二者的时间对齐。
34
第3章
融合 IMU 运动补偿的事件低延迟动态目标检测
基于 IMU 量测的事件低延迟运动补偿
3.4
本节将介绍所提的联合 IMU 的事件运动补偿算法设计。事件集累积了一定时间窗
口的运动流,需要一个准确的翘曲场函数,将事件集沿着像平面下相机运动的轨迹投影
(IMU 量测)补偿回去。如此,抹除由相机自身运动触发的事件,为提取运动部分做准
备。这个补偿的过程是让背景更锐化、清晰的过程,也可以理解为运动去糊。
3.4.1
基于线性的运动补偿函数
运动补偿基于刚体旋转模型和针孔成像模型(见 3.3.1 及 3.3.2 节)
。算法通过在一个
小间隔 δt 内对三轴角速率进行预积分并将其转换到相机系下,以获得总旋转角度 ϕ, θ, ψ
,从运动模糊中恢复图片。具体地来说,对于一个发生在时刻 t 的事件:e = (x, y, t) ∈ R3
(忽略其极性 p),它可以从时刻 t 的像素位置补偿到它在时刻 t − δt 的位置,这通过一
个翘曲场函数实现 φ:R3 → R3 ,即 (x′ , y ′ , t) = φ(x, y, t)。这里仅用二维像素坐标来简
化在时刻 t 触发的事件: et = (x, y) ∈ R2 :
et ′ = [R(et − eo ) − T] + eo ,
(3-26)
其中,et ′ 和 et 时补偿后和原始事件的二维坐标,而 eo ∈ R2 是像素平面的中心点。并
重新定义 R ∈ R2×2 为绕 z 轴旋转的二维旋转矩阵,T ∈ R2 为由绕 x 轴和 y 轴旋转引
起的像素平移向量。
一个简单的平面旋转矩阵可以补偿绕 z 轴旋转的运动角 ψ。然而,对于像素平移向
量 T 的计算,需要考虑镜头焦距 f 和事件的像素坐标构成的三角正切关系。在 Delbruck
等人 [41] 的工作中,这种正切关系被近似为线性关系:

 T = KΘ
,
 Θ = [θ, ϕ]T , K = 1/tan−1 (w/f )
(3-27)
这里,K 是一个由像素尺寸 w 和焦距 f 确定的常数。
然而,这种线性近似存在一些问题。1)考虑当相机运动较为缓慢时,这种近似可以
获得不错的补偿效果,一旦平台的运动变得激进(本文考虑高动态场景下的感知任务)
,
快速的旋转将导致目标物在成像平面上快速移动,引发其像的入射角的剧烈变化,最终
导致方程 (3-27)输出较大的线性近似误差(见图 3-9-a)。2)上式未考虑待补偿事件的初
始像素位置,近似的认为所有的事件都在像素中心触发。更一般的情况是,触发的事件
像素分散在像平面上。根据几何关系,相同角度的旋转,引起距离中心 eo 不同的事件
的位移是不同的。因此它们对相同旋转角度的补偿位移也应该不同(见图 3-9-b)。
3.4.2
基于非线性的运动补偿函数设计
针对以上两个问题,并考虑到本文所面临的无人机平台运动的高机动性,本文重构
了绕 x, y 轴旋转的补偿函数,提出一种基于非线性的运动补偿翘曲场,并将事件的像素
位置也纳入到该补偿函数中。首先用 tan−1 函数取代线性逼近常数项 K,接着将事件
35
西北工业大学硕士学位论文
600
线性近似
Tan(θ)
误差
400
像素平面
像素
200
0
f
𝑒𝑒o
P’
∆l
P
-200
A
A’
-400
α
θ
β
X
O
θ
-600
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
Y
0.8
入射角度(rad)
(a)
(b)
图 3-9 运动补偿问题阐述。(a) 展示了线性运动补偿误差。图中 x 轴是捕获的相机运动旋转角(也
就是目标物的入射角变化)
,y 轴是对应的应补偿像素位移。图中红色的误差曲线反映了:线性方法
与 tan 函数之间的差距随着相机旋转角度的变大而变大。(b) 给出了事件的初始位置不在中心点 eo
时的真实补偿位移(以 y 轴旋转为例)
。P 是由目标 A 触发的事件,当相机旋转了 θ 角后,P 移动
到了 P ′ 。在旋转前后目标点对应的入射角分别是 α, β。因此,正确的补偿位移应该是像平面中红色
的线段 ∆l,而非所有像素点都统一的 f /tan(θ)。
的初始坐标纳入到翘曲函数中以进一步减少大机动补偿误差,特别是对于远离成像中心
的事件。这里为了便于理解,假设相机仅绕 y 轴旋转,且事件的初始位置在 x 轴上,新
提出的函数构建过程如下:
1. 计算 et 和 et ′ 像素位置的入射角 α, β :

 α = tan−1 (e ∗ w/f )
x
.
 β ≈α−θ
2. 非线性翘曲场补偿:
(3-28)

 ∆l = e − ρ tan(β)
x
.
 ρ = f /w
(3-29)
其中,ex 是 et − eo 的 x 轴分量。∆l 是 x 轴补偿位移,而 θ 绕 y 轴旋转角度。需要说
明的是,β 值得大小取决于旋转角的变化,且它的取值范围在 (−90°, 90°) 之间,也就是
说,任何一束光线不可能沿着垂直于相机光心轴入射。对于更一般的旋转运动,改进后
的补偿函数的完全表征为:

T = (et − e0 ) − ρ tan(β), R = 

cos ψ
sin ψ
− sin ψ cos ψ
,
(3-30)
其中,β = [βx , βy ]T = [αx − θ, αy − ϕ]T 为补偿后事件 et ′ 在 x 和 y 轴上的入射角。而
αx , αy 则是初始事件 et 的沿两轴的入射角。最终,补偿后的事件集 C ′ ∈ R3 通过如下
概括的翘曲函数,从原始事件集 C ∈ R3 变换得到:
Y
Y
C′ =
{φ(C)} =
{φ(x, y, t)} = {x′ , y ′ , t}, ∀{x, y, t} ∈ C.
36
(3-31)
第3章
融合 IMU 运动补偿的事件低延迟动态目标检测
高动态目标检测算法
3.5
在运动补偿完成后,大量的背景事件将会被聚集到少数像素中,而独立运动的目标
物并不受相机自身运动的影响,其触发的事件依旧会散布在图像平面上。因此,补偿后
得到了一张背景清晰,夹带若干模糊的目标物的图像(见图 3-10)。由于扭曲后事件的
时间戳并没有改变,因此对于一个像素位置上的小事件集,独立移动物体触发的事件的
平均时间戳与背景运动触发的事件的平均时间戳不同,这使得移动物体的分割和检测成
为可能。具体来说,属于独立运动目标的事件簇在补偿后的图像上分布相对离散,承托
它的每个像素上的事件个数较少,而背景则较为集中,相应像素上的事件个数也更多。
这将反映在像素的平均事件时间戳上,可以从这个角度讲动态的部分分离出来 [6, 28]。
图 3-10 运动补偿后事件集(由计数图像呈现)
对于分离出的动态部分,它们可能由多个运动目标以及噪点构成,因此需要考虑在
噪声环境下的目标物聚类问题,将每个目标单独检测出来。
3.5.1
动态目标物分割
方程 (3-31)根据相机的轨迹聚集静态背景事件,它的边缘在图像平面上变得清晰锐
利。相反,由运动部件引起的事件集仍然散布在图像上,因为它们的运动是随机的并且
与相机运动无关。因此,利用事件时间戳的不变性,每个像素上事件的平均时间戳可以
作为区分图片中动态部分和静态部分的指标。
为了获得图像像素的平均时间戳,首先需计算计数图像 I。它是由每个像素中包含
的事件数组成的图像矩阵(见 2.3.1 节):
ξij = {{x′ , y ′ , t} : {x′ , y ′ , t − δt} ∈ C ′ , i = x′ , j = y ′ },
(3-32)
其中,ξij 是包含在一个像素 (i, j) 内的事件集,而 Iij = |ξij | 则记录了该集合的大小,
这里,Iij ∈ I。可见,运动补偿的准确性会直接反映在计数图像上,进而影响后续阈值
分割的质量。接着,时间图像 T 就可以被定义为每个像素的事件平均时间戳:
1 X
t; t ∈ξij .
(3-33)
Tij =
Iij
为了使得数据的表达更稳定,这里将 T 归一化以获得 T 。接着,一个阈值参数 λ 可用
于区分 T 中的动态和静态部分:
37
西北工业大学硕士学位论文
Tij −
1
n
P
Tij
, λ = a ∥ω∥ + b.
(3-34)
δt
如果 Tij > λ,则该像素(i, j)属于动态目标,否则属于静态背景。3.4.2 节所提出的
Tij =
非线性补偿算法改善了运动补偿的精度,从而提升了算法滤除静态背景事件的能力。此
外,为了增强过程的鲁棒性,阈值参数 λ 是动态可调的。它是一个与相机运动的角速率
线性相关的函数,这样无论相机是移动还是静止,分割算法都能获得很好的分割效果。
3.5.2
抗噪声目标物聚类代价函数设计
为了检测具有不同运动属性的移动目标物,本节将采用联合聚类方法来聚集属于相
同运动模型的事件集。DBSCAN 算法 [117] 是一种基于密度的聚类方法,具有抗噪性和
较低的算法平均时间复杂度。对于信噪比较低的事件数据有很大帮助,且可以保持算法
的实时性。但是,基于点密度的分类原则在区分两个相邻目标时效果不佳(例如,当两
个运动物体在成像平面上的投影很接近时)。真实的事件在时间轴上是顺序触发的,算
法考虑使用事件的时间戳值来计算目标物的速度,也就是二维光流。根据该运动属性,
可以提供一个先验来区分两个相邻的运动物体:两个簇彼此靠近的事件点(也就运动物
体)可能在光流(方向和模长)上有较大差异。此外,对于信噪比较差的事件流,在目标
聚类前需要进行噪声剔除。根据 2.3.1 节的噪声建模,发现事件的时空特性可以用来实
现良好的噪声抑制:运动或静止物体在时空中触发的轨迹是连续的,而噪声是随机的。
最终,本文给出一种联合聚类代价函数,它由事件三维坐标和二维光流来约束:
Oi,j (p, v) = wp ∥pi − pj ∥ + wv ∥vi − vj ∥ ,
(3-35)
其中 p ∈ R3 是由 x, y,t 组成的三维事件点的时空坐标。v 是事件点的光流速度。索引
i, j 代表两个不同的事件点,w = [wp , wv ]T 是权重向量。当式 3-35 输出的代价值低于设
定的阈值,则认为两个像素点隶属同一个簇。此外,为进一步剔除其他类型的噪声,在
聚类算法执行的前,本文还对补偿后的图像进行中值滤波,进一步提升聚类成功率。
至此,对高动态环境下的低延运动目标检测流程就介绍完了,本次毕设基于 Linux
系统的 ROS(Robot Operate System)平台对本章所提算法进行了 C++ 代码实现,整
体算法的伪代码如下:
Algorithm 3-1 低延迟动态目标检测算法
.
.
Ne
ci
b
输入: IMU 批数据 Qi = {qk }N
k=1 ,事件集 ε = {ek }k=1 ,角速度旋转矩阵 R
.
输出: 聚类后的目标物簇 O = {Oi }N
i=0
1:
if 程序未初始化 then
2:
清空 IMU 数据缓存, 并开始接收新 10ms 内的 Qi 与 ε
3:
对 Qi 与事件数据对齐,包括线性插值和坐标系变换得到 Qc = Rci Qi
4:
end if
5:
获取第一个事件的事件戳 t0
6:
for ek = (xk , yk , tk ) in ε do
7:
根据公式 (3-28),计算当前事件对应像素点 (xk , yk ) 的入射角 αx , αy
38
第3章
融合 IMU 运动补偿的事件低延迟动态目标检测
8:
获取当前事件触发的相对时间 tref = tk − t0
9:
根据 Qc 和入射角 αx , αy 以及 tref , 依照公式(3-30)和(3-26)计算得到运动补偿后事件 e′ k
10:
对运动补偿后事件集 e′ k 进行中值滤波去噪
11:
更新对应补偿后像素块的计数图像 I(x′ k , y ′ k )
12:
end for
13:
for Iij in I do
14:
根据公式 (3-33)和 (3-34)计算归一化时间图像 Tij
15:
if Ti,j > λ then
16:
17:
18:
19:
像素 (i, j) 属于静态背景 S
else
.
d
像素 (i, j) 属于动态部分 D = {pk = (i, j)}N
k=1
end if
20:
end for
21:
对 D 进行时空滤波,滤除干扰噪声
22:
for pi in D do
23:
计算像素 pi 的光流矢量
24:
for pj in D, j ̸= i do
25:
26:
根据公式(3-35)确定 pi 属于的目标物簇 Oi
end for
27:
end for
28:
return 运动目标簇 O
与之对应的算法程序流程图如下图 3-11:
开始
初始化?
否
IMU与事件相机
时空数据关联
是
计算事件补偿
前后的入射角
非线性
运动补偿
计数图像与
事件图像计算
线性动态阈值
分割
抗噪声联合目
标聚类检测
目标光流估计
结束
图 3-11 低延迟动态目标检测算法流程图
39
西北工业大学硕士学位论文
算法物理实验与对比分析
3.6
本节将对所提低延迟动态目标检测算法展开物理实验验证,以证明所提算法的有效
性和先进性。包括物理无人机实验平台搭建、所提算法同另外几种基于信息和基于优化
的方法的定性与定量实验分析和性能对比。
3.6.1
空中无人机实验平台设计
为了满足高机动下的动态目标感知需求,本课题设计并搭建了相应的无人机实验平
台。由于多种传感器和机载硬件的尺寸及重量限制和灵敏平稳飞行的要求,飞行平台要
具有良好的飞行性能以及一定的载荷能力,从而保证本次实验的展开。经过研究选型,最
终选取飞行灵敏的旋翼飞行器。此次搭建的旋翼无人机轴距为 450 毫米,动力系统选用
T-motor AIR2216 电机和 T-motor AIR45A 电调以及十寸的螺旋桨。经过验证,这个动
力搭配可以提供 4kg 的有效拉力,足以支撑此次实验。整机尺寸:71cm*71cm*30cm,如
机载的信息处理平台选用 Intel NUC 处理器,
来完
图 3-12。飞控板使用开源的 PX4 飞控,
成所有自主计算,保障室内室外飞行和运动目标感知任务。无人机载有 DAVIS346color
或 DVXplorer 事件传感器、定位模块、数传模块以及飞行控制模块,分别用于环境动态
感知、飞行定位、数据通信以及飞行控制任务。无人机自重 2.0kg,最大负载 1.0kg,满
负载最大飞行速度可达 20m/s,续航时间 20 分钟,满足本次实验的任务需求。
Px4 飞控
计算机
电源&电源
管理模块
Intel NUC
机载处理器
DVXplorer
事件传感器
图 3-12 轻小型旋翼无人机平台
此外,本次实验挑选了两款事件相机的具体参数详见表 2-1。两传感器的外观图像
如图 3-13。
3.6.2
对照组运动补偿方法介绍
为了给出对所提算法客观的评价,本文给出了另外三种最先进的运动补偿算法来与
本文所提的运动补偿算法进行对照。包括一种同样基于 IMU 量测的方法 [41](即上文
中提到的基于线性补偿的方法)和两种基于优化的运动补偿方法 [27, 28]。这里给出基
于优化方法的基本原理介绍。
40
第3章
融合 IMU 运动补偿的事件低延迟动态目标检测
(a)DAVIS346 相机
(b)DVXplorer 相机
图 3-13 事件传感器
基于优化的运动补偿方法选取或设定一个代价指标,并通过迭代的方式调整所选用
的运动模型,一步步收敛自身的代价,在完成运动参数估计的同时实现图像的运动补偿,
这种方法的代价函数一般是图像指标:图像对比度、方差等等,最终都能够实现非常不
错的精度,但是通过纯图像信息来求解运动参数,在迭代求解过程中会耗费大量计算资
源且拥有较高的时间复杂度,这对资源受限且有实时性要求的机器人平台是致命的。
优化的方法最重要的两个点就是:1、代价指标的选取,2、运动模型的选取。不同
的代价指标将决定最终的收敛精度的好坏和收敛速度;而不同的运动模型参数也会对补
偿结果和算法运行时间产生影响。
总共有两类图像特征常被用来作为优化指标:图像的锐度和散度。两种指标都可以
描述一个图像是否是清晰。如 [27] 中使用了图像对比度(也就图像方差)来作为指标。
对于方差损失函数的常见表达包括以下几种:
1.Weber contrast(伟伯对比度):
I − Ib
,
(3-36)
Ib
其中,I 和 Ib 分别表示特征和背景的亮度。韦伯对比度通常用于在大的均匀背景上存
在小特征的情况下,即平均亮度大约等于背景亮度的情况。
2.Michelson contrast(迈克尔逊对比):
Imax − Imin
,
(3-37)
Imax + Imin
其中,Imax 和 Imin 分别表示最高和最低亮度。迈克尔逊对比度(也称为可见性)通常
用于明亮和黑暗特征相同且占据面积相似部分的图案(例如,正弦波光栅)。
3.RMS contrast(Root Mean Square,均方根对比度)
:其定义为像素的强度标准差:
v
u
−1 M
−1
X
X
u 1 N
2
t
Iij − I¯ ,
(3-38)
M N i=0 j=0
其中,M 和 N 为图像宽高。工作 [28] 使用事件编码的计数图像和事件图像的方差来作
为收敛指标。
除了代价指标,也会有很多不同类型的运动模型来选择,这取决任务的需求和补偿
精度要求。[27] 根据任务的不同选取了对应的模型参数,如求解二维平面运动时的光流
41
西北工业大学硕士学位论文
运动模型,求解自身三维旋转运动(模拟陀螺仪)时用旋转矩阵 R 作为模型,而在求
解环境深度时选取一维的深度 z 作为模型。[28] 为了追求更为准确的运动补偿则选用了
四自由度参数模型 (hx , hy , hz , θ),对三维空间的六自由度运动进行完备的投影表征:

  


   
x′
x
hx
cos θ − sin θ
x
x

 =   − t ∗ 
 + (hz + 1) ∗
∗   −   . (3-39)
y′
y
hy
sin θ cos θ
y
y
这种模型取得了最高的补偿精度(详见后面的实验结果图),但代价是消耗了最大的资
源和运算时间。
设定好两种核心的参数后,剩下的就是完成离散到连续域的转换,并交由诸如高斯
牛顿法(Gauss-Newton),列文伯格-马夸尔特法(Levenberg-Marquardt)等梯度下降
求解器来实现求解。这里对离散到连续域的指标函数说明一下,由于各类对比度或方
差都是基于像素点的,是离散空间采样,但要实现后续的梯度求解,就需要指标函数
连续且可导,才能求出梯度方向,完成迭代。本文在复现工作 [27, 28] 时使用高斯过程
N (x; µ, σ 2 ) 来拟合离散计数过程(如,冲击响应函数 δε (x − µ))的不可导边缘。
3.6.3
实验结果对比与分析
本小节将展开算法对比验证实验。所提算法在公开数据集 [28,118] 和真实场景中均
得到大量的测试,以评估在具有挑战性的条件下的运动补偿和目标检测能力。本节将所
提算法与基于量测的 [41] 方法和两个基于优化的 [27, 28] 方法进行了定性与定量实验对
比分析。此外,为了能在统一的规则下描述算法的优劣,这里给出一种运动补偿性能指
标:像素是事件密度 D。它是根据所触发的像素总数和计数图像 I 计算得出的:
P
Iij
Dδt = P ,
(3-40)
pij
其中,Dδt 表示运动补偿后时间窗口 δt 内的像素事件密度,pij 则是由扭曲后事件触发
的像素。式 (3-40) 表明,在完成运动补偿后,如果大多数事件聚集在较少的像素上,则
事件密度越大,图像越清晰。因此,较大的 D 值代表更好的补偿精度。
在本节中将展示改进的运动补偿算法在激烈运动和边缘触发事件情况下的良好性
能和低延迟性。除此之外,还将展示该算法在公共数据集和自己收集数据流中检测移动
目标(单个或多个对象)的稳健能力。根据下面的图表结果,证明了所提管道在高动态
场景中感知运动物体的能力,主要体现在:(i)基于 IMU 量测的非线性补偿算法提高
了在激烈相机运动和图像边缘的补偿能力,其精度可与最先进的优化方法相媲美。(ii)
运动补偿的低延迟使得高速场景中实时目标物检测管道具有鲁棒性。
数据集与硬件平台。实验测试了不同的场景和公共数据集。首先,EED (Extreme
Environment Dataset)数据集 [28] 是在极端光照条件下记录的,包括各种场景下的高
速单目标和多目标运动,这对传统的目标检测算法极具挑战性。而数据集 [118] 中的
”shapes rotations” 场景包含三轴的高速旋转运动。最后,本课题通过机载平台搭载相
42
第3章
原始事件
方法[41]
所提算法
(a)俯仰运动
原始事件
方法 [41]
融合 IMU 运动补偿的事件低延迟动态目标检测
原始事件
方法 [41]
所提算法
(b)偏航运动
所提算法
(d)边缘运动 星星 1
原始事件
方法 [41]
原始事件
方法 [41]
所提算法
(c)横滚运动
所提算法
(e)边缘运动 星星 2
原始事件
方法 [41]
所提算法
(f)边缘运动 小车
图 3-14 与基于量测的运动补偿方法结果对比。从 a 到 f 分别是三轴快速旋转运动和边缘运动的实
验测设结果。每个场景包含一个序列的三个结果:第一列是原始数据,中间列是方法 [41] 的补偿结
果,最后一列是所提算法。红色方框区域是局部缩放,以便更好地展示比较结果。
机,记录真实场景中的事件数据流。自采集数据流中包含单个或多个移动物体,相机的
运动主要由绕三个轴的旋转组成,且更为剧烈,最大角速率达到 500 deg/s 以上。数据
集 [28, 118] 由 DAVIS240 系列传感器收集,分辨率仅为 240x180,像素大小为 18.5 µm,
支持 RGB 帧输出。而手工采集的数据则由更高分辨率的 Dvxplorer 传感器采集,达到
了 640x480,像素大小为 9µm,但没有帧输出。所提算法在 10ms 的时间窗口内同步事
件和 imu 数据,并在 Intel NUC11PAHi7 (i7-11700) 平台上实时运行动态目标检测任务。
运动补偿评估。参与实验对比的包含同样基于 IMU 信息的 [41] 和基于优化的 [27,
28] 以及本章所提算法。在与方法 [41] 的对比实验中,使用纹理信息丰富的手绘星星和
汽车图案(见图 3-14)作为捕捉对象,且包含三轴运动和边缘事件的所有情况,以测试
不同算法对纹理细节的补偿能力。图 3-15中的曲线展示了图 3-14的定量结果。可以看出
非线性翘曲函数和对额外像素坐标的考虑的确产生了更清晰的图像和更高的像素事件
密度值,验证了改进算法的有效性。进一步,本文复现了两个基于优化的工作 [27, 28],
它们分别基于局部光流和 4-DOF 运动模型构建优化问题。在数据集 [118] 的三个旋转
序列进行了测试,实验结果见图 3-16。从图中可以看出,[27] 中的局部光流优化方法
(图中第二列)
,缺乏全局一致性,致使补偿后图像部分重叠,可以通过增加局部块的大
小来改善,但这也会使局部光流一致性失效,同时增加计算复杂度。 所提算法与补偿精
43
西北工业大学硕士学位论文
2.8
4.5
原始事件密度
方法 [41]
所提算法
2.6
4
2.4
2.4
原始事件密度
方法 [41]
所提算法
Original density
Method [41]
Ours
2.2
3.5
2
3
1.8
2
1.8
1.6
像素事件密度
像素事件密度
像素事件密度
2.2
2
1.2
Seq.1
Seq.2
Seq.3
Seq.4
1
Seq.1
Aveg.
(a)俯仰运动
3
Seq.2
Seq.3
Seq.4
1
Seq.1
Aveg.
(b)偏航运动
3
原始事件密度
方法 [41]
所提算法
1.5
Seq.3
Seq.4
Aveg.
(c)横滚运动
原始事件密度
方法[41]
所提算法
4
3.5
像素事件密度
2
Seq.2
4.5
原始事件密度
方法 [41]
所提算法
2.5
像素事件密度
2.5
像素事件密度
1.4
1.2
1.5
1.4
1.6
2
1.5
3
2.5
2
1.5
1
Seq.1
Seq.2
Seq.3
Seq.4
(d)边缘运动 星星 1
Aveg.
1
Seq.1
Seq.2
Seq.3
Seq.4
Aveg.
(e)边缘运动 星星 2
1
Seq.1
Seq.2
Seq.3
Seq.4
Aveg.
(f)边缘运动 小车
图 3-15 像素事件密度曲线(数据来自于图3-14,横轴是多个实验序列和最终的平均结果,纵轴是
像素事件密度值)。
原始事件图像
四自由度
参数优化 [28]
光流优化 [27]
所提算法
图 3-16 与基于优化的运动补偿方法结果对比。第一列是来自数据集 [118] 的三个原始事件序列,第
二列是 [27] 中局部光流优化的补偿结果,第三列是 [28] 中的四自由度运动模型优化结果,而最一列
是所提算法的结果。
度最好的四自由度模型 [28] 性能接近(图中第三与第四列),进一步佐证了所提方法的
先进性。更量化的描述可以在表3-1,3-2中找到,它们列出了不同场景下几个序列的平
均像素事件密度值的比较。最后,图 3-17展示了四种方法在三轴旋转运动补偿下的性能
对比图,从运行时间和补偿精度两个方面刻画。从图中的(a)可以看出,所提算法是
与另一基于信息的方法的运行时间远远低于基于优化的方法(详见 b),此外,在性能
方面,所提算法优于该基于量测的方法,并与基于优化的方法持平(详见 c)。
44
第3章
融合 IMU 运动补偿的事件低延迟动态目标检测
表 3-1
平均像素事件密度(数据来自于图 3-15)
运动 / 方法
原始事件集
方法 [41]
所提算法
俯仰旋转
偏航旋转
横滚旋转
1.3015
1.5812
1.1807
2.1277
3.4232
1.8254
2.4440
3.7279
1.9960
边缘运动 (星星 1)
边缘运动 (星星 2)
边缘运动 (小车)
1.1968
1.3570
1.6531
2.1210
2.2779
2.6832
2.3258
2.4484
2.8842
表 3-2
平均像素事件密度(来自于图 3-16)
运动 / 方法
原始事件集
方法 [27]
方法 [28]
所提算法
横滚旋转
偏航旋转
俯仰旋转
1.8505
2.7175
3.3143
2.6805
4.0836
4.6879
3.3484
4.3002
5.0446
2.6300
4.2454
5.1115
5.5
6
160
5
5.5
140
5
120
4.5
100
4
80
4.5
4
3.5
60
3.5
3
40
3
2.5
20
2.5
0
2
0
20
40
60
80
100
120
140
160
(a)运动补偿综合性能对比
(b)补偿精度对比
(c)运行时间对比
图 3-17 四种运动补偿算法性能对比。a 图中不同的颜色代表不同的实验序列,而形状代表不同的
方法。b,c 两图分别展示了四种方法在补偿精度和运行时间层面上的平均性能。
所提算法以低时间代价得到补偿良好的图像,将提供易于区分的事件时间密度,对
于时间图像的计算和进一步的动态目标提取至关重要。
目标检测结果分析。在多次真实投掷和数据集 [28] 上的实验验证了所提算法检测
快速移动物体的能力。在真实实验设置中,选择篮球和网球作为投掷物。当相机随机移
动时,球从任意角度被扔进视野(见下图3-18)。
图 3-18 自采数据目标检测实验(无人机平台下的高分辨率相机 Dvxplorer 采集,无帧输出)
。共展
示了 6 组序列,图中第一行表示运动目标在整个事件图像下的表征,运动部分存在颜色分层;第二
行是分割背景后聚类检测的目标物。
45
西北工业大学硕士学位论文
(a)多目标实验序列一
(b)多目标实验序列二
(c)多目标实验序列三
图 3-19 自采数据多目标检测实验(在无人机机动平台上使用 DVXplorer 录制)。共展示了三组序
列,每个序列由:左上)原始事件集,右上)运动补偿后事件集,左下)运动目标分割结果,右下)
运动目标聚类检测结果。
(a)
(b)
(c)
(d)
(e)
(f)
图 3-20 公共数据集上目标检测算法实验(由 DAVIS240 相机录制,分辨率较低,有灰度帧输出)
。
这里展示了所提算法在数据集 [28] 中 6 个场景的目标检测结果。每个结果包括:左上)图像帧中的
目标检测结果,右上)颜色分层的原始事件集,右下)运动补偿后的事件集,动态目标仍然存在颜
色分层,左下)聚类检测后的运动目标。
运动补偿模块的预处理带来了清晰的背景图像并突出了动态物体的属性(图 3-18中
的分层颜色部分),使得阈值分割更加准确和鲁棒。此外,为了检验算法的多目标检测
能力,图3-19给出了所提算法在三个事件序列中的多目标检测测试,序列中包含了四
个不同的物体的随意投掷,算法均完成了准确的检测。除了真实投掷实验,实验还测
试了数据集 [28] 中的几个场景:“Fast drone”、“Multiple objects”、“What is a
Background?”、“Strobe”等(图 3-20)。在一些物体运动缓慢的场景中,由于 davis240
的分辨率较低,在小目标和极端光照下动态物体信息有限,导致信噪比极低。此时,运
动补偿对分割帮助不大。为保证检测能力,算法的抗噪声能力要足够强。所提算法结合
了时空事件过滤、中值过滤和抗噪声聚类算法,可以对上述场景完成稳定的目标检测。
46
第3章
融合 IMU 运动补偿的事件低延迟动态目标检测
然而,这些也引入了一些代价,多级过滤会或多或少地过滤掉一些有用的目标轮廓信息,
导致目标部分丢失(见图 3-20的 a,b,d)。尽管如此,一旦目标相对于相机的运动变
得更显著,运动补偿的作用就会放大,运动目标的检测也会更好(见图 3-20的 c,e,f)。
此外,更高的图像分辨率将缓解上述问题。鉴于所提算法的低计算负载,管道支持以更
高的图像分辨率运行(见图 3-18,3-19)。
总的来说,所提出的算法在极端数据集和真实场景中都获得了相对准确和稳健的快
速目标检测结果。
3.7
本章小结
在本章中,根据无人机平台下的动态目标感知任务背景,列出了现有基于事件的感
知方法的局限性:补偿精度和实时性问难以兼得。并对此提出了一种融合 IMU 量测的
实时非线性运动补偿和动态目标检测算法管道,它可以在快速自旋转和快速移动目标的
情况下稳定工作,具有良好的抗噪声能力。与基于优化的方法相比,所提算法的计算成
本更低,能够实现稳健的序列检测,并可以在更高分辨率的图像上实时运行。与相同的
基于测量的方法相比,该算法还原了更清晰、更准确的背景事件,为后续动态目标检测
任务提供了良好的信源。经过大量的实验验证,所提的低延迟动态目标感知方案具有有
效性和先进性,有工程应用的潜力。
47
西北工业大学硕士学位论文
48
第4章
第4章
基于事件光流的目标物碰撞风险评估与跟踪
基于事件光流的目标物碰撞风险评估与跟踪
引言
4.1
本章将针对 2.2 节提出的第二个问题:有限算力平台下的目标物碰撞风险评估及主
威胁目标跟踪技术展开研究。上一章节完成了低延迟的多动态目标检测,解决了实时的
运动目标信息提取问题。但要为无人机提供可靠、完整的动态障碍物规避信息,这仅完
成了一半的感知任务。面对检测到的多个目标物,无人机要实现安全可靠的规避,还需
预测它们的运动轨迹。但对于算力有限、且实时性要求高的轻小型无人平台,实现多目
标的跟踪是困难的。因此,本章给出一种基于异步稀疏事件流的多目标碰撞威胁评估算
法,以实现对视场中高威胁目标的提取和进一步轨迹跟踪。算法利用事件光流来估计目
标物的碰撞时间(TTC:Time to Contact),以对所有检测到的目标物进行碰撞分析,
并提取视场中的主威胁目标。接着,采用经典的 EKF 滤波器实现对该威胁目标的轨迹
跟踪。并在章节最后,给出所提的事件光流估计算法和风险评估 Map 的实验测试,以
验证算法的有效性和鲁棒性。
基于事件光流的目标物碰撞风险估计
4.2
智能无人机系统的一个基本导航任务是检测和避免其路径中的障碍物。为完成这一
任务,除了低延迟的目标检测,还需要一种高效的目标物碰撞分析技术,以快速响应当
前无人机视场中最具威胁的目标物。不幸的是,目前主流的人工感知系统都是基于帧的
采集范式,这受到低时间动态和高冗余数据流的限制,导致计算成本高,画面模糊和系
统时延。因此,传统的感知和相关计算显然与基于高速的移动应用、控制设计不兼容,
这类应用对能耗和计算负载构成了严格的限制 [119, 120]。本章将提出一种利用基于异
步事件的传感器来感知碰撞风险的接触时间(TTC)的完整方法。算法从安装在空中无
人机平台上的事件传感器提供的事件流中估计 TTC。事件流是经过 3.4 节的运动补偿
矫正过的,对纯旋转引起的无关光流完成了的剔除,仅保留具有真实碰撞运动(即,相
4-1
对位置变化)引起的光流,保证了 TTC 计算的准确性。进一步利用计算的 TTC Map
对高动态环境中的目标物进行低延迟的碰撞分析,以实现最具碰撞风险目标的跟踪和
TTC Map计算
分离极性的SAE图
极性P=0:
运动补偿后
事件集
时间表面图
极性P=1:
SAE
时间表面图
(SAE)
抗噪声-鲁棒
事件光流
图像FOE
估计
主威胁
目标提取
图 4-1 基于事件的光流的目标物碰撞威胁评估算法结构图
49
目标深度及
轨迹估计
西北工业大学硕士学位论文
规避。此方法是基于事件的,能够以稀疏、低延迟的传感器输入,为算法管道提供去冗
余和无模糊的信源,实现快速响应,以满足本文所面临的高动态、实时感知任务需求。
图 4-1给出了所提算法的结构流程图。
4.3
基于事件的稀疏光流估计
图像的二维光流估计在机器人视觉任务中起着至关重要的作用,也是一项热门的研
究课题。其应用涵盖机器人自主导航、目标跟踪、分割、运动分析、双目匹配等等。虽然
自 Horn-Schunck [46] 和 Lucas-Kanade [50] 引入原始概念以来已经取得了显著进展,但
在存在快速运动和遮挡的场景下的光流估计仍然是今天的主要挑战。事件的稀疏触发,
带来了天然的算力削减;且其高采样率可以应对快速运动的挑战场景。因此,基于事件
的光流也引起了广泛的研究。在本章节,需要完成物体的碰撞风险评估,而这主要依赖
于事件光流的计算,因此,一个鲁棒且准确的事件光流估计是必要的。本节将从经典的
光流问题建模出发,引出本文对基于事件的光流算法的改进策略。
4.3.1 视觉运动流数学建模
本小节将对经典的基于灰度不变假设光流估计方法进行数学建模,这对后续事件光
4-2
流的求解带来了启发。这里主要围绕基于稀疏角点计算的稀疏光流方法——“LK”光
流展开数学建模,在一定程度上它与稀疏的事件点很相似。首先,这里定义 I(X, t) 表
x
y
像素平面
像素平面
像素平面
像素灰度 I1
像素灰度 I 3
像素灰度 I 2
第1帧
第2帧
灰度不变假设: I=
1
第3帧
I=
2
I3
图 4-2 灰度不变假设
示像素 X = [x, y] 在 t 时刻的灰度值,而 I ∈ Rm×n 表示灰度图像。LK 光流引入了一
T
种强假设:灰度不变假设。即同一个空间点,在经历一个极小的时间间隔的运动后,其
引发的像素灰度值是不变的(见图 4-2),因此有:
I(X + ∆X, t + ∆t) = I(X, t),
(4-1)
其中,∆X = [∆x, ∆y]T 表示像素的空间偏移量。该假设较强,通常仅在极小的位移下
才成立,而这恰好满足泰勒展开的条件,将式 4-1 左边在像素点 X = [x, y]T 处进行展
开,有:
∂I
∂I
+ ,
∂X ∂t
(4-2)
∂I
∂I
∂I
dx +
dy + dt.
∂x
∂y
∂t
(4-3)
I(X + ∆X, t + ∆t) ≈ I(X, t) +
∂I
这里, ∂X
=
∂I ∂I
,
∂x ∂y
,故上式整理为:
I(X + ∆X, t + ∆t) ≈ I(X, t) +
50
第4章
基于事件光流的目标物碰撞风险评估与跟踪
联合方程 4-1 与 4-3,有:
∂I
∂I
∂I
dx +
dy + dt = 0.
(4-4)
∂x
∂y
∂t
上式就是对灰度不变假设的阐释。接着将此式两边同时对时间求导,并将式子左右调整:
∂I dx ∂I dy
∂I
+
=− .
∂x dt
∂y dt
∂t
(4-5)
从上式可以看出,dx
就是像素在 x 方向的移动速度,dy
就是像素在 y 方向的移动速度,
dt
dt
这两个量对应着待求的图像光流 [u, v]T 。而
∂x
∂t
是图像在 x 方向的灰度梯度,∂y
是图像
∂t
在 y 方向的灰度梯度,分别记为 Ix , Iy 。 ∂I
则表示是图像灰度随时间变化率,也就是同
∂t
一个像素位置在连续时间流下的灰度变化率,记为 It 。将式 4-5 用矩阵表示:
 
u
[Ix , Iy ]   = −It .
v
4-3
(4-6)
上式 4-6 给出了二维光流的数学定义 v = [u, v]T 。但无法通过该式直接计算出结果,因
为它是一个欠定方程组(一个方程中要求解两个未知数)。这个式子其实也反映了光流
估计中的一个问题:孔径问题(Aperture problem)
。孔径问题描述了在某个局部像素位
置,很难估计出正确的光流方向,如下图 4-3:
真实运动方向
?
a点的光流
难以确定
图 4-3 孔径问题
要解决这个问题,可以引入额外的约束来增加方程数量。通常的做法是,利用一个
固定的窗口内的所有像素共同求解一个光流向量,即认为该窗口内的所有像素拥有相同
的光流矢量。这里假设窗口的大小是 w × w:
 
i
h
u
  = −Itk , k = 1, 2, 3..., w 2 .
Ix Iy
k
v




I
I
I
 x1 y1 
 t1 
h
i
.
.


 .  .
..
其中定义 Ix Iy
=
 = A,Itk =  ..  = b,那么有:




k
Itk
Ixk Iyk

A
(4-7)

u
v
 = −b.
51
(4-8)
西北工业大学硕士学位论文
此时,方程 4-6 就被转化为 4-8 的超定方程。对该式子的求解办法一般是构建最小
 
二乘解:
û
  = −(AT A)−1 AT b.
(4-9)
v̂
从公式 4-1 到 4-9 对经典的“LK”光流进行了完整的数学推导和求解,目前大多数的
算法改进都是在这个模型基础上进行增改。
上述过程有两个点需要注意:一是局部的光流一致性约束,它很好地解决了孔径问
题,但是其局部块的尺寸需要严格限制,对于运动剧烈的场景,可能像素点运动超出了
这个邻域,此时会求解失败。二是真实求解时,帧是不连续的,仅能得到若干时刻的像
素信息,而像素的梯度又仅在局部有效(应用了泰勒展开)
,此时求解时可能需要多次迭
代才能从一帧到达下一帧,这也导致求解失效。以上两个问题实质上都反映了灰度不变
假设所需要的无穷小时间间隔采样需求与基于帧的延迟采样之间的矛盾,致使在高动态
场景下的传统光流估计受限。令人振奋的是,事件传感器的极高时间采样率和高动态场
景的适应性恰好更为满足灰度假设,这赋予了事件传感器在光流求解方面的巨大潜力。
然而,事件并无绝对灰度图输出,上述公式需要在新的信息范式上重新展现。
4.3.2
基于局部梯度的事件光流算法设计
受到传统光流方法的启发,目前比较主流的事件光流方法也是基于局部梯度的。在
套用上一小节的思想时,首先要做的是恢复一个可表征运动的“图像”,并在这个图像
上求解运动梯度。本小节提出一种基于时间表面图像(详见 2.3.1 节)的局部梯度光流
方法。重点解决数据噪声抑制、光流模长求解稳定性以及图像遮挡等问题下的光流估计
问题,从而在低信噪比事件信源中恢复鲁棒准确的光流。所提的光流估计算法主要分为
以下几个步骤。
1)活动事件表面(SAE)或时间表面(TS)图像构建
活动时间表面编码 (SAE) 是一种可以逐事件处理或批量事件处理的常用的表达方
式。它记录了整个画面上的最新事件,是对事件信息的时空表示。它的每个像素值表示
P
发生在该位置的上一个最新事件的时间戳。用曲面 e 表示,并用一个函数将二维像素
值映射到事件的时间戳,定义如下:
P
: R2 → [0, +∞),
P
p : e (p) = t.
e
(4-10)
其中,p = [x, y]T ∈ 2 表示像素坐标。SAE 图记录了物体在像平面的运动轨迹,因此很适
合通过 SAE 图来回复出事件的平面运动流。它形成了一个光流运动的曲面(如图 4-4)
。
2)基于 SAE 图的事件运动流求解
P
要从 SAE 曲面上求解出运动流,首先需要对 e 求一阶空间导数:
P
P
X
∂ e X
∂ e
=
,
=
.
ex
ey
∂x
∂y
52
(4-11)
第4章
基于事件光流的目标物碰撞风险评估与跟踪
图 4-4 活动事件曲面(SAE)
如此,就可以写出在像素 p 处附近的增量:
X
X
XT
(p + ∆p) =
(p) + ∇
∆p + o(∥∆p∥),
(4-12)
e
e
e
∑ ∑ T
P
∂
∂
这里,∇ e = ∂xe , ∂y e 。
P
P
假设 e 函数是严格空间递增的函数,则它的梯度永不为零,所以 e 在任何点上
都是非零导数曲面。在此假设下,就可以利用这个曲面梯度的逆函数来求解位置 p 处
的运动流:
因此,曲面
T
∑
∑
∂ e
∂ e
(x,
y
),
(x
,
y)
0
0
∂x
∂y
T
1
1
.
= vnx (x,y
,
0 ) vny (x0 ,y)
P
e
=
∑
d e |y=y0
dx
(x),
∑
d e |x=x0
dy
T
(y)
(4-13)
的空间梯度就是所要计算的光流的倒数。上述公式中的 vn = (vnx , vny )T
表示光流的水平和竖直分量。
3)光流稳定性求解
利用上面的过程直接计算事件光流存在着一些问题。第一个问题:用孤立点计算的
曲面梯度受噪声影响较大,鲁棒性不强。因为过程中要对每一个像素点单独计算梯度,
这会受到噪声干扰,造成求解的不稳定性。针对这一问题,需要通过一些正则化的方法
来提升抗噪能力。这里借用了传统方法的局部区域光流一致性约束来帮助求解,即统一
地计算一个局部块的平均梯度(例如,3*3 的邻域块)
,以提升梯度计算的稳定性。这也
P
P
就意味着曲面 e 在一个小区域内是一个平面,因为局部的速度一致性代表了 e 在一
个局部拥有着同样的空间变化率。这个拟合的平面与时间轴组成的夹角(也就是斜率)
与光流速度成正比。此外,这种基于块的拟合还可以弥补某些像素点的事件缺失带来的
问题。因此,使用这种正则化约束的方法也可以叫做局部平面拟合方法。
第二个问题:公式 4-13 假设时间是空间的严格递增函数,这样其局部导数就永远
不是零,倒数才可以求解。然而在实践中,这些导数通常为零或非常小,这可能是硬件
噪声或传感器的偏置的不一致性,或者一些特殊的运动导致的。譬如,考虑这样一种
运动:当 DVS 记录一个移动的物体边时,它会触发一列具有相近时间戳的事件。当这
条边以沿这 x 轴或 y 轴运动的特殊情况下,这条触发的事件列会出问题,由它计算的
53
西北工业大学硕士学位论文
SAE 曲面的梯度沿与该边运动的垂直方向会消失一个分量(该方向上梯度为零,或近
似为零)
。而方程 4-13 将会错误地将该情况解释为沿边缘方向存在着无限快的运动,但
实际上却是零。为了避免求取这些消失的梯度的倒数,可以尝试一种阈值截断:梯度幅
值低于某一阈值对应的光流分量直接设置为零。然而单纯的截断也会引入额外的问题:
考虑一个方向接近 y 轴的旋转边的光流向量的 y 分量将会被截断为零,因为 y 导数接
近于零,但实则是一个很小的值。因此,只有当边缘方向远远不够垂直或水平时,上述
公式产生的流向量才是正确的。
一个更好的解决方法是将所求的梯度通过模长归一化处理以得到鲁棒的运动光流,
即将梯度单位向量化,并乘以其模长的倒数以获得正确的长度:



P
vnx
1

 = ∇P e = P

P
2
2
2 ·
|∇
|
(∂
/∂x)
+
(∂
/∂y)
vny
e
e
e
∑
∂ e
∂x
∑
∂ e
∂y

.
(4-14)
如此很好地将由特殊运动引起的梯度问题解决。根据上式,当一个方向的梯度消失时,
它的光流将也会趋向于 0。然而,该方法对于两个方向的梯度都即将消失时的情况仍是
不稳定的。这种情况一般是由于传感器硬件的不一致性或物体表面材质所引起的事件触
发不一致造成的,此时该光流大多数是实际不存在的。因此,本文提出一种结合梯度模
长归一化和梯度极小值抑制的方法,更全面地考虑由于特殊运动,噪声和传感器不一致
性等问题导致的光流求解不稳定性。
I)首先,算法利用一个对小值有很好抑制的非线性双曲对勾函数来实现对梯度极
小值的抑制:
∇
X
′
e
= F (∇
X
e
(4-15)
).
其中,双曲对勾函数 F 的具体形式如下:
b
F (x) = a · x + , x ∈ (−∞, 0) ∩ (0, +∞), a > 0, b > 0.
(4-16)
x
它是一个奇函数,以坐标原点中心对称,分布在第一和第三象限,函数图像如图 4-5。
20
15
10
5
0
-5
-10
-15
-20
-10
-8
-6
-4
-2
0
2
4
图 4-5 双曲对勾函数示意图
54
6
8
10
第4章
基于事件光流的目标物碰撞风险评估与跟踪
q
√ ab ,函数值先减后增,在第三象限的转折点为
在第一象限内,其转折点为
q
√ b
− a , −2 ab ,函数值先增后减。其奇函数特性正好符合曲面梯度的正负性。该函数
b
,2
a
由两个渐近线,分别是 y 轴和 y = ax 两支曲线。
选取该函数的原因是它在完成对极小值梯度抑制的情况下,保证了正常梯度的不变
性:1)当自变量,即梯度呈现极小量时,此函数将输出一个极大值;2)通过控制渐近
线 y = ax 的斜率 a = 1,算法可以保证正常梯度的模长不变性。此外,对于函数拐点
q
√ b
± a , ±2 ab 的选择,可以通过梯度模长的统计特性和具体运动场景来设置 b 的值,
以控制选择梯度抑制门限。
II) 接着,将经过双曲对勾函数极小值抑制后的梯度 ∇
到最终的稳定光流:


P
′
e
进行模长归一化处理得

vnx
vny
P′
∇
e
=
P ′ 2.
∇ e
(4-17)
下图4-6给出了所提出的光流稳定性求解方法与仅使用模长归一化方法求解的对比:
(a)梯度倒数光流
(b)模长归一化光流
(c)所提方法
图 4-6 光流模长求解方法对比(图中 x,y 为像素坐标,u,v 为光流矢量)
3)事件噪声滤除
由于事件相机的高动态性是屈服于高噪声条件下的,逐像素计算的光流估计一个需
要克服的问题就是噪声抑制。若上述光流直接由原生 SAE 曲面进行计算,会受到噪声
的影响导致很多错误虚假光流结果。因此,需要将有效信息从包含噪声的事件流剥离出
来。为了更好地实现去噪,这里将对所产生的事件集进行分类建模。
根据 2.3.1 节的事件相机噪声分析,可以认为最终传感器输出的事件集 F 是由理想
事件集 C 和噪声干扰的影响下共同组成:
F = {C ∩ Λ̄} ∪ Ω
(4-18)
其中 Λ 为遗漏事件集,也就是应该触发却没有触发的事件,Ω 为随机噪声事件集。相
应的,这里将触发的事件分为三类:随机激活事件 BA(Background Activity)
,闯入事
件 IE(Inceptive Event)以及跟随事件 TE(Tracking Event):
55
西北工业大学硕士学位论文
(a)累计 SAE 图
(b)SAE 时间切片
(c)二维空间最近邻滤波
(d)三维时空滤波
图 4-7 SAE 噪声抑制方法对比
BA : {ti (e) − ti−1 (e) > τ } ∩ {ti+1 (e) − ti (e) > τ },
IE : {ti (e) − ti−1 (e) > τ } ∩ {ti+1 (e) − ti (e) < τ },
(4-19)
T E : {ti (e) − ti−1 (e) < τ }.
其中,τ 是一个阈值。对上述公式的更直观解释是:当环境亮度产生一个对数强度的
变化,往往会在接下来的很短的连续时间中触发极性相同的多个事件。IE 对应于这些
事件中的第一批触发的事件,表示一条边的到达(也就是物体的轮廓)
。IE 之后是 TE,
它在数量上与触发 IE 事件的对数强度变化的大小成正比。其余的事件被称为 BA,它
们被归因于噪声或随机激活事件。对于 IE 来说,可能会产生遗漏事件,即在触发的物
体边缘产生像素层面的缺失等,这种缺失往往可以通过后续的邻域判断来弥补,因此对
于后续光流的计算不会产生较大的影响。然而,BA 事件集属于非理想事件,它们会对
正常的 IE 以及 TE 事件产生干扰,具体体现是在理想事件区域中产生峰值像素点,在
后续 SAE 图像上产生毛刺,进而对图像的整体光流计算产生巨大影响,因此需要考虑
将它们滤除。
根据 BA 事件的随机非连续触发特性,即同一块像素的两个时间相邻的噪声事件
的间隔时间是大于某一阈值的(如上公式 4-19)
,考虑利用此阈值对累计的 SAE 图进
行时空滤波。图4-7展示了与仅使用一般的空间最近邻滤波方法的对比。
最后,在完成时空滤波后,所提算法还对输出的 SAE 图像进行了峰值像素过滤,以
剔除一些“寄生”在有效事件周围的峰值噪声。
56
4-8
第4章
基于事件光流的目标物碰撞风险评估与跟踪
梯度谷
梯度侧剖曲线
示意图
SAE曲面图
图 4-8 SAE 三维视图中的运动遮挡现象
4)光流平顺化处理
利用局部梯度求解的光流仍存在以下两种问题:1)光流的全局不可导性,2)图像
遮挡导致的光流估计的错误。光流的全局不可导性主要是因为所使用的局部梯度方法的
局限性。针对此问题,本文采用一种基于滑动窗口的方法对所求梯度进行平顺化处理。
然而,遮挡问题是目前为止传统光流估计难以很好解决的一个问题。光流是对三维
空间运动问题的一个二维投影,难免丢失了一维运动信息。在包含(x,y,t)信息的 SAE
图上,这种遮挡会在时间维度上得到体现,造成 SAE 曲面局部的梯度谷(或梯度沟)
。
图4-8是一种遮挡 SAE 图的例子。在这种梯度沟位置会出现两个梯度方向,其真实的梯
度方向可能是一个坡度较小的某一方向,运动遮挡会导致其出现另一个梯度更为明显的
方向,因此该点的综合梯度方向偏向于错误的方向上,最终会导致光流的估计错误。
针对这种问题,本文提出一种新的区分事件极性的光流估计方法。将一直被忽略的
极性信息纳入光流估计问题,据文献调查所知,这是第一种考虑极性的光流估计方法。
纳入极性的主要因素。一般来说,触发事件物体边缘一般是有一定的厚度的,此时
会触发出两种极性的事件:1)触发的事件由物体边缘侵占背景产生的亮度变化导致的;
2)由物体边缘离开背景所触发的另一种相反极性的事件。当运动持续一段时间,运动
轨迹大于其边缘厚度时,就会产生两种极性事件的叠加遮挡,也即图4-8中的情况。这种
运动导致的遮挡,可以通过分离两种极性的数据来避免。具体来说:
1)将收集到的事件云按极性分为两个点集:Epos , Eneg 。
2)分别构建两个独立的 SAE 曲面、去噪和光流估计流程。
3)将两组计算好的光流进行融合叠加,得到最终的光流输出。
这里,给出分离事件极性的光流估计测试(图 4-9)。
综上,本章所提的事件光流算法在抗噪声、模长求解稳定性以及光流外点剔除和运
动遮挡等问题上均进行了考虑,旨在提供一种适合于无人机平台上的快速准确光流估
计,为目标物碰撞风险评估任务提供可靠支撑。本节算法使用 C++ 实现,算法的伪代
码如下:
57
西北工业大学硕士学位论文
4-9-2
(a)未分离事件极性的光流结果
(b)分离事件极性后的光流结果
图 4-9 事件极性对光流估计中运动遮挡问题的影响
Algorithm 4-1 基于事件的光流估计算法
.
Ne′
输入: 运动补偿后事件集 ε′ = {e′ k }k=1
输出: 光流矢量图像 V (x, y, v)
1:
根据事件的极性将 ε′ 分成 εp 和 εn 两组事件集
4:
for ei = (ei,x , ei,y , ei,t ) in εp 和 ej = (ej,x , ej,y , ej,t ) in εn do
Pp Pp
Pp
更新时间表面 e : e (ei,x , ei,y ) = max( e (ei,x , ei,y ), ei,t )
Pn Pn
Pn
更新时间表面 e : e (ej,x , ej,y ) = max( e (ej,x , ej,y ), ej,t )
5:
end for
6:
对每个时间表面图依照公式(4-19)进行时空噪声滤波
7:
设置 3x3 的邻域块 block
Pn
Pp
for blockp in e 和 blockn in e do
2:
3:
8:
9:
依照公式(4-11,4-12)计算 blockp 和 blockn 块内的平均空间梯度方向 ∇
Pp
e, ∇
Pn
11:
将所计算的空间梯度方向送入双曲对勾函数(4-125 进行模长极小值抑制得到 ∇
Pp ′ Pn ′
根据式(4-17)对梯度 ∇ e , ∇ e 进行归一化求解最后的光流矢量 v p , v n
12:
将两个曲面对应的光流矢量融合叠加 v = 12 (v p + v n )
13:
将此光流 v 赋给光流矢量图像 V 对应的 block
10:
14:
end for
15:
对计算得到的光流矢量图像 V (x, y, v) 进行滑动窗口平顺化
16:
return 光流矢量图像 V (x, y, v)
与之对应的算法流程图如图 4-10:
58
e
Pp ′
e
,∇
Pn ′
e
第4章
基于事件光流的目标物碰撞风险评估与跟踪
开始
构建时间表面
n
图像 Σ e
p=-1
p=1
事件e
极性p?
构建时间表面
p
图像 Σ e
Σ en 时空相关滤波
Σ ep 时空相关滤波
计算梯度方向 ∇Σ en
计算梯度方向∇Σ ep
梯度模长极小值抑制
梯度模长极小值抑制
矢量光流计算
矢量光流计算
光流叠加
光流平滑
结束
图 4-10 算法流程图
基于事件光流的碰撞时间 Map 估计
4.4
本节将基于上一节输出的精确、鲁棒光流,给出目标物的碰撞风险评估 Map。这个
Map 是基于二维光流和图像扩展焦点(FOE)共同计算。下面将分别对 FOE 和 TTC
Map 估计展开介绍。
4.4.1
图像的扩展焦点估计算法设计
扩展焦点(FOE:Focus of Expansion)是机器人的运动方向(或航向方向)在传
感器的图像平面上的投影。它描述了三维世界的运动在焦平面上的投影矢量的交点(见
图 4-11)。所有光流的方向与航向息息相关,与三维结构无关;而光流的模长则取决于
该扩展焦点所在的像素位置和触发光流的物体深度。FOE 是从相对运动中提取出来的,
在视觉导航的不同应用中起着重要的作用。FOE 最常用的用途是计算到世界上各个点
的相对距离,从而重建世界的三维结构。另一个常见的用途是估计撞击的时间(TTI:
Time To Impact)。因此,在运动控制,特别是碰撞警告系统和避障领域经常应用。
本文需要像平面的检测的目标物进行碰撞风险评估,这需要得到一个准确且稳定的
59
4-11
西北工业大学硕士学位论文
FOE
光流估计
图 4-11 图像扩展焦点(FOE)示意图
展开焦点估计。FOE 的数学定义是图像中与光流场的所有向量的交叉积最小的点,即
使每个像素的光流与该像素同 FOE 点的连线构成的矢量的叉积最小。因此,原则上,
FOE 可以通过径向流型中的两个矢量的三角剖分得到。然而,在真实任务存在大量噪
声和光流计算的不准确性,会造成较大的估计不稳定性。因此需要批量的数据来估计出
最为准确的扩展焦点,以提升结果的置信度。然而,若考虑引入全部光流来计算此点,
虽然在精度上有很大保障,但会消耗大量计算资源,影响整个管道的实时性,这是本文
所提任务所不希望的。本节考虑使用一个局部的光流窗口来收敛一个以 FOE 点为参数
的代价函数,去求解该扩展焦点,在保证批处理的同时,维持一个可以承受的运行时间。
此外,TTC 的定义是在目标物与机器人本体发生相对位置变化才会产生有实际意
义的值。然而无人机平台存在激进性运动,不可避免地会出现对碰撞时间估计无意义的
旋转运动(平台的纯旋转不会导致两者间位移的变化,但却会引发显著的光流),而这
会对基于光流的 FOE 的估计产生直接影响。而得益于本文前面的工作——基于运动补
偿的目标检测,恰好可以将平台的三维旋转抑制,所以本文的事件光流和 FOE 估计均
是基于运动补偿后的事件云去处理的。
基于代价优化的图像 FOE 估计。考虑一个无人机以恒定的速度 V = (Vx , Vy , Vz )T ,
沿着其光轴向一个三维世界中的固定点 P = (X, Y, Z)T 移动。此时 FOE 是点 P 所在
的焦平面上投影点所对应的像素 pF OE = (xf , yf )T 。回想一下,FOE 是一个模长为零的
流矢量,且所计算的光流场与该点成径向发散(见图 4-12)。此外,越靠近 FOE 的像
素点的光流的模长越小,而外围的光流则模长越大。FOE 的求解仅依靠其周围的光流
的径向散度信息(即方向)就足够了,这意味着可以忽略周围光流的大小而仅考虑其方
向,从而增强求解的稳定性。
根据上面的分析,可以通过光流图像和一个选择滤波器来确定一个窗口,计算 FOE。
这个窗口以中心点为原点建立笛卡尔坐标系网格,网格对应的每个像素代表着该像素坐
标与原点的夹角(也就是径向方向,散度方向),如图 4-13。该窗口内每个像素值的数
学定义如下:
D(m, n) = arctan
n
, − w ≤ m ≤ w, − h ≤ n ≤ h.
m
60
(4-20)
第4章
4-12
基于事件光流的目标物碰撞风险评估与跟踪
X
航向方向P=  Y 
Z
 
 Xo 
 
o 
Z 
 o
目标物O=  Y
FOE: p f
=  x f
y f 
o = [ xo
v = [ xo
图 4-12
yo ]
T
T
 X o 
  
速度V=  Yo 
  
 Zo 
y o ]
T
无人机平移运动时 FOE 与平面光流示意图
图 4-13 滤波器网格(所有像素值表征相对于中心点的径向方向矢量)
即仅考虑像素的径向方向,这里(m,n)表示网格的坐标,w、h 分别表示匹配滤器
窗口的宽、高。
基于上一节的光流估计,得到了一个准确的光流图像 V(x, y, v),其每个像素值表
.
示一个二维光流 v(x, y) = (vx , vy ),分别表征了该点沿水平和竖直方向的速度。至此,可
以构建一个目标函数来求解光流图像平面下的 FOE 像素 pF OE (xf , yf ),该目标函数定
义如下:
pF OE (xf , yf ) = arg min J(x, y).
(4-21)
(x,y)
代价 J(x, y) 具体为该窗口内像素的径向方向 D(m, n) 与该处的光流方向的误差的平分
和。同时,由于没有考虑光流的模长大小,因此需要一个权重因子来选择参与求解的光
流像素点,从而去除可能的噪声影响,进一步提升鲁棒性(譬如,要给在 FOE 点外围
的像素一个更大的权重,因为远离 FOE 点处的像素应当有更大的光流模长,它对噪声
不敏感,更值得信赖)。最终,该代价函数的具体形式定义如下:
61
西北工业大学硕士学位论文
J(x, y) =
h P
w
P
ψ(v(x, y)) ·
φ(v(x + m, y + n)) · [D(m, n) − α(v(x + m, y + n))]2 ,
m=−w n=−h
(4-22)
其中,
vx
α(v(x, y)) = arctan ,
vy
(4-23)
表示像素 (x,y) 处光流的方向,同时 φ(v(x, y)) 则表示相应的权重函数,它的具体形式
如下:

 1, v 2 + v 2 ≥ τ
x
y
threshold
φ(v(x, y)) =
,

0, otherwise
(4-24)
其中,τthreshold 为一个预定义的阈值,本工作中它的值接近于零,意味着一个模长接近
于零的光流或者噪声将不会被记入误差平方和,这保证了求解过程的稳定性和准确性。
最后,ψ(v(x, y)) 记录了所有参与计算的像素数:
w
h
X
X
ψ(v(x, y)) =
!−1
φ(v(x + m, y + n))
.
(4-25)
m=−w n=−h
选择滤波器设定。这个滤波器通过匹配一个 w*h 窗口来选择一个最有可能包含
FOE 的区域。具体来说,算法筛选一个光流图上得分最高的窗口。窗口的分数由光流
的方向的丰富度来度量,即窗口内的光流方向覆盖方向越大(最大 360 度),则窗口得
分越高。其次,这个选择滤波器的窗口大小是可调整的,最差的情况是扩展到整个光流
平面。
4.4.2
碰撞威胁评估 TTC Map 计算
在本小节,将描述接触时间的原理,并展示基于光流和 FOE 的 TTC 估计方法,得
出一张风险评估 Map。进而给出对所有目标物的碰撞威胁评估,以提取主威胁目标。
视觉 TTC 原理
假设目标物在相机坐标系下的位置为 P = (xc , yc , zc )T ,而 p = (x, y)T 是它在像素
坐标系的投影。此外,假设由相机和目标物相对运动产生的速度 V = (Vx , Vy , Vz )T 投影
到焦平面为 v(x, y)T 。在图像的 FOE 点 pf = (xf , yf )T 坐标已知的情况下,通过相机的
小孔成像原理,得到以下关系:
Tttc = −
其中,żc =
dzc
, ẋ
dt
=
dx
, ẏ
dt
=
dy
,
dt
y − yf
zc
x − xf
=
=
,
żc
ẏ
ẋ
(4-26)
分别表征物体的 z 轴运动速度和像素平面的运动速度。
因此,根据上面的公式可以推出 t 时刻,在像素位置 p 的接触时间:
Tttc (p, t)v(p, t) = p − pf ⇒ Tttc (p, t) =
v T (p, t)(p − pf )
.
∥v(p, t)∥2
(4-27)
从 TTC 的计算公式可以看出,它是一个有符号的实数,因为它是由矢量的点乘所得到
的。其符号表示着目标物较成像平面的运动方向:当值为正时,表示目标正在靠近,反
62
第4章
基于事件光流的目标物碰撞风险评估与跟踪
之,则表示物体正在远离。若不考虑 TTC 的符号,TTC 可以简化为如下公式:
Tttc (p, t) =
∥p − pf ∥
.
∥v(p, t)∥
(4-28)
该公式定性地给出了像素位置与其光流大小对 TTC 的影响:TTC 的大小会随着像素
位置距离 FOE 的减小或者其光流模长的增加而减小,也就是说:目标物越接近扩展焦
点或者目标的运动速度越大,其对应的碰撞风险就越高,符合正常认知。
最后,通过逐像素计算整幅图像的 TTC,获取了相应的碰撞危险评估图,将其映
射到所提取的动态目标区域,提取威胁程度最高的主目标,即:
Targetmain = min{targetttc }.
(4-29)
主威胁目标物状态跟踪
4.5
在完成视场内的高威胁运动目标的提取后,感知任务的最后一步就是对该目标物进
行三维轨迹跟踪,为无人机提供可靠的规避信息。为实现目标的三维轨迹跟踪,还需恢
复该目标物在机体系下的深度。本节将从目标物的深度恢复方法和基于 EKF 滤波器的
轨迹估计展开。
4.5.1
主威胁目标深度恢复算法设计
在相机成像投影的过程中,深度信息被丢弃(见 3.3.1 节),且此过程是不可逆的,
即无法反推投影模型来恢复像素点的深度。这里设目标的 t 时刻的深度用 Z(t) 来表示,
对于主威胁目标物的深度恢复可以分为以下几种情况:
1)假设目标物深度 Z(t) 可以被直接测量得到,(使用主动深度传感器,如深度相
机等),则深度可直接用深度传感器与事件像素进行匹配校准获得。
2)单目情况。在仅有单个事件相机的情况下,无法直接从单个像素点的图像中计
算出深度,需至少知晓额外的目标物尺寸信息,依照相似三角形关系求解深度:
Ẑ(t) =
f · wreal
.
wcast
(4-30)
其中,f 是相机焦距,wreal 是真实物体的尺寸,wcast 而是投影平面的物体尺寸。
3)双目情况。拥有两个视角的同时观测,可以通过匹配两图像中对应的目标簇之
间的视差来估计深度。这种配置方案允许未知物体的尺寸的情况。为实现相应簇之间的
匹配,这里采用一种计算匹配代价的方法:
J = wp |Oc,lef t − Oc,right | + wn · max
nlef t nright
,
nright nlef t
− 1.
(4-31)
其中,wp , wn 是权重系数,Oc 表示目标物的聚类中心像素坐标,n 表示聚类簇的事件
总数量,而下标 lef t 和 right 表示左右相机。从上式可以看出,这里使用聚类中心来
代替整个目标簇来计算匹配,这增加了计算的鲁棒性同时大大降低了计算量。当代价 J
得到最小值时,目标匹配就完成了,进一步采用经典的视差法计算出目标深度。
63
西北工业大学硕士学位论文
完成对目标的深度恢复,需要将其从相机坐标系转换到世界坐标系中(见式 3-9),
获取世界系下的目标点三维位置 Pw (x, y, z)。
4.5.2 基于 EKF 的主威胁目标跟踪算法设计
上一小节恢复了主威胁目标的深度并将其三维坐标转换到了世界坐标系下。这样,
在每一次处理周期内,都获取了一个目标物绝对位置的量测信息。接着,考虑使用一个
扩展 Kalman 滤波器(EKF)实现对运动目标的三维位置和速度的状态跟踪,从而满足
未来轨迹规避的需求。选用该模型的原因有两个:1)基于事件的检测受较大的噪声干
扰,目标的检测精度难以保证,特别是较小的目标。EKF 可以过滤这种噪声,提升跟踪
的稳定性;2)考虑一般的三维世界中的运动大都是非线性的,需要对物体的位置和速
度矢量都进行较为准确的描述才能更好地完成障碍物的规避。
具体的,本文选用一个恒定加速度(重力加速度 g)运动模型来实现此 EKF 滤波
器。系统状态包括世界坐标系下目标物的三维位置 X 和速度 V。考虑一般的自由落体
物体运动模型,其位置和速度的关系如下:
1
Xk = Xk−1 + Ẋk−1 ∆t + g∆t2 ,
2
(4-32)
Ẋk = Vk ,
(4-33)
V̇k = [0, 0, g],
(4-34)
∆t = tk − tk−1 .
(4-35)
在此模型下,设计如下 EKF 系统:

 ^
xk = F(^
xk−1 ) + vk
,
 z = H^
x +w
k
k

^
x=
(4-36)
k

X
,
(4-37)
V
1
F = x + ẋ∆t + g∆t2 ,
2
h
i
H= I3×3 03×3 .
(4-38)
(4-39)
其中,系统的过程噪声服从 v ∼ N (0, Q),相机的量测噪声服从 w ∼ N (0, R)。F 是运
动模型,H 为观测矩阵,由于输入的量测仅有物体的三维位置信息,故 H 阵仅前三列
有值(位置状态)。
至此,本文将从传感器数据输入到主目标物跟踪的完整感知管道介绍完毕。力争通
过 3,4 两章节完成无人机在动态环境中的快速目标感知任务,为其提供可靠的感知前
端,以实现安全、快速的导航。
64
第4章
4.6
基于事件光流的目标物碰撞风险评估与跟踪
算法物理实验验证与分析
本节将对本章所提进行定性和定量实验分析,包括对所提的事件光流相关的验证试
验和碰撞威胁 TTC Map 的验证性实验以及对应的结果分析。实验涉及室内室外等多种
多样的场景,以实现对所提算法的全面测试。
4.6.1 事件光流验证实验
本章所提事件光流算法主要在噪声抑制,模长稳定性求解和运动遮挡等问题方面做
出工作,本小节也将针对这几个方面对所提算法进行实验验证,检验算法面临这类问题
的性能。
(a)转盘
(b)靶标
图 4-14 光流实验测试场景
实验场景与数据收集。为了能够测试光流估计的准确性,这里选用一个可以旋转的
转盘和一个靶标图来作为事件触发输入(见图 4-14)。在转盘数据录制时,事件传感器
固定不动,转动转盘。转盘上有一个黑色细条,当转盘旋转起来,黑色细条也会随之旋
转,从而与白色背景之间产生亮度变化,沿着黑条边缘触发一系列事件。此外,根据几
何关系,可以得出旋转产生的光流矢量的模长应随着半径的增加而增加,即转盘中心的
光流小,圆周上的光流大,这可以作为验证光流求解正确与否的一个依据。在靶标场景
中,选择固定靶标图案,通过不断改变相机的位置,来触发事件流。靶标图能够引起全
向的光流(当相机沿着靶标中心轴移动时),这样可以测试所有角度光流计算的稳定性,
特别是在光流的某一分量会消失的水平或垂直位置。同时,不同半径的环也可以界定出
光流模长的正确性。综上,选取的这两幅图案能够对光流计算的稳定性和正确性起到很
好的验证效果。除此以上两个场景外,还收集了大场景下的数据,以测试噪声抑制能力。
SAE 图像噪声抑制评估。良好的信源噪声滤除对任何算法的鲁棒性和准确性都起
着至关重要的作用。在这里,本节使用多个实验序列验证所提的时空滤波方法,包括有
不同转速的转盘序列,靠近或远离靶标的序列以及模型车靠近和复杂场景序列。从实验
结果(图 4-15)可以看出,不管是所提的时空滤波还是空间二维滤波,都能够将物真实
事件发生的稀疏位置噪声滤除,但对于那些混杂在正常事件流内的噪声,使用现有的空
间近邻原理的滤波方法却无能为力,而通过事件的时空相关性展开滤波的思路依旧能够
将此类噪声实现较好地抑制。且这类混杂在真实事件内的噪声会对进一步光流的估计产
65
西北工业大学硕士学位论文
生直接的影响. 因此,所提方法更好地将噪声抑制,提供了更为平滑的 SAE 曲面,对曲
面梯度计算稳定性带来极大的帮助。此外,这里给出了更量化的 SAE 图像的散度指标
来对比两种噪声抑制方法的性能:
Ddivergence =
poccupy
.
ptotal
(4-40)
这里,poccupy 代表滤波后 SAE 图像上的占据像素块数,ptotal 表示图像的总像素数。D
值越大代表图像更为分散,反之则更为聚集,因此更小的 D 值反映了更优异的滤波能
力。表 4-1 展示了所提方法与二维滤波方法的 SAE 图密度对比,所提方法在该指标上
均优于对比组。
此外,从表 4-1 中的数值也反映出一个事实,所有的 SAE 图的数据稀疏性较大(D
值 <0.2)
,即事件数据的占有率很低。从这个角度也反映了事件的低数据冗余性,这很
好地降低了光流计算负载。
表 4-1
SAE 图像散度(数据来自于图 4-15)
实验序列
二维空间近邻滤波
所提时空滤波算法
序列 1(靶标 1)
序列 2(靶标 2)
序列 3(转盘 1)
序列 4 (转盘 2)
序列 5 (火车)
序列 6 (箱子)
0.1365
0.0669
0.0126
0.0416
0.0181
0.1736
0.1027
0.0604
0.0118
0.0402
0.0105
0.1278
事件光流估计结果分析。在运动补偿后数据流输入后,按照事件极性将事件集分为
两个类群并构建对应的 SAE 曲面。而后再根据时空滤波后的纯净 SAE 曲面,计算局
部梯度,并对梯度进行极小值抑制和模长归一化步骤,最终所提算法输出了鲁棒而精确
的光流结果。图4-16以三图为一组展示了相应的光流结果,包含光流的矢量可视化结果,
三维 SAE 梯度图(x,y,t)和三维光流模长图(x,y, 光流模长)。从光流矢量图可以看出
所有场景均输出了准确而稳定的结果,其中靶标场景(图中前两行)测试了算法在所有
方向的光流估计的能力,图中的局部放大展示了某一局部块的光流。转盘场景测试了算
法在光流模长求解方面的优异成果,从对应的三维光流模长图可以看出光流模长由转盘
中心至边缘线性增加(图中三、四行结果),这与实际保持一致。最后的火车模型和箱
子场景,测试了所提算法在非规则结构下的光流估计能力,图像结果同样展示了准确的
结果。此外,可以看到本章所计算的光流是与稀疏的 SAE 图像保持一致的,同样是稀
疏的。这体现了事件的稀疏性带来的低计算负载。
综上,所提事件光流算法在鲁棒性和准确性方面均取得了较好的结果,这将为进一
步的目标物碰撞分析提供良好的数据源。
4.6.2
目标物碰撞风险评估实验
光流估计后,经由所提图像 FOE 估计算法,并依据式 4-27估计出每个像素的接触
时间,最终绘制出 TTC Map。本小节将通过静态/动态环境以及室内外场景对基于事件
66
第4章
基于事件光流的目标物碰撞风险评估与跟踪
光流的 TTC 算法进行实验验证,所有数据均收集于 3.6.1 节所搭建的无人机飞行平台。
室外场景实验。共录制了两组数据用于测试所提算法在室外场景的碰撞威胁评估能
力,一组使用有 RGB 帧输出的 DAVIS346 相机在复杂道路场景中录制,另一组则使用
高分辨率的 DVXplorer(无帧输出)录制,且数据场景中包含静态的环境和动态车辆及
抛射的物体等多种情景。在 DAVIS346 的实验中,使用彩色图像帧,SAE 图以及最终
的 TTC Map 展示最终的结果(见图 4-17),而对于无帧输出的 DVXplorer,则补充了
TTC 的三维视图(第三维是预估的碰撞时间,图 4-18)
,图中的色棒表示预估的碰撞时
间。从实验结果可以看出,所提算法在两组实验中均对视场中的各个物体实现准确的评
估,并用色标凸显出其中最具碰撞威胁的部分。这部分将会与先前提取的移动目标相匹
配,获得主威胁目标,完成下一步的深度恢复和轨迹跟踪任务。
室内场景实验。室内场景的测试主要使用高分辨率的 DVXplorer 完成,录制了多次
多目标物的抛射实验,来模拟无人机飞行路径中的随机障碍物。实验序列中包含“一球
靠近,一球远离”,
“多球远离”以及“多球同时靠近”等场景。这样的实验设置是为了
更综合地测试碰撞评估算法在各种突发状况下的态势感知能力。从实验结果(图 4-19)
可以看出,所提方法能够对视场中的多种目标物评估碰撞的潜在时间,并由色标凸显不
同的威胁程度。图中第 1 行可以看出靠近的目标呈橙红色,而远离的目标则呈现蓝绿
色;第二行中三个物体均远离机体,故碰撞评估均呈现蓝色;图中 4,5,6 行则展示了
多个同时靠近目标的三个连续序列,最开始三个物体基本在同一水平线,故威胁程度相
近(第 4 行),但三者的靠近速度不同,随着时间的推移,三者的碰撞威胁程度的逐渐
产生差异,而这种差异就是提取主威胁目标的主要依据(第 5,6 行)
。此外,图 4-20还
展示了一些其余室内场景实验结果(图 4-15 ∼ 20 的图片较大,均放置在本章末尾)
。
综合室内外多次实验,证明了所提运动目标物碰撞威胁评估算法的可行性和有效
性,能够稳定地标记出视场内最具威胁的运动物体,为无人机提供了主要风险信息,提
升了其对动态障碍物的规避成功率。
4.7
本章小结
本章承接了第三章的感知输出,主要处理有限机载平台下的主威胁目标物的感知问
题。第三章输出了检测的多个运动目标,对于无人机的规避任务来说,难以也不需要对
所有目标都进行完善的状态跟踪,最紧迫的是完成对视场内最具威胁性障碍物的状态估
计,保证感知实时性并提供关键避障信息。本章针对次问题提出了基于事件光流的目标
物碰撞威胁评估算法。算法主要在精确鲁棒的事件光流估计上挖掘:在噪声抑制、运动
遮挡以及光流求解稳定性等方面作出相应的改进工作。光流实验结果验证了所提算法可
靠的光流输出,能为后续的风险评估提供准确信息。此外,通过运动目标碰撞分析实验,
对场景中的多运动目标的潜在碰撞威胁分析,并凸显出其中最具威胁的部分,证明了算
法有效性。最终,本章和第三章共同构成了复杂动态环境下无人机低延迟目标感知问题
完整解决方案。
67
西北工业大学硕士学位论文
(a)原始 SAE 图
(b)二维空间滤波
图 4-15 SAE 图噪声抑制方法对比
68
(c)所提滤波方法
第4章
(a)光流矢量图
基于事件光流的目标物碰撞风险评估与跟踪
(b)三维 SAE 梯度图
图 4-16 光流估计结果
69
(c)三维光流模长图
西北工业大学硕士学位论文
3
2.5
2
1.5
1
0.5
0
-0.5
2.5
2
1.5
1
0.5
0
-0.5
-1
3
2.5
2
1.5
1
0.5
0
(a)RGB 图像帧
(b)SAE 图
(c)TTC Map
图 4-17 室外场景 TTC 实验 1
10
5
0
-5
-10
2
1.5
1
0.5
0
-0.5
-1
-1.5
0.2
0.15
0.1
0.05
0
-0.05
-0.1
-0.15
-0.2
-0.25
-0.3
(a)SAE 图
(b)TTC Map
图 4-18 室外场景 TTC 实验 2
70
(c)三维 TTC
第4章
基于事件光流的目标物碰撞风险评估与跟踪
0.15
0.1
0.05
0
-0.05
0.3
0.2
0.1
0
-0.1
-0.2
-0.3
-0.4
1.5
1
0.5
0
7
6
5
4
3
2
1
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.5
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
(a)SAE 图
(b)TTC Map
图 4-19 室内场景 TTC 实验 1
71
(c)三维 TTC
西北工业大学硕士学位论文
0.5
0.8
0.6
0.4
0
0.2
0
-0.2
-0.5
-0.4
-0.6
-0.8
-1
-1
(a)相机远离,球靠近
(b)靠近杯子 1
3.5
0.8
3
0.6
2.5
0.4
2
0.2
1.5
0
1
0.5
-0.2
0
-0.4
-0.5
-0.6
-1
-0.8
-1.5
(c)靠近杯子 2
(d)靠近远近不同的两个箱子
图 4-20 室内场景 TTC 实验 2
72
第5章
第5章
5.1
总结与展望
总结与展望
工作总结
随着智能化系统的快速发展和进步,机器人应用逐步迈向更为复杂、危险的场景中
来。轻小型无人机系统凭借其灵敏的机动性和低廉的成本,在战场态势感知,灾难现场
搜救以及物流配送等领域必将受到广泛关注。本文以轻小型旋翼无人机的快速鲁棒感知
为研究对象,主要解决现有无人机感知算法在动态复杂环境中目标感知时延与感知鲁棒
性等问题,为无人机的安全导航提供可靠的环境感知信息。本文给出了由事件驱动的完
整动态目标感知方案,包括运动目标检测和主威胁成分提取及跟踪。主要研究成果如下:
1)指出了现有基于帧的视觉感知算法在高动态环境和资源有限的机载平台下的局
限性,难以适用于无人机快速感知任务。同时引入生物启发式事件传感器,它的高时间
分辨率,无运动模糊,低数据带宽等特性都很好地符合快速运动分析任务。但基于事件
的目标感知方法也存在一些问题:事件存在范式转移,需要开发新的感知算法;此外,
现有的方法无法同时兼顾感知的准确性和实时性。针对上述问题,提出了一种基于传感
器融合的运动目标检测算法。利用 IMU 对机体三维运动信息的量测,为运动补偿算法
提供运动参数,极大的削减求解自身位姿的算力消耗。引入非线性补偿函数,同时考虑
不同像素位置的补偿位移,以提升基于量测方法的运动补偿精度,进而提升整体目标感
知的准确性。设计了一个联合聚类代价函数,通过抑制噪声,融合目标运动属性和空间
位置关系得出抗噪声的鲁棒多目标物聚类检测。定性和定量的实验验证了所提算法的有
效性和先进性。
2)针对有限算力平台下多目标物无法同时跟踪的问题,提出一种基于事件光流的
目标物碰撞威胁评估方法,仅对威胁程度最高的障碍物进行实时的跟踪,保证感知的有
效性。所提事件光流算法综合考虑事件噪声、SAE 曲面梯度稳定性以及运动遮挡等问
题,最终输出模长稳定且鲁棒的稀疏事件光流。进一步,设计了一种基于选择滤波器窗
口的扩展焦点估计算法,在避免使用全局光流来计算 FOE 的同时,保证焦点估计的准
确性。最终,通过大量实验根据光流和扩展焦点计算逐像素的碰撞时间 Map,并从中提
取主威胁运动目标,进行深度和估计跟踪。所提算法具备有效性和准确性,为无人机规
避场景中的威胁目标提供了可靠的感知信息。
3)为所提算法设计了轻小型旋翼无人机物理实验平台,并布置与算法对应的场景
实验,从多个维度对上述两个算法进行科学严谨的实验论证,证明了所提算法的有效性
和先进性,并具有工程应用潜力。
5.2
未来展望
无人机在复杂高动态环境下的安全、灵敏导航的迫切需求,将引发广泛的科研研
究。本文主要在感知端进行了研究,迫于自身有限的精力和时间,还有很多工作需要进
73
西北工业大学硕士学位论文
一步研究和完善,主要有以下几个方面:1)在所提算法中,事件集的运动补偿仅采用
了三轴旋转姿态实现,考虑在某些飞行场景中,无人机会存在较大的三轴位移,此时仅
考虑旋转补偿势必会引入一些补偿误差,不利于动态目标的提取。2)本文算法使用的
事件处理方式均为批事件处理,虽然批事件处理并不会产生像帧一样的动态模糊,但仍
会带来一些数据堆积延迟,考虑使用基于单个事件更新的算法,能够极大的发挥事件的
低延迟性,进一步提升感知效率。3)本文主要完成了运动目标的完备感知端任务。对
于无人机的高速障碍物规避任务还需要依据感知输出作出规避控制响应,以形成一套完
整的感知控制闭环,该部分可以作为后续进一步的研究目标。
74
参考文献
参考文献
[1] Wu Y, Lim J, Yang MH. Online object tracking: A benchmark[C]. In Proceedings of
the IEEE conference on computer vision and pattern recognition. 2013:2411–2418.
[2] Mellinger D, Kumar V.
Minimum snap trajectory generation and control for
quadrotors[C]. In 2011 IEEE international conference on robotics and automation.
2011:2520–2525.
[3] Foehn P, Romero A, Scaramuzza D. Time-optimal planning for quadrotor waypoint
flight[J]. Science Robotics. 2021, 6(56):eabh1221.
[4] Loquercio A et al. Learning high-speed flight in the wild[J]. Science Robotics. 2021,
6(59):eabg5810.
[5] Salt L et al. Differential evolution and bayesian optimisation for hyper-parameter selection in mixed-signal neuromorphic circuits applied to UAV obstacle avoidance[J].
arXiv preprint arXiv:170404853. 2017.
[6] Falanga D, Kleber K, Scaramuzza D. Dynamic obstacle avoidance for quadrotors
with event cameras[J]. Science Robotics. 2020, 5(40):eaaz9712.
[7] Lichtsteiner P, Posch C, Delbruck T. A 128×128 120 dB 15 µs latency asynchronous temporal contrast vision sensor[J]. IEEE journal of solid-state circuits.
2008, 43(2):566–576.
[8] Brandli C et al. A 240× 180 130 db 3 µs latency global shutter spatiotemporal
vision sensor[J]. IEEE Journal of Solid-State Circuits. 2014, 49(10):2333–2341.
[9] Berner R et al. A 240× 180 10mw 12us latency sparse-output vision sensor for
mobile applications[C]. In 2013 Symposium on VLSI Circuits. 2013:C186–C187.
[10] Gallego G et al. Event-based vision: A survey[J]. IEEE transactions on pattern
analysis and machine intelligence. 2020, 44(1):154–180.
[11] 孔德磊, 方正. 基于事件的视觉传感器及其应用综述 [J]. 信息与控制. 2021, 50(1):1–
19.
[12] Milde MB et al. Spiking elementary motion detector in neuromorphic systems[J].
Neural computation. 2018, 30(9):2384–2417.
[13] 周小龙, 刘倩倩, 产思贤等. 基于事件相机的视觉跟踪算法综述 [J]. 小型微型计算
机系统. 2020, 41(11):2325–2332.
75
西北工业大学硕士学位论文
[14] Censi A. Efficient neuromorphic optomotor heading regulation[C]. In 2015 American
Control Conference (ACC). 2015:3854–3861.
[15] Mueller E, Censi A, Frazzoli E. Low-latency heading feedback control with neuromorphic vision sensors using efficient approximated incremental inference[C]. In
2015 54th IEEE Conference on Decision and Control (CDC). IEEE,2015:992–999.
[16] Glover A, Bartolozzi C. Event-driven ball detection and gaze fixation in clutter[C].
In 2016 IEEE/RSJ International Conference on Intelligent Robots and Systems
(IROS). IEEE,2016:2203–2208.
[17] Glover A, Bartolozzi C. Robust visual tracking with a freely-moving event camera[C]. In 2017 IEEE/RSJ International Conference on Intelligent Robots and
Systems (IROS). IEEE,2017:3769–3776.
[18] Conradt J et al. An embedded AER dynamic vision sensor for low-latency pole
balancing[C]. In 2009 IEEE 12th International Conference on Computer Vision
Workshops, ICCV Workshops. IEEE,2009:780–785.
[19] Delbruck T, Lang M. Robotic goalie with 3 ms reaction time at 4% CPU load using
event-based dynamic vision sensor[J]. Frontiers in neuroscience. 2013, 7:223.
[20] Delbruck T, Lichtsteiner P. Fast sensory motor control based on event-based hybrid
neuromorphic-procedural system[C]. In 2007 IEEE international symposium on
circuits and systems. IEEE,2007:845–848.
[21] Galluppi F et al. Event-based neural computing on an autonomous mobile platform[C]. In 2014 IEEE International Conference on Robotics and Automation
(ICRA). 2014:2862–2867.
[22] Blum H et al. A neuromorphic controller for a robotic vehicle equipped with a
dynamic vision sensor[J]. Robotics Science and Systems, RSS 2017. 2017.
[23] Litzenberger M et al. Embedded vision system for real-time object tracking using an
asynchronous transient vision sensor[C]. In 2006 IEEE 12th Digital Signal Processing Workshop & 4th IEEE Signal Processing Education Workshop. 2006:173–178.
[24] Ni Z et al. Visual tracking using neuromorphic asynchronous event-based cameras[J]. Neural computation. 2015, 27(4):925–953.
[25] Lagorce X et al. Asynchronous event-based multikernel algorithm for high-speed
visual features tracking[J]. IEEE transactions on neural networks and learning
systems. 2014, 26(8):1710–1720.
76
参考文献
[26] Stoffregen T et al. Event-based motion segmentation by motion compensation[C].
In Proceedings of the IEEE/CVF International Conference on Computer Vision.
2019:7244–7253.
[27] Gallego G, Rebecq H, Scaramuzza D. A unifying contrast maximization framework
for event cameras, with applications to motion, depth, and optical flow estimation[C]. In Proceedings of the IEEE conference on computer vision and pattern
recognition. 2018:3867–3876.
[28] Mitrokhin A et al. Event-based moving object detection and tracking[C]. In 2018
IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).
IEEE2018:1–9.
[29] He B et al. FAST-Dynamic-Vision: Detection and Tracking Dynamic Objects with
Event and Depth Sensing[C]. In 2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE,2021:3071–3078.
[30] Gallego G, Scaramuzza D. Accurate angular velocity estimation with an event
camera[J]. IEEE Robotics and Automation Letters. 2017, 2(2):632–639.
[31] Zhou Y et al. Event-based motion segmentation with spatio-temporal graph cuts[J].
IEEE Transactions on Neural Networks and Learning Systems. 2021.
[32] Parameshwara CM et al. 0-mms: Zero-shot multi-motion segmentation with a
monocular event camera[C]. In 2021 IEEE International Conference on Robotics
and Automation (ICRA). IEEE,2021:9594–9600.
[33] Barranco F, Fermuller C, Ros E. Real-time clustering and multi-target tracking
using event-based sensors[C]. In 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE,2018:5764–5769.
[34] Gallego G, Gehrig M, Scaramuzza D. Focus is all you need: Loss functions for
event-based vision[C]. In Proceedings of the IEEE/CVF Conference on Computer
Vision and Pattern Recognition. 2019:12280–12289.
[35] Schraml S, Belbachir AN. A spatio-temporal clustering method using real-time
motion analysis on event-based 3D vision[C]. In 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops. IEEE,2010:57–63.
[36] Ramesh B et al.
PCA-RECT: An energy-efficient object detection approach
for event cameras[C].
In Asian Conference on Computer Vision. Springer,
Cham,2018:434–449.
77
西北工业大学硕士学位论文
[37] Vasco V et al. Independent motion detection with event-driven cameras[C]. In 2017
18th International Conference on Advanced Robotics (ICAR). IEEE,2017:530–536.
[38] Lee JH et al. Real-time motion estimation based on event-based vision sensor[C]. In
2014 IEEE International Conference on Image Processing (ICIP). IEEE,2014:204–
208.
[39] Stoffregen T, Kleeman L. Simultaneous optical flow and segmentation (SOFAS)
using dynamic vision sensor[J]. arXiv preprint arXiv:180512326. 2018.
[40] Rodríguez-Gómez JP et al. Free as a Bird: Event-Based Dynamic Sense-and-Avoid
for Ornithopter Robot Flight[J]. IEEE Robotics and Automation Letters. 2022,
7(2):5413–5420.
[41] Delbruck T, Villanueva V, Longinotti L. Integration of dynamic vision sensor with
inertial measurement unit for electronically stabilized event-based vision[C]. In 2014
IEEE International Symposium on Circuits and Systems (ISCAS). 2014:2636–2639.
[42] Wang JY, Adelson EH.
Layered representation for motion analysis[C].
In
Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.
IEEE,1993:361–366.
[43] Lee DN. A theory of visual control of braking based on information about time-tocollision[J]. Perception. 1976, 5(4):437–459.
[44] Camus T. Calculating time-to-contact using real-time quantized optical flow[J].
1995.
[45] Gibson JJ. The ecological approach to the visual perception of pictures[J]. Leonardo.
1978, 11(3):227–235.
[46] Horn BK, Schunck BG. Determining optical flow[J]. Artificial intelligence. 1981,
17(1-3):185–203.
[47] Fortun D, Bouthemy P, Kervrann C. Optical flow modeling and computation: A
survey[J]. Computer Vision and Image Understanding. 2015, 134:1–21.
[48] Beauchemin SS, Barron JL. The computation of optical flow[J]. ACM computing
surveys (CSUR). 1995, 27(3):433–466.
[49] Tu Z et al. A survey of variational and CNN-based optical flow techniques[J]. Signal
Processing: Image Communication. 2019, 72:9–24.
78
参考文献
[50] Lucas BD, Kanade T et al. An iterative image registration technique with an
application to stereo vision[M]vol. 81. Vancouver. 1981.
[51] Barron JL, Fleet DJ, Beauchemin SS. Performance of optical flow techniques[J].
International journal of computer vision. 1994, 12(1):43–77.
[52] Proesmans M et al.
Determination of optical flow and its discontinuities
using non-linear diffusion[C].
In European Conference on Computer Vision.
Springer,1994:294–304.
[53] Fleet DJ, Jepson AD. Computation of component image velocity from local phase
information[J]. International journal of computer vision. 1990, 5(1):77–104.
[54] Anandan P. A computational framework and an algorithm for the measurement of
visual motion[J]. International Journal of Computer Vision. 1989, 2(3):283–310.
[55] Kories R, Zimmermann G. A versatile method for the estimation of displacement
vector fields from image sequences[C]. In IEEE Workshop on Motion: Representation and Analysis. Charleston, SC,1986:106.
[56] Singh A. Optic flow computation: a unified perspective[M]vol. 3. IEEE computer
society press Los Alamitos. 1991.
[57] Sutton MA et al. Determination of displacements using an improved digital correlation method[J]. Image and vision computing. 1983, 1(3):133–139.
[58] Camus T. Real-time quantized optical flow[J]. Real-Time Imaging. 1997, 3(2):71–
86.
[59] Banks J, Corke P. Quantitative evaluation of matching methods and validity measures for stereo vision[J]. The International Journal of Robotics Research. 2001,
20(7):512–532.
[60] Watson AB, Ahumada Jr AJ. A look at motion in the frequency domain[R]. Tech.
rep.1983.
[61] Heeger DJ. Optical flow using spatiotemporal filters[J]. International journal of
computer vision. 1988, 1(4):279–302.
[62] Heeger DJ. Model for the extraction of image flow[J]. JOSA A. 1987, 4(8):1455–
1471.
[63] Benosman R et al. Event-based visual flow[J]. IEEE transactions on neural networks
and learning systems. 2013, 25(2):407–417.
79
西北工业大学硕士学位论文
[64] Barranco F, Fermüller C, Aloimonos Y. Contour motion estimation for asynchronous event-driven cameras[J]. Proceedings of the IEEE. 2014, 102(10):1537–
1556.
[65] Barranco F, Fermuller C, Aloimonos Y. Bio-inspired motion estimation with eventdriven sensors[C]. In International Work-Conference on Artificial Neural Networks.
Springer,2015:309–321.
[66] Brosch T, Tschechne S, Neumann H. On event-based optical flow detection[J].
Frontiers in neuroscience. 2015, 9:137.
[67] Orchard G, Etienne-Cummings R. Bioinspired visual motion estimation[J]. Proceedings of the IEEE. 2014, 102(10):1520–1536.
[68] Delbruck T. Fun with asynchronous vision sensors and processing[C]. In European
Conference on Computer Vision. Springer,2012:506–515.
[69] Delbruck T. Frame-free dynamic digital vision[C]. In Proceedings of Intl. Symp.
on Secure-Life Electronics, Advanced Electronics for Quality Life and Society. Citeseer,vol. 1,2008:21–26.
[70] Benosman R et al. Asynchronous frameless event-based optical flow[J]. Neural
Networks. 2012, 27:32–37.
[71] Aung MT, Teo R, Orchard G. Event-based plane-fitting optical flow for dynamic
vision sensors in FPGA[C]. In 2018 IEEE International Symposium on Circuits and
Systems (ISCAS). IEEE,2018:1–5.
[72] Almatrafi M, Hirakawa K. Davis camera optical flow[J]. IEEE Transactions on
Computational Imaging. 2019, 6:396–407.
[73] Braillon C et al. Real-time moving obstacle detection using optical flow models[C].
In 2006 IEEE Intelligent Vehicles Symposium. IEEE,2006:466–471.
[74] Guzel MS, Bicker R. Optical flow based system design for mobile robots[C]. In 2010
IEEE Conference on Robotics, Automation and Mechatronics. IEEE,2010:545–550.
[75] Guo X, Qi X, Harris JG. A time-to-first-spike CMOS image sensor[J]. IEEE Sensors
Journal. 2007, 7(8):1165–1175.
[76] Posch C, Matolin D, Wohlgenannt R. A QVGA 143 dB dynamic range frame-free
PWM image sensor with lossless pixel-level video compression and time-domain
CDS[J]. IEEE Journal of Solid-State Circuits. 2010, 46(1):259–275.
80
参考文献
[77] Clady X et al. Asynchronous visual event-based time-to-contact[J]. Frontiers in
neuroscience. 2014, 8:9.
[78] Izzo D, De Croon G. Landing with time-to-contact and ventral optic flow estimates[J]. Journal of Guidance, Control, and Dynamics. 2012, 35(4):1362–1367.
[79] Dinaux R et al. FAITH: Fast Iterative Half-Plane Focus of Expansion Estimation
Using Optic Flow[J]. IEEE Robotics and Automation Letters. 2021, 6(4):7627–7634.
[80] Sazbon D, Rotstein H, Rivlin E. Finding the focus of expansion and estimating range
using optical flow images and a matched filter[J]. Machine Vision and Applications.
2004, 15(4):229–236.
[81] Alenya G, Nègre A, Crowley JL. Time to contact for obstacle avoidance[C]. In
European conference on mobile robotics. 2009.
[82] Almatrafi M et al. Distance surface for event-based optical flow[J]. IEEE transactions on pattern analysis and machine intelligence. 2020, 42(7):1547–1556.
[83] Giulioni M et al. Event-based computation of motion flow on a neuromorphic analog
neural platform[J]. Frontiers in neuroscience. 2016, 10:35.
[84] Rueckauer B, Delbruck T. Evaluation of event-based algorithms for optical flow
with ground-truth from inertial measurement sensor[J]. Frontiers in neuroscience.
2016, 10:176.
[85] Sikorski O, Izzo D, Meoni G.
Event-based spacecraft landing using time-to-
contact[C]. In Proceedings of the IEEE/CVF Conference on Computer Vision and
Pattern Recognition. 2021:1941–1950.
[86] Nagata J, Sekikawa Y, Aoki Y. Optical flow estimation by matching time surface
with event-based cameras[J]. Sensors. 2021, 21(4):1150.
[87] Milde MB et al. Bioinspired event-driven collision avoidance algorithm based on
optic flow[C]. In 2015 International Conference on Event-based Control, Communication, and Signal Processing (EBCCSP). IEEE,2015:1–7.
[88] Lin S et al. Efficient Spatial-Temporal Normalization of SAE Representation for
Event Camera[J]. IEEE Robotics and Automation Letters. 2020, 5(3):4265–4272.
[89] Eguíluz AG et al. Asynchronous event-based line tracking for time-to-contact maneuvers in uas[C]. In 2020 IEEE/RSJ International Conference on Intelligent Robots
and Systems (IROS). IEEE,2020:5978–5985.
81
西北工业大学硕士学位论文
[90] Delbrück T et al. Activity-driven, event-based vision sensors[C]. In Proceedings
of 2010 IEEE International Symposium on Circuits and Systems. IEEE,2010:2426–
2429.
[91] Delbruck T. Neuromorophic vision sensing and processing[C]. In 2016 46Th european solid-state device research conference (ESSDERC). IEEE,2016:7–14.
[92] Liu SC et al. Event-driven sensing for efficient perception: Vision and audition
algorithms[J]. IEEE Signal Processing Magazine. 2019, 36(6):29–37.
[93] Litzenberger M et al. Estimation of vehicle speed based on asynchronous data from
a silicon retina optical sensor[C]. In 2006 IEEE intelligent transportation systems
conference. IEEE,2006:653–658.
[94] Orchard G et al. HFirst: A temporal approach to object recognition[J]. IEEE
transactions on pattern analysis and machine intelligence. 2015, 37(10):2028–2040.
[95] Lee JH et al. Real-time gesture interface based on event-driven processing from
stereo silicon retinas[J]. IEEE transactions on neural networks and learning systems.
2014, 25(12):2250–2263.
[96] Amir A et al. A low power, fully event-based gesture recognition system[C]. In
Proceedings of the IEEE conference on computer vision and pattern recognition.
2017:7243–7252.
[97] Rogister P et al. Asynchronous event-based binocular stereo matching[J]. IEEE
Transactions on Neural Networks and Learning Systems. 2011, 23(2):347–353.
[98] Rebecq H et al. EMVS: Event-based multi-view stereo—3D reconstruction with
an event camera in real-time[J]. International Journal of Computer Vision. 2018,
126(12):1394–1414.
[99] Matsuda N, Cossairt O, Gupta M.
Mc3d: Motion contrast 3d scanning[C].
In 2015 IEEE International Conference on Computational Photography (ICCP).
IEEE,2015:1–10.
[100] Zhu AZ et al. EV-FlowNet: Self-supervised optical flow estimation for event-based
cameras[J]. arXiv preprint arXiv:180206898. 2018.
[101] Rebecq H et al. High speed and high dynamic range video with an event camera[J].
IEEE transactions on pattern analysis and machine intelligence. 2019, 43(6):1964–
1980.
82
参考文献
[102] Cook M et al. Interacting maps for fast visual interpretation[C]. In The 2011
International Joint Conference on Neural Networks. IEEE,2011:770–776.
[103] Kim H et al. Simultaneous mosaicing and tracking with an event camera[J]. J Solid
State Circ. 2008, 43:566–576.
[104] Kim H, Leutenegger S, Davison AJ.
Real-time 3D reconstruction and 6-DoF
tracking with an event camera[C]. In European conference on computer vision.
Springer,2016:349–364.
[105] Rebecq H et al. Evo: A geometric approach to event-based 6-dof parallel tracking and mapping in real time[J]. IEEE Robotics and Automation Letters. 2016,
2(2):593–600.
[106] Vidal AR et al. Ultimate SLAM? Combining events, images, and IMU for robust
visual SLAM in HDR and high-speed scenarios[J]. IEEE Robotics and Automation
Letters. 2018, 3(2):994–1001.
[107] Gehrig D, Scaramuzza D. Are High-Resolution Event Cameras Really Needed?[J].
arXiv preprint arXiv:220314672. 2022.
[108] Khodamoradi A, Kastner R. O(N )-Space Spatiotemporal Filter for Reducing Noise
in Neuromorphic Vision Sensors[J]. IEEE Transactions on Emerging Topics in
Computing. 2018, 9(1):15–23.
[109] Wang Z et al. Event camera calibration of per-pixel biased contrast threshold[J].
arXiv preprint arXiv:201209378. 2020.
[110] Cho DiD, Lee Tj. A review of bioinspired vision sensors and their applications[J].
Sensors and Materials. 2015, 27(6):447–463.
[111] Boahen KA. A burst-mode word-serial address-event link-I: Transmitter design[J].
IEEE Transactions on Circuits and Systems I: Regular Papers. 2004, 51(7):1269–
1280.
[112] 高翔, 张涛, 刘毅等. 视觉 SLAM 十四讲:从理论到实践 [M]. 电子工业出版社.
2017.
[113] Hartley R, Zisserman A. Multiple view geometry in computer vision[M]. Cambridge
university press. 2003.
[114] Zhang Z. A flexible new technique for camera calibration[J]. IEEE Transactions on
pattern analysis and machine intelligence. 2000, 22(11):1330–1334.
83
西北工业大学硕士学位论文
[115] Mueggler E, Huber B, Scaramuzza D. Event-based, 6-DOF pose tracking for highspeed maneuvers[C]. In 2014 IEEE/RSJ International Conference on Intelligent
Robots and Systems. IEEE,2014:2761–2768.
[116] Muglikar M et al. How to calibrate your event camera[C]. In Proceedings of the
IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021:1403–
1409.
[117] Ester M et al. A density-based algorithm for discovering clusters in large spatial
databases with noise.[C]. In kdd. vol. 96,1996:226–231.
[118] Mueggler E et al. The event-camera dataset and simulator: Event-based data
for pose estimation, visual odometry, and SLAM[J]. The International Journal of
Robotics Research. 2017, 36(2):142–149.
[119] 樊子越. 基于事件相机的运动目标检测技术 [D]. 西北工业大学. 2022.
[120] 李梦蕾. 复杂战场环境下无人机集群突防技术研究 [D]. 西北工业大学. 2022.
84
致
致
谢
谢
七年的求学生涯仿佛就在一瞬之间,转眼就要毕业了。我也从七年前生涩、稚嫩的
精神小伙,逐渐变得成熟、稳重。对学业、生活和自己的人生都有了更深刻和全新的认
知。七年间,我结识了生命中不可或缺的良师、益友,在他们的教导和陪伴下,度过了
我生命中最有活力和激情的岁月。要给这七年的时光下一个结论的话,我认为是丰富多
彩且珍贵的。它充满喜悦与收获,也带有一些坎坷和艰辛,但人生不就需要这样才能茁
壮成长。
感谢我的导师赵春晖老师。在三年的研究生生涯中不断鼓励、教导和督促我,让我
快速成长,通过自身努力使研究生生涯变得更有意义。在学习上,赵老师为我们营造了
舒适、完善的学习环境,为我们提供了完备的科研设备来实现自己的想法和创新。并为
我们制定合理和完善的科研计划,不厌其烦地帮助我修改论文中的错误,传授写作技巧
和学术思想。在生活中,赵老师是一个运动健将,他极大地鼓舞我们在科研的同时保持
身体锻炼,健康的身体才能担负更多的责任。同时关注我们的生活状况,在生病或遇到
麻烦时,总会给予我们关怀。赵老师的人格魅力,让我收获良多。
感谢我的大师兄吕洋老师、侯晓磊老师和胡劲文老师,他们在科研学习过程中提供
了支撑和保障。
感谢我的室友和教研室的小伙伴们,是你们带给了我那么多难忘的瞬间,使得辛苦
的研究生生多了那么多欢声笑语。
最后,感谢我的女朋友,是你在背后默默支持我,当我遇到挫折和困境时,为我排
忧解难,在开心时与我一同分享喜悦;感谢我的家人们,为我提供温暖的港湾,是我力
量的源泉,是你们让我坚定地在人生路上远航。
相聚是偶然的,分离是必然的!人生就是这样不断发现和探索未知。现在的我即将
走出象牙塔,成为祖国事业的奋斗者。未来的路仍将充满机遇与挑战,希望自己砥砺前
行,不忘初心!
85
西北工业大学硕士学位论文
86
攻读硕士学位期间发表的学术论文和参加科研情况
攻读硕士学位期间发表的学术论文和参加科研情况
发表论文
[1] Chunhui Zhao, Yakun Li, Lyv Yang. Event-based Real-time Moving Object
Detection Based On IMU Ego-motion Compensation[C]. International Conference on
Robotics and Automation(ICRA), 2023.(已接收)
参与科研项目
[1] 民机专项:XXX 复杂环境感知与障碍规避技术,2018-今.
[2] 军科委创新特区项目:多源融合无人机 XXX 技术研究,2019.1-2020.11.
[3] 国家自然科学基金面上项目(62073264)
:拒止复杂环境中微小型无人机的自主感知
与规避能力建模及优化研究,2021.1-今。
[4] 军科委创新特区项目:无人机 XXX 智能系统,2021.1-2022.7.
87
西北工业大学硕士学位论文
88
Download