基于视觉先验和深度学习的图像复原方法研究

上海交通大学博士学位论文基于视觉先验和深度学习的图像复原方法研究博士研究生：温阳学号：017033910002 导师：盛斌教授申请学位：工学博士学科：计算机科学与技术所在单位：电子信息与电气工程学院答辩日期：2021 年 11 月 22 日授予学位单位：上海交通大学 Dissertation Submitted to Shanghai Jiao Tong University for the Degree of Doctor RESEARCH ON IMAGE RESTORATION METHOD BASED ON VISUAL PRIOR AND DEEP LEARNING Candidate: Yang Wen Student ID: 017033910002 Supervisor: Prof. Bin Sheng Academic Degree Applied for: Doctor of Engineering Speciality: Computer Science and Technology Affiliation: School of Electronic Information and Electrical Engineering Date of Defence: November 22, 2021 Degree-Conferring-Institution: Shanghai Jiao Tong University 上海交通大学博士学位论文基于视觉先验和深度学习的图像复原方法研究摘要图像复原是图像处理和计算机视觉领域的一个重要研究方向，长期受到学术界和工业界的广泛关注。图像复原主要有基于传统图像先验知识和深度卷积神经网络两大类方法：基于传统先验知识的图像复原方法借助统计原理挖掘退化图像和清晰图像之间的内在差异。深度卷积神经网络借助大规模训练数据，构建从退化图像到清晰图像的特定映射函数，通过训练学习获得具有高质量清晰图像复原能力的网络模型。本学位论文结合图像的视觉先验知识与深度学习的语义特征，重点关注其中三个具有代表性的图像复原问题：深度图像超分辨问题、无监督图像去运动模糊问题和模糊图像的超分辨问题，并分别提出三种对应的图像复原方法。论文主要贡献和研究成果总结如下：（1）提出了一种基于彩色引导和由粗到精级联的卷积神经网络实现深度图像超分辨复原。首先，提出了针对深度图超分辨问题的“理想”滤波器概念，并利用卷积神经网络学习提出的近似 “理想” 滤波器。然后，提出一种由粗到精级联的卷积神经网络来学习不同尺寸的边缘保持滤波器，逐步优化深度图超分辨算法的性能。最后，提出一种高分辨彩色图像引导机制，促进高分辨颜色信息与低分辨深度信息的有效结合，从而加强深度图超分辨网络的结构保持能力并去除不必要的伪影。不同数据集中的大量实验证明了所提出方法在解决深度图超分辨问题中的优越性。（2）提出了一种基于结构保持的多对抗图像去运动模糊网络实现盲图像去运动模糊复原任务。首先，提出基于循环一致生成对抗网络（Cycle-consistent Generative Adversarial Network，CycleGAN）的盲图像去运动模糊算法，克服以往去模糊算法对大量成对训练数据的需求及 —I— 上海交通大学博士学位论文模糊核估计产生误差的缺陷。然后，提出一种多对抗网络结构促进网络在不同分辨率上尽可能地生成对应的清晰图像，解决高分辨图像生成中的伪影问题。此外，通过引入基于边缘引导和多尺度边缘约束的结构感知机制来解决原始无监督方法中结构内容丢失的问题，同时增强去模糊网络的结构和细节保持能力。多个基准数据集上的大量实验充分证明了所提出的无监督去模糊方法优于当前最先进的无监督和有监督的图像去运动模糊方法。（3）提出了一种基于结构保持和交互融合的模糊图像超分辨网络来实现模糊图像的超分辨复原任务。首先，设计了基于边缘图像引导和边缘约束的结构保持模块来增强模糊图像超分辨网络的结构和细节保持能力。同时，为准确提取模糊图像的边缘信息，提出了一个基于多分支融合结构的边缘检测网络。然后，提出了一个基于边缘引导的交互融合模块，以自适应地融合去模糊和超分辨任务的有效特征。此外，我们借助局部注意（Local Attention, LA）模块和全局注意（Global Attention, GA）模块来增强模糊图像超分辨网络的有效特征表达能力。定量和定性的实验结果表明，我们的模糊图像超分辨方法在多个基准数据集上展现出相当优越的性能。关键词：图像复原，视觉先验，深度学习，图像超分辨，图像去模糊 — II — 上海交通大学博士学位论文 RESEARCH ON IMAGE RESTORATION METHOD BASED ON VISUAL PRIOR AND DEEP LEARNING ABSTRACT Image restoration is an important research direction in the field of image processing and computer vision, and has long received extensive attention from academia and industry. There are two main types of image restoration methods based on traditional image a priori knowledge and deep convolutional neural networks: traditional a priori knowledge-based image restoration methods exploit the inherent differences between degraded and clear images with the help of statistical principles. Deep convolutional neural networks construct specific mapping functions from degraded images to clear images with the help of large-scale training data, and learn through training to obtain a network model with high-quality clear image recovery capability. This dissertation combines the prior knowledge of images with the semantic feature analysis of deep learning, focusing on three of the representative image recovery problems: the depth image super-resolution problem, the unsupervised image motion deblurring problem and the super-resolution problem of blurred images, and proposes three corresponding image recovery methods respectively. The main contributions and research results of the paper are summarized as follows： (1) A convolutional neural network based on color-guided and coarseto-fine cascading is proposed to achieve depth image super-resolution. First, an “ideal” filter concept is proposed for the depth map super-resolution problem, and the proposed “ideal” filter is learned using a convolutional neural network. Then, a coarse-to-fine cascaded convolutional neural network is proposed to learn different sizes of edge-preserving filters and gradually op— III — 上海交通大学博士学位论文 timize the performance of the depth map super-resolution algorithm. Finally, a high-resolution color image guidance mechanism is proposed to facilitate the effective combination of high-resolution color information and low-resolution depth information, so as to enhance the structure-preserving ability of the depth map super-resolution network and remove unnecessary artifacts. Extensive experiments on different datasets demonstrate the superiority of the proposed method in solving the depth map super-resolution problem. (2) A structure-preserving multi-adversarial image deblurring algorithm is proposed to implement blind image deblurring. First, a Cycleconsistent Generative Adversarial Network (CycleGAN)-based blind image deblurring algorithm is proposed to overcome the defects of previous deblurring algorithms in terms of the need for a large amount of paired training data and the error arising from the estimation of the blurred kernel. Then, a multi-adversarial network structure is proposed to promote the network to generate corresponding clear images at different resolutions as much as possible to solve the artifact problem in high-resolution image generation. In addition, the problem of structure content loss in the original unsupervised method is addressed by introducing a structure-aware mechanism based on edge guidance and multi-scale edge constraints, while enhancing the structure and detail retention capability of the network. Extensive experiments on multiple benchmark datasets fully validate that the proposed unsupervised deblurring method outperforms the current state-of-the-art unsupervised and supervised image motion deblurring methods. (3) A structure-preserving and interactive fusion-based deblurring image super-resolution network (SIFN) is proposed to achieve the superresolution recovery task of blurry images. First, we design a structurepreserving module based on edge image guidance and edge constraint to enhance the structure and detail-preserving ability of the deblurry image super— IV — 上海交通大学博士学位论文 resolution network. Meanwhile, to accurately extract the edge information of blurred images, we design an edge detection network based on a multibranch fusion structure. Then, we propose an edge-guided interaction-based fusion module to adaptively fuse effective features for deblurring and superresolution tasks. In addition, we enhance the effective feature representation of the recovery network with the help of the Local Attention (LA) module and Global Attention (GA) module. Quantitative and qualitative experimental results show that our blurred image super-resolution method exhibits quite superior performance on several benchmark datasets. KEY WORDS: Image restoration, visual prior, deep learning, image superresolution, image deblurring —V— 上海交通大学博士学位论文目录第一章绪论 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1 1.1 研究背景和意义· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1 1.2 研究现状 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 6 1.2.1 图像超分辨 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 6 1.2.2 图像去模糊 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 9 1.2.3 模糊图像超分辨 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 10 1.2.4 视觉先验 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 11 1.2.5 复原图像的质量评价方法 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 14 1.3 局限性与挑战 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 16 1.4 本文研究内容 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 17 1.5 本文章节安排 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 19 第二章基于彩色引导和由粗到精级联的深度图超分辨 · · · · · · · · · · · · · · · · · · · · · · · · · · · 21 2.1 问题描述 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 21 2.2 提出的深度图超分辨方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 23 2.3 2.4 2.2.1 基于滤波的深度图超分辨 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 25 2.2.2 高分辨彩色图像引导机制 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 27 2.2.3 由粗到精的级联结构 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 28 实验和分析 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 31 2.3.1 实验细节 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 31 2.3.2 数据集和指标· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 32 2.3.3 消融实验 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 33 2.3.4 与主流算法对比分析 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 33 2.3.5 定性评估 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 37 本章小结 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 41 第三章基于结构保持的多对抗图像去运动模糊 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 43 3.1 问题描述 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 43 3.2 提出的多对抗去模糊方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 46 3.2.1 基于 CycleGAN 的原始去模糊方法 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 48 — VII — 上海交通大学博士学位论文 3.3 3.4 3.2.2 多对抗生成网络 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 48 3.2.3 结构保持机制的去模糊方法 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 49 3.2.4 网络结构定义· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 51 3.2.5 损失函数 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 52 实验和分析 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 53 3.3.1 实验细节 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 53 3.3.2 数据集和指标· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 53 3.3.3 消融实验 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 54 3.3.4 参数敏感性分析 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 56 3.3.5 与主流算法对比分析 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 57 3.3.6 运行时间评估· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 59 本章小结 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 59 第四章基于结构保持和交互融合的模糊图像超分辨 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 67 4.1 问题描述 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 67 4.2 提出的模糊图像超分辨方法 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 70 4.3 4.4 4.2.1 整体网络结构· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 70 4.2.2 结构保持架构· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 71 4.2.3 注意力机制 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 73 4.2.4 交互融合模块· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 76 实验和分析 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 78 4.3.1 实验细节 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 78 4.3.2 数据集和指标· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 78 4.3.3 消融实验 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 79 4.3.4 与主流算法对比分析 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 81 4.3.5 运行时间评估· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 85 本章小结 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 86 第五章总结与展望 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 91 5.1 工作总结 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 91 5.2 工作展望 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 92 参考文献 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 95 致谢 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 109 — VIII — 上海交通大学博士学位论文攻读学位期间发表（或录用）的学术论文 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 111 个人简历 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 113 — IX — 上海交通大学博士学位论文插图索引图 1–1 图像退化示例图。 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 2 图 1–2 图像复原的应用场景。 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 3 图 1–3 与图像复原相关的学科论文统计。 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 5 图 1–4 国内图像复原相关硕博士学位论文授予单位分布统计。 · · · · · · · · · · · · 5 图 1–5 彩色图（第一行）与深度图（第二行）。 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 7 图 1–6 图像局部平滑和非局部自相似先验示意图。 · · · · · · · · · · · · · · · · · · · · · · · · · · 12 图 1–7 图像稀疏表示先验示意图。 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 14 图 1–8 本文主要研究内容。· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 17 图 2–1 现有上采样深度图的模糊性和不连续性。 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 22 图 2–2 所提出的深度图超分辨算法框架图。 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 24 图 2–3 上采样率为 2 的边缘图像。 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 25 图 2–4 滤波核。 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 26 图 2–5 彩色引导过程示意图。 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 29 图 2–6 级联网络和单一深度卷积网络对比图。 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 30 图 2–7 Middlebury 2005 数据集上的 MAD 指标结果对比。 · · · · · · · · · · · · · · · · · · 33 图 2–8 边缘保护性能图例。· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 34 图 2–9 Middlebury 数据集中上采样图像的视觉对比（上采样率为 4）。 · · · 39 图 2–10 Middlebury 数据集中上采样图像的视觉对比（上采样率为 8）。 · · · 40 图 2–11 Middlebury 数据集中上采样图像的视觉对比（上采样率为 16）。 · · 40 图 3–1 本文提出的去模糊方法和原始 CycleGAN 方法结果对比。 · · · · · · · · · 45 图 3–2 基于结构感知和多对抗优化的 CycleGAN 结构流程图。 · · · · · · · · · · · · 46 图 3–3 所提出的多对抗生成器网络结构。 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 47 图 3–4 结构保持结果对比。· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 50 图 3–5 我们提出的多对抗去模糊模型的稳定性分析。 · · · · · · · · · · · · · · · · · · · · · · · 61 图 3–6 损失函数的不同参数设置的量化结果。 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 62 图 3–7 感知损失 𝐿𝑃 𝑒𝑟𝑐𝑒𝑝𝑡𝑢𝑎𝑙 的不同参数设置的可视化效果。· · · · · · · · · · · · · · · · 63 图 3–8 BMVC_TEXT[132] 数据集中我们的方法和其他主流方法的去模糊效果对比。 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 64 图 3–9 GoPro[47] 数据集中我们方法和其他主流方法的去模糊效果对比。· 64 — XI — 上海交通大学博士学位论文图 3–10 Köhler[135] 数据集中我们方法和其他主流方法的去模糊效果对比。 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 65 图 3–11 Lai[134] 数据集中我们方法和其他主流方法的去模糊效果对比。 · · · 65 图 4–1 模糊低分辨失真图像的超分辨复原结果。 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 68 图 4–2 不同经典方法的模糊图像超分辨视觉对比图。 · · · · · · · · · · · · · · · · · · · · · · · 69 图 4–3 本文提出的基于结构保持和交互式融合的模糊图像超分辨网络（SIFN）整体结构图。 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 71 图 4–4 基于多分支融合的边缘检测网络结构。 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 72 图 4–5 结构保持模块获取的特征图。· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 73 图 4–6 局部注意模块示意图。 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 74 图 4–7 全局注意模块示意图。 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 74 图 4–8 交互融合模块结构示意图。 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 76 图 4–9 提出的模糊图像超分辨网络的每个关键部分的视觉对比结果。 · · · · 79 图 4–10 GoPro[47] 数据集中上采样率为 4 时定性结果可视化比较。 · · · · · · · · · 86 图 4–11 Köhler[135] 数据集中上采样率为 4 时的可视化结果比较。 · · · · · · · · · · 87 图 4–12 Lai[134] 数据集中上采样率为 2 时的可视化结果比较。 · · · · · · · · · · · · · · 88 图 4–13 推理时间和重建的图像质量之间的对比。 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 89 — XII — 上海交通大学博士学位论文表格索引表 2–1 Middlebury 2005 数据集中三种上采样率的 MAD 指标对比结果。 · 35 表 2–2 Middlebury 2005 数据集中三种上采样率的 PE 指标对比结果。 · · · · 36 表 2–3 Middlebury 2003 数据集中三种上采样率的 MAD 指标对比结果。 · 37 表 2–4 Middlebury 2003 数据集中三种上采样率的 PE 指标对比结果。 · · · · 38 表 2–5 ToFMark[31] 数据集中的 MAD 指标对比结果。 · · · · · · · · · · · · · · · · · · · · · · · 39 表 3–1 所提出模型的重要部分分析。· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 55 表 3–2 BMVC_TEXT[132] 和 Face[133] 数据集上的平均 PSNR 和 SSIM。 · · 56 表 3–3 GoPro[47] 数据集上的平均 PSNR 和 SSIM。 · · · · · · · · · · · · · · · · · · · · · · · · · · · 56 表 3–4 真实[134] 数据集上去模糊性能的平均主观评价分数。 · · · · · · · · · · · · · · · 57 表 3–5 BMVC_TEXT[132] 数据集上所提出方法和其他当前先进算法的运行时间对比。 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 59 表 4–1 在 GoPro 数据集中上采样率为 4 时 SIFN 的关键部分分析。 · · · · · · · 80 表 4–2 不同方法在 GoPro[47] 数据集中上采样率为 4 和上采样率为 2 时的定量指标对比。 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 82 表 4–3 不同方法在 Köhler[135] 数据集中上采样率为 4 和上采样率为 2 时的定量指标对比。 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 83 表 4–4 不同方法在 Lai[134] 数据集中上采样率为 4 和上采样率为 2 时的定量指标对比。 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 84 — XIII — 上海交通大学博士学位论文算法索引算法 2–1 生成训练数据 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 32 — XV — 上海交通大学博士学位论文第一章 1.1 绪论研究背景和意义视觉是人类获取信息的主要途径之一，而图像作为记录客观世界的重要载体，是人类的重要视觉信息来源。现实生活中，我们可以借助手机或者数码相机来拍摄记录身边的人物和事件，记录精彩生活的瞬间和片段，并分享至身边的朋友甚至陌生人。为了获得视觉效果更好的图像，研究人员一直在对摄像机和手机的成像系统进行优化，手机后置摄像头已经从原来的单一摄像头向多摄像头转变，实现多摄像头融合来提升所采集图像的视觉质量。另外，信息技术的发展已经带领我们进入了全新的机器视觉时代，图像作为机器的重要视觉信息来源之一至关重要。比如，在智能交通监控中，监控系统通过图像分析判断车流量和人流量以及辅助捕获一些交通违规行为。在智慧医疗服务中，计算机系统通过 CT 和 MRI 等医学影像自动辅助诊断患者病情并及时给予初步诊断报告。此外，在一些特殊场景中需要图像同时给人类和机器提供视觉信息。比如现在广泛流行的短视频应用，人们可以通过观看画面内容获得相应信息，同时为了监控违规、不合法视频内容的传播，还可以通过机器视觉算法对用户上传的视频内容质量进行分析然后做出相应的管控措施。由于图像的重要应用价值，近年来人们拍摄及存储的图像信息越来越多，尽管这些信息使人们的生活甚至因此发生了翻天覆地的变化，海量图像数据的生产给互联网等领域带来巨大机遇和市场的同时也使得数字图像处理技术面临前所未有的挑战。人类视觉和机器视觉都需要高质量的图像，高质量的图像往往给人一种美的享受，而低质量的图像由于丢失了很多有效信息甚至模糊不清会给人带来不舒适感。对于机器视觉，高质量的图像往往蕴含更丰富的信息用于提升机器视觉算法的性能，而较低质量的图像有时候会导致机器视觉算法完全失效。在图像的获取、存储、传输和处理等过程中，多种多样的因素会导致图像质量下降。这种图像质量下降的情况在很多实际应用中都会遇到，如宇航卫星、航空测绘、遥感和天文学中所得到的图像。由于大气湍流、光学系统的像差及物体之间的相对运动会使得图像降质，X 射线成像系统由于 X 射线散射会造成医学上所得到的射线照片分辨率对比度下降，电子透镜的球面像差往往会降低电子显微照片的质量等等。图1–1给出了一些退化降质图像的例子。在图1–1中，(a) 到 (f) 分别是模糊的图像、有噪声的图像、有雨的图像、有雾的图像、低分辨率图像和受损的图像。从图1–1中可以看出，多种多样的退化因素都会引起图像质量降低。因此，为了消除或减轻这种 —1— 上海交通大学博士学位论文图像退化造成的影响，尽可能使图像恢复本来面貌，就需要使用图像复原技术[1] 。图 1–1 图像退化示例图。(a) 模糊图像。(b) 带噪图像。(c) 带雨图像。(d) 带雾图像。(e) 低分辨图像。(f) 受损图像。 Figure 1–1 Example image degradation diagram. (a) Blurry image. (b) Noisy image. (c) Rainy image. (d) Haze image. (e) Low-resolution image. 图像复原试图利用退化图像的某种先验知识来重建或复原退化的图像，因此图像复原可以看成是图像退化的逆过程，即模拟估计图像退化的过程，建立退化的数学模型后，补偿退化过程造成的失真，以便获得未经干扰退化的原始图像或者原始图像的最优估计值，从而改善图像质量。典型的图像复原方法往往是在假设系统的点扩散函数（Point Spread Function，PSF）为已知，并且常需假设噪声分布也是在已知的情况下进行推导求解，采用各种反卷积处理方法，如逆滤波等，对图像进行复原。然而随着研究的进一步深入，在对实际图像进行处理时，许多先验知识（包括图像的以及成像系统的先验知识）往往并不具备，于是就需要在系统点扩散函数未知的情况下，从退化图像自身抽取出退化信息，仅仅根据退化图像数据来复原真实图像，这就是盲图像复原所要解决的问题。由于缺乏足够的信息来唯一确定真实图像的估计值，盲图像复原方法需要利用有关图像信号、点扩散函数和高斯噪声的已知信息和先验知识，结合一些附加条件实现对真实图像的最佳估计。尽管一些图像退化问题可以通过优化硬件设备来解决，比如可以通过优化制作工艺来获得更高空间分辨率的图像，但是这往往意味着硬件成本的增加。另外，还有一些情况是无法通过硬件设备工艺来提升图像质量的，必须使用数字图像复原技术才能获得理想的图像质量。例如，现在 4K/8K 超高清显示设备已经越来越流行，但是现有大量的历史素材是低分辨率的，这要求我们必须通过图像超分辨 —2— 上海交通大学博士学位论文技术将低分辨的历史素材放大到 4K/8K 分辨率才能在 4K/8K 显示器上获得理想的呈现效果。近几十年来，随着图像、视频等多媒体技术的不断发展，图像复原技术已经广泛地应用到了众多的科学技术领域，包括军事遥感、安全监控、医学影像、以及消费电子领域等。例如在医学成像领域，医学成像设备通常都有较强的外界条件制约，特别是对人体带有放射性的医学成像设备在成像时间和剂量上都具有严格的规格和限制，因此医学成像图像通常都容易受到外界环境的干扰，从而造成医学图像的成像质量受到不同程度的影响。利用图像复原技术来降低医学成像中的噪声干扰提高成像质量，对医学检测中病体定位、病情诊断分析和治疗决策制定都具有十分重要的意义。图1–2给出了一些图像复原应用场景的例子，包括 (a) 手机终端，(b) 安防监控，(c) 智慧医疗，(d) 直播会议，(e) 军事国防，(f) 赛事直播。图 1–2 图像复原的应用场景。(a) 手机终端。(b) 安防监控。(c) 智慧医疗。(d) 直播会议。(e) 军事国防。(f) 赛事直播。 Figure 1–2 Application scenarios for image recovery. (a) Mobile phone terminal, (b) Security surveillance, (c) Smart medical, (d) Live conference, (e) Military defense, (f) Live event broadcasting. 如前面所述，图像复原包括很多问题。但是这些不同的图像复原问题具有以下统一的图像退化模型： 𝑦 = H𝑥 + 𝑛, (1–1) 其中，𝑥 是未退化的图像，𝑦 是观测到的退化图像表示，𝑛 是高斯噪声，H 是退化因子。不同的退化因子 H 使得公式 (1–1) 表示不同的图像退化问题。当 H 是一个恒等矩阵时，公式 (1–1) 表示去噪问题；当 H 是由 0 或者 1 构成的指示矩阵时，公式 (1–1) 表示图像修复问题；当 H 是一个欠采样矩阵时，公式 (1–1) 表示压缩感知 —3— 上海交通大学博士学位论文问题；当 H 是一个模糊算子时，公式 (1–1) 表示去模糊问题；当 H 是一个降采样算子和一个模糊算子的联合操作时，公式 (1–1) 表示图像超分辨问题。图像复原技术试图在已知 𝑦 和 H 的情况下, 依据公式 (1–1) 的退化关系，重建得到 𝑥 的估计。其直接的优化目标约束如下： arg min ‖H𝑥 − 𝑦‖22 . (1–2) 𝑥 但是由于图像复原问题中的退化因子 H 通常是奇异的，这导致图像复原问题通常是一个病态逆问题（ill-posed inverse problems）, 其具有不唯一解。为了获得确定性的解，需要在公式 (1–2) 中加入正则化项，将公式 (1–2) 的不适定问题转化为以下适定问题： arg min 𝑥 其中 1 2 1 ‖H𝑥 − 𝑦‖22 + 𝜆𝛹 (𝑥) , 2 (1–3) ‖H𝑥 − 𝑦‖22 是数据精度项，𝛹 (𝑥) 是用以确保解的稳定性的正则项，𝜆 控制数据精度项和正则项的权重。在正则化框架下，需要挖掘有效的图像先验信息及其建模方式，才能获得较好的图像复原结果。在已有的工作中，局部平滑、非局部自相似、稀疏表示、暗通道先验等图像先验知识已经被广泛应用于图像复原任务中，并显著提升了复原图像的质量[2] 。以往研究工作试图挖掘有效的图像先验项 𝛹 (𝑥) 以及探索公式 (1–3) 的优化求解方法。通常公式 (1–3) 的求解是一个迭代优化过程。以前工作存在的一个重要缺点是，为了获得较好的图像复原质量需要较多的迭代次数，不可避免地导致了较高的计算复杂度。近年来，深度学习技术在各个领域都显示出了优越的性能，例如图像分类、目标检测、目标分割等。在图像复原领域，现有工作已经实现了以较低的计算复杂度端到端地重建图像。这些已有的基于深度学习的图像复原方法有效地说明了基于深度学习进行图像复原的可行性，并显示出了其低复杂度的优势。这启发我们需要进一步研究基于深度学习的图像复原方法。另外，传统的图像复原方法表明图像先验信息对图像复原质量起到至关重要的的作用。但是已有的基于深度学习的图像复原方法主要是一些端到端的黑盒模型，缺乏对图像先验信息的利用。受传统先验正则图像复原方法的启发，研究在深度网络中融合图像先验信息是必要和可行的，其理论上确保图像复原质量能够获得提升。图像复原一直都是一个相当热门的研究课题，国内外相关学者都做了大量的研究工作。在中国知网上，以 “图像复原”为关键词可以检索到学术期刊论文 6715 篇，会议论文 731 篇，学位论文 2133 篇，其中博士学位论文 349 篇，硕士学位论文 1784 篇。另外，国内各个高校的不同学科的研究人员都有关注图像复原工作的研究。图1–3给出了与图像复原相关学科论文统计。从图中可以看出各个学科都有 —4— 上海交通大学博士学位论文与图像复原相关的博硕士学位论文，其中计算机和自动化两个学科的学位论文关注图像复原最多。图1–4给出了国内图像复原相关硕博士学位论文授予单位分布统计柱状图。从图中可以看出，各大高校都有关注图像复原工作的研究。这些工作有效地说明了图像复原研究的重要研究及应用价值。图 1–3 与图像复原相关国内硕博士学位论文数量排名前 30 的学科分布统计 (知网统计日期为 2021 年 7 月 11 日)。 Figure 1–3 Statistics on the distribution of the top 30 domestic master’s and doctoral dissertations related to image restoration (with the date of July 11, 2021 on the Internet). 图 1–4 国内图像复原相关硕博士学位论文数量排名前 30 的学位授予单位分布统计 (知网统计日期为 2021 年 7 月 11 日)。 Figure 1–4 Statistics on the distribution of the top 30 degree granting units in China in terms of the number of master’s and doctoral dissertations related to image restoration (with the date of July 11, 2021 on the Internet). —5— 上海交通大学博士学位论文研究现状 1.2 本章节我们重点讨论与本文工作最相关的研究现状，包括图像超分辨复原的研究现状、图像去模糊的研究现状、模糊图像超分辨的研究现状，以及视觉先验的研究现状和复原图像质量评价方法的研究现状。图像超分辨 1.2.1 1.2.1.1 彩色图像超分辨图像超分辨旨在从一个低分辨的图像中复原出相应的高分辨图像，是计算机视觉领域最活跃的研究课题之一。一般来说，实现图像超分辨的方法主要有基于传统特征和基于深度学习两大类方法。基于传统特征的单图像超分辨方法包含插值方法、稀疏表示方法和局部线性回归方法等。例如，在文献[3-6] 中，稀疏表示方法通过学习字典来表示低分辨图像块，然后借助学习的稀疏表示系数来重建高分辨图像。Yan 等人[7] 采用了梯度轮廓锐化来实现图像的超分辨复原。此类传统方法都是基于高分辨图像和低分辨图像之间具有相似的几何结构这一假设，借助学习字典、回归函数或高分辨图像及其下采样低分辨图像之间的端到端映射。虽然计算比较简单，但由于底层统计特征对图像轮廓、边缘及纹理等表达能力有限，图像复原性能受到了极大的抑制[8-9] 。近年来，基于深度学习的图像超分辨方法与传统方法相比表现出无可比拟的优越性[10-14] 。例如基于卷积神经网络的 SR 方法可以用较低的计算复杂度获得先进的定量和定性指标。其中，Dong 等人[15] 开拓性地提出了基于卷积神经网络的图像超分辨方法 SRCNN，其根据传统的基于稀疏表示的图像超分辨方法构建一个简单的三层网络用于单幅彩色图像超分辨。在 SRCNN 的基础上，Dong 等人[16] 进一步提出一个快速版本的 SRCNN，也即 FSRCNN。不同于 SRCNN 需要使用双三次插值先将图像放大到期望的分辨率再输入网络中进行质量优化，FSRCNN 直接以低分辨的图像作为输入，然后在网络的顶端使用一个转置卷积层实现图像分辨率的放大，这使得网络输入图像分辨率较低，相当于 FSRCNN 工作在一个更低维度的空间，从而导致 FSRCNN 能够获得更快的运行速度和更好的图像超分辨效果。不同于 SRCNN 和 FSRCNN 学习一个低分辨图像到高分辨图像的端到端映射，Kim 等人[17] 提出使用一个非常深的卷积网络（VDSR）来学习图像残差，也即网络的输出是目标高分辨图像和低分辨插值图像的残差的预测值，这使得构建的网络具有更大的感受野从而提高图像超分辨性能。另一个比较经典的基于卷积神经网络的单图像超分辨方法是 EDSR[18] ，其去掉了经典残差网络中不必要的批量归一化层，能够在相同的计算资源下提取更多的特征信息从而优化超分辨结 —6— 上海交通大学博士学位论文果。Wang 等人[19] 通过利用学习到的迭代收缩和阈值算法将稀疏先验融入卷积神经网络中。DBPN[20] 提出了一个迭代进行上采样和下采样的网络，为每个阶段的映射误差提供误差反馈机制。RCAN[21] 提出了一种深度残差通道注意网络 (Deep Residual Channel Attention Network, RCAN)，专注于学习高频信息，实现图像超分辨率。Dai 等人[22] 提出了一个用于单图像超分辨的二阶注意力网络，以实现更强大的特征表达学习能力。除了研究更加强大的卷积网络架构外，最近基于感知驱动的方法致力于研究更合适的损失函数，以提高超分辨复原结果的视觉感知质量。例如，Johnson 等人[23] 提出了一种感知损失函数，其在特征空间而不是像素空间中测量两幅图像的误差。Ledig 等人[24] 首先引入了对抗性损失。受这些开创性研究的启发，相继提出了不同的训练策略[25-26] 来提高超分辨结果的视觉质量。除了图像超分辨任务，一些工作也开始关注基于深度学习的视频超分辨研究[27-29] ，致力于有效地利用视频的帧间信息来提升超分辨视频的质量。虽然这些方法对彩色图像的超分辨率复原有一定效果，但由于深度图像的通道单一和信息有限，这些方法会使重建的高分辨深度图像在边缘产生伪影，不能很好地解决深度图的超分辨复原任务。 1.2.1.2 深度图像超分辨图 1–5 彩色图（第一行）与深度图（第二行）。 Figure 1–5 Color image (the first row) and depth map (the second row). 深度图超分辨方法可以大致分为基于学习和基于滤波的方法。在基于学习的深度图超分辨方面，Diebel 和 Thrun[30] 将马尔科夫随机场（MRF）和梯度方法结合起来对低分辨深度图进行上采样。Ferstl 等人[31] 认为深度图上采样是一个具有高 —7— 上海交通大学博士学位论文阶正则化的凸优化问题。事实证明，一个额外的同一场景的高分辨率彩色图像对深度图超分辨非常有用。如图1–5给出了三个场景的彩色图和深度图对比图，图1– 5中第一行是三个彩色图，第二行是第一行中三个彩色图对应的深度图。从图中可以看出，彩色图像比深度图有更丰富的纹理结构信息，充分利用这些来自彩色图像的信息可以有效提升深度图超分辨的结果。然而，基于学习的方法由于其较高 [32] 的计算复杂性，在应用上往往受到限制。对于基于滤波的方法，引导滤波（GF） [33] 被用作边缘保持的平滑算子，就像流行的双边滤波（BF），它通过空间和强度域信息计算边缘平滑输出。尽管 GF[32] 可以很好地保持边缘，并且很容易计算，但它有时也会受到光晕伪影的影响。梯度域引导滤波器[34-35] 通过增加一个明确的一阶边缘感应约束，可以更好地保持复原图像边缘。联合双边滤波（JBF）采用了一个额外的引导信息，以提高从黑暗或噪声环境中获取的输入目标图像的质量。Hua 等人[36] 将引导滤波拓展应用于深度图超分辨，其使用一个高分辨彩色图来引导相应深度图的超分辨过程。Yang 等人[37] 采用了类似 JBF 的边缘保持滤波器，用一个额外的彩色图像辅助深度图像进行上采样。这些方法都是基于具有相似颜色的局部像素将具有相似的深度值这一假设。然而，部分情况下这一假设是不成立的。在不符合这种假设的情况时，超分辨复原结果并不十分理想[9] 。例如，在有纹理的彩色图像和无纹理的深度图像中可能会出现纹理复制伪影；在无纹理的彩色图像和有纹理的深度图像中，或者在颜色图像和深度图像的边缘没有很好地对齐时，会出现边缘模糊的现象。为了解决这一问题，不同方法已经被相继提出，其中，Chan 等人[38] 提出了一个噪声感知滤波器，在几何平滑区域使用输入深度值作为引导信息，在深度不连续区域使用彩色图像作为引导信息。这使得它可以抑制纹理复制效应，但仍然存在边缘模糊的问题。目前，彩色图像引导深度图超分辨成为了关注的热点问题，其目标是利用预对齐的高分辨率彩色图像来引导低分辨率深度图上采样。例如，使用各向异性全广义变分（TGV）的彩色引导深度图上采样方法[31] 和 3D-ToF 相机非局部均值（NLM）的高质量深度图上采样方法[39] 都是非常经典的彩色辅助深度图像超分辨 [40] 率方法。各向异性全广义变分网络（ATGV-Net）通过变分方法模拟了明显的片状仿生结构。Song 等人[41] 同时使用了深度场的统计数据以及颜色图和深度图之间的局部关联性。Tang 等人在文献[42] 中提出了一种用于深度图超分辨的多尺度引导卷积网络（MSG-Net）。由于同一场景的高分辨彩色图像包含更丰富的颜色信息，可以辅助深度图像超分辨，因此我们将高分辨率的彩色图像作为辅助信息引导深度图像的超分辨过程。在上采样过程中，不同深度的像素可以根据颜色值进行不同的加权。鉴于卷积神经网络在深度图上的出色表现，目前正逐步结合彩色 —8— 上海交通大学博士学位论文图像来解决深度图超分辨问题。由于传统的基于滤波器的深度图超分辨方法不能有效地恢复高频细节，我们可以探索使用卷积神经网络和额外的高分辨彩色图像来学习一个有效的上采样滤波器。图像去模糊 1.2.2 图像去模糊任务旨在从模糊的失真图像中恢复出视觉清晰的高质量图像。本文重点关注由运动模糊因素引起的图像退化问题。近年来，盲图像去运动模糊由于其重要的应用价值在计算机视觉领域吸引了众多学者专家的关注[12, 43-44] 。一般来说，图像去运动模糊任务是基于模糊是均匀的和空间不变的这一假设[45] ，并且目前已经提出了各种各样的解决方案[46-48] 。根据模糊核估计的需要，图像去模糊方法可分为有核估计的去模糊方法和无核估计的去模糊方法两大类。（1）基于核估计的去模糊方法通常情况下，大部分方法倾向于利用尖锐的边缘信息来估计模糊核。一些模糊核估计方法[49-52] 依靠隐式或显式的方法提取边缘信息，通过双边滤波和梯度幅度等检测并增强图像边缘。Xu 等人[53] 提出了一种基于尖锐边缘信息的 𝐿0 -规则化梯度先验，用于盲图像去模糊任务。Pan 等人[54] 提出了一种基于 𝐿0 规则化和梯度先验的优化方法，为模糊核估计生成可靠的中间结果。Sun 等人[55] 使用字典学习来预测清晰图像的边缘图像块，以实现去模糊任务。Pan 等人[56] 描述了一种基于暗通道先验的盲图像去模糊方法。Kim 等人[57] 提出了基于总变分 (TV)-L1 模型，同时估计运动流和潜在清晰图像。Bai 等人[58] 提出了一种多尺度潜在结构先验，逐步从粗糙尺度到精细尺度复原清晰图像。近年来，由于卷积神经网络强大的语义分析和深度挖掘能力，越来越多的工作倾向于使用大规模样本学习来解决盲图像去模糊问题。近年来，卷积神经网络在解决图像去模糊方面发挥了无可比拟的优势，取得了许多突破性成果[45, 59-60] 。其中一些方法利用神经网络估计模糊核来去除模糊。例如，Sun 等人[61] 主要基于卷积神经网络来估计未知运动模糊核的概率分布进行去模糊。但是，这些方法对成对训练数据的要求比较严格，不能直接实现模糊图像到清晰图像的转换，仍然无法避免模糊核估计过程中产生的误差。为解决这一问题，本文提出了一种基于无监督方式的图像去运动模糊方法来避免这些误差。因为所提出的方法是基于无监督的图像域到图像域的转换和非成对的训练数据，可以直接实现从模糊图像域到清晰图像域的转换，而无需模糊核估计过程。（2）无核估计盲图像去运动模糊生成对抗网络（Generative Adversarial Network，GAN）最初是根据博弈思想 —9— 上海交通大学博士学位论文来学习生成模型，已被证明能够很好地解决不同图像域的转换问题[24, 62] 。鉴于其优越的特征学习能力，更多人开始尝试用生成对抗网络来实现特定的图像复原任务[63] 。例如借助生成对抗网络从模糊图像中直接生成清晰的图像，以避免模糊核估计引起的失真。Xu 等人[64] 提出了一个端到端的卷积神经网络模型，包括两个子网络来恢复潜在的清晰图像。Nimisha 等人[59] 提出了一种基于 GAN 架构的新型深度滤波器，结合了全局跳跃连接和稠密结构块来解决这一问题。Hradi𝑠 ̌ 等人[65] 提出了一个 15 层的深度卷积网络来实现文本图像的去模糊化任务。Ramakrishnan 等人[66] 采用一种具有稠密连接生成器和鉴别器的特殊 GAN 生成用于去模糊的滤波器。Orest Kupyn 等人[47] 提出了基于条件对抗网络和多种损失函数的 DeblurGAN 方法，用于盲图像去运动模糊。SRNDeblur[48] 引入了由多尺度图像输入构建的多层网络，以获得最终的清晰重建图像。Li 等人[67] 提出了一个深度引导网络，其中包含一个去模糊分支和一个深度细化分支，用于动态场景去模糊。尽管这些方法已经取得了突破性进展，但结构细节信息缺失问题和严格的成对训练数据需求问题仍需解决。即使后续提出的方法[68-70] 可以通过无监督方式使用非成对训练数据来实现去模糊任务，但方法[68-69] 只针对特定领域的图像去模糊问题，而方法[70] 会将其他因素（颜色、纹理等）编码到生成的去模糊图像中。与现有这些方法不同，本文提出的无监督去模糊方法可以克服严格的成对训练数据需求问题。同时，可以利用多对抗架构和结构感知机制，进一步去除不相关的伪影并有效地保持复原图像的结构信息。模糊图像超分辨 1.2.3 现实生活中，图像退化因素往往复杂多样，甚至出现多种退化因素同时存在的情况[71-73] ，如同时存在模糊污染和空间分辨率过低的图像退化问题。近年来，随着卷积神经网络的发展很多图像复原任务性能都获得了显著进步。然而，对现有这些图像复原方法[18, 66, 70] 的分析表明，最先进的非均匀去模糊方法可以产生清晰的输出，但不能同时扩大图像的空间分辨率。此外，现有的经典图像超分辨方法很难有效地处理模糊的低分辨图像。为了解决现实世界中图像同时遭受空间信息 (分辨率) 降低和非均匀运动模糊污染这一具有挑战性的问题，多种联合超分辨和去模糊的模糊图像超分辨复原方法已被相继提出。为了实现联合去运动模糊和超分辨复原的目标，最直接的做法是部署一个级联方案，在这个级联方案中，首先实现图像去运动模糊任务然后在此基础上实现超分辨，反之亦然。然而，这种级联方案的一个关键缺陷是，通过简单的组合，第一步的重建误差会在下一个重建步骤中不断累积和放大，极大地阻碍了最终图像 — 10 — 上海交通大学博士学位论文质量的恢复。级联方案的另一个不足之处是，去运动模糊任务和超分辨复原任务是相互关联和相互影响的，简单地将它们分成两个单独任务的两阶段方案不能充分地利用低分辨率和高分辨率图像以及特征图之间的相互关系，导致图像复原模型学习不足。此外，当前的去模糊或超分辨网络都需要一个大型的去模糊或重建模块来实现高质量的图像复原，这使得两阶段的方案模型较大，因此需要较多的硬件资源消耗和时间消耗[74-75] 。尽管在过去的几年里进行了大量的研究，但通过深度网络联合图像去模糊和 SR 仍然具有挑战性。Yun 等人[76] 提出了一种生成对抗网络（GAN），该网络可以同时生成模糊的人脸图像和非模糊的人脸图像来重建人脸图像。Zhang 等人[77] 提出了一个 SRMD 网络，以实现噪声和模糊图像的超分辨。Gu 等人[78] 提出了迭代核校正（IKC）算法和空间特征变换（SFT）结构来实现图像去模糊和超分辨任务。Zhang 等人[79] 提出了一种基于编码器-解码器网络的联合去模糊和超分辨方法，以实现联合超分辨和去模糊。然而，这些方法中有些是针对特定的任务[76] ，有些主要解决轻微的高斯模糊问题[77-78] ，并不能很好地处理运动模糊。Liang 等人[80] 提出了一种新颖的双监督网络（DSN）来联合解决超分辨和去模糊问题。即使有些方法可以联合处理超分辨和运动去模糊问题[79-80] ，由于超分辨和去模糊任务之间的相互干扰，重建的高分辨图像中仍然存在结构和细节损失问题。相比之下，本文我们提出了一个结构保持框架，可以更好地保持结构细节，并使用交互式融合模块来减少超分辨和去模糊任务之间的相互干扰。视觉先验 1.2.4 因为视觉先验在图像复原中具有重要作用，不同的视觉先验模型已经被相继提出。本章节重点介绍目前被广泛使用的局部平滑模型、非局部自相似模型、稀疏表示模型和暗通道先验模型[81-82] 。 1.2.4.1 局部平滑模型图像局部平滑先验也即图像相邻像素具有非常相似的灰度值。在图1–6中，圆圈内的像素值是相近的，反映的是图像的局部平滑特性。这种先验是直观的，但是如何利用这种先验信息是一个非常具有挑战性的问题。经过几十年的发展，不同的利用图像局部先验信息的方法已经被相继提出，比较著名的有全变分模型、 Mumford-Shah 模型和 Markov 随机场模型。离散全变分模型通常包括各项同性全变分模型（Isotropic Total Variation，ITV） 𝛹ITV 和各项异性全变分模型（Anisotropic Total Variation，ATV）𝛹ATV 。如果图像 — 11 — 上海交通大学博士学位论文图 1–6 图像局部平滑和非局部自相似先验示意图。 Figure 1–6 Illustration of image local smooth and nonlocal self-similarity priors. 𝑥 的水平梯度和垂直梯度分别为 𝛥h𝑖,𝑗 𝑥 = 𝑥𝑖,𝑗 − 𝑥𝑖,𝑗−1 和 𝛥v𝑖,𝑗 𝑥 = 𝑥𝑖,𝑗 − 𝑥𝑖−1,𝑗 ，那么各项同性的离散全变分模型 𝛹ITV 和各项异性的离散全变分模型 𝛹ATV 的计算公式分别为： 𝛹ITV = 2 2 𝛥h 𝑥 + (𝛥v𝑖,𝑗 𝑥) ∑ ∑ √( 𝑖,𝑗 ) 𝑖 (1–4) 𝑗 𝛹ATV = 𝛥h𝑖,𝑗 𝑥| + |𝛥v𝑖,𝑗 𝑥| ∑∑| 𝑖 𝑗 (1–5) Mumford-Shah 模型的一般形式如下所示： 𝛹MS = 𝛽 ∫𝛺\𝛤 |∇𝑥|2 𝑑𝑥 + 𝛼 ∫𝛤 𝑑𝐻 1 (1–6) 其中 𝛺 是二维图像区域，𝛤 是图像的边缘集合，𝐻 1 是一维测度，𝛼 和 𝛽 用于控制公式中两项的权重。 Markov 随机场模型是基于图像局部像素的条件分布来刻画图像的局部统计特性。根据描述图像邻域内像素关系分布的差异，可以构建不同的模型，例如基于 Gibbs 分布描述图像邻域内像素关系的 Gibbs-Markov 随机场模型和基于 Gaussian 分布描述图像邻域内像素关系的 Gaussian-Markov 随机场模型。 — 12 — 上海交通大学博士学位论文 1.2.4.2 非局部自相似模型非局部自相似先验即为在图像的非局部区域找到一些相似的块，其反映了图像纹理重复的性质。在图1–6中，不同颜色的方形块给出了不同的具有较高相似度的图像块[2, 81-82] 。著名的非局部均值去噪模型利用与当前像素具有相似邻域块的像素的平均值来获得复原结果。该模型的一般形式如下[83] ： NLM𝑓 (𝑥𝑖 ) = 其中 𝑓 𝜔𝑖,𝑗 𝑓 = 1 𝑓 𝜔 𝑥 𝑑𝑗 𝐶𝑖 ∫𝛺 𝑖,𝑗 𝑗 (1–7) 𝑓 2 𝐺𝜎 ∗‖𝑃𝑖 −𝑃𝑗 ‖ exp − 2ℎ2 { } 𝑓 是像素 𝑥𝑗 的权值，𝐶𝑖 是一个归一化因子，𝐺𝜎 𝑓 是一个方差为 𝜎 的高斯核，𝑃𝑖 和 𝑃𝑗 分别是以参考图像 𝑓 的第 𝑖 像素和第 𝑗 像素为中心的图像块，ℎ 是一个与噪声水平有关的参数。为了更好地将非局部自相似先验用于基于正则化的图像复原模型中，Buades 等人[84] 提出了如下形式的非局部自相似正则项： 2 𝛹NLM (𝑥) = ‖𝑥 − NLM𝑓 (𝑥)‖ (1–8) 由于考虑到参考图像和观测图像不一定具有相同的纹理信息，所以 Zhang 等人提出了使用观测图像本身作为参考图像的非局部自相似正则项，其具有如下形式： 2 𝛹NLM (𝑥) = ‖𝑥 − NLM𝑥 (𝑥)‖ . 1.2.4.3 (1–9) 稀疏表示模型图像复原的稀疏表示模型主要描述了图像在某种变换域下的表示是稀疏的。对于一个图像 𝑥，可以基于一个自定义的或者学习得到的字典 D 得到图像 𝑥 的变换表示 𝛼 = D𝑥，如果 𝛼 只有有限个非零系数，那么就可以认为图像 𝑥 在字典 D 的变换域下是稀疏的。图1–7给出了一个图像块使用一个字典进行稀疏表示的示意图。图中反映的是该图像块只需要用字典的其中三个基元就可以进行准确的表示。因为图像具有较多的冗余信息，所以一般都能为图像找到一个字典 D 来得到图像的稀疏表示。基于稀疏正则的图像复原一般模型定义如下： arg min 𝛼 1 ‖HD𝛼 − 𝑦‖22 + 𝜆‖𝛼‖𝑝 2 (1–10) 公式（1–10）中第一项是数据精度项，第二项是图像稀疏表示 𝛼 的 L𝑝 范数。当求解模型（1–10）得到图像的稀疏表示 𝛼 后，基于字典 D 可以得到复原的图像，即 𝑥̂ = D𝛼。为了得到更好的稀疏表示，研究人员还探索了组稀疏表示等更多不同的稀疏表示方法以及不同的字典学习方法和更优的模型求解方法。 — 13 — 上海交通大学博士学位论文图 1–7 图像稀疏表示先验示意图。 Figure 1–7 Illustration of image sparse representation prior. 1.2.4.4 暗通道先验模型暗通道先验首先由何凯明等人[85] 提出并应用于图像去雾，获得较好的单图像去雾效果。对于一个图像 J，其暗通道先验可以表示为： 𝑄𝑑 (𝑖) = min min 𝐽 𝑐 (𝑖) 𝑗∈𝛺(𝑖) (𝑐∈{r,g,b} ) (1–11) 公式1–11中，𝑄𝑑 是没有雾图像 J 的暗通道，𝛺 (𝑖) 是以像素 𝑖 为中心的邻域块。暗通道先验表明，没有雾的图像至少一个颜色通道的局部块内有少量的像素具有非常小的值。在过去几年，许多改进版本的暗通道先验模型已经被相继提出。复原图像的质量评价方法 1.2.5 复原图像质量的评价方法是数字图像复原研究中的一个基本的且非常具有挑战性的任务。一方面是因为它不仅仅可以作为图像复原视觉质量的反馈工具，还可以作为图像复原任务的优化目标；另一方面是因为图像的最终接受者往往是人，而人的视觉系统的复杂性使得构建一个符合人类视觉感知一致的图像质量评价方法成为非常具有挑战性的任务。为了解决这一挑战性问题，研究人员已经做了大量尝试，提出了主观质量评价方法和客观质量评价方法，而客观质量评价方法又主要划分为全参考图像质量评价方法、半参考图像质量评价方法和无参考图像质量评价方法[86-87] 。 — 14 — 上海交通大学博士学位论文 1.2.5.1 复原图像的主观质量评价方法主观质量评价方法基于人类视觉系统进行图像质量评价，其强调视觉质量而不是数据信号层面的精度。换言之，主观质量评价方法通过观察者对复原图像进行主观打分来获得图像质量的统计量。其通常先规定若干等级的图像质量和它们相应的质量分值，然后邀请不同观察者对相同复原图像根据他们独立的观察判断复原图像的质量分值，最后所有观察者的平均主观评分作为复原图像的主观质量评分。另外，根据是否有参考图像，复原图像的质量评价方法又分为平均主观得分 (Mean Opinion Score, MOS) 和差异平均主观得分 (Difference Mean Opinion Score, DMOS)。平均主观得分是观察者直接观察复原图像进行打分得到平均值，而差异平均主观得分是观察者根据复原图像和参考图像的相对质量等级进行打分的平均值。假设我们将复原图像质量规定为 𝐾 个级别，其中第 𝑖 级质量的分值和观察者的数量分别是 𝑠𝑖 和 𝑛𝑖 ，那么平均主观得分可以按如下公式计算得到： 𝐾 ∑ 𝑛𝑖 𝑠𝑖 MOS = i=1 𝐾 (1–12) ∑ 𝑛𝑖 𝑖=1 其中，分母项表示参与打分的观察者数量，而分子项是所有观察者打分的求和，平均值 MOS 就是最后的主观质量指标。复原图像的主观质量评价方法直接反映人对图像质量的满意程度，因此主观质量评价是面向人类视觉的图像复原方法的最可靠的质量评价指标。但是这种方法又存在三方面的问题。第一，每个人的主观意见不可能完全一样，这导致对同一个复原图像由不同人或者不同数量的人打分得到的分值是不一样的。并且这种方法也不适合于大规模的图像质量评价，因此组织大量的人力花费大量时间来对海量图像数据进行打分显然是不合理的。第二，主观质量指标没有建立评价得分与图像内容之间的直接联系，不方便用于图像复原方法的优化。第三，主观质量评价反映的是人对图像质量的满意度，但是前文也提到了图像也是机器系统的重要视觉信息来源，人的主观质量评价并不能完全反映机器对图像视觉信息的满意度。因此，需要探索复原图像的不同层次的客观质量评价方法。 1.2.5.2 复原图像的客观质量评价方法复原图像的客观质量评价方法通过基于图像内容获得关于图像视觉质量的统计量，并且使得该统计量与人的主观质量评价打分一致。因为客观质量评价方法 — 15 — 上海交通大学博士学位论文能够有效解决前面提到的主观质量评价方法存在的问题，近年来的复原图像质量评价方法研究主要关注客观质量评价方法，并且已经提出了大量的全参考复原图像质量评价方法、半参考复原图像质量评价方法和无参考复原图像质量评价方法。在本文中，我们主要用到均方误差（Mean Squared Error, MSE）、峰值信噪比（Peak Signal to Noise Ratio，PSNR）和结构相似性（Structural Similarity index, SSIM）这三种全参考的复原图像质量评价方法。这里的全参考是指我们有一张完整的目标图像做为参考用于对复原图像进行质量评价。如果 𝑥𝑖 是参考图像的第 𝑖 个像素，𝑦𝑖 是复原图像的第 𝑖 个像素，则均方误差的计算公式定义如下： MSE = 2 𝑥𝑖 − 𝑦𝑖 ) ∑( (1–13) 𝑖 峰值信噪比有如下两种表示形式： PSNR = 10log10 𝑥2max ( MSE ) 𝑛 (1–14) 2 (2 − 1) PSNR = 10log10 ( MSE ) (1–15) 在公式 (1–14) 中，𝑥𝑚𝑎𝑥 是图像 𝑥 的最大像素值，而在公式 (1–15) 中，𝑛 是表示像素的比特位数。结构相似性的计算公式如下： SSIM = (2𝜇𝑥 𝜇𝑦 + 𝐶1 ) (2𝜎𝑥𝑦 + 𝐶2 ) 2 2 2 2 (𝜇𝑥 + 𝜇𝑦 + 𝐶1 ) (𝜎𝑥 + 𝜎𝑦 + 𝐶2 ) (1–16) 其中，𝜇𝑥 和 𝜇𝑦 分别是参考图像和复原图像的像素均值，𝜎𝑥2 和 𝜎𝑦2 分别是参考图像和复原图像的像素方差，𝜎𝑥𝑦 是参考图像 𝑥 和复原图像 𝑦 的协方差，𝐶1 和 𝐶2 是两个常量值。 1.3 局限性与挑战传统方法以较高计算复杂度才能获得较好的图像复原结果。在基于深度学习的图像复原方法开始流行之前，基于先验正则的图像复原方法是主流，其能够有效地利用图像的先验信息来提升复原图像的质量。但是因为先验正则模型的求解往往是一个迭代优化过程，为了获得较好的图像复原结果需要进行较多次数的迭代，这显著地增加了算法的复杂性，严重影响了算法的应用场景，特别是在实时性要求较高的情况下的应用受到了更大的影响。因此，研究以较低复杂度获得高质量的图像复原结果是一个亟需解决的挑战性课题[88] 。 — 16 — 上海交通大学博士学位论文当前已有的基于深度学习方法没有充分利用图像视觉先验信息。和深度学习在其他任务应用一样，已有的基于深度学习的图像复原方法往往是一个黑盒子，可解释性较差。已有工作探索先验信息在深度网络中应用的研究较少，但是传统的工作启发我们需要充分利用图像先验信息才能有效突破图像复原质量的瓶颈。哪些种类的图像先验适合在深度网络中使用，以及如何在深度网络中有效利用这些图像视觉先验信息来提升复原图像的质量都是亟需解决的重要挑战性课题。当前已有方法主要关注单一失真任务的图像复原，对多种失真同时存在的图像复原问题关注较少。经过多年的发展，针对图像去噪、去模糊、超分辨等不同图像复原任务，研究人员都提出了有效的解决方案。但是，真实应用场景中很少存在单一失真的问题。显然地，将存在多种失真的图像分而治之为各种单一失真问题不是一个理想的解决方案，因为各个任务之间是存在关联关系的，并不是一个完全可分离任务。因此，探讨能够同时应对多种失真的图像复原方法也是一个亟需解决的挑战性课题。 1.4 本文研究内容图 1–8 本文主要研究内容。 Figure 1–8 The main research content of this paper. 由于数字图像在采集、拍摄、传输和处理等过程中存在诸多不可控因素，如拍摄距离、相机抖动、景深变化、目标运动等，致使图像质量不可避免的退化。因此，借助图像复原算法有效地从单一失真因素或多失真因素引起的退化图像中恢复出清晰的、高分辨率的、高质量的图像具有极其重要的研究意义。 — 17 — 上海交通大学博士学位论文本文主要工作如图1–8所示，包括三个方面：（1）提出一种基于彩色引导和由粗到精级联的深度图超分辨网络。首先，所提出的深度图超分辨方法采用数据驱动的方式，借助大量训练样本学习理想的深度图超分辨滤波器，从而使学习到的滤波器对解决深度图超分辨问题更加准确和稳定。其次，所提出的深度图超分辨方法采用由粗到精级联的卷积神经网络学习不同尺寸的滤波核。在粗糙的卷积神经网络学习阶段，通过学习较大尺寸的滤波核获得粗糙的高分辨深度图。在精细的卷积神经网络学习阶段，将粗糙阶段获得的高分辨深度图作为输入进一步学习较小尺寸的滤波核，通过由粗到精的级联结构逐步恢复深度图中的高频细节，从而获得更准确的深度图超分辨重建效果。同时，利用新的彩色图像引导机制来解决高分辨彩色图像和低分辨深度图像之间信息不对齐的问题。该引导机制根据高分辨彩色图像中边缘区域的信息来修正插值后的高分辨深度图像。通过彩色引导方式可以减轻纹理复制效应，并有效地保留深度图中的边缘细节。定量和定性的实验结果证明了所提出的深度图超分辨方法具有领先的深度图像超分辨重建性能。（2）提出一种基于结构保持的多对抗图像去运动模糊实现盲图像去运动模糊。为解决以往盲图像去运动模糊方法对大量成对训练数据的严格需求及模糊核估计过程中不可避免地产生误差的问题，首先提出基于循环一致生成对抗网络（Cycleconsistent Generative Adversarial Network，CycleGAN）来解决盲图像去运动模糊问题。然后，提出一种多对抗网络结构来解决高分辨率图像生成中的伪影问题，通过多对抗约束可以促进网络在不同分辨率上尽可能地生成对应的清晰图像。虽然多对抗结构比原始的 CycleGAN 网络结构复杂，但它可以有效地抑制高分辨率图像生成中的伪影现象。此外，通过引入结构感知机制来解决原始无监督方法中结构内容丢失的问题，将边缘图作为引导信息并引入多尺度的边缘约束条件，可以增强多对抗网络的结构和细节保持能力，从而提升去运动模糊的重建效果。多个基准数据集上的定量和定性实验结果表明，所提出的无监督去模糊方法优于当前最先进的无监督和有监督图像去运动模糊方法。（3）提出一种结构保持交互式融合网络（Structure-preserving Interactive Fusion Network，SIFN）实现运动模糊图像的超分辨重建。为解决复杂场景下自然图像同时被运动模糊污染及分辨率过低的多因素失真问题，SIFN 利用端到端的方式从模糊的低分辨图像重建出清晰的高分辨图像。首先，根据边缘信息对图像超分辨[89] 和去模糊[90] 等复原任务的重要作用，提出一种结构保持模块利用边缘辅助信息和多尺度约束提升重建网络的结构和细节保持能力。然后，设计一个具有多分支融合结构的边缘提取网络以获得准确的模糊图像边缘信息，从而构建结构保持模 — 18 — 上海交通大学博士学位论文块。同时，提出基于边缘引导的交互式融合模块，以自适应地融合从去模糊分支和超分辨分支提取的相关重建特征。此外，借助局部注意（Local Attention, LA）机制和全局注意（Gobal Attention, GA）机制来增强 SIFN 的特征表达能力并突出重要的高频成分。定量和定性实验结果表明，所提出的方法在多个基准数据集上与当前大多数先进算法相比，可获得更理想的模糊图像超分辨重建性能。 1.5 本文章节安排本论文的章节安排和组织结构如下：第一章为绪论部分。首先介绍本课题的研究背景及意义、图像复原任务的基础知识和关注的主要挑战性问题。然后介绍了图像复原任务的研究现状，包括图像超分辨、图像去运动模糊和模糊图像的超分辨等相关图像复原任务的研究进展和发展趋势，并简要分析当前图像复原方法的局限性与挑战。最后总结了本论文的主要贡献和组织安排。第二章提出基于彩色引导和由粗到精级联的深度图超分辨方法。首先分析本章所需解决的低分辨深度图复原任务，也即实现少量训练样本条件下快速有效的深度图超分辨方法。然后详细介绍了彩色引导机制、由粗到精级联网络和理想滤波器训练方法。最后给出大量实验验证所提出的深度图超分辨方法的有效性并给出本章工作内容的总结。第三章提出基于结构保持的多对抗图像去模糊方法。首先分析本章所需解决的无监督图像去运动模糊任务，也即实现在非成对训练样本条件下盲图像的去运动模糊方法。然后分析了边缘信息引导机制和多尺度边缘约束对去模糊任务的重要性，并介绍了多对抗无监督学习框架。此外，通过大量实验验证分析了所提出的无监督去运动模糊方法的优越性。最后给出了本章工作内容的总结。第四章提出基于交互融合和注意机制的模糊图像超分辨方法。首先分析本章所需解决的复杂场景下的图像复原任务，也即多失真条件下同时实现图像的去模糊和超分辨任务。然后分析了图像去模糊任务和图像超分辨任务之间的相互作用和关系，提出了交互融合模型，并介绍了注意力机制对图像复原任务的重要作用。此外，通过大量实验验证了所提出的基于交互融合和注意机制的模糊图像超分辨方法的有效性。最后给出了本章工作内容的总结。第五章对基于视觉先验和深度学习的图像复原工作进行总结。然后分析目前相关图像复原任务的局限性和提升方向，最后对未来图像复原任务相关研究和应用进行展望。 — 19 — 上海交通大学博士学位论文 20 上海交通大学博士学位论文第二章 2.1 基于彩色引导和由粗到精级联的深度图超分辨问题描述图像超分辨率（Super-Resolution, SR）是指从低分辨率（Low-Resolution，LR）图像中恢复出一个潜在的高分辨率（High-Resolution，HR）图像。图像超分辨作为最经典的计算机底层视觉任务之一，已被广泛应用于医学图像、军事安全和视频监控等领域。近年来，深度卷积神经网络因为其强大的语义信息提取能力已被应用于语义分割、图像分类及目标识别等多种计算机视觉任务。随着深度学习技术的快速发展，涌现出大量利用深度卷积神经网络（Convolutional Neural Network， CNN）来学习低分辨图像和高分辨图像之间映射的超分辨方法。比较经典的有，开创了将 CNN 应用于自然图像超分辨任务先河的 SRCNN[15] （Super-Resolution Convolutional Neural Network，SRCNN），防止梯度爆炸的 SR 方法 VDSR[17]（SuperResolution using Very Deep convolutional networks，VDSR）和基于边缘引导和递归残差的 SR 方法 DEGREE[91]（Deep Edge Guided REcurrent rEsidual ，DEGREE）等等。这些方法都充分证明了 CNN 在处理彩色图像超分辨任务方面非常有效。随着三维成像技术的快速发展，消费级三维扫描设备获取的可靠深度信息吸引了众多研究人员的目光，并作为重要信源应用于多种场景。如交互式自由视点视频[92] 、三维重建[93] 、语义场景分析[94] 和人体姿势识别[95] 等。目前主要包含两大类获取深度信息的深度测量技术，即被动传感器和主动传感器[96-97] 。对于被动式传感器，最常用的立体匹配方法[98-99] 在无纹理或遮挡区域往往比主动传感器更加耗时且精确不够，而主动式传感器则可以产生更精确的结果。目前，两种流行的主动传感器是激光扫描仪和飞行时间（Time-of-Flight，ToF）传感器。尽管激光扫描仪可以生成高质量的深度图，但它们一次只能测量一个点，而且其应用受到环境限制。与激光扫描仪相比，ToF 传感器更便宜，并具有捕捉快速移动物体的深度图的功能。尽管这些优点使 ToF 传感器得到了更多的关注，但它们在分辨率和随机噪声方面仍然受到限制。例如，MESA SR 4000 和 PMD CamCube 3.0 的分辨率分别只有 176 × 144 和 200 × 200[96] 。为了促进深度信息的使用并满足实际需要，深度图像超分辨率（Depth Image Super-Resolution, DSR）是在传统超分辨方法的基础上，从低分辨深度图像恢复出视觉上令人满意的高分辨深度图像。作为一种重要的信息源，深度图像中每个像素值代表拍摄物景中对应点到相机成像的平面距离，亦或其他距离转化数据。由于与传统 RGB 彩色图像相比，深度图像只有单一通道且有严重的空洞效应, 以及深度图像具有低信噪比和边缘模 — 21 — 上海交通大学博士学位论文糊等缺陷，直接将常规的自然图像超分辨方法应用于深度图像超分辨无法获得理想效果。因此，当前大多数 DSR 方法更倾向于将 RGB-D 相机捕获的同一场景的对齐高分辨彩色图像作为辅助信息完成深度图的超分辨[32-33, 37-38, 100-103] 。例如，文献[104] 中，在颜色边缘与深度边缘对齐良好的前提下，采用人工设计的边缘保持滤波核将局部颜色信息传递到深度图像。然而，当前提条件不成立时，可能会出现边缘模糊和纹理复制等。例如，当彩色图像边缘与深度图像边缘不能很好地对齐时，则上采样图像的边缘就会由于不恰当的颜色引导产生模糊。事实上，最佳的引导信息是真实的高分辨深度图像。然而，由于设备采集过程不可避免地存在噪声，在实际应用中无法获取理论上的最佳引导信息。图 2–1 现有上采样深度图的模糊性和不连续性。(a) 高分辨彩色图。(b) 高分辨深度图。(c) 插值放大后的下采样率为 8 的深度图。(d) 引导滤波结果[32] 上采样结果。(e) SRCNN[15] 上采样结果。(f) 我们方法的深度图上采样结果。 Figure 2–1 Ambiguity and discontinuities in upsampling depth map. (a) Color image. (b) Ground-truth. (c) (Enlarged) LR depth map downsampled by a factor of 8. (d) Guided image filtering (GF)[32] . (e) SRCNN[15] . (f) Our proposed method without edge ambiguity and discontinuities. 基于颜色信息在深度图超分辨复原任务中的重要作用，以及深度 CNN 模型在图像复杂细节重建方面的显著性能，本文提出一个新颖的基于彩色引导和由粗到精级联的深度图超分辨网络。对于 LR 深度图，我们首先采用双三次插值来初步估计其初始的 HR 深度图。由于深度不连续区域的像素值被认为是不确定的，我 — 22 — 上海交通大学博士学位论文们根据 HR 彩色图像中相应位置的像素并结合插值后的深度图像中的像素对这些不确定像素进行修正。然后，我们利用外部训练数据通过 CNN 模型学习一个边缘保护滤波核，从而取代传统的手动方式实现深度图像上采样。利用深度 CNN 可以更好地提取 LR 深度图像与 HR 彩色图像之间的互信息，这也是本文提出的数据驱动滤波器能够更好地逼近真实高分辨深度图的原因。例如，图2–1显示了几种流行的基于边缘保护滤波器的上采样方法。图2–1(a) 和图2–1(b) 分别展示了高分辨率彩色图像和真实高分辨深度图。图2–1(c) 至图2–1(e) 是由其他滤波方法得到的 HR 深度图，图2–1(f) 是我们方法的结果。图2–1表明我们 DSR 方法的性能优于当前其他方法，可以有效减少纹理复制效应和边缘不连续效应（尤其是在彩色边框区域）。针对本章所关注的深度图超分辨问题，本章的主要贡献总结如下三个方面： • 提出了一种新颖的彩色图像引导机制，将高分辨的彩色信息和低分辨的深度信息有机结合起来然后引导深度图的上采样过程，解决单一深度图信噪比过低和传统彩色引导方式不当会产生伪影从而导致深度图超分辨性能不佳的问题。 • 提出了一种由粗到精的深度级联网络模型来解决深度图像的超分辨问题。该级联网络可以在粗糙阶段和精细阶段学习到不同尺寸的滤波核，利用多尺度信息通过迭代优化的方式不断提升深度图超分辨的性能。 • 提出了理想滤波的概念，借助同一场景的高分辨彩色图像并利用深度卷积神经网络学习一种用于深度图上采样的理想边缘保持滤波器。该滤波器可以有效地逼近理想滤波器并获取相对优越的深度图超分辨性能。 2.2 提出的深度图超分辨方法本文中，我们提出一个基于数据驱动的深度学习框架来解决低分辨深度图像的超分辨问题。图2–2显示了所提出的基于彩色引导和由粗到精级联的深度图超分辨网络结构。如图2–2所示，所提出的网络主要包括三个部分：彩色图像引导过程、粗糙阶段的深度图超分辨、精细阶段的深度图超分辨。在图2–2中的彩色引导部分，我们首先通过双三次插值对低分辨深度图像进行插值放大得到初始的高分辨深度图像，然后通过 Canny 算子检测插值后高分辨深度图的边缘，并将边缘膨胀 5 个像素以确定边缘区域。我们同时利用高分辨彩色图像确定的邻域信息和低分辨深度图像的深度信息来计算近似深度。最后，从插值后的高分辨图像的边缘区域减去近似深度值。在粗糙阶段，将修正后的插值高分辨深度图作为卷积神经网络的输入，生成近似的理想滤波器，即图中的 Kernels_1。然后，可以由滤波器 — 23 — 上海交通大学博士学位论文图 2–2 所提出的深度图超分辨算法框架图。它主要包括三个部分：颜色引导、粗糙阶段和精细阶段。在彩色引导部分，我们首先通过双三次插值算法对 LR 深度图像进行插值，得到初始的 HR 深度图像，然后通过 Canny 算子检测插值后的高分辨深度图的边缘，并将边缘膨胀 5 个像素以确定边缘区域。我们同时利用 HR 彩色图像确定的邻域信息和 LR 深度图像的深度信息来计算近似深度。最后，从插值后的高分辨图像的边缘区域减去近似深度值。在粗糙阶段，将修正后的插值 HR 深度图作为 CNN 的输入，生成近似理想滤波器，即图中的 Kernels_1。然后，可以由滤波器 filter_1 构建粗糙的高分辨深度图 HR depth_1 图。为了恢复更多细节，将粗糙的高分辨深度图 HR depth_1 图作为精细阶段 CNN 的输入学习更小的滤波核，通过考虑更小的邻域重建出更优的高分辨深度图 depth_k。MSE 被用来判断网络的收敛程度，当 MSE 足够小时则认为网络是收敛的。 Figure 2–2 Conceptual illustration of our framework. It mainly includes three parts: color guidance, coarse stage, and fine stage. In the color guidance part, we first interpolate the LR depth image by bicubic algorithm to obtain the initial HR depth image, then we detect the edges of the interpolated high-resolution depth map by canny operator and dilate the edges by five pixels to determine the marginal areas. To calculate the approximate depth value, both the neighborhood information determined by HR color image and the depth information of LR depth image are utilized. Finally, we subtract the approximate depth from the marginal area of the interpolated high-resolution image. In the coarse stage, the modified interpolated HR depth map is used as the input of CNN to generate the approximate ideal filter, which is named Kernels_1 in the figure. Then the coarse HR depth_1 map can be constructed by filter_1. In order to recover better details, the coarse HR depth_1 is used as input for the fine CNN. Through the fine CNN, smaller kernels are obtained to consider smaller neighborhood and recover better resolution HR depth_k. MSE is used to judge the convergence of network, the network can be considered convergent if MSE is small enough. — 24 — 上海交通大学博士学位论文图 2–3 上采样率为 2 的边缘图像。(a) 和 (b) 是真实深度图像及其边缘图。(c) 双三次上采样的深度图像的边缘图。(d) 使用引导滤波器[32] 后的双三次上采样的深度图像的边缘图。(e) 使用梯度域引导滤波器[34] 后的双三次上采样的深度图像的边缘图。(f) 我们方法的边缘图。 Figure 2–3 Constructed edge maps with an upscale factor of 2. (a) and (b) are the ground truth depth image with its edge map. (c) Edge map of bicubic upsampled depth image. (d) Edge map of bicubic upsampled depth image after using guided filter[32] . (e) Edge map of bicubic upsampled depth image after using gradient domain guided filter[34] . (f) Edge map of our method. filter_1 构建粗糙的高分辨深度图 HR depth_1。为了恢复更多细节，将粗糙的高分辨深度图 HR depth_1 作为精细阶段卷积神经网络的输入学习更小的滤波核，通过考虑更小的邻域重建出更优的高分辨深度图 depth_k。MSE 被用来判断网络的收敛程度，当 MSE 足够小时则认为网络是收敛的。基于滤波的深度图超分辨 2.2.1 章节1.2.1.2中的前期研究工作表明，基于滤波器的方法在额外高分辨彩色图像的辅助引导下对实现低分辨深度图像上采样具有显著性能。本文引入了上采样理想滤波器的概念，设计了一个近似理想滤波器来实现深度图的超分辨率。一般情况下，基于滤波的深度图超分辨可以表示为: 𝐷𝑝 = ∑ 𝑞↓ ∈𝛺𝑝 (𝑤𝑝,𝑞 𝐿𝑞↓ )/ ∑ 𝑤𝑝,𝑞 (2–1) 𝑞↓ ∈𝛺 其中，𝐷 和 𝐿 分别表示上采样深度图像和输入的低分辨深度图像，𝑞 表示图像 𝐷 中像素的坐标，𝑞↓ 表示图像 𝐿 中对应的 𝑞(可能是小数) 坐标。𝑤𝑝,𝑞 表示以像素 𝑝 — 25 — 上海交通大学博士学位论文为中心的保边滤波器核 𝛺𝑝 。若 𝐺 为引导图像，则联合双边滤波器核可表示为: 𝑤𝑝,𝑞 = 𝑒𝑥𝑝(− ∥ 𝑝, 𝑞 ∥ 2𝜎𝑆2 )𝑒𝑥𝑝(− ∥ 𝐺𝑝 , 𝐺𝑞 ∥ 2 2𝜎𝑅 ) (2–2) 其中 𝜎𝑆 和 𝜎𝑅 是两个常量，用于调整空间相似性和范围 (强度/颜色) 相似性。∥, ∥ 表示两个常量之间的距离。图2–4(c) 是当 𝜎𝑆 = 10 和 𝜎𝑅 = 10 时，用高分辨彩色图像 (如图2–4(b) 所示) 计算的联合双边滤波器核。由于当颜色边缘与深度边缘不图 2–4 滤波核。第一行表示彩色边缘和深度边缘不对齐的样例。(a)、(b)、(f) 分别为输入深度图像、彩色图像、真实高分辨深度图。(c) 为联合双边滤波器 (以彩色图为导向) 可以很好地逼近理想的滤波核。(d) 为根据 (f) 中的真实深度图计算的滤波核。颜色表示滤波权值，红色代表较大的权重，蓝色代表较小的权值。最后两行展示两个颜色边缘与深度边缘不一致的样例，可以看出联合双边滤波核与 (d) 差别很大。而我们的方法可以更加逼近 (e) 中所示的理想滤波器。 Figure 2–4 Filter kernels. (a), (b) and (f) are the input depth image, color image, and ground truth depth image, respectively. In (c), the Joint Bilateral Filter (JBF) (with the color as the guidance) can well approximate the ideal filter kernel; In (d), kernels computed with the guidance of the ground-truth depth in (f). The color represents the filter weights. Red color corresponds to large weights while blue represents small value. The last two rows present two databases when the color edges are different from the depth edges, it can be seen that the joint bilateral filter kernel will be quite different from (d). While our proposed method can learn a much better approximation of the ideal filter kernel as shown in (e). 一致时，联合双边滤波器有一定局限性，如图2–4(c) 所示。我们引入了如图2–4(d) — 26 — 上海交通大学博士学位论文所示的理想滤波器核，理想滤波器核被定义为以真实高分辨深度图作为导向时的滤波核。图2–4(d) 展示了当 𝜎𝑆 = +∞ 和 𝜎𝑅 = 5 时相应的滤波核。理论上，𝜎𝑆 /𝜎𝑅 应该是无限大/无限小，以最大限度地减少来自正确/不正确深度值的比例。然而， 𝜎𝑅 被设置为一个相对较小的值以抑制实际中不可避免的噪声，而 𝜎𝑆 被设置为无限大以忽略空间相似性。近年来，深度 CNN 网络已在图像超分辨领域展现了强大的有效特征提取能力，其性能显著超越大多数人工设计的特征。因此，我们考虑使用深度 CNN 来学习 DSR 的理想滤波核。特别是，基于深度 CNN 的高分辨图像块 𝑝𝑎𝑡𝑐ℎ𝐻 𝑝 和其对应的滤波核 𝑤𝑝 之间的端到端映射关系可以描述为： 𝑤𝑝 = 𝑓𝐶𝑁𝑁 (𝑝𝑎𝑡𝑐ℎ𝐻 𝑝 ) (2–3) 其中 𝐻 表示输入的低分辨深度图像 𝐿 经过双三次插值后的结果，而 𝑝𝑎𝑡𝑐ℎ𝐻 𝑝 表示图像 𝐻 中一个以 𝑝 为中心的图像块。以上公式是 CNN 在 DSR 滤波中的直接应用。然而，直接将 CNN 应用于 DSR 的性能与预期相差甚远，因为深度图通常缺乏丰富的颜色信息且噪声较强。高分辨彩色图像引导机制 2.2.2 为解决缺乏颜色引导的问题，如章节2.2.1中所述，我们使用一个额外的 HR 彩色图像作为导向图来进行预处理和学习逼近 “理想” 滤波器。色彩引导过程主要包括五个步骤：第一，对 LR 深度图像进行双三次插值，得到初始 HR 深度图像。第二，使用 Canny 算子对初始 HR 深度图像进行边缘检测。第三，对 Canny 算子检测到的边缘进行膨胀以确定边缘区域。第四，对初始 HR 深度图像边缘区域中以像素 𝑝 为中心的邻域，我们在 HR 彩色图像的对应区域中找到一组颜色相似的像素，并确定与像素 p 颜色最相似的像素 𝑞 的位置。最后, 我们找到像素 𝑞 在 LR 深度图像中位置对应的像素，其中 𝑑𝑝 为像素 𝑝 的深度值。假设 𝑝𝑎𝑡𝑐ℎ𝐺 𝑝 表示以像素 𝑝 为中心的高分辨率引导图像 𝐺（如同一场景的彩色 𝐺 图像）的局部图像块，一个简单的解决方案是将 𝑝𝑎𝑡𝑐ℎ𝐻 𝑝 和 𝑝𝑎𝑡𝑐ℎ𝑝 同时输入到网络中，这一过程可以简单地描述为: 𝐺 𝑤𝑝 = 𝑓𝐶𝑁𝑁 (𝑝𝑎𝑡𝑐ℎ𝐻 𝑝 , 𝑝𝑎𝑡𝑐ℎ𝑝 ) (2–4) 为了在彩色图像引导过程减少计算量，我们借鉴残差学习思路，从 𝑝𝑎𝑡𝑐ℎ𝐻 𝑝 中减去 𝑑𝑝 来修正不确定的插值后的深度值。理论上，𝑑𝑝 应该为 𝑝𝑎𝑡𝑐ℎ𝐻 𝑝 的中心像素 𝑝 的真实深度值，因此引导图像块可以描述为： 𝐻 𝐺𝑝𝑎𝑡𝑐ℎ𝐻 𝑝 = 𝑝𝑎𝑡𝑐ℎ𝑝 − 𝑑𝑝 — 27 — (2–5) 上海交通大学博士学位论文其中 𝑝𝑎𝑡𝑐ℎ𝐻 𝑝 表示以像素 𝑝 为中心的插值后的高分辨深度图像块，𝑑𝑝 为 HR 彩色图像和 LR 深度图像得到的近似真实深度值，𝐺𝑝𝑎𝑡𝑐ℎ𝐻 𝑝 为 HR 彩色图像引导下的插值深度图像块。然而，实际中无法提供真实的高分辨深度图像，因此本文提出了一个计算近似的 𝑑𝑝 的方法。 ̃ 𝑝 表示候选集，𝑝↓ 表示低分辨率图像 𝐿 中像素 𝑝 的对应坐标。𝐿 ̃ 𝑝 由 𝐿 中的 𝐿 𝑝↓ 附近的像素填充。 ̃ 𝑝 , 且 ∥ 𝑞↓ , 𝑝↓ ∥≤ 2 𝑞↓ ∈ 𝐿 (2–6) 然后利用这些候选对象之间的颜色差异来寻找 𝑑𝑝 的最佳近似值: 𝑑𝑝 = 𝐿𝑎𝑟𝑔 min|𝐺𝑖 −𝐺𝑝 | (2–7) ̃𝑝 𝑖↓∈𝐿 其中 𝑖↓ 为低分辨图像 𝐿 中像素 𝑖 的对应坐标，𝐺 为原始的高分辨彩色图像。如图2–3所示，尤其是在红色边框中，我们可以看到，从双三次插值的深度图中提取的边缘包含明显的锯齿状边缘，而使用引导滤波器和梯度域引导滤波器[34-35] 后的深度图像的边缘图无法被识别。结果表明，我们的深度图超分辨结果与真实结果比较接近。此外，章节 2.3也证明了这种彩色引导方式能促进网络获得相对理想的 DSR 性能。基于彩色引导的深度值修正过程如图2–5所示。图2–5(a) 和图2– 5(b) 分别是真实的高分辨彩色图像和低分辨深度图像。图2–5(c) 是用 16 倍的上采样因子进行双三次插值后的初始高分辨深度图。图2–5(d) 是初始高分辨深度图像的扩展边缘图。图2–5(e) 是减去近似深度值后的导向图引导的初始高分辨深度图。图2–5(f) 是我们方法的超分辨深度图。从图2–5可以清楚地看到，所提出的彩色引导方法有效地保护了深度图中的边缘信息。由粗到精的级联结构 2.2.3 如上所述，在彩色图引导下，可以通过卷积神经网络学习近似的“理想”滤波器以重建 HR 深度图像。然而，滤波器的尺寸与重建的高分辨深度图的质量有一定关系。例如，一些深度值可能只与非常小的邻域有关，使用较大的滤波核可能会影响 DSR 的性能。此外，根据以往研究普遍认为卷积层越多，重建的结果就越准确。因此我们考虑使用由粗到精的级联网络来增加网络深度，同时改变滤波核尺寸来实现深度图的上采样。本文提出的级联网络结构主要包括粗糙阶段和精细阶段。在这两个阶段中，卷积神经网络由三个卷积层组成，每层后面有一个非线性激活函数层。每个卷积层都有一组尺寸为 𝑠1 × 𝑠2 × 𝑠3 × 𝑠4 的滤波器组 𝑊 和一个 𝑠4 -维的偏差向量 𝐵。其中 𝑠1 是其输入特征映射的个数，𝑠4 是其输出特征映射的个数，𝑠2 × 𝑠3 是卷积核的空间尺寸。每个卷积层的滤波核尺寸为 𝑠1 × 𝑠2 × 𝑠3 ， — 28 — 上海交通大学博士学位论文图 2–5 彩色引导过程示意图。(a) 和 (b) 分别为真实高分辨彩色图像和真实低分辨深度图像。 (c) 用 16 倍上采样因子进行双三次插值后的初始高分辨深度图。(d) 初始的高分辨深度图的扩展边缘图。(e) 引导的初始高分辨深度图。(f) 我们的深度图超分辨结果。 Figure 2–5 Illustration of color guidance procedure. (a) and (b) are the ground truth high-resolution color image and low-resolution depth image. (c) The initial high-resolution depth map after bicubic interpolation with 16× upsampling factor. (d) Expanded edge map of the initial high-resolution depth image. (e) The guided initial high-resolution depth image. (f) Super-resolution depth image of our method. 𝐵 的每个元素都与一个卷积核相关联。用修正线性单元 (ReLU) 作为激活函数，在加快收敛速度的同时保证重建质量[105-106] 。我们将一个卷积层及其后面的激活层称为一个模块，则单个 CNN 共有三个模块。第 𝑖 个块可以用函数 𝑓𝑖 表示： 𝑓𝑖 (𝑥𝑖 ) = 𝑥𝑖+1 = max(𝑊𝑖 ∗ 𝑥𝑖 + 𝐵𝑖 , 0) (2–8) 其中 𝑥𝑖 是第 𝑖 − 1 个块的输出和第 𝑖 个块的输入，𝑊𝑖 和 𝐵𝑖 是学习到的卷积核和第 𝑖 个块的偏置向量。最后，网络可以表示为: 𝑤𝑝 = 𝑓𝐶𝑁𝑁 (𝐺𝑝𝑎𝑡𝑐ℎ𝐻 𝑝 ) = 𝑓𝐶𝑁𝑁 (𝑝𝑎𝑡𝑐ℎ𝐻 𝑝 − 𝑑𝑝 ) = 𝑓3 (𝑓2 (𝑓1 (𝑝𝑎𝑡𝑐ℎ𝐻 𝑝 − 𝑑𝑝 ))) (2–9) 映射函数 𝑓𝐶𝑁𝑁 由参数 𝜃 来表示。其中，𝜃 = {𝑊1 , 𝐵1 , 𝑊2 , 𝐵2 , 𝑊3 , 𝐵3 }, 是通过最小化网络 𝐹𝑖 的输出 𝑤𝑝 和“理想”滤波器核 𝑤𝐺𝑇 𝑝 之间的损失来学习得到。均方误 — 29 — 上海交通大学博士学位论文图 2–6 级联网络和单一深度卷积网络对比图。(a) 是我们提出的级联网络，(b) 是与 (a) 层数相同的单一深度网络。 Figure 2–6 Compare cascade network and single deep neural network. (a) is our proposed cascade network, (b) is the single deep network with the same layers as (a). 差（Mean Squared Error，MSE）被用作损失函数： 𝐽 (𝜃) = = 2 1 𝑤𝑝 − 𝑤𝐺𝑇 ‖ 𝑝 ‖ ∑ 2𝑛 𝑝 1 𝐺𝑇 2 𝑓𝐶𝑁𝑁 (𝑝𝑎𝑡𝑐ℎ𝐻 ‖ 𝑝 − 𝑑𝑝 ) − 𝑤 𝑝 ‖ ∑ 2𝑛 𝑝 (2–10) 其中 𝑛 为训练图像块的个数。对于本文所提出的由粗到精级联网络，我们首先在粗糙阶段利用 CNN 学习一些较大尺寸的滤波核从而逼近“理想”滤波器。借助较大尺寸的滤波核，可以初步重建出粗糙的高分辨深度图。由于边缘区域的部分深度值仅仅与较小邻域内的像素有关，因此我们通过级联网络的精细阶段学习较小尺寸的滤波核。由于精细阶段的 CNN 输入为粗糙阶段的 CNN 的输出，经过不同尺度滤波器的不断优化， — 30 — 上海交通大学博士学位论文最终能够获得更加理想的深度图超分辨重建效果。 𝐽 (𝜃𝑘 ) = = 2 1 𝑤𝑘𝑝 − 𝑤𝑝𝐺𝑇 ‖ ‖ 2𝑛 ∑ 𝑝 2 𝐻𝑘 1 𝑘 𝐺𝑇 𝑓 (𝑝𝑎𝑡𝑐ℎ − 𝑑 ) − 𝑤 𝑝 𝐶𝑁𝑁 𝑝 𝑝 ‖ ‖ 𝑘 2𝑛 ∑ 𝑝 (2–11) 𝐻 其中 𝑘 为卷积神经网络的索引，𝑤𝑘𝑝 为得到的第 𝑘 个滤波器，𝑝𝑎𝑡𝑐ℎ𝑝 𝑘 和 𝑑𝑝𝑘 分别表示第 𝑘 个高分辨深度图的图像块和真实深度值。如图2–6所示，每个子网络可以获得一个尺寸的滤波核来重构相应的 HR 深度图。由于卷积运算操作，每个子网络学习到的滤波核越来越小，并且每个子网络的输入图像质量都比前一个子网络更好。然而，对于层数几乎相同的单个深层卷积网络，由图2–6(b) 所示只能得到单一尺寸的滤波核。此外，图2–6(b) 的模型比图 2–6(a) 的模型更加复杂。图2–7中的实验结果也证明了这种级联网络结构更加有效。实验和分析 2.3 实验细节 2.3.1 在彩色引导部分的训练阶段，首先在选定的像素位置提取成对的图像块 𝐻 𝐺𝑇 {𝑝𝑎𝑡𝑐ℎ𝑝 , 𝑤𝑝 }，所有训练图像块对都在深度图边缘附近选取。然后利用 Canny 边缘检测器得到真实深度图的深度边缘信息，并将其膨胀 5 个像素来确定深度不连续区域。只有当 𝑝 在这些区域内时，以步长为 6 从像素 𝑝 所在区域提取成对的训练图像块。最后，提取超过 40,000 个训练图像块对，训练出三个不同上采样因子 (4×，8×，16×) 对应的三个卷积神经网络。对于粗略阶段，𝑝𝑎𝑡𝑐ℎ𝐻 𝑝 的尺寸被设定为 31 × 31。三个卷积层的滤波器组的尺寸分别为 1 × 8 × 8 × 64，64 × 3 × 3 × 32，以及 32 × 2 ×2×1。由于卷积运算，输出特征图的尺寸会比输入特征图小，粗糙阶段输出的滤波器核 𝑤𝑝 的尺寸为 21 × 21。因此，真实“理想”滤波核的尺寸也为 21×21。损失函数 MSE 通过随机梯度下降 (SGD) 最小化。参数 𝜃 = {𝑊1 , 𝐵1 , 𝑊2 , 𝐵2 , 𝑊3 , 𝐵3 } 在步骤 𝑡 中更新为： ∂𝐽 (𝜃) (2–12) ∂𝜃 其中 𝑟 是学习率，在本文中学习率设置为 0.00001 且在训练过程中没有衰减。每 𝜃 𝑡 = 𝜃 𝑡−1 − 𝑟 个卷积层的权值 ({𝑊1 , 𝑊2 , 𝑊3 }) 都是通过标准差为 0.01 的零均值高斯分布初始化。偏差 ({𝐵1 , 𝐵2 , 𝐵3 }) 被初始化为常数 0。对于级联网络的精细阶段，卷积层和滤波核大小与粗糙阶段相同。由于粗糙阶段重构的输出图像块比原始输入图像块 — 31 — 上海交通大学博士学位论文小，因此通过精细阶段学习到的滤波核尺寸会不断减小，从而在滤波时考虑更小邻域内的信息特征。训练数据生成过程如算法2–1所示：算法 2–1 生成训练数据 Data: 低分辨率深度图像 𝐿，高分辨率彩色图像 𝐺 Result: 滤波核 𝑤𝑝 1 对图像 𝐿 进行插值，以获得初始高分辨率深度图像 𝐻 2 ; 用 “ Canny” 描述子获取图像 𝐻 的边缘，并将边缘放大 5 个像素得到边缘区域; 3 while 每个在 𝐻 的边缘区域的像素 do 4 从图像 𝐻 的边缘区域提取以 𝑝 为中心的图像块 𝑝𝑎𝑡𝑐ℎ𝐻 𝑝 ; 5 通过公式 (2–6) & 公式 (2–7) 计算近似深度值 𝑑𝑝 ; 6 从 𝑝𝑎𝑡𝑐ℎ𝐻 𝑝 的每个像素 𝑝 中减去 𝑑𝑝 ; 7 当点 𝑞 与所选图像块中的点 𝑝 的距离小于 10 时, 获得像素 𝑝 的权重作为真实滤波核 𝑤𝐺𝑇 𝑝 ; 8 end 9 𝐺𝑇 将外部训练数据中选定像素位置的数据组合为 {𝑝𝑎𝑡𝑐ℎ𝐻 𝑝 , 𝑤𝑝 } ; 数据集和指标 2.3.2 为了评估本章节所提出方法的性能，我们在 Middlebury 2003[107] 数据集（包含 4 个场景），Middlebury 2005[108-109] 数据集（包含 6 个场景），和 ToFMark[31] 数据集（含 3 个场景）数据集上进行了对比实验。每个场景包含两个视图（左视图和右视图），在一个视图中有一幅与深度图像对齐的彩色图像。数据集中的彩色图像是由无源 RGB-D 摄像机获取的，并应用在训练阶段和测试阶段。使用公式（2–2）（将 𝜎𝑆 设置为 +∞ 和 𝜎𝑅 设置为 5）从高分辨深度图像中计算出章节2.2.1中所述的“理想”滤波核。从采集到的高分辨深度图像通过最近邻降采样方法获取对应的低分辨深度图像。所提出网络的输入是通过章节2.2.1中所述的公式（2–5）和公式（2–7）计算而来。我们从 Middlebury 数据集中选择 60 幅 RGB-D 图像（分别从 2001、2006 和 2014 年数据集中选择 6 幅、21 幅和 33 幅），Canny 算子的方差为 1.5，阈值为 0.35。第一个子网络输入图像块的尺寸为 31 × 31，上采样因子分别为 4、8 和 16，其他参数如章节2.3.1所述。本文给出了所提出的 DSR 方法与现有 DSR 方法的定量和定性对比实验结果。这些对比方法可以分为两类：（1）基于彩色图引导的深度图超分辨方法：JBF[33] ， Tree[101] ，AutoRegressive (AR)[110] ，Guided[32] ，TGV[31] ，Joint Geodesic Filtering (JGF)[111] ，Edge[39] ，Cross-based Local Multipoint Filtering (CLMF)[112] ，Coupled — 32 — 上海交通大学博士学位论文图 2–7 Middlebury 2005 数据集上的 MAD 指标结果对比。(a)、(b) 和 (c) 分别是书的场景、洗衣店场景和驯鹿场景。橙色、蓝色和绿色分别表示 4 倍、8 倍和 16 倍上采样率的结果。 SingleDeep 是单一深度神经网络的 DSR 结果（见图2–6）。Our_CS 是我们网络粗糙阶段的结果，Our_FS1、Our_FS2 和 Our_FS3 分别是精细阶段的结果。这三个场景都一致表明，我们网络的性能比 SingleDeep 网络更好，且精细阶段的 MAD 指标比粗糙阶段更小。 Figure 2–7 Quantitative comparisons on the Middlebury dataset 2005 in MAD. (a), (b) and (c) are the Book scene, Laundry scene and Reindeer scene ,seperately. Three upsampling factors 4×, 8× and 16× are marked in orange, blue and green, respectively. SingleDeep is the result of the single deep neural network (see Fig. 2–6) for DSR. Our_CS is the result of our coarse stage, while Our_FS1, Our_FS2 and Our_FS3 are the results of our fine stages. All three scenes show that Our results are better than that of the Single Deep network, and the MAD in our fine stages are also smaller than that of coarse stage. Dictionary Learning with Local Constraints (CDLLC)[113] ，Joint Super Resolution and Denoising (JSRD)[114] ，MSG-Net[42] ，Xie 等[102] ；（2）单一深度图像上采样方法： Bicubic, Patch Based method (PB)[115] ，SRCNN[15] ，Huang 等[116] , Super-Resolution via Sparse coding(ScSR)[5] ，Wang 等[19] 。大多数算法的测试结果都是使用作者提供的源码实现的。对于基于学习的方法 PB[115] ，SRCNN[15] ，MSG-Net[42] ，ATGVNet[40] ，Song[41] 和 Wang 等[19] ，我们采用的是作者训练后发布的模型。 2.3.3 消融实验 2.3.4 与主流算法对比分析 2.3.4.1 定量评价为了对所提出的级联网络进行定量评估，我们首先在 Middlebury 2005 数据 [108-109] 集上进行测试评估，深度图上采样率分别为 4、8 和 16。为了获得 LR 深度图像，我们首先对真实 HR 深度图进行平滑和下采样处理。评价指标是两个经典的误差测量指标：错误像素百分比 (PE) 和平均绝对差异 (MAD)，这两个指标越小说明深度图超分辨算法性能越好。图2–7显示了我们的方法在三种上采样率下不同数量的精细网络的对比结果。图2–7(a) ∼ 2–7(c) 显示不同场景有相似的变化趋势。 — 33 — 上海交通大学博士学位论文图 2–8 边缘保护性能图例。与经典基于边缘保持滤波的上采样方法的视觉对比。(a) 和 (b) 表示高分辨彩色图及深度图。(c) 是 (a) 和 (b) 的局部图像块。(d)-(g) 是使用不同上采样方法的局部效果图和相应的像素误差图 (误差阈值为 1)。虽然基于边缘保持的滤波器都可以有效地保持边缘，但精度差异较大。从二值误差图可以看出，我们的方法在深度不连续点附近的精度最高。 Figure 2–8 Edge preserving performance. Visual comparison with popular edge-preserving filtering based upsampling methods[32-33, 101] were conducted. (a) and (b) present the high-resolution color image and the ground-truth depth map. (c) is the close-up from (a) and (b). (d)-(g) are the close-ups of the disparity maps upsampled using different methods and the corresponding disparity error maps (obtained with error threshold 1). Note that although edge-preserving filters can all effectively maintain the edges, the accuracy is quite different. As can be seen from the binary error maps, the proposed method achieves the best accuracy around depth discontinuities. 从图2–7可以看出：(1) 对比图中的 SingleDeep 和 Our_FS1，可以充分说明我们的级联结构比单一深度神经网络（见图2–6）的 DSR 性能更好；(2) 对比 Our_CS 和 Our_FS1 ∼ Our_FS3，精细阶段的数值比粗糙阶段的数值更小。这一现象证明了级联结构是有效的；（3）对比 Our_FS1、Our_FS2 和 Our_FS3 可以看到，随着精细子网络数量的增加，两个指标都得到了改善。然而，当精细网络的数量为 3 时，DSR 性能的提高幅度很小而耗时大大增加。因此，考虑到性能和时间的平衡关系，实际中在精细阶段只级联两个精细子网络。 — 34 — 上海交通大学博士学位论文表 2–1 Middlebury 2005 数据集中三种上采样率的 MAD 指标对比结果。 Table 2–1 Quantitative comparison on the Middlebury dataset 2005 in MAD with three upsampling factors. Book 4× Bicubic 8× Dolls 16× 4× 8× Laundry 16× 4× 8× 16× Moebius 4× 8× 16× 3.80 8.15 16.41 4.73 9.60 19.49 7.42 14.82 26.77 4.52 9.38 18.51 [112] 3.17 7.25 16.93 3.97 9.65 18.36 6.11 12.57 25.35 4.03 8.40 17.60 [112] CLMF1 3.27 7.25 16.09 4.04 8.76 18.32 5.50 12.67 25.40 4.13 8.42 17.27 [31] 2.48 4.65 11.20 4.45 11.12 45.54 6.99 16.32 53.61 3.68 6.84 14.09 3.68 6.52 13.07 4.46 7.63 15.87 6.33 11.90 20.26 4.78 7.88 14.84 CLMF0 TGV [32] Guided [33] JBF 4.05 10.18 19.94 3.98 12.86 29.72 2.39 5.64 13.72 3.19 7.43 15.78 [39] 3.35 8.50 19.32 2.90 6.84 17.97 2.82 5.46 13.57 3.72 7.36 14.05 [111] 2.14 5.41 12.05 3.23 7.29 15.87 2.60 4.54 8.69 3.36 6.45 12.33 1.88 4.16 9.25 4.07 6.62 11.50 3.51 5.19 11.12 2.14 5.57 10.87 5.77 7.22 11.48 4.60 6.36 13.02 2.27 3.94 8.87 3.52 4.90 8.67 2.13 3.97 8.76 4.53 6.18 12.98 2.19 3.89 8.79 2.08 4.86 8.97 CDLLC 1.34 3.67 8.12 4.61 5.94 12.64 2.08 3.77 8.25 1.98 4.59 7.89 JSRD[114] 1.27 3.16 7.93 2.78 5.67 12.19 1.98 2.98 7.98 1.87 4.32 7.64 1.23 3.09 7.58 2.72 5.59 12.06 1.62 2.86 7.87 1.88 4.29 7.63 1.39 3.34 8.12 3.99 6.22 12.86 2.68 5.62 11.76 1.95 4.12 8.32 2.88 7.98 15.24 3.93 8.34 16.13 6.25 13.63 24.84 3.63 7.28 14.53 5.48 7.16 10.32 4.55 6.27 12.64 2.07 3.78 8.69 3.47 4.81 8.56 1.21 2.98 7.48 2.59 5.47 11.78 1.56 2.75 7.64 1.86 4.15 7.52 3.19 8.52 16.73 4.74 9.53 19.37 6.19 12.86 22.96 3.89 8.23 16.58 MSG-Net 1.21 3.24 7.85 2.39 4.86 9.94 1.68 2.78 7.62 1.79 4.05 7.48 Our_CS 1.35 3.51 8.04 2.01 4.53 10.90 1.55 2.71 7.56 2.25 3.98 7.41 Our_FS 1.19 3.07 7.32 1.98 4.49 9.84 1.39 2.49 7.35 2.18 3.91 7.41 Edge JGF [110] AR [101] Tree [6] KSVD [113] [102] Xie [115] PB [15] SRCNN [40] ATGV-Net [41] Song [19] Wang [42] 表2–1和表2–2展示了我们提出的方法与其他多种最先进的深度图超分辨方法在 Middlebury 2005 数据集上的对比结果。表2–3和表2–4展示了我们提出的方法与其他经典深度图超分辨方法在 Middlebury 2003 数据集上的对比结果。当像素误差大于 1 时则被视为一个错误像素。所有表格中的最佳性能都用粗体字标注。从这四个表格中可以看出，在 Middlebury 数据集上，所提出的方法在三个不同上采样率上的性能都几乎超过了所有其他方法。表2–1 和表 2–3中的 MAD 指标主要衡量重建的 HR 深度图和真实高分辨深度图之间的平均绝对误差。结果显示，所提 — 35 — 上海交通大学博士学位论文表 2–2 Middlebury 2005 数据集中三种上采样率的 PE 指标对比结果。 Table 2–2 Quantitative comparison on the Middlebury dataset 2005 in PE with three upsampling factors. Book 4× Bicubic 8× Dolls 16× 4× 8× Laundry 16× 4× 8× 16× Moebius 4× 8× 16× Reindeer 4× 8× 16× 0.29 0.59 1.15 0.36 0.66 1.18 0.54 1.04 1.95 0.30 0.59 1.13 0.55 0.99 1.88 [112] 0.28 0.51 1.06 0.34 0.66 1.02 0.50 0.82 1.66 0.29 0.52 1.01 0.51 0.84 1.51 [112] CLMF1 0.28 0.51 1.02 0.34 0.60 1.01 0.50 0.80 1.67 0.29 0.51 0.97 0.51 0.84 1.55 TGV [31] 0.27 0.42 0.82 0.33 0.70 2.20 0.55 1.22 3.37 0.29 0.49 0.90 0.49 1.03 3.05 Guided[32] 0.35 0.58 1.06 0.36 0.56 1.01 0.51 0.89 1.65 0.34 0.55 1.00 0.54 0.83 1.64 [33] CLMF0 JBF 0.38 0.71 1.40 0.41 0.82 1.80 0.33 0.61 1.33 0.33 0.68 1.44 0.45 0.90 1.77 [39] 0.30 0.56 1.03 0.31 0.56 1.05 0.32 0.54 1.14 0.29 0.51 1.10 0.37 0.63 1.28 [111] 0.24 0.43 0.81 0.33 0.59 1.06 0.36 0.64 1.20 0.25 0.46 0.80 0.38 0.64 1.09 0.22 0.37 0.77 0.34 0.50 0.82 0.34 0.53 1.12 0.20 0.40 0.79 0.40 0.58 1.00 0.46 0.55 0.84 0.48 0.58 0.94 0.41 0.56 0.95 0.40 0.49 0.82 0.48 0.62 1.04 0.23 0.52 0.76 0.34 0.56 0.82 0.35 0.52 1.08 0.28 0.48 0.81 0.47 0.57 0.99 0.19 0.46 0.75 0.31 0.53 0.79 0.30 0.48 0.96 0.27 0.46 0.79 0.43 0.55 0.98 0.17 0.39 0.72 0.29 0.51 0.76 0.29 0.47 0.94 0.24 0.43 0.76 0.39 0.53 0.96 0.15 0.36 0.70 0.27 0.49 0.74 0.28 0.45 0.92 0.23 0.42 0.75 0.36 0.51 0.95 0.16 0.43 0.79 0.83 0.53 0.99 1.13 1.89 2.87 0.17 0.47 0.82 0.56 0.97 1.89 0.25 0.52 0.97 0.29 0.58 1.03 0.40 0.87 1.74 0.25 0.43 0.87 0.35 0.75 1.47 0.43 0.51 0.79 0.41 0.56 0.52 0.89 0.37 0.94 0.38 0.45 0.80 0.41 0.58 1.01 0.17 0.38 0.72 0.26 0.48 0.76 0.27 0.44 0.93 0.24 0.45 0.75 0.34 0.50 0.96 0.28 0.61 1.31 0.32 0.65 1.45 0.45 0.98 2.01 0.31 0.59 1.26 0.42 0.84 1.73 MSG-Net 0.15 0.41 0.76 0.25 0.51 0.87 0.30 0.46 1.12 0.21 0.43 0.76 0.31 0.52 0.99 Our_CS 0.22 0.39 0.74 0.27 0.46 0.82 0.26 0.44 0.94 0.25 0.41 0.74 0.31 0.48 0.97 Our_FS 0.17 0.36 0.69 0.25 0.46 0.75 0.24 0.41 0.71 0.23 0.39 0.73 0.29 0.46 0.95 Edge JGF [110] AR [101] Tree [6] KSVD [113] CDLLC [114] JSRD [102] Xie [115] PB [15] SRCNN [40] ATGV-Net [41] Song [19] Wang [42] 出的方法几乎优于所有其他方法，包括传统的基于滤波的方法和基于学习的方法。这主要是因为我们的颜色引导机制可以帮助保持深度图的边缘，同时我们学习到的滤波器最接近于用于上采样的“理想”滤波器。只有极个别的指标不是最佳值，这主要是因为训练图像块大多是在深度不连续区域周围选择，缺少其他区域的特征信息。表2–2和表2–4中的 PE 指标是错误像素的百分比。如表2–2和表2–4中结果所示，经典的基于滤波器的方法，如双三次插值方法的 DSR 性能不是非常理想，尤其是在深度图边缘附近。主要因为基于滤波器的方法不能很好地保护边缘结构。 — 36 — 上海交通大学博士学位论文表 2–3 Middlebury 2003 数据集中三种上采样率的 MAD 指标对比结果。 Table 2–3 Quantitative comparison on the Middlebury dataset 2003 in MAD with three upsampling factors. Tsukuba 2× 4× 8× Venus 2× 4× Teddy 8× 2× 4× 8× Cones 2× 4× 8× [39] 2.35 4.44 6.95 0.44 0.90 2.65 3.12 6.27 13.73 3.26 7.18 14.38 [31] 1.79 3.08 5.31 0.41 0.60 1.76 2.31 3.72 7.51 2.54 4.34 8.17 [5] 3.27 6.15 9.17 0.71 1.43 3.42 3.76 7.79 15.86 4.43 9.33 17.35 2.48 4.30 6.78 0.59 1.22 3.15 2.97 5.17 8.93 3.97 6.45 12.51 2.99 5.52 8.64 0.71 1.30 3.23 3.98 6.92 14.12 4.99 8.64 16.18 2.41 4.15 6.59 0.71 1.18 3.08 2.99 4.72 9.13 3.68 5.79 11.23 3.53 6.20 9.32 0.67 1.45 3.61 3.88 7.37 15.24 4.52 8.44 15.38 1.57 2.52 3.69 0.39 0.66 1.83 4.13 8.03 17.90 4.35 9.73 17.69 1.4 2.37 3.52 0.38 0.59 1.69 1.71 3.13 6.23 1.96 3.23 6.53 1.27 2.36 3.50 0.37 0.54 1.62 1.61 3.11 6.18 1.72 3.09 6.27 1.52 2.41 3.59 0.40 0.63 1.76 5.35 5.37 7.62 4.63 5.74 7.36 1.25 2.23 3.49 0.39 0.53 1.60 1.63 3.10 4.52 1.71 3.05 4.37 3.12 3.24 5.68 0.68 1.21 2.87 3.92 4.27 5.67 4.83 8.72 9.35 MSG-Net 1.22 2.21 3.44 0.35 0.51 1.58 1.59 3.07 3.69 1.68 2.98 3.73 Our_CS 1.24 2.23 3.46 0.34 0.53 1.62 1.59 3.07 3.67 1.71 2.92 3.71 Our_FS 1.16 2.18 3.42 0.33 0.51 1.56 1.58 2.98 3.58 1.64 2.89 3.70 Edge TGV ScSR [6] KSVD SRCNN[15] [113] CDLLC Huang et al. [116] [115] PB [114] JSRD [102] Xie ATGV-Net [40] [41] Song [19] Wang [42] 我们所提方法在 4× 和 8× 上采样率中几乎优于所有其他算法的性能。只有在上采样率为 16× 时，极少数值略高于 MSG-Net 算法，主要原因是我们的训练数据中包含的平滑区域信息相对较少。表2–5显示了 ToFMark[31] 数据集中的 MAD 定量比较。如表2–5所示，我们的方法在 ToFMark 数据集的所有三个场景中都有最好的性能。这同时证明了我们的方法在所有三个数据集上的表现都优于其他方法。定性评估 2.3.5 图2–8使用 Art 数据库比较了几种主流的基于边缘保持滤波的 DSR 方法[32-33, 101] 。图2–8(a) 和图2–8(b) 分别为彩色高分辨图像和高分辨深度图像。2– 8(c) 展示了高分辨彩色图像和高分辨深度图像的局部区域，其中颜色和深度边缘不一致。图2–8(d) ∼ 图 2–8(g) 是使用不同方法上采样 (局部放大) 的深度图和对应的像素误差图（通过误差阈值为 1 获得）。这些方法[32-33, 101] 主要依赖于对齐的高分辨彩色图像中的颜色边缘来保持深度边缘信息。当颜色边缘与深度边缘不对齐 — 37 — 上海交通大学博士学位论文表 2–4 Middlebury 2003 数据集中三种上采样率的 PE 指标对比结果。 Table 2–4 Quantitative comparison on the Middlebury dataset 2003 in PE with three upsampling factors. Tsukuba 2× 4× 8× Venus 2× 4× Teddy 8× 2× 4× Cones 8× 2× 4× 8× [39] 0.61 0.77 1.32 0.23 0.29 0.56 0.78 1.08 2.13 1.03 1.52 2.98 [5] 0.64 0.82 1.62 0.29 0.38 0.64 0.90 1.18 2.31 1.15 1.45 2.84 0.51 0.66 1.09 0.23 0.30 0.59 0.70 0.92 2.07 0.91 1.15 2.28 0.64 0.79 1.43 0.28 0.34 0.61 0.88 1.10 2.35 1.12 1.41 2.91 0.48 0.61 0.98 0.21 0.27 0.53 0.67 0.85 1.59 0.85 1.07 2.12 0.66 0.87 1.73 0.29 0.39 0.69 0.90 1.23 2.68 1.15 1.48 2.88 0.62 0.86 1.71 0.30 0.38 0.62 0.89 1.26 2.73 1.18 1.56 3.11 0.47 0.71 1.21 0.18 0.29 0.51 0.64 0.97 1.56 0.81 1.24 2.32 0.45 0.67 1.09 0.19 0.29 0.49 0.63 0.95 1.51 0.76 1.16 2.14 0.46 0.72 0.88 0.23 0.31 0.52 0.69 1.03 1.6 0.83 1.27 2.42 0.43 0.66 0.89 0.17 0.37 0.56 0.68 0.91 1.72 0.75 1.12 2.13 0.65 0.68 0.83 0.26 0.34 0.69 0.75 1.24 3.01 1.86 1.35 4.86 MSG-Net 0.41 0.62 0.75 0.14 0.34 0.57 0.65 0.82 2.76 0.73 1.06 2.22 Our_CS 0.43 0.65 0.73 0.14 0.26 0.44 0.63 0.80 1.67 0.93 1.08 2.31 Our_FS 0.39 0.61 0.71 0.12 0.25 0.44 0.61 0.79 1.42 0.71 1.05 2.09 Edge ScSR [6] KSVD [15] SRCNN CDLLC[113] [116] Huang et al. [115] PB [114] JSRD [102] Xie [40] ATGV-Net [41] Song [19] Wang [42] 时，DSR 重建精度会大幅度下降。我们所提出的方法使用 CNN 来学习颜色和深度信息的数据驱动组合，从而使深度不连续点周围的重建结果更准确。图2–9 ∼ 图2– 11展示了与许多主流超分辨方法的性能比较。为了使对比更加清晰，我们用红色来标记超分辨的错误像素，红点越少表示错误像素越少。由图2–9 ∼ 图 2–11可以看出，在 Middlebury 数据集上我们重建出的深度图的质量明显优于其他方法，我们的方法能重建出比以往方法更具有视觉吸引力的结果，特别是在边缘区域。此外，我们的方法不仅比目前大多数方法具有更好的重建效果，而且运行速度较快。如果只使用单一尺度的 CNN，我们的方法在 Middlebury 2003 数据集上的平均运行速度为 1.24 秒。随着 CNN 网络层次的不断加深，DSR 重构图像质量的提高将以牺牲运行时间为代价，但由于我们使用的是三层的轻量级 CNN 结构，因此随着性能提升增加的运行时间是可以接受的。 — 38 — 上海交通大学博士学位论文表 2–5 ToFMark[31] 数据集中的 MAD 指标对比结果。 Table 2–5 Quantitative comparison on the ToFMark databases[31] using MAD metric. Tree[101] PB[115] SRCNN[15] GF[32] JBF[33] TGV[31] KSVD[6] CDLLC[113] Xie[102] ATGV-Net[40] Song[41] Wang[19] MSG-Net[42] Books 5.34 3.91 3.59 3.50 3.38 3.19 3.11 2.86 2.74 2.83 2.64 3.62 2.61 2.54 2.51 Devil 15.07 3.44 2.59 2.47 2.85 2.44 2.32 2.27 2.22 2.16 2.18 2.63 2.11 2.07 2.01 Shark 13.72 5.37 4.48 4.57 3.95 4.07 3.98 3.77 3.46 3.53 3.37 4.67 3.27 3.29 3.26 Average 11.38 4.24 3.56 3.51 3.39 3.23 3.13 2.97 2.79 2.86 2.69 3.64 2.66 2.63 2.60 Our_CS Our_FS 图 2–9 Middlebury 数据集中上采样图像的视觉对比（上采样率为 4），上采样误差像素标记为红色。(a) 高分辨彩色图。(b) 真实深度图。(c) 我们方法的结果。(d) AR[110] 。(e) Bicubic。 (f) CLMF0[112] 。(g) CLMF1[112] 。(h) Edge[39] 。(i) Guided[32] 。(j) JBF[33] 。(k) JGF[111] 。(l) TGV[31] 。(m) Tree[101] 。(n) ATGV-Net[40] 。(o) Song[41] 。 Figure 2–9 Visual comparison of upsampling images on Middlebury database (scaling factor = 4), the upsampling pixel errors are marked with red. (a) HR Color image. (b) Ground truth. (c) Our Proposed. (d) AR[110] . (e) Bicubic. (f) CLMF0[112] . (g) CLMF1[112] . (h) Edge[39] . (i) Guided[32] . (j) JBF[33] . (k) JGF[111] . (l) TGV[31] . (m) Tree[101] . (n) ATGV-Net[40] . (o) Song[41] . — 39 — 上海交通大学博士学位论文图 2–10 Middlebury 数据集中上采样图像的视觉对比（上采样率为 8），上采样误差像素标记为红色。(a) 高分辨彩色图。(b) 真实深度图。(c) 我们方法的结果。(d) AR[110] 。(e) Bicubic。 (f) CLMF0[112] 。(g) CLMF1[112] 。(h) Edge[39] 。(i) Guided[32] 。(j) JBF[33] 。(k) JGF[111] 。(l) TGV[31] 。(m) Tree[101] 。(n) ATGV-Net[40] 。(o) Song[41] 。 Figure 2–10 Visual comparison of upsampling images on Middlebury database (scaling factor = 8), the upsampling pixel errors are marked with red. (a) Color image. (b) Ground truth. (c) Our Proposed. (d) AR[110] . (e) Bicubic. (f) CLMF0[112] . (g) CLMF1[112] . (h) Edge[39] . (i) Guided[32] . (j) JBF[33] . (k) JGF[111] . (l) TGV[31] . (m) Tree[101] . (n) ATGV-Net[40] . (o) Song[41] . 图 2–11 Middlebury 数据集中上采样图像的视觉对比（上采样率为 16），上采样误差像素标记为红色。(a) 高分辨彩色图。(b) 真实深度图。(c) 我们方法的结果。(d) AR[110] 。(e) Bicubic。 (f) CLMF0[112] 。(g) CLMF1[112] 。(h) Edge[39] 。(i) Guided[32] 。(j) JBF[33] 。(k) JGF[111] 。(l) TGV[31] 。(m) Tree[101] 。(n) ATGV-Net[40] 。(o) Song[41] 。 Figure 2–11 Visual comparison of upsampling images on Middlebury database (scaling factor = 16), the upsampling pixel errors are marked with red. (a) Color image. (b) Ground truth. (c) Our Proposed. (d) AR[110] . (e) Bicubic. (f) CLMF0[112] . (g) CLMF1[112] . (h) Edge[39] . (i) Guided[32] . (j) JBF[33] . (k) JGF[111] . (l) TGV[31] . (m) Tree[101] . (n) ATGV-Net[40] . (o) Song[41] . — 40 — 上海交通大学博士学位论文 2.4 本章小结本文提出了一种由粗到精的级联卷积神经网络来解决深度图超分辨问题。首先，我们提出了针对深度图超分辨问题的“理想”滤波器概念，并利用深度卷积网络学习“理想”的边缘保持滤波器。然后，提出一种由粗到精的级联卷积网络提升深度图超分辨性能。通过在级联网络的粗糙阶段和精细阶段分别学习不同尺寸的边缘保持滤波器来逐步优化深度图超分辨效果。此外，提出一种新的高分辨彩色图像引导机制，在修正插值的深度值的同时促进高分辨颜色信息与低分辨深度信息的有效结合，进而加强深度图超分辨网络的结构保持能力。不同数据集中的大量实验证明了所提出方法在解决深度图超分辨问题的有效性。在未来，我们将致力于更具有挑战性的任务，如同时有效解决深度图和彩色图的超分辨复原问题，我们也将探索更有效的彩色引导机制，进一步提升深度图的超分辨复原效果。 — 41 — 上海交通大学博士学位论文 42 上海交通大学博士学位论文第三章 3.1 基于结构保持的多对抗图像去运动模糊问题描述随着计算机技术的飞速发展和成像设备的广泛普及，用手机和相机等影像采集设备记录信息的方式已深入到生活的各个方面。如生活中用智能手机拍照留念，医生用计算机断层扫描和磁共振成像等设备采集医学影像，监控设备用扫描摄像机等拍摄高速运动目标等等。然而，在用智能手机等轻型设备拍摄照片过程中，由于相机抖动、相机与目标之间相对运动等都不可避免地引起图像质量退化。特别是当光线较差或者大气湍流时退化情况更为严重。图像去模糊化作为一种重要的图像复原技术，其主要目的是将一幅质量退化的模糊图像重建为更符合视觉感知的清晰图像。常见的图像模糊类型有高斯模糊、散焦模糊、运动模糊和衍射模糊等。本章节重点关注由相机或者目标出现运动造成的运动模糊，实现对运动模糊图像的复原任务。图像去运动模糊主要有两种类型：盲去模糊和非盲去模糊。由于非盲去模糊是基于模糊核函数提前已知这一假设，近年来很多工作都集中在处理起来相对简单的非盲去模糊问题。针对非盲图像去模糊问题，一些方法旨在根据假定的模糊源对模糊模型进行参数化。比如在文献[117] 中，Whyte 等人假设模糊只由三维摄像机的运动引起。然而，实际中假设的模糊核函数并不总是准确且复原结果中容易出现振铃效应等，如何准确估计每个像素的模糊核是一个极具挑战的病态问题。根据实际应用需求，当前越来越多的研究关注盲图像的去运动模糊问题。随着深度学习技术的蓬勃发展，卷积神经网络由于其强大的语义分析能力已经被广泛用于盲图像去模糊任务。例如，Nimisha 等人[59] 提出通过一个自动编码器来学习数据先验，同时利用一个生成对抗网络来生成和判别清晰的和模糊的图像特征信息，从而实现去模糊任务。Schuler 等人[60] 描述了如何使用可训练的模型来学习盲去卷积。Xu 等人在文献[45] 中提出一个包含两阶段的去模糊模型，即分阶段抑制无关的细节和增强尖锐的边缘。Nah 等人[46] 提出使用多尺度卷积神经网络实现盲图像去模糊任务。尽管由于深度学习的出现，盲图像去模糊性能已有很大改善，但目前仍有三大挑战阻碍着盲运动去模糊技术的发展。(1) 缺少手工制作的关键先验特征。深度卷积神经网络通常忽略了传统的基于统计先验知识的有效特征。以往工作[54, 118] 等表明，传统的人工先验特征对图像去模糊化任务非常重要。(2) 过于简单的多尺度去模糊结构。虽然多尺度结构长期以来被用于解决去模糊问题[46] ，但它可能过 — 43 — 上海交通大学博士学位论文于强调高层语义信息而低估底层特征在去模糊任务中的关键作用。(3) 有限的训练数据。传统去运动模糊方法主要以寻找模糊退化原因及估计近似的模糊核为目的，然而这种估计方法往往存在一定误差，生成的模糊训练数据只能包含几个特定类别。此外，训练数据必须同时包含成对的模糊图像和清晰图像[46-48, 66] ，而这一苛刻的数据需求在现实中往往难以满足，并且合成的模糊图像和真实的模糊图像之间存在较大的分布差异。因此，需要进一步提高由不同模糊数据训练的去模糊网络的通用性。针对成对训练数据的需求，目前已提出多种基于无监督的卷积神经网络方法。 Nimisha 等人[68] 提出了一种基于无监督生成对抗网络的方法，并增加了重模糊损失和多尺度梯度损失。虽然该方法在合成数据集上表现出良好的性能，但它只针对特殊的模糊类型，在真实模糊图像上无法达到满意的效果。其他现有的基于 GAN 的无监督方法主要致力于学习模糊图像域到清晰图像域之间的映射，如 CycleGAN[119] 和 Discover Generative Adversarial Network（DiscoGAN[120] ）。在本文中，我们选择 CycleGAN[119] 作为基础骨架来取代以往网络模型。基于 CycleGAN 在不同图像域转换方面的优越性能，我们将模糊图像和清晰图像作为两个不同的数据分布借助 CycleGAN 进行转换，以克服去模糊模型需要成对训练数据的问题。与其他只能使用成对的清晰和模糊图像进行训练的方法相比，基于 CycleGAN 的方法用非成对的图像数据集可以获得更灵活的去模糊效果。对于一般多尺度去模糊问题，我们提出一个基于 CycleGAN 的多对抗架构来迭代地从低分辨率模糊图像生成高分辨率的清晰图像，从而提高去模糊任务的性能。对于缺少关键先验特征的问题，基于边缘重构在去模糊任务中的重要作用[45, 54, 118] ，我们提出一种通过添加边缘引导信息和最小化边缘损失的结构感知策略。因此，我们提出的无监督模型不仅可以避免在重建的去模糊图像中引入其他噪声因素 (如颜色和纹理)，而且可以尽可能保持与清晰图像一致的结构和细节信息。此外，结合感知损失[23] 和多尺度结构相似性 (MS-SSIM[121] ) 损失，我们获得了明显优于大多数现有方法的图像去模糊效果。如图3–1所示，与经典的无监督方法相比，我们的结果更令人满意[122] (如图3–1(c) 所示)。针对本章所关注的无监督模糊图像复原问题，本章的主要贡献总结如下三个方面[122] ： • 提出了一种基于 CycleGAN 的无监督盲图像去运动模糊方法，在不假定任何限制性模糊核模型的情况下进行盲运动去模糊。该方法可以避免模糊核估计过程造成的误差，也能克服其他现有方法需要成对的模糊和清晰图像作为训练数据的缺点[46-47] 。此外，我们的模型还可以同时借助清晰的图像 — 44 — 上海交通大学博士学位论文自动生成模糊的图像，为后续研究提供更多可用数据。 • 提出了一种多对抗架构来解决高分辨图像生成中的伪影问题。与传统的多尺度方法[46, 123] 不同，多对抗约束可以从不同分辨率上促使网络生成与清晰图像一致的复原结果。虽然多对抗结构比原来的 CycleGAN 结构复杂，但它可以有效地抑制高分辨图像生成中的伪影现象。 • 提出了一种基于边缘线索的结构感知机制用于图像去运动模糊。根据以往研究[45, 54, 124] ，如何有效地恢复清晰边缘对去模糊效果至关重要。因此，将模糊图像与其边缘图融合后作为输入，并在多对抗结构中引入了多尺度边缘约束，使对抗网络在不同分辨率下生成丰富的结构信息。图 3–1 本文提出的去模糊方法和原始 CycleGAN 方法结果对比。(a) 模糊图像。(b) 原始 CycleGAN[119] 去模糊效果。(c) 我们的结果。结果表明，我们方法的去模糊效果更令人满意，尤其是粉色和黄色矩形区域。 Figure 3–1 Comparison of the deblurred images obtained by our proposed method and CycleGAN on the real images. (a) Blurred images. (b) Deblurring results obtained by CycleGAN[119] . (c) Deblurring results obtained by our method. It shows that our results are more satisfying, especially in the pink and yellow rectangles. — 45 — 上海交通大学博士学位论文图 3–2 基于结构感知和多对抗优化的 CycleGAN 结构流程图。所提出方法依赖于无监督图像到图像的转换，使用非成对的训练数据以学习模糊图像和清晰图像之间的映射。𝐺𝑆 和 𝐺𝐵 是两个生成器子网络，分别用于将模糊图像转换为清晰图像和将清晰图像转换为模糊图像。 𝐷𝑆64 、𝐷𝑆128 和 𝐷𝑆256 是三个判别器，分别用于判断 𝐺𝑆 在三种分辨率下生成图像的真假。 𝐷𝐵64 、𝐷𝐵128 和 𝐷𝐵256 是用于判断 𝐺𝐵 在三种分辨率下生成图像的真假的判别器。通过多对抗方式，可以从低分辨率图像中迭代地生成高分辨率图像。同时，在网络中引入结构感知机制，即增加边缘信息引导生成过程和多尺度边缘损失来保持不同分辨率下的更多结构细节。此外，我们利用一致循环损失、感知损失和结构损失 (MS-SSIM) 来增强网络结构约束能力。 Figure 3–2 The flowchart of our proposed structure-aware multi-adversarial optimized CycleGAN method. Our method relies on the unsupervised image-to-image translation to learn the mapping between the blurred images and the deblurred (sharp) images. 𝐺𝑆 and 𝐺𝐵 are two generator sub-networks for translating the blurred image to the sharp image and translating the sharp image to the blurred image, respectively. 𝐷𝑆64 , 𝐷𝑆128 and 𝐷𝑆256 are the discriminators to determine whether the image generated by 𝐺𝑆 is real or fake at three resolutions. 𝐷𝐵64 , 𝐷𝐵128 and 𝐷𝐵256 are the three discriminators to determine whether the images generated by 𝐺𝐵 are real or fake at three resolutions. We use this multi-adversarial manner to iteratively generate the high-resolution images. In addition, we introduce the structure-aware mechanism by adding the edge map to guide the generation procedure and adding the multi-scale edge losses to enhance more structure details at different resolutions. Besides, we use the cycle-consistency loss, the perceptual loss and MS-SSIM loss to enforce the constraints. 3.2 提出的多对抗去模糊方法我们提出的无监督图像去运动模糊方法的整体流程图如图3–2所示。在图3– 2中，𝐺𝐵 和 𝐺𝑆 是两个生成器子网络，分别将清晰图像转换为模糊图像和将模糊图像转换为清晰图像。𝐷𝐵 和 𝐷𝑆 是判别器，用于区分真实图像和生成图像并反向 — 46 — 上海交通大学博士学位论文图 3–3 提出的多对抗生成器网络结构。𝐺𝑆 是生成器子网络，用于将模糊图像转换为清晰图像。生成器子网络 𝐺𝑆 的输入是模糊图像和由 Sobel 算子提取的对应边缘图。通过多对抗方式，𝐺𝑆 可以生成三种不同分辨率的输出（分别为 64 × 64，128 × 128 和 256 × 256）。多对抗约束通过隐藏层中的多个判别器实现。判别器 𝐷𝑆64 、𝐷𝑆128 、𝐷𝑆256 分别针对三种不同分辨率的 𝐺𝑆 定义。此外，生成的三种不同分辨率的边缘图被用于多尺度边缘约束，从而提高网络的结构保持性能。 Figure 3–3 Network structure of the proposed multi-adversarial generator. 𝐺𝑆 is the generator sub-network for the translation from the blurred image to the deblurred (sharp) image. The input of the generator sub-network 𝐺𝑆 is the blurred image and the corresponding edge map obtained by Sobel operator. By the multi-adversarial manner, 𝐺𝑆 can produce three different resolution outputs (64 × 64, 128 × 128 and 256 × 256). Multi-adversarial supervision is achieved through multiple discriminators in the hidden layers. Discriminators 𝐷𝑆64 , 𝐷𝑆128 , 𝐷𝑆256 are defined for 𝐺𝑆 at three different resolutions, respectively. In addition, the generated edge maps at three different resolutions are used for multi-scale edge constraints to improve the structure retention performance of the proposed deblurring network. 为生成器提供反馈信息。与原始 CycleGAN 不同，我们采用不同分辨率约束下的多对抗形式来逐步提高生成图像的质量，并利用跳跃连接将低层次信息更好地传递到高层网络结构。同时，我们设计了一种结构感知机制，即在多对抗架构中引入多尺度边缘约束，使生成对抗网络在不同分辨率下能生成丰富的结构信息，同时边缘图也作为网络的部分输入促进网络对结构信息的保持。此外，我们引入了多种损失函数 (多尺度结构损失函数 MS-SSIM 和基于 VGG16 网络的感知损失函数) 来进一步加强约束以减少生成的虚假信息。与其他方法相比，我们的方法不仅可以克服对成对训练数据的需求问题，而且可以保留更多的结构信息，获得更好的盲图像去模糊效果。 — 47 — 上海交通大学博士学位论文基于 CycleGAN 的原始去模糊方法 3.2.1 受经典无监督图像转换网络 CycleGAN[119] 的启发，我们首先尝试通过 CycleGAN 实现图像模糊域到清晰域的转换从而克服成对训练数据的需求问题。用于去模糊任务的原始 CycleGAN 主要包括两个生成器子网络 𝐺𝐵 和 𝐺𝑆 ，分别从模糊图像 𝑏 转换到去模糊 (清晰) 图像 𝑠 和从清晰 (去模糊) 图像 𝑠 转换到模糊图像 𝑏。𝐷𝐵 和 𝐷𝑆 分别是模糊图像和清晰 (去模糊) 图像的判别器。CycleGAN 的损失函数包含两部分：对抗性损失和循环一致性损失。一方面，对抗性损失旨在使生成的图像分布与目标域的数据分布相匹配。另一方面，循环一致性损失确保循环变换能使图像恢复到原始状态。基于传统的 CycleGAN，我们可以借助非成对训练数据成功地从模糊图像域转换到清晰图像域。然而，不可避免的噪声 (如颜色和纹理等) 会被编码到生成的结果中，且部分重要结构信息也会丢失[68, 125] 。为解决这些问题，我们期望通过多对抗架构和结构保持机制来逐步提高复原效果。多对抗生成网络 3.2.2 正如在相关工作中所述，经典的基于 GAN 的网络结构经常在生成真实图像时引入伪影，尤其是随着生成图像分辨率的提高失真更严重。为了解决这一问题，文献[46] 中提出使用多尺度方式来提高生成图像的质量。理想情况下，一个理想的多尺度方法不仅可以显著提高网络性能，而且还需要尽量减少参数、时间消耗和硬件负担。然而，在一些多尺度方法中[46, 123] ，每个尺度的参数仍然是相互独立的。鉴于此，我们在无监督去模糊模型中引入多对抗架构，以充分利用不同尺度的输入信息，减弱错误信息随着生成图像分辨率的提高而增加。基于传统编码器-解码器型的网络结构，本文提出的多对抗网络的生成器 𝐺𝑆 如图3–3所示。生成器子网络 𝐺𝑆 的输入是模糊图像和由 Sobel 算子得到的相应的边缘图，边缘图作为部分输入主要是用来为网络提供额外的结构信息。𝐺𝑆 包含一系列的卷积层、去卷积层和上采样层。从图3–3中可以看出，生成器 𝐺𝑆 可以生成三个不同分辨率的去模糊复原结果。然后，三个独立的鉴别器将判断不同分辨率的生成图像的真实性，并将信息反馈给生成器。网络通过隐藏层从不同分辨率进行约束，促使特征图被反复优化以产生更高质量的复原结果。此外，生成的三种不同分辨率的边缘图被用于多尺度边缘约束以提高网络的结构保持性能，并使用跳跃连接来充分利用低层次信息辅助去卷积过程。对于模糊图像 𝑏，生成器 𝐺𝑆 输出合成的清晰图像 𝑠𝑏1 、𝑠𝑏2 、𝑠𝑏3 。最后一个去卷积层输出的 𝑠𝑏 被作为生成器 𝐺𝐵 的输入，然后生成三个重构的 𝑏̂1 、𝑏̂2 和 𝑏̂3 。同 3 样，对于输入的去模糊 (清晰) 图像 𝑠，𝐺𝐵 将输出合成的模糊图像 𝑏𝑠1 、𝑏𝑠2 和 𝑏𝑠3 。 — 48 — 上海交通大学博士学位论文而以 𝑏𝑠3 作为生成器 𝐺𝑆 的输入，将输出三种分辨率的重构图像 𝑠1̂ 、𝑠2̂ 和 𝑠3̂ 。然后通过多种约束函数，促使网络在不同分辨率上都能生成接近目标的结果。𝐷𝑆64 、 𝐷𝑆128 和 𝐷𝑆256 三个判别器是针对生成器 𝐺𝑆 定义的。同理，𝐷𝐵64 、𝐷𝐵128 和 𝐷𝐵256 是针对生成器 𝐺𝐵 定义的。在对应去卷积层中，输出的三种分辨率分别为 64 × 64、 128 × 128 和 256 × 256。对抗性损失函数被描述为公式 (3–1) 和公式 (3–2): 𝐿𝑎𝑑𝑣 (𝐺𝑆 , 𝐷𝑆𝑖 ) = 𝐸𝑏∼𝑝(𝑏) [log(1 − 𝐷𝑆𝑖 (𝐺𝑆 (𝑏)𝑖 ))] (3–1) + 𝐸𝑠𝑖 ∼𝑝(𝑠𝑖 ) [log(𝐷𝑆𝑖 (𝑠𝑖 ))] 𝐿𝑎𝑑𝑣 (𝐺𝐵 , 𝐷𝐵𝑖 ) = 𝐸𝑠∼𝑝(𝑠) [log(1 − 𝐷𝐵𝑖 (𝐺𝐵 (𝑠)𝑖 ))] (3–2) + 𝐸𝑏𝑖 ∼𝑝(𝑏𝑖 ) [log(𝐷𝐵𝑖 (𝑏𝑖 ))] 其中 𝐺𝑆 (𝑏)𝑖 = 𝑠𝑏𝑖 ，𝐺𝐵 (𝑠)𝑖 = 𝑏𝑠𝑖 ，𝑖 = 1, 2, 3 对应于三种不同的分辨率。𝑏𝑖 和 𝑠𝑖 分别为第 𝑖 分辨率下的模糊图像和清晰图像。𝐷𝐵𝑖 和 𝐷𝑆𝑖 分别是生成器 𝐺𝐵 和 𝐺𝑆 在第 𝑖 尺度上对应的判别器。对于原始 CycleGAN 中的循环一致性损失，可被改进为多分辨率形式: 𝐿𝑐𝑦𝑐𝑏 = ‖𝑏̂𝑖 − 𝑏𝑖 ‖1 = ‖𝐺𝐵 (𝐺𝑆 (𝑏)3 )𝑖 − 𝑏𝑖 ‖1 𝑖 (3–3) 𝐿𝑐𝑦𝑐𝑠 = ‖𝑠𝑖̂ − 𝑠𝑖 ‖1 = ‖𝐺𝑆 (𝐺𝐵 (𝑠)3 )𝑖 − 𝑠𝑖 ‖1 (3–4) 𝑖 其中 𝐺𝑆 (𝑏)3 = 𝑠𝑏3 ，𝐺𝐵 (𝑠)3 = 𝑏𝑠3 。最终的多对抗目标函数可被定义为: 3 𝐿𝑀𝑢𝑙𝑡𝑖𝐺𝐴𝑁 (𝐺𝑆 , 𝐺𝐵 , 𝐷𝑆 , 𝐷𝐵 ) = ∑ 𝑖=1 (𝐿𝑎𝑑𝑣 (𝐺𝑆 , 𝐷𝑆𝑖 ) +𝐿𝑎𝑑𝑣 (𝐺𝐵 , 𝐷𝐵𝑖 ) + 𝜇𝑖 (𝐿𝑐𝑦𝑐𝑏 + 𝐿𝑐𝑦𝑐𝑠 )) (3–5) 𝑖 𝑖 可简写为: 3 𝐿𝑀𝑢𝑙𝑡𝑖𝐺𝐴𝑁 = ∑ 𝑖=1 (3–6) (𝐿𝑎𝑑𝑣𝑖 + 𝜇𝑖 𝐿𝑐𝑦𝑐𝑖 ) 其中 𝜇𝑖 是第 𝑖 分辨率上平衡不同部分的权重参数。𝐿𝑐𝑦𝑐𝑖 = 𝐿𝑐𝑦𝑐𝑠 + 𝐿𝑐𝑦𝑐𝑏 , 𝐿𝑎𝑑𝑣𝑖 = 𝑖 𝑖 𝐿𝑎𝑑𝑣 (𝐺𝑆 , 𝐷𝑆𝑖 ) + 𝐿𝑎𝑑𝑣 (𝐺𝐵 , 𝐷𝐵𝑖 ) 。结构保持机制的去模糊方法 3.2.3 由于模糊退化会在一定程度上削弱图像中的高频细节，如何在图像去模糊任务中尽可能地恢复理想的结构和细节非常重要。以往研究[68, 90, 118] 表明，边缘信 — 49 — 上海交通大学博士学位论文图 3–4 结构保持结果对比。(a) 原始的模糊图像。(b) CycleGAN[119] 的去模糊结果。(c) 以边缘图为部分输入后的去模糊结果。(d) 增加边缘约束后的去模糊结果。(e) 以边缘图为部分输入并增加边缘约束后的去模糊结果。实验结果表明，该方法具有较好的去模糊效果，尤其是在黄色矩形区域内。 Figure 3–4 Comparative experiment of structure maintenance effect. (a) The original blurred image. (b) Deblurring result using CycleGAN[119] . (c) Deblurring result with edge map as input. (d) Deblurring result with edge loss. (e) Deblurring result with both edge map as input and edge loss. It shows our method is more satisfying, especially in the yellow rectangles. 息在图像质量评估和图像复原任务中具有重要意义。文献[68] 中提出了一种具有重模糊损失和尺度空间梯度损失的无监督去模糊网络。在文献[118] 中，Vasu 等人首先分析了边缘轮廓和相机运动之间的关系，然后将边缘轮廓添加至现有盲图像去模糊框架。在文献[90] 中，根据人眼视觉系统更加关注边缘区域这一特点，提出了两阶段的边缘感知网络来改善图像去模糊性能。尽管一些结构感知方法已被陆续应用至去模糊问题，但在无监督去模糊任务中保持结构信息和减少固有模糊性仍然非常困难。为最大限度地保持去模糊图像中的结构信息，本文借助边缘结构这一重要视觉先验知识，提出使用结构感知机制将相应的边缘图作为部分输入，并在多对抗结构中加入多尺度边缘约束函数。与其他图像处理任务中的结构感知机制不同，所提出的结构感知机制不仅包括用于结构信息辅助的输入边缘线索，还包括用于生成不同分辨率的多尺度边缘约束。此外，多尺度边缘约束可以与多对抗机制有机地结合起来，更好地促进无监督网络中结构信息的生成。大量消融实验也充分验证了所提出的结构感知机制的有效性。本文提出的结构感知机制框架如图3–3所示。由于增加了边缘输入的引导，公式 (3–1) 和公式 (3–2) 可以进一步改进为公式 (3–7) 和公式 (3–8): 𝐿𝑎𝑑𝑣 (𝐺𝑆 , 𝐷𝑆𝑖 ) = 𝐸𝑏∼𝑝(𝑏) [log(1 − 𝐷𝑆𝑖 (𝐺𝑆 (𝑏, 𝑏𝑒 )𝑖 ))] + 𝐸𝑠𝑖 ∼𝑝(𝑠𝑖 ) [log(𝐷𝑆𝑖 (𝑠𝑖 , 𝑠𝑒𝑖 ))] — 50 — (3–7) 上海交通大学博士学位论文 𝐿𝑎𝑑𝑣 (𝐺𝐵 , 𝐷𝐵𝑖 ) = 𝐸𝑠∼𝑝(𝑠) [log(1 − 𝐷𝐵𝑖 (𝐺𝐵 (𝑠, 𝑠𝑒 )𝑖 ))] (3–8) + 𝐸𝑏𝑖 ∼𝑝(𝑏𝑖 ) [log(𝐷𝐵𝑖 (𝑏𝑖 , 𝑏𝑒𝑖 ))] 其中 𝑏𝑒 和 𝑠𝑒 分别是由 Sobel 算子得到的图像 𝑏 和图像 𝑠 的边缘图。𝑏𝑒𝑖 和 𝑠𝑒𝑖 是第 𝑖 个分辨率下对应的边缘图。通过边缘引导可以充分利用额外的边缘信息，促使目标域中生成的图像尽可能保持源域中的边缘结构信息，并帮助提升判别器区分生成图像和真实图像的能力。然而，尽管边缘引导能在一定程度上提升去模糊性能，复原的去模糊图像仍然存在振铃和过锐问题。为克服现有缺陷，同时促使去模糊图像的结构与对应清晰图像的结构相匹配，我们提出在多对抗结构中引入了多尺度边缘损失。由于基于无监督的去模糊方法无法获得相应的参考图像，生成对应的边缘图非常困难。因此，根据文献[68, 126] 中指出的将模糊图像 𝑏 以缩放因子 𝜂 调整后的图像 𝑏𝜂 比原始图像 𝑏 更清晰这一结论，提出多尺度边缘损失来促使去模糊图像的边缘与对应清晰图像的边缘相一致。在所提出的模型中，三个不同尺度的 𝜂 系数分别被设定为 0、1/2 和 1/4。因此，提出的多尺度边缘损失函数被定义为: 𝐿𝐺𝑟𝑎𝑑𝑏 = ‖▽𝑠𝑏𝑖 − ▽𝑏𝑖 ‖ = ‖▽(𝐺𝑆 (𝑏)𝑖 ) − ▽𝑏𝑖 ‖1 𝑖 1 (3–9) 𝐿𝐺𝑟𝑎𝑑𝑠 = ‖▽𝑏𝑠𝑖 − ▽𝑠𝑖 ‖ = ‖▽(𝐺𝐵 (𝑠)𝑖 ) − ▽𝑠𝑖 ‖1 𝑖 1 (3–10) 其中，▽ 为计算边缘图像的 Sobel 算子, 𝐿𝐺𝑟𝑎𝑑𝑖 = 𝐿𝐺𝑟𝑎𝑑𝑏 + 𝐿𝐺𝑟𝑎𝑑𝑠 。 𝑖 𝑖 图3–4显示了使用边缘约束和增加边缘输入后的去模糊效果。如图3–4(c) 所示，大部分结构信息可以通过增加边缘输入转换至目标域。如图3–4(d) 所示，大部分噪声可以通过多尺度边缘损失得以有效消除。图3–4(e) 可以看出，边缘约束和边缘输入组合后可以更好地提高去运动模糊的性能。网络结构定义 3.2.4 生成器: 所提出网络的生成器结构如图3–3所示。该生成器包含一系列卷积层和残差块。具体为：𝐶7𝑆1 − 64, 𝐶3 − 128, 𝐶3 − 256, 𝑅𝐵256 × 9, 𝑇 𝐶64, 𝑇 𝐶32, 𝐶7𝑆1 − 3。其中，𝐶7𝑆1 − 𝑘 代表一个卷积核为 7 × 7，步长为 1，卷积核数为 𝑘 的 ConvBNReLU 模块（卷积层 + 批归一化层 +ReLU 激活层，ConvBNReLU）。𝐶3 − 𝑘 表示一个卷积核为 3 × 3，步长为 2，卷积核数为 𝑘 的 ConvBNReLU 块。𝑅𝐵𝑘 × 𝑛 表示 𝑛 个卷积核数为 𝑘 的残差块，其中残差块包含两个 3 × 3 的卷积层。𝑇 𝐶𝑘 表示卷积核为 3 × 3，步长为 1/2，卷积核数为 𝑘 的 TConvBNReLU 模块（转置卷积层 + 批归一化层 +ReLU 激活层）。 — 51 — 上海交通大学博士学位论文判别器: 所提出网络的判别器结构也如图3–3所示。本文中使用经典的 PatchGANs[127] 作为判别器，通过对重叠的图像块进行分类判断生成图像的真假。三种不同分辨率下的所有判别器网络都主要包括：𝐶64 − 𝐶128 − 𝐶256 − 𝐶512，其中 𝐶𝑘 表示一个 4 × 4，步长为 2 和卷积核数为 𝑘 的 ConvBNLeakyReLU 模块（卷积层 + 批归一化层 +LeakyReLU 激活层）。在实际实验中，LeakyReLU 激活层的参数设置为 0.2。根据生成器和判别器的具体参数，可以用特定尺寸的图像训练所提出的多对抗模型，用任何尺寸的图像完成测试。损失函数 3.2.5 多尺度结构相似性损失：结构相似性指标 (SSIM) 经常被用于评估两幅图像的相似度。为保留生成图像中的对比度、亮度和结构信息，缓解 CycleGAN 的模糊性内在问题，我们在模型中使用了多尺度结构损失，即计算 𝑏̂𝑖 和 𝑏𝑖 之间的多尺度结构损失 (MS-SSIM)。所使用的 MS-SSIM 被定义为公式 (3–11)： 𝐿𝑀𝑆𝑆𝐼𝑀𝑏 𝑖 其中 𝑙(𝑏𝑖 , 𝑏̂𝑖 ) = 𝛼 = 1 − [𝑙𝑀 (𝑏𝑖 , 𝑏̂𝑖 )] 𝑀 𝑏𝑖 ∏ 𝛽 [𝑐𝑗 (𝑏𝑖 , 𝑏̂𝑖 )] 𝑗 [𝑚𝑗 (𝑏𝑖 , 𝑏̂𝑖 )]𝛾𝑗 (3–11) 𝑗=1 2𝜇𝑏𝑖 𝜇𝑏̂ +𝐶1 𝑖 ，𝑐(𝑏𝑖 , 𝑏̂𝑖 ) 𝜇𝑏2 +𝜇2̂ +𝐶1 𝑖 𝑀 = 2𝜎𝑏𝑖 𝜎𝑏̂ +𝐶2 𝑖 𝜎𝑏2 +𝜎 2̂ +𝐶2 𝑖 ，𝑚(𝑏𝑖 , 𝑏̂𝑖 ) = 𝑏𝑖 𝜎𝑏 𝑏̂ +𝐶3 𝑖 𝑖 。(𝑏𝑖 , 𝑏̂𝑖 ) 𝜎𝑏𝑖 𝜎𝑏̂ +𝐶3 表示 𝑖 成对的输入图像和重建图像。𝜇𝑏𝑖 , 𝜇𝑏̂𝑖 , 𝜎𝑏𝑖 , 𝜎𝑏̂𝑖 , 𝜎𝑏𝑖 𝑏̂𝑖 分别表示图像对 (𝑏𝑖 , 𝑏̂𝑖 ) 的均值、标准差和协方差。𝐶1 ，𝐶2 和 𝐶3 是根据文献[128] 确定的相关参数。𝑙(𝑏𝑖 , 𝑏̂𝑖 ), 𝑐(𝑏𝑖 , 𝑏̂𝑖 ) 和 𝑚(𝑏𝑖 , 𝑏̂𝑖 ) 分别表示图像对 𝑏𝑖 ，𝑏̂𝑖 之间的亮度、对比度和结构相似性度量。𝛼，𝛽 和 𝛾 是根据文献[128] 设置的用于控制三个不同分量权重的超参数。同样地，图像 𝑠𝑖̂ 和 𝑠𝑖 之间的多尺度结构损失约束 𝐿𝑀𝑆𝑆𝐼𝑀𝑠 也用相同方式 𝑖 定义，整体第 𝑖 个分辨率上的 MS-SSIM 损失可表示为：𝐿𝑀𝑆𝑆𝐼𝑀𝑖 = 𝐿𝑀𝑆𝑆𝐼𝑀𝑏 + 𝑖 𝐿𝑀𝑆𝑆𝐼𝑀𝑠 。 𝑖 感知损失: 前期研究[62] 表明，循环感知一致性损失具有保持原始图像结构的能力[129] 。感知损失主要通过从 VGG16 网络中提取第二层和第五层中的高层次和低层次特征组合。根据[62] ，循环感知一致性损失计算方式如下： 2 𝐿𝑃 𝑒𝑟𝑐𝑒𝑝𝑡𝑢𝑎𝑙𝑏 = ‖𝜙(𝑏̂𝑖 ) − 𝜙(𝑏𝑖 )‖2 𝑖 (3–12) 其中 (𝑏𝑖 , 𝑏̂𝑖 ) 表示模糊图像和真实图像对，𝜙 是通过 VGG16 从第二和第五池化层提取的特征[62, 129] 。相同地，图像 𝑠𝑖̂ 和 𝑠𝑖 之间的感知损失 𝐿𝑃 𝑒𝑟𝑐𝑒𝑝𝑡𝑢𝑎𝑙𝑠 用同样的方式定义。整体在 𝑖 第 𝑖 个分辨率上的感知损失为 𝐿𝑃 𝑒𝑟𝑐𝑒𝑝𝑡𝑢𝑎𝑙𝑖 = 𝐿𝑃 𝑒𝑟𝑐𝑒𝑝𝑡𝑢𝑎𝑙𝑠 + 𝐿𝑃 𝑒𝑟𝑐𝑒𝑝𝑡𝑢𝑎𝑙𝑏 。 𝑖 — 52 — 𝑖 上海交通大学博士学位论文一致性保持损失: 此外，在非成对数据转化过程中，我们使用一致性保持损失来约束生成对抗网络。对于无监督去模糊任务，源域和目标域之间的一致性保持损失函数被定义为： 𝐿𝐼𝑑 𝑏 = ‖𝐺𝐵 (𝑏)𝑖 − 𝑏𝑖 ‖1 𝑖 (3–13) 𝐿𝐼𝑑 𝑠 = ‖𝐺𝑆 (𝑠)𝑖 − 𝑠𝑖 ‖1 𝑖 (3–14) 整体第 𝑖 分辨率上的一致性损失为：𝐿𝐼𝑑𝑖 = 𝐿𝐼𝑑 𝑏 + 𝐿𝐼𝑑 𝑠 。 𝑖 𝑖 根据公式 (3–1) ∼ 公式 (3–14) 所示的损失函数，我们提出的去模糊网络的整体损失函数可以定义为： 3 𝐿= ∑ 𝑖=1 (𝐿𝑎𝑑𝑣𝑖 + 𝜔1 𝐿𝑐𝑦𝑐𝑙𝑒𝑖 + 𝜔2 𝐿𝐺𝑟𝑎𝑑𝑖 + 𝜔3 𝐿𝑀𝑆𝑆𝐼𝑀𝑖 (3–15) + 𝜔4 𝐿𝐼𝑑𝑖 + 𝜔5 𝐿𝑃 𝑒𝑟𝑐𝑒𝑝𝑡𝑢𝑎𝑙𝑖 ) 其中，𝜔1 、𝜔2 、𝜔3 、𝜔4 和 𝜔5 为非负常数，用于调整不同损失函数对整体去模糊效果影响。𝑖 表示第 𝑖 分辨率下的分量。与其他方法[46, 119] 类似，公式 (3–15) 中的参数 𝜔1 、𝜔2 、𝜔3 、𝜔4 和 𝜔5 是根据不同情况的数据特征设置的，我们根据经验对每个损失进行加权以平衡每个成分的重要性。实验和分析 3.3 实验细节 3.3.1 具体实验中，我们利用配置为 Intel Xeon E5 CPU 和 NVIDIA 2080ti GPU 的工作站在 Pytorch[130] 平台上完成所有相关实验。为确保实验对比的公平性，除特殊说明外，所有实验都在相同的实验环境和数据条件下进行。在整个实验过程中，我们使用参数设置为 𝑏𝑒𝑡𝑎1 = 0.9 和 𝑏𝑒𝑡𝑎2 = 0.999 的 ADAM[131] 求解器进行模型训练。受工作站内存限制，所有方法的批处理大小都设置为 2。最初 30 个 epoch 的初始学习率被固定为 0.0002，随后每 30 个 epoch 学习率衰减为之前的十分之一， 200 个 epoch 已经满足收敛条件。数据集和指标 3.3.2 为验证所提出的去模糊算法对模糊文本图像的有效性，我们使用 BMVC_TEXT[132] 数据集完成相关实验。BMVC_TEXT 数据集总共包含 66𝐾 的文本图像，其中图像分辨率为 300×300。这个数据集包含由抗锯齿盘产生的散焦模糊和由随机游走产生的运动模糊。BMVC_TEXT 中的模糊图像被分为两 — 53 — 上海交通大学博士学位论文部分：训练集和测试集（各占总数的 50%，且保证不交叉），对应的清晰图像也以同样的方式进行划分。在训练过程中，我们将模糊图像和清晰图像都裁剪为 128 × 128 的图像块。公式（3–15）中的参数 𝜔1 被设置为 5，参数 𝜔2 和 𝜔3 都被设置为 0.5，𝜔4 被设置为 10，因为发现感知损失 𝐿𝑃 𝑒𝑟𝑐𝑒𝑝𝑡𝑢𝑎𝑙 对整体性能的影响很小，因此参数 𝜔5 被设置为 0。为了与其他经典的去模糊方法进行对比，我们选择 Pan 等[54, 56] 提出的算法, Xu 等[53] 提出的算法, Sun 等[61] 提出的算法, MS-CNN[46] , DeblurGAN[47] 。此外，我们也选择了其他经典无监督方法，如 CycleGAN[119] ,[68] 和 UID-GAN[125] ，所有其他方法与我们所提出的方法在相同的非成对文本数据集上进行训练。为验证所提出的去模糊算法对模糊人脸图像的有效性，我们使用了 CelebA[133] 数据集进行相关实验。CelebA 数据集主要包括超过 200𝐾 的人脸图像，图像分辨率为 178 × 218。我们首先从该数据集中选择 200𝐾 的人脸图像数据，其中 100𝐾 是清晰图像，另外 100𝐾 是模糊图像。然后从剩余图像中选择 2000 张图像进行测试。我们将所有的图像调整至分辨率为 128 × 128，并确保无监督算法在训练时数据是非成对的。通过清晰图像生成模糊图像的方法与 UID-GAN[125] 中提出的方法一致。参数 𝜔1 ∼ 𝜔4 的设置与 BMVC_TEXT[132] 数据集中设置相同，参数 𝜔5 被设置为 5。为验证所提出的去模糊算法对运动模糊图像的有效性，我们使用 GoPro[47] 数据集进行相关实验。GoPro 数据集中共有 2103 对模糊图像和清晰图像作为训练集，以及 1111 对模糊图像和清晰图像作为测试集。在训练过程中，我们使用 GoPro 训练集的其中一部分模糊图像和另一部分清晰图像进行训练，确保模型训练数据是非成对的且无重叠的。同时，将训练图像中的模糊图像和清晰图像全部随机裁剪为 256 × 256 的图像块。在公式 (3–15) 中，参数 𝜔1 被设置为 5，参数 𝜔2 和 𝜔3 被设置为 0.5，𝜔4 被设置为 10，𝜔5 被设置为 1。为对比不同算法的去模糊性能，我们使用 PSNR 和 SSIM 两个指标进行定量比较。消融实验 3.3.3 为分析验证所提出的去模糊模型中每个重要部分或损失函数（感知损失等）的有效性，我们在本节中进行了大量消融实验。在 GoPro 数据集上，通过逐步添加每个重要部分，给出了我们方法的以下六个变体的定量和定性实验结果：1）原始 CycleGAN 方法；2）增加多对抗结构；3）添加边缘图像输入；4）添加多尺度边缘约束；5）添加多尺度 SSIM 损失；6）添加上述所有重要部分。我们在表3–1中列出了每个模型变体的 PSNR 和 SSIM 指标。𝐺𝑆 (blur-sharp) — 54 — 上海交通大学博士学位论文表 3–1 所提出模型的重要部分分析。所有结果都是在 GoPro 数据集中完成测试。𝐺𝑆 表示从模糊图像域到清晰图像域的图像转换。𝐺𝐵 表示从清晰图像域到模糊图像域的图像转换。 Table 3–1 Ablation study on the effectiveness of different components in our model. All the results are tested on the GoPro dataset[46] . 𝐺𝑆 means the translation from the blur domain to the sharp domain, and 𝐺𝐵 means the translation from the sharp domain to the blur domain. With different components 𝐺𝑆 (blur-sharp) 𝐺𝐵 (sharp-blur) PSNR SSIM PSNR SSIM original CycleGAN method 23.9956 0.8076 24.8028 0.8437 with multi-adversarial structure 25.2630 0.8524 25.4488 0.8618 with edge map input 25.0725 0.8538 25.3111 0.8616 with multi-scale edge constraints 25.4148 0.8530 26.2150 0.8620 with multi-scale SSIM loss 24.9598 0.8533 26.1492 0.8614 with all above components 26.2473 0.8673 26.3428 0.8689 表示从模糊图像域到清晰图像域的转换，𝐺𝐵 (sharp-blur) 表示从清晰图像域到模糊图像域的转换。从表3–1中，我们可以看到，由于多对抗结构从多个分辨率上对网络进行约束，可以明显改善去模糊网络的性能。同时，通过额外的边缘信息辅助和边缘约束，结构感知机制也可以增强网络保留结构和细节的能力。虽然原始 CycleGAN 能够实现从模糊到清晰和从清晰到模糊的无监督图像转换，但它依然存在着比较严重的无关噪声信息（颜色、纹理等）引入问题。相比之下，通过多对抗结构，判别器能够从多个分辨率中判断所生成的去模糊图像的真假，然后将信息反馈给生成器。此外，将边缘图像作为网络的部分输入可促使更多的结构信息迁移至目标域。借助多尺度边缘损失函数来约束去模糊过程，可有效去除生成图像中出现的振铃和伪影。通过多尺度的 SSIM 损失，生成图像可以有效地保留图像中的亮度、对比度和结构信息。表3–1中的整体去模糊性能进一步表明，所提出的多对抗结构和结构感知机制之间存在着密切关系，能够共同促进整体网络的去运动模糊性能。为了分析所提出的多对抗网络模型的稳定性，图3–5显示了我们所提出方法的不同损失变化曲线。图3–5(a) 是整体损失变化曲线。图3–5(b) 是感知损失变化曲线。图3–5(c) 是我们的方法在 256 × 256 分辨率下的多尺度边缘损失变化曲线。图3–5(d)、图3–5(e) 和图3–5 (f) 表明，在不同的分辨率下（分辨率为 64×64, 128×128 和 256 × 256），所提出的去模糊模型的一致性保持损失可以随着训练迭代次数的增加而稳步下降。从所有损失的变化曲线可以看出，不同类型的损失和不同分辨率的损失在训练过程中都能随着迭代次数的增加而稳步下降，这充分说明我们所 — 55 — 上海交通大学博士学位论文提出的去模糊模型是相对稳定的。参数敏感性分析 3.3.4 表 3–2 BMVC_TEXT[132] 和 Face[133] 数据集上的平均 PSNR 和 SSIM。 Table 3–2 Peak signal-to-noise ratio and structural similarity measure, mean on the BMVC_TEXT[132] and Face[133] datasets. Text Method Face PSNR SSIM PSNR SSIM Pan[54] 16.26 0.73 17.34 0.52 [56] 17.48 0.77 17.59 0.54 [53] 14.26 0.54 16.84 0.47 Pan Xu [61] Sun 18.62 0.70 18.26 0.55 [46] 18.86 0.73 18.29 0.57 [119] 13.23 0.57 19.40 0.56 Madam 23.22 0.86 20.88 0.66 Our 23.68 0.88 20.96 0.68 MS-CNN CycleGAN [68] 表 3–3 GoPro[47] 数据集上的平均 PSNR 和 SSIM。 Table 3–3 Peak signal-to-noise ratio and structural similarity measure, mean on the GoPro dataset[46] . Method Metric Supervised [53] Xu PSNR 25.184 [117] Whyte [57] Kim 25.093 23.640 [61] Sun 24.689 [46] MS-CNN [47] DeblurGAN Method Metric SSIM Unsupervised PSNR SSIM 0.896 [119] 25.009 0.851 [120] 24.827 0.786 24.994 0.794 25.594 0.851 25.787 0.860 26.247 0.867 0.887 0.824 0.856 CycleGAN DiscoGAN Pix2Pix [127] [125] UID-GAN 28.930 0.910 Madam 28.702 0.927 Our [68] 正如我们在章节3.2.5中提到的，循环一致性损失 𝐿𝑐𝑦𝑐𝑙𝑒 的权重 𝜔1 ，一致性保持损失 𝐿𝐼𝑑 的权重 𝜔4 ，感知损失 𝐿𝑃 𝑒𝑟𝑐𝑒𝑝𝑡𝑢𝑎𝑙 的权重 𝜔5 需要进行调试，使生成的去模糊图像在与原始模糊图像保持一致的同时消除虚假的伪影。定量实验性能如图3–6所示。从图中可以看出，𝐿𝐼𝑑 的参数 𝜔4 设置与原始基于 CycleGAN 的任务（如照片-素描）区别较大。由于所提出的方法是基于多分辨率对抗学习，𝐿𝐼𝑑 的 — 56 — 上海交通大学博士学位论文表 3–4 真实[134] 数据集上去模糊性能的平均主观评价分数。 Table 3–4 Average subjective evaluation scores of deblurring performance on the real dataset[134] . Method PSNR Method PSNR Blurry Xu[53] Whyte[117] Pan[54] Sun[55] MS-CNN[46] 1 0.85 0.64 0.95 0.71 1.10 DeblurGAN[47] CycleGAN[119] UID-GAN[125] Madam[68] Our 1.08 0.93 1.13 1.14 1.18 损失对整体去模糊效果影响较大，当 𝜔4 设置为 10 时，去模糊效果最好。当参数 𝜔1 设置过高时（𝜔1 =10），由 𝐺𝑆 生成的去模糊图像变得非常模糊，定量实验性能很差。相反，如果参数 𝜔1 设置太低（𝜔1 = 1），则会引入大量的伪影。感知损失 𝐿𝑃 𝑒𝑟𝑐𝑒𝑝𝑡𝑢𝑎𝑙 的参数 𝜔5 对整体去模糊效果也有一定影响。我们在 GoPro 测试集上设置参数 𝜔1 = 5，𝜔4 = 10，𝜔5 = 1。如图3–6所示，大量实验证明，当 𝜔5 = 1 时，可以获得相对较好的去模糊结果。图3–7还显示了感知损失 𝐿𝑃 𝑒𝑟𝑐𝑒𝑝𝑡𝑢𝑎𝑙 在不同参数 𝜔5 设置下的 GoPro 数据集中样本图像的可视化效果。从图3–7(d) 可以看出，当参数 𝜔5 被设置为 0.1 时，生成的去模糊图像非常模糊。相反地，图3–7(e) 和图3–7(f) 显示，如果参数 𝜔5 设置得太高，生成的图像会引入大量的伪影，尤其是在彩色矩形区域。在实际实验中，参数 𝜔1 ∼ 𝜔5 是根据不同情况的数据特征来设置的。与主流算法对比分析 3.3.5 BMVC_TEXT[132] 数据集和 Face[133] 数据集: 为了比较不同算法在文本图像和人脸图像上的去运动模糊性能，我们使用相同的训练数据（如章节3.3.2所述）来重新训练基于 CNN 的方法。我们从 BMVC_TEXT 数据集的测试集中随机选择 100 个样本，从 Face 数据集[133] 中随机选择 2000 个样本 (如章节3.3.2所述) 进行测试评估。定量结果如表3–2所示，表3–2中最后一列显示了我们提出的去运动模糊方法的定量指标。从表3–2可以看出，我们的方法在文本图像和人脸图像上的去模糊性能明显优于其他最先进的有监督去模糊方法（Pan 等[54] ，Pan 等[56] ，Xu 等[53] ， Sun 等[61] ，MS-CNN[46] 和 DeblurGAN[47] ）和无监督去模糊方法（CycleGAN[119] ， UID-GAN[125] 和 Madam 等[68] ）。图3–8展示了 BMVC_TEXT 数据集中的几个去模糊效果样例来说明其他方法与我们所提出方法的定性结果对比。在图3–8中，特别是在中心区域字符部分，我们所提出的去运动模糊方法复原出的字符相对更加清晰，充分证明我们的方法可以通过无监督的方式借助非成对训练数据实现较好的文本图像去模糊效果。 GoPro 数据集: 表3–3显示了在 GoPro[47] 数据集上所提出方法与其他最先 — 57 — 上海交通大学博士学位论文进的去模糊方法的定量对比实验结果。表3–3中复原图像质量评估指标 PSNR 和 SSIM 表明，与其他经典的无监督去模糊方法和大部分有监督去模糊方法相比，我们的无监督方法能明显提升去运动模糊任务的性能。从表3–3中我们可以看到，与几乎所有经典的传统去模糊算法（Xu 等[53] , Whyte 等[117] 和 Kim 等[57] ）和基于 CNN 的无监督去模糊方法（CycleGAN[119] , DiscoGAN[120] , UID-GAN[125] 和 Madam 等[68] ）相比，我们的算法展现了相对优越的去模糊效果。同时，与大多数基于 CNN 的有监督去模糊方法（Pix2Pix[127] 和 Sun 等[61] ）相比，我们仍然可以取得相对满意的结果。虽然我们的方法略逊色于 GoPro 数据集上基于 CNN 的有监督方法[46] 和 DeblurGAN[47] ，其原因主要是非成对数据训练起来与成对数据相比更加困难，而且 CycleGAN 本身在生成高分辨率图像时性能欠佳。此外，我们的方法在其他多个数据集（如 BMVC_TEXT[132] 数据集和 Face[133] 数据集）上也能取得相对较好的性能。方法[46-47] 需要大量的成对训练数据，而我们提出的无监督去模糊方法可以克服对成对训练数据的强烈需求。图3–9展示了 GoPro[47] 测试集中的一些视觉对比效果。图3–9表明，在 GoPro 数据集的一些场景中，我们的方法也能获得和方法[46] 一样理想的去模糊效果。从图3–9可以看出，经典的传统去模糊算法不能很好地保持结构信息，大多数无监督方法会引入新的伪影，而我们的方法可以更好地保持结构信息，如女孩头花或手臂等区域。我们还提供了 Köhler 数据集中的部分视觉对比效果，具体如图3–10所示，这也验证了我们的方法与大部分有监督和无监督方法相比，具有更好的去运动模糊性能。 Real 数据集: 为了比较不同去模糊算法在真实模糊图像上的效果，我们使用在 GoPro 数据集上训练的模型来测试 Lai[134] 数据集中的真实模糊图像。由于真实的模糊图像无法提供相应的清晰图像，因此不能用传统的有参考图像质量评估方法（如 SSIM 和 PSNR）来评估图像去模糊性能。鉴于此，我们借助用户的主观分析来比较不同算法在真实模糊图像中的去模糊性能。借鉴 DeblurGAN-v2 算法思路，我们使用 Bradley-Terry 模型来估计主观分数。每张模糊图像都使用 Pan 等[54] ， Xu 等[53] ，Whyte 等[117] ，Sun 等[55] ，MS-CNN[46] ，CycleGAN[119] 和 DeblurGAN[47] 等方法完成去模糊测试任务，这些用来测试的模型都是重新在 GoPro 数据集中训练所得。所有这些测试结果与原始模糊图像一起，被用于成对比较以形成获胜矩阵（共 22 名专业人士参与评分）。表3–4中的定量结果显示，基于 CNN 的方法通常比传统方法有更好的效果。与大多数现有方法相比，我们所提出的方法可以在真实模糊图像中达到更加满意的去模糊效果。由图3–11所示，我们的方法与其他方法相比表现出更加优越的去模糊性能，尤其是在女孩的眼睛和嘴巴区域。根据上述实验我们可以得出，与现有大多数无监督去模糊方法相比，我们 — 58 — 上海交通大学博士学位论文所提出的方法在所有数据集上都能取得相对优越的去运动模糊性能[68, 119, 125] 。此外，我们的无监督去模糊方法可以在多个数据集中取得与有监督去模糊算法[46-47, 53-54] 相媲美的效果。虽然在 GoPro 数据集上稍微逊色于有监督去模糊方法，其主要原因是 CycleGAN 在生成高分辨图像时性能欠佳，且与有监督的成对数据训练相比，非成对数据训练难度较大。然而，与有监督去模糊算法相比，我们的无监督去运动模糊方法具有更广泛的应用价值。 3.3.6 运行时间评估表 3–5 BMVC_TEXT[132] 数据集上所提出方法和其他当前先进算法运行时间比较。 Table 3–5 The average running time comparisons of our method with other several classical methods on BMVC_TEXT dataset[132] . Method Xu[53] Sun[61] MS-CNN[46] CycleGAN[119] UID-GAN[125] Our Time(s) 377 202 0.18 0.22 0.25 0.29 PSNR 14.26 18.62 18.86 13.63 18.96 23.68 表3–5显示了几种经典的去模糊方法在 BMVC_TEXT[132] 数据集上的平均运行时间对比，其中测试数据集中图像的分辨率为 512 × 512。根据表3–5可以看出，所提出的无监督方法与现有大多数有监督和无监督去模糊方法相比，能够在获得最理想去模糊性能的同时保持相对较快的运行速度。虽然由于多对抗和多约束结构，所提出的模型运行时间比 CycleGAN[119] 和 MS-CNN[46] 略长，但取得了更好的去模糊效果。在未来的工作中，我们致力于进一步优化网络，使其减少运行时间的同时降低资源消耗。 3.4 本章小结在本章节中，我们提出了一种基于结构保持的多对抗图像去运动模糊方法。与现有工作不同，基于优化 CycleGAN 的多对抗方法可以避免模糊核估计产生的误差且不需要成对的训练数据，能够在提升无监督去模糊性能的同时提高模型训练的灵活性。同时，通过在无监督网络中使用多对抗约束结构，可以促进去模糊网络在不同分辨率下都能生成最接近清晰图像的结果。此外，在所提出的去模糊方法中引入了基于边缘线索的结构感知模块，借助边缘信息辅助和多尺度边缘约束使生成的去模糊图像能够尽可能地保留丰富的结构信息。多个不同基准数据集中的大量实验充分证明了所提出的去模糊方法在处理去运动模糊任务中的有效性。未 — 59 — 上海交通大学博士学位论文来工作中，我们将致力于解决显著目标的去模糊化问题，并进一步降低无监督网络的复杂度。此外，我们将继续探索基于无监督方法的视频去运动模糊问题。 — 60 — 上海交通大学博士学位论文图 3–5 我们提出的去模糊模型的稳定性分析。(a) 整体损失变化曲线。(b) 感知损失变化曲线。 (c) 我们的方法在分辨率为 256 × 256 时的多尺度边缘损失变化曲线。(d), (e) 和 (f) 分别是分辨率为 64 × 64, 128 × 128 和 256 × 256 时的一致性损失变化曲线。(a), (b), (c) 和 (d) 显示，在训练过程中，我们模型的不同损失可以随着迭代次数的增加而稳步降低。(d), (e) 和 (f) 表明在不同的分辨率下，我们的模型的一致性损失随着迭代次数的增加而稳步降低。 Figure 3–5 Stability analysis for our proposed deblurring model. (a) The overall loss variation. (b) The perceptual loss variation. (c) The multi-scale edge losses variation of our method at resolution 256 × 256. (d), (e) and (f) are the identity loss variation at resolution 64 × 64, 128 × 128 and 256 × 256, respectively. (a), (b), (c) and (d) show that different losses of our model can steadily decrease with the increase of iteration times during the training process. (d), (e) and (f) indicate the identity preserving loss of our model decrease steadily with the increase of iteration times at different resolutions. — 61 — 上海交通大学博士学位论文图 3–6 循环一致性损失 𝐿𝑐𝑦𝑐𝑙𝑒 的参数 𝜔1 、一致性保持损失 𝐿𝐼𝑑 的参数 𝜔4 、感知损失 𝐿𝑃 𝑒𝑟𝑐𝑒𝑝𝑡𝑢𝑎𝑙 的参数 𝜔5 的不同设置下的定量结果。橙色柱状图表示当参数 𝜔1 、𝜔4 和 𝜔5 分别设置为 1 时， GoPro 测试集的平均 PSNR 值。相应地，黄色条代表当参数 𝜔1 、𝜔4 和 𝜔5 分别设置为 5 时， GoPro 测试集的平均 PSNR 值。绿色条代表当参数 𝜔1 、𝜔4 和 𝜔5 分别被设置为 10 时，GoPro 测试集的平均 PSNR 值。由图中可以看到，不同参数设置对最终的去模糊效果有一定影响。 Figure 3–6 Quantitative results for different setting of 𝜔1 for cycle-consistency loss 𝐿𝑐𝑦𝑐𝑙𝑒 , 𝜔4 for identity preserving loss 𝐿𝐼𝑑 , 𝜔5 for perceptual loss 𝐿𝑃 𝑒𝑟𝑐𝑒𝑝𝑡𝑢𝑎𝑙 . The orange bar chart represents the average PSNR value on the GoPro test set when parameter 𝜔1 , 𝜔4 and 𝜔5 are set to 1, respectively. Correspondingly, the yellow bar represents the average PSNR value on the GoPro test set when parameters 𝜔1 , 𝜔4 and 𝜔5 are set to 5, respectively. The green bar represents the average PSNR value on the GoPro test set when represents 𝜔1 , 𝜔4 and 𝜔5 are set to 10, respectively. We can see that different parameter settings have a certain influence on the final deblurring effect. — 62 — 上海交通大学博士学位论文图 3–7 感知损失 𝐿𝑃 𝑒𝑟𝑐𝑒𝑝𝑡𝑢𝑎𝑙 的不同参数设置下的可视化效果。如 (d) 所示，当 𝜔5 为 0.1 时，生成的去模糊图像非常模糊。如 (e) 和 (f) 所示，当 𝜔5 过大时（当 𝜔5 = 5 和 𝜔5 = 10 时），会产生大量的伪影导致去模糊复原图像质量下降。 Figure 3–7 Visualizations of sample image in GoPro dataset with different sets of 𝜔5 for perceptual loss 𝐿𝑃 𝑒𝑟𝑐𝑒𝑝𝑡𝑢𝑎𝑙 . As shown in (d), when the 𝜔5 is set to 0.1, the generated deblurred image is very blurred. As shown in (e) and (f), when the 𝜔5 is set too high (𝜔5 = 5 and 𝜔5 =10), vast artifacts will be introduced to cause quality degradation. — 63 — 上海交通大学博士学位论文图 3–8 BMVC_TEXT[132] 数据集中我们方法和其他主流方法的去模糊效果对比。(a) 模糊图像。(b) Pan 等[54] 方法的去模糊效果。(c) Pan 等[56] 方法的去模糊效果。(d) Xu 等[53] 方法的去模糊效果。(e) Sun 等[61] 方法的去模糊效果。(f) MS-CNN[46] 的去模糊效果。(g) CycleGAN[119] 的去模糊效果。(h) 我们方法的去模糊效果。 Figure 3–8 Comparison of deblurred images by our method and other popular approaches on one sample from GoPro Dataset[46] . (a) Blurred image. (b) Deblurring results using Pan et al.[54] . (c) Deblurring results using Xu et al.[53] . (d) Deblurring results using Sun et al.[61] . (e) Deblurring results using MS-CNN[46] . (f) Deblurring results using CycleGAN[119] . (g) Deblurring result using DiscoGAN[120] . (h) Our results. It shows our results are more satisfying. 图 3–9 GoPro[47] 数据集中我们方法和其他主流方法的去模糊效果对比。(a) 模糊图像。(b)Pan 等[54] 方法的去模糊效果。(c)Xu 等[53] 方法的去模糊效果。(d)Sun 等[61] 方法的去模糊效果。 (e)MS-CNN[46] 的去模糊效果。(f)CycleGAN[119] 的去模糊效果。(g)DiscoGAN[120] 的去模糊效果。(h) 我们方法的去模糊效果。 Figure 3–9 Comparison of deblurred images by our method and other popular approaches on one sample from GoPro Dataset[46] . (a) Blurred image. (b) Deblurring results using Pan et al.[54] . (c) Deblurring results using Xu et al.[53] . (d) Deblurring results using Sun et al.[61] . (e) Deblurring results using MS-CNN[46] . (f) Deblurring results using CycleGAN[119] . (g) Deblurring result using DiscoGAN[120] . (h) Our results. It shows our results are more satisfying, especially in the pink and yellow rectangles. — 64 — 上海交通大学博士学位论文图 3–10 Köhler[135] 数据集中我们方法和其他主流方法的去模糊效果对比。(a) 模糊图像。 (b)Pan 等[54] 方法的去模糊结果。(c)Xu 等[53] 方法的去模糊结果。(d)Sun 等[61] 方法的去模糊结果。(e)MS-CNN[46] 的去模糊结果。(f)CycleGAN[119] 的去模糊结果。(g) DiscoGAN[120] 的去模糊结果。(h) 我们方法的结果。这表明我们的方法在实现图像去运动模糊复原任务时，与所有无监督方法和大部分有监督的去模糊方法相比效果更好，尤其是在粉色和黄色的矩形区域。 Figure 3–10 Comparison of deblurred images by our method and other popular approaches on one sample taken from Köhler Dataset[135] . (a) Blurred image. (b) Deblurring result using Pan et al.[54] . (c) Deblurring result using Xu et al.[53] . (d) Deblurring result using Sun et al.[61] . (e) Deblurring result using MS-CNN[46] . (f) Deblurring result using CycleGAN[119] . (g) Deblurring result using DiscoGAN[120] . (h) Our results. It shows our results are more satisfying, especially in the pink and yellow rectangles. 图 3–11 Lai[134] 数据集中我们方法和其他主流方法的去模糊效果对比。(a) 模糊图像。(b)Pan 等[56] 方法的去模糊结果。(c)Xu 等[53] 方法的去模糊结果。(d)Pan 等[54] 方法的去模糊结果。 (e)Sun 等[61] 方法的去模糊结果。(f)Madam[68] 方法的去模糊结果。(g)CycleGAN[119] 的去模糊结果。(h)CycleGAN[120] 的去模糊结果。(i)pix2pix[127] 的去模糊结果。(j) 我们方法的结果。 Figure 3–11 Comparison of deblurred images by our method and other popular approaches on one real image taken from Lai Dataset[134] . (a) Blurred image. (b) Deblurring result using[56] . (c) Deblurring result using[53] . (d) Deblurring result using[54] . (e) Deblurring result using[61] . (f) Deblurring result using[68] . (g) Deblurring result using CycleGAN[119] . (h) Deblurring result using[120] . (i) Deblurring result using[127] . (j) Deblurring result by our method. — 65 — 上海交通大学博士学位论文 66 上海交通大学博士学位论文第四章 4.1 基于结构保持和交互融合的模糊图像超分辨问题描述图像超分辨是计算机视觉领域中提高图像质量的一项重要任务[15] 。它的目的是从低分辨（Low-Resolution, LR）图像中重建出一个视觉上自然的高分辨（HighResolution, HR）图像来提升图像质量。在现实中，图像质量退化因素多样复杂，如空间分辨率降低、相机抖动和长时间曝光引起的运动模糊等问题。尽管随着深度学习的出现很多图像复原方法可以显著改善单一退化因素引起的图像降质问题，如图像超分辨、去模糊和去噪等复原方法性能已不断提升，然而现有大多数复原方法只能分别提高图像的空间分辨率或去除图像中的模糊成分，少有方法能同时处理由多种退化因素引起的降质问题，如运动模糊和空间分辨率过低同时引起的图像降质问题。如何在提高空间分辨率的同时使输入的模糊低分辨图像变得清晰，即有效地实现对模糊图像的超分辨复原是当前亟待解决的一个重要问题。如图4– 1所示，经典的超分辨方法虽然能提升空间分辨率但不能有效地去除非均匀模糊（如图4–1(c) 所示），而经典的去模糊方法虽然能够去除模糊失真，但无法在提升图像空间分辨率的同时保持足够的结构细节（如图4–1(d) 所示）。在本章中，我们提出基于结构保持的交互式融合网络（Structure-preserving Interactive Fusion Network， SIFN）将模糊的低分辨图像直接重建为清晰的高分辨图像。图4–1说明我们的 SIFN 模型可以从模糊的低分辨图像中直接有效地恢复出具有丰富细节和结构信息的清晰高分辨图像。针对模糊图像的超分辨复原问题，直接思路是设计一个顺序串联方案分步实现图像超分辨和去模糊任务，即先实现图像去模糊任务后实现图像超分辨，或者先实现图像超分辨后实现图像去运动模糊。然而，这种简单的串联方案有一个重要缺陷，也即第一步的重建误差会在下一步累积并扩大，这将严重影响重建后的图像质量。鉴于此，Michaeli 等[137] 提出了一种估计下采样模糊核的方法来对模糊图像进行超分辨。然而，这种方法不能有效地处理模糊严重的低分辨图像。然后，Xu 等人[138] 使用生成对抗网络来学习特定模糊类别的模型参数，将模糊的低分辨图像重建为清晰的高分辨图像。然而，该方法只针对特定的文本图像和人脸图像，需要对其他类别的数据进行重新训练。此外，即使现有其他方法[77-78, 139-140] 能通过迭代修正下采样模糊核的方式实现多种退化重建，但是这些方法主要针对轻微的高斯模糊，在处理严重模糊或运动模糊时效果不佳。虽然模型 GFN[136] 可以借助门模块通过端到端的方式处理运动模糊，然而由于网络重建分支和基本特 — 67 — 上海交通大学博士学位论文图 4–1 模糊低分辨失真图像的超分辨复原结果。(a) 输入的模糊低分辨图像。(b) 输入的模糊低分辨图像块。(c) 经典超分辨方法 EDSR[18] 的结果。(d) 经典非均匀去模糊方法 DeblurGAN[47] 的结果。(e) 我们方法的结果。如图所示，(c) 和 (d) 生成的去模糊图像缺少必要的纹理信息，而 (e) 生成的去模糊高分辨图像包含更多的细节结构。 Figure 4–1 Super-resolution results of the blurry LR images. (a) The input blurry LR image. (b) The input blurry LR patches. (c) Results by the classical SR method EDSR[18] . (d) Results by the classical non-uniform deblurring method DeblurGAN[47] . (e) Our results. It shows that (c) and (d) produce recovered results with few details, while our model generates a sharp HR image with more details and structure. 征提取分支之间的相互干扰，致使重建的高分辨图像仍然存在严重的结构丢失问题，并且对不同模糊类型的普适性较差。为了克服上述现有方法的局限性并保留去模糊高分辨图像中的结构信息，我们提出了一个包含边缘辅助和边缘约束的结构保持模块来实现模糊图像的超分辨。同时，利用局部注意力机制和全局注意力机制来捕获更多有效的复原特征，充分利用底层结构信息和高层语义信息加强模糊图像超分辨网络的特征表达能力。此外，我们使用交互式融合模块，根据图像超分辨和去模糊两个任务的不同特性和相互关系提取相关复原特征，以提高重建的高分辨图像质量。图4–2显示了不同方法对模糊低分辨输入图像进行高分辨重建的性能对比。图4–2(a) 是原始输入的模糊低分辨图像。图4–2(b) 是输入的模糊低分辨图像块。图4–2(c) 是通过去模糊方法 DeblurGAN[47] 和超分辨方法 EDSR[18] 串联的超分辨复原效果。图4–2(d) 是 — 68 — 上海交通大学博士学位论文图 4–2 不同经典方法的模糊图像超分辨视觉对比图。(a) 输入的模糊低分辨图像。(b) 输入的模糊低分辨图像块。(c)DeblurGAN[47] 和 EDSR[18] 级联的结果。(d)EDSR[18] 和 DeblurGAN[47] 级联的结果。(e)GFN[136] 的结果。(f) 我们方法的结果。 Figure 4–2 Visual comparison of the blurry image SR using different methods. (a) The input blurry LR image. (b) The input blurry LR patches. (c) The results by the concatenation scheme of DeblurGAN[47] + EDSR[18] . (d) The results by the concatenation scheme of EDSR[18] + DeblurGAN[47] . (e) The results of the joint method GFN[136] . (f) The results of our method. 采用超分辨方法 EDSR[18] 和去模糊方法 DeblurGAN[47] 串联的超分辨复原效果。图4–2(e) 是采用联合超分辨和去模糊方法 GFN[136] 的效果。图4–2(f) 是我们方法的结果。从图中可以看出，对于模糊的低分辨输入图像，我们提出的 SIFN 方法可以重建出更清晰的高分辨图像，如图中我们的方法对花瓣和叶子的结构保持性能较好。本章的主要贡献包括以下四个方面: • 提出运动模糊图像的超分辨网络 SIFN: 我们提出了一种基于结构保持和交互融合的深度卷积网络 SIFN，实现从模糊的低分辨图像中恢复出清晰的高分辨图像。大量定量和定性的实验结果表明，我们的方法在基准数据集中比最先进的方法性能更好。 • 结构保持模块: 我们为 SIFN 引入了一个结构保护架构。根据边缘信息在超 — 69 — 上海交通大学博士学位论文分辨[89] 和去模糊化[90] 等图像复原任务中的重要作用，我们引入基于边缘辅助和边缘约束的结构保持模块。此外，我们还设计了一个具有多分支融合结构的边缘提取网络来获得准确的图像边缘。借助结构保持模块，我们的 SIFN 可以有效地保持重建的高分辨图像的细节和结构。 • 交互式融合模块: 提出了一种基于注意机制的交互式融合模块，更好地挖掘图像超分辨与去模糊的各自任务特性和相互依赖关系，自动获取模糊图像超分辨率任务的有效特征信息，在促进去模糊分支的去模糊性能的同时提升超分辨网络的重建性能。 • 视觉注意力机制: 我们使用局部注意力和全局注意力机制在增强网络有效特征信息提取的同时去除或者减弱无关信息，从而加强重建网络的特征表达能力并提升模糊图像超分辨性能。提出的模糊图像超分辨方法 4.2 本小节首先简要介绍了所提出的用于模糊图像超分辨复原任务的基于结构保持和交互式融合的模糊图像超分辨网络，然后详细描述了该模糊图像超分辨网络所包含的结构保持模块、注意力感知结构和交互融合模块。整体网络结构 4.2.1 如图4–3所示，所提出的模糊图像超分辨网络 SIFN 主要包括去模糊分支和超分辨分支，其中去模糊网络分支将输入的模糊低分辨图像复原为清晰的低分辨图像，超分辨网络分支将输入的模糊低分辨图像重建为清晰的高分辨图像。首先，我们在 SIFN 中引入结构保持模块（图4–3绿色区域所示），也即提出一个边缘检测网络用于检测输入模糊图像的边缘图，将边缘图作为 SIFN 的部分输入为模糊图像超分辨网络提供辅助结构信息，同时借助边缘约束函数进一步增强重建的高分辨图像的结构信息。然后，交互式融合模块（图4–3橙色区域所示）通过对不同复原特征（输入的低分辨模糊图像特征 𝐹𝐿𝐷 及其边缘特征 𝐹𝐸 ，去模糊分支的去模糊特征 𝐹𝐷 ，超分辨分支的特征 𝐹𝑆 ）进行加权融合，提升网络对有效图像复原特征的学习能力，并自动改善生成的低分辨和高分辨去模糊图像的质量。此外，基于局部和全局注意的注意力机制被用于去模糊分支和超分辨分支。局部注意机制与残差块 ResBlocks 相结合，以突出局部区域中的高频成分。两个分支中的全局注意力机制被用于增强 SIFN 的语义特征表达能力，捕获更多的有效复原特征并去除无效信息。 — 70 — 上海交通大学博士学位论文图 4–3 本文提出的基于结构保持和交互式融合的模糊图像超分辨网络（SIFN）整体结构图。 SIFN 主要包括实现去模糊任务的去模糊分支和实现模糊图像超分辨任务的超分辨分支。首先，结构保持模块包括额外的边缘辅助和边缘约束，为 SIFN 提供额外的结构信息并使其捕捉更多结构和细节。然后，交互式融合模块通过对不同特征（模糊图像特征 𝐹𝐿𝐷 及其边缘特征 𝐹𝐸 ，去模糊分支的去模糊特征 𝐹𝐷 ，超分辨分支的超分辨特征 𝐹𝑆 ）的加权融合促进网络的特征表达能力。此外，基于局部和全局注意力模块的注意力感知结构同时被用于去模糊分支和 SR 分支。 Figure 4–3 The architecture of our proposed structure-preserving interactive fusion network (SIFN). SIFN mainly includes the deblurring branch which realizes deblurring and the SR branch which realizes blurry image SR. First, the structural-preserving architecture includes the additional edge assistance and the edge constraints to provide the auxiliary structure information and capture more structure and details for SIFN. Second, the interactive fusion module promotes the network expression ability by weighted fusion of the different features (blurry image feature 𝐹𝐿𝐷 and its edge feature 𝐹𝐸 , deblurring feature 𝐹𝐷 from the deblurring branch, SR feature 𝐹𝑆 from the SR branch.). Third, the attention-aware structure based on the local attention module and global attention module is used in both the deblurring branch and the SR branch for the motion blurry image SR. 结构保持架构 4.2.2 鉴于前期大量研究工作充分证明边缘信息对图像复原任务效果显著，为使从模糊低分辨图像重建出的清晰高分辨图像中保持丰富的结构信息，我们基于图像边缘这一视觉先验，提出一个结构保持模块用于模糊图像超分辨网络。该结构保持模块主要包含边缘信息辅助和重建边缘约束两个部分。由于传统边缘信息提取方法（如 Sobel 算子等）往往受到人工约束或阈值限制，而基于卷积神经网络的边缘检测方法[142] 易受到训练复杂性等限制，我们提出一种基于多分支融合的边缘检测方法来自动检测模糊图像的边缘信息。如图4–4所示，我们的边缘检测网络主 — 71 — 上海交通大学博士学位论文图 4–4 基于多分支融合的边缘检测网络结构。在训练阶段，多分支融合结构将边缘检测算法[141]（Holistically-nested Edge Detection，HED）中所有分支的输出进行融合，生成最终的边缘图。与原始 HED 不同的是，每个分支都与其他高层输出相关。在测试阶段，我们只使用前两层的边缘检测结果以减少时间消耗。 Figure 4–4 The architecture of multi-branch fusion-based edge detection network. In the training phase, a multi-branch fusion structure fuses the outputs of all the branches in the Holistically-nested Edge Detection(HED)[141] to generate the final edge map. Unlike original HED, each branch is related to other high-level outputs. For the test phase, we only use the results from the first two layers to reduce the time consumption. 要基于 VGG 网络结构，且每个网络分支可以生成一个边缘图。此外，图4–4中不同颜色的连接线表明，当前分支的边缘检测结果与所有高层分支的特征信息相关。在检测网络的尾部，加权融合层将不同尺度的输出特征进行加权融合后生成最终的边缘图。与原始 HED 方法不同的是，该检测网络中每个分支的输出都融合了所有前端分支的语义信息，通过融合低层次结构特征和高层次语义特征使边缘检测结果更加准确。由于模糊图像和清晰图像的数据分布不同，我们在实际对模糊图像进行边缘检测时采取了不同策略。前期研究表明，第一个输出分支保留了细节，最后一个输出分支保留了局部边缘信息。因此，在边缘检测过程中我们采取了不同的训练和测试方案。如图4–4所示，边缘检测网络在所有尺度上进行训练，但在测试过程中只将第二个分支输出作为最终测试检测结果（深绿色部分）。通过这种方式，检测网络在保留足够边缘信息的同时减少了推理所需的计算资源。图4–5显 — 72 — 上海交通大学博士学位论文图 4–5 结构保持模块获取的特征图。第一行 (a) 是 GoPro 数据集中的原始图像，而第二行 (b) 和第三行 (c) 分别是增加所提出的结构保持模块后，通过去模糊分支和超分辨分支得到的特征图。 Figure 4–5 Feature map obtained by the structure-preserving module. The first row (a) is the original image in the GoPro data set, while the second row (b) and the third row (c) are the feature maps obtained by the deblurring branch and the SR branch after adding our structure-preserving module, respectively. 示了由结构保持模块获取的特征图。第一行图4–5(a) 是 GoPro 数据集中的原始图像，第二行图4–5(b) 和第三行图4–5(c) 分别是加入我们的边缘检测网络后由去模糊分支和超分辨重建分支得到的特征图。从图4–5热图中可以看出，经过边缘辅助和边缘约束，提出的运动模糊图像超分辨网络可以有效地保持重建图像中的结构和细节。注意力机制 4.2.3 近年来，注意力机制由于其强大的特征表征能力被广泛用于各种计算机视觉任务。注意力机制最初用于机器翻译，主要通过模拟人眼视觉系统处理信息的机制帮助捕获重要信息而忽略无关信息，辅助模型动态选择对当前任务有利的信息。在本文中，受参考文献[143] 启发，我们提出将局部注意和全局注意机制用于模糊图像的超分辨任务。具体地，将局部注意机制 (图4–6) 和残差卷积块相结合来突出 — 73 — 上海交通大学博士学位论文图 4–6 局部注意模块示意图。局部注意模块通过突出局部视图中的高频分量并抑制无关分量来增强网络的特征学习能力。 Figure 4–6 The architecture of local attention module. The local attention module enhances the ability of network feature learning by highlighting the high frequency components in the local view and suppressing the irrelevant components. 图 4–7 全局注意模块示意图。全局注意模块是通过分析整体通道特性来提高网络表达能力。 Figure 4–7 The architecture of global attention module. The global attention module is for enhancing the network expression ability by analyzing the overall channel characteristics. 局部区域的高频特征，解决图像重建任务中高频信息丢失的问题。同时，使用全局注意力机制模型 (图4–7) 来学习不同通道的加权特征并抑制无关特征。 4.2.3.1 局部注意机制用于增强高频细节学习能力的局部注意模块的详细结构如图4–6所示。在图4– 6中，特征提取单元中张量 𝑇 的大小为 𝐻 × 𝑊 × 𝐶。其中 𝐶 是通道数量，𝐻 和 𝑊 分别是特征图的高度和宽度。首先，对特征图 𝑇 进行平均池化操作，得到张量 𝑇𝐿𝐴 。 𝑇𝐿𝐴 = 𝐴𝑣𝑔𝑃 𝑜𝑜𝑙(𝑇 , 𝑘𝑠, 𝑠) — 74 — (4–1) 上海交通大学博士学位论文其中 𝑘𝑠 和 𝑠 分别是平均池化操作的核大小和步长。在此，设定 𝑘𝑠 ≐ 𝑠，从而得到 𝑇𝐿𝐴 的大小为 𝐻 𝑘𝑠 ×𝑊 × 𝐶。张量 𝑇𝐿𝐴 中每个值代表 𝑇 中特定局部区域内的平均值。 𝑘𝑠 然后，根据公式 (4–2)，对 𝑇𝐿𝐴 进行上采样操作，以保持与张量 𝑇 相同尺寸。 𝑇𝐿𝑈 = 𝑈 𝑝𝑠𝑎𝑚𝑝𝑙𝑖𝑛𝑔(𝑇𝐿𝐴 , 𝑘𝑠) (4–2) 𝑇𝐿𝑅 = 𝑅𝑒𝑙𝑢(𝑇 − 𝑇𝐿𝑈 ) (4–3) 为突出特征图中局部区域的高频信息，我们用 𝑇 减去代表平滑成分的 𝑇𝐿𝑈 ，得到残差分量，然后用 𝑅𝑒𝑙𝑢 激活。其中 𝑇𝐿𝑅 是局部平均残差，表示张量 𝑇 的区域高频信息。 𝑇 ̂ = 𝑇 + 𝛽 ⋅ 𝑇𝐿𝑅 ⊗ 𝑇 (4–4) 最后，如图4–6所示，引入从 𝑇 到 𝑇𝐿𝑅 的两个跳跃连接。𝛽 为超参数，用于控制突出局部平均残差的程度。+ 和 ⊗ 表示元素间的求和运算和点乘运算。𝑇 ̂ 为局部注意力加权特征图，并作为下一层的输入。全局注意机制 4.2.3.2 由于 CNN 不同通道特征图对图像复原任务的影响程度不同，动态选择有利于模糊图像超分辨任务的特征非常重要。根据文献[143] ，我们使用的全局注意力模型如图4–7所示。首先，对维度为 𝐻 × 𝑊 × 𝐶 的张量 𝑇 进行全局池化操作后获得 𝑇 的统计信息： 𝑇𝑔𝑎 = 𝐺𝑙𝑜𝑏𝑎𝑙𝑃 𝑜𝑜𝑙𝑖𝑛𝑔(𝑇 ) (4–5) 其中 𝑇𝑔𝑎 中每个值表示 𝑇 的每个特征图的统计信息。随后，对张量 𝑇𝑔𝑎 进行两层卷积操作，得到整体统计信息: ′ ′ ′ 𝑇𝑔𝑎 = 𝜎(𝐶𝑜𝑛𝑣2 (𝑅𝑒𝑙𝑢(𝐶𝑜𝑛𝑣1 (𝑇𝑔𝑎 , 𝐶 , 𝐶)), 𝐶, 𝐶 )) (4–6) ′ 其中 𝑇𝑔𝑎 表示整个特征空间中每个特征图的总体统计数据。张量 𝑇𝑔𝑎 通过 𝐶𝑜𝑛𝑣1 ′ 从 1 × 1 × 𝐶 变换为 1 × 1 × 𝐶 ，然后经过 𝐶𝑜𝑛𝑣2 后重新变换为 1 × 1 × 𝐶。𝜎(⋅) 表 ′ 示 Sigmoid 函数。最后，通过构造一条从 𝑇 到 𝑇𝑔𝑎 的连接路径，对原始张量 𝑇 进行重新加权。 ′ 𝑇 ̂ = 𝑇𝑔𝑎 × 𝑇 (4–7) 其中 𝑇 ̂ 是一个全局注意力加权特征图，将被用作下一层的输入。在本文中，局部注意模块和全局注意模块引入方式如图4–3所示。局部注意模块主要与残差 — 75 — 上海交通大学博士学位论文块结合使用，以辅助 SIFN 获取更多高频信息。全局注意模块通常在网络末端，以便有效地增强网络的整体特征表征能力。为了提升模糊图像超分辨网络的有效特征提取能力，SIFN 中的注意力感知结构包括几个基于注意力感知的残差模块（ARIRBlock），以突出每个特征图局部区域的高频成分，以及几个全局注意力模块，以增强网络模型整体特征表达能力。如图4–3所示，一个 ARIRBlock 包含三个注意残差块（AResBlock）和一个原始残差块（ResBlock）。原始 ResBlock 由两个 3 × 3 的卷积层和一个 𝑅𝑒𝑙𝑢 激活层组成。 AResBlock 包括两个 3 × 3 的卷积层、一个 𝑅𝑒𝑙𝑢 激活层和一个局部注意模块。全局注意模块用于提高网络尾部两个子分支的特征表达能力。 4.2.4 交互融合模块图 4–8 交互融合模块结构示意图。该模块将去模糊分支特征 𝐹𝐷 、模糊低分辨图像特征 𝐹𝐿𝐷 、模糊低分辨图像的边缘图 𝐹𝐸 和超分辨分支特征 𝐹𝑆 作为输入，通过一系列基于注意力模块的卷积和激活操作，可以学习不同特征图的权重图。最后，根据学习到的权重图将特征权值融合到两个分支任务。 Figure 4–8 The architecture of interactive fusion module. It takes the deblurring feature 𝐹𝐷 , blurry LR image 𝐹𝐿𝐷 , the edge map of the blurry LR image 𝐹𝐸 and the SR feature 𝐹𝑆 as input, and it can learn the weighted map of different feature maps through a series of convolution and activation operations based attention module. Finally, the feature weighting is fused into two branch tasks according to the learned weight map. 交互式融合模块主要用于分析去模糊和超分辨两个分支之间的关系并相互促进二者的特征学习能力。由于特征 𝐹𝐷 侧重于去运动模糊信息，对运动区域有更高的响应，而 𝐹𝑆 既包含超分辨任务特征，也包含去模糊信息，我们通过交互式融合模块将 𝐹𝑆 和 𝐹𝐷 自适应融合起来，分别增强相关任务的有效特征提取能力。 — 76 — 上海交通大学博士学位论文实验结果表明，交互式融合模块可以显著提高各分支的复原任务性能。如图4–8所示，我们的交互式融合模块首先使用一个连接层将去模糊特征 𝐹𝐷 、模糊低分辨图像 𝐹𝐿𝐷 、模糊低分辨图像的边缘图 𝐹𝐸 和超分辨特征 𝐹𝑆 拼接起来，得到一个 64 × 64 × 132 的张量。然后，通过一个 64 × 64 的卷积层和一个 3 × 3 的卷积层生成一个 1 × 1 × 132 的张量，以获得统计学信息。经过 Relu 层，该张量被转换为 1 × 1 × 32。最后，通过 Sigmoid 激活层将张量放大到原来尺寸，从而得到每个特征图的加权值 𝐹𝑊 。 𝐹𝑊 = 𝐺𝑓 𝑢𝑠𝑖𝑜𝑛 (𝐹𝐷 , 𝐹𝐿𝐷 , 𝐹𝐸 , 𝐹𝑆 ) (4–8) 其中 𝐺𝑓 𝑢𝑠𝑖𝑜𝑛 表示融合操作。由此产生的特征加权图 𝐹𝑊 被分别用于两个复原分支。对于图像去模糊分支，𝐹𝑊 可被用于生成加权融合特征: 𝐹𝑓 𝑢𝑠𝑖𝑜𝑛_𝑑𝑏 = 𝐹𝑊 ⊗ 𝐹𝑆 + 𝐹𝐷 (4–9) 其中 𝐹𝑓 𝑢𝑠𝑖𝑜𝑛_𝑑𝑏 是与超分辨分支交互后的加权融合特征。相应地，对于模糊图像的超分辨，𝐹𝑊 可被用于: 𝐹𝑓 𝑢𝑠𝑖𝑜𝑛_𝑠𝑟 = 𝐹𝑊 ⊗ 𝐹𝐷 + 𝐹𝑆 (4–10) 其中 𝐹𝑓 𝑢𝑠𝑖𝑜𝑛_𝑠𝑟 是与去模糊分支交互后的加权融合特征。对于所提出的 SIFN 模型，网络的输入是模糊的 LR 图像特征 𝐼𝐿𝑅𝐷 和其边缘图 𝐼𝐿𝑅𝐷𝐸 。去模糊分支可生成一个去模糊的 LR 图像 𝐼𝐿𝑅𝐷 及其相应的边缘图 𝐼𝐿𝑅𝐷𝐸 ，而 SR 分支可生成一个去模糊的高分辨率图像 𝐼𝐻𝑅𝐷 及其相应的边缘图 𝐼𝐻𝑅𝐷𝐸 。SIFN 模型可通过联合优化 SR 和去模糊分支的损失函数来训练网络，网络的损失函数被定义为： 𝐿𝑜𝑠𝑠 = min 𝐿𝑠𝑟 (𝐼𝐻𝑅𝐷 , 𝐼𝐻𝑅 ) + 𝛼𝐿𝑑𝑏 (𝐼̂𝐿𝑅𝐷 , 𝐼𝐿𝑅 ) (4–11) 其中 𝐿𝑠𝑟 和 𝐿𝑑𝑏 分别为超分辨分支和去模糊分支的损失函数。𝛼 是一个加权参数，用于平衡这两个损失函数。对于去模糊分支，损失 𝐿𝑑𝑏 定义为: 2 2 𝐿𝑑𝑏 = min ‖𝐼̂𝐿𝑅𝐷 − 𝐼𝐿𝑅 ‖ + 𝛽 ‖𝐼̂𝐿𝑅𝐷𝐸 − 𝐼𝐿𝑅𝐸 ‖ 2 2 (4–12) 其中 𝐼̂𝐿𝑅𝐷 和 𝐼𝐿𝑅 分别是去模糊的低分辨图像和清晰的低分辨图像。𝐼̂𝐿𝑅𝐷𝐸 和 𝐼𝐿𝑅𝐸 分别对应去模糊的低分辨图像的边缘图和清晰的低分辨图像的边缘图。𝛽 是一个加权参数，用于平衡内容和边缘结构两部分。对于 SR 分支，损失函数 𝐿𝑠𝑟 定义为: 2 2 𝐿𝑠𝑟 = min ‖𝐼𝐻𝑅𝐷 − 𝐼𝐻𝑅 ‖2 + 𝛽 ‖𝐼𝐻𝑅𝐷𝐸 − 𝐼𝐻𝑅𝐸 ‖2 (4–13) 其中 𝐼𝐻𝑅𝐷 和 𝐼𝐻𝑅 分别是去模糊的高分辨图像和原始清晰的高分辨图像。 𝐼𝐻𝑅𝐷𝐸 和 𝐼𝐻𝑅𝐸 分别是去模糊的高分辨图像的边缘图和清晰的高分辨图像的边缘图。𝛽 与公式 (4–12) 中相同，是平衡内容和边缘结构两部分的加权参数。 — 77 — 上海交通大学博士学位论文实验和分析 4.3 实验细节 4.3.1 我们提出的 SIFN 主要包括三个用于模糊图像超分辨的重要部分：结构保持模块、注意力感知架构和交互式融合模块。对于带有额外的边缘辅助和边缘约束的结构保持模块（如图4–4），在我们提出的边缘检测网络中，卷积层的所有卷积核大小为 3 × 3，步长为 1。与原始 HED 不同，我们的边缘检测网络中每个侧边分支的输出在放大到目标尺寸后融合所有前边分支的特征。采用多尺度输出融合策略，即低层次特征可以更好地与高层次特征结合起来进行边缘检测。在注意感知结构的帮助下，我们在 SR 分支使用 8 个 ARIRBlocks 从模糊 LR 图像中提取基本特征。同时，我们没有使用任何池化和跨步卷积来保持空间信息，也没有使用批处理归一化来减少计算量并提高性能。在 SR 分支中，如图4–3所示，通过交互式融合模块将去模糊分支获得的特征 𝐹𝐷 和 SR 分支获得的特征 𝐹𝑆 进行融合。最后，通过两个卷积层和全局注意模块得到重建的清晰高分辨图像。对于去模糊分支，我们借助多尺度方法，用一系列 ARIRBlocks 逐步重建出去模糊图像。在去模糊分支的编码器中，如图4–3所示，我们首先使用 4 个 3 × 3 卷积层来提取输入模糊低分辨图像的浅层特征及其相应的边缘图。然后，利用 16 个 ARIRBlocks 及用于下采样和上采样操作的置换层，增加高层语义信息提取的感受野。此外，我们利用跳跃连接将编码器中的信息传递至解码器，帮助解码器获得更多的细节信息从而恢复出更清晰的图像。为了实现更好的去模糊性能，通过交互式融合模块将尖锐特征信息 𝐹𝑆 与特征 𝐹𝐷 进行融合。我们借助 Pytorch 平台来实现所提出的模糊超分辨模型，使用 NVIDIA GTX1080TiGPU 来完成所有模型的训练和测试，并使用参数为 𝛽1 = 0.9 和 𝛽2 = 0.999 的 ADAM 优化器训练网络。整个训练过程需要 1 × 106 次迭代。公式（4–11）中的权重参数 𝛼 设置为 0.3，批处理大小为 4。公式（4–12）和公式（4–13）中的权重参数 𝛽 均设置为 0.01。数据集和指标 4.3.2 为验证 SIFN 模型对运动模糊 LR 图像的重建效果，我们使用 GoPro 数据集[47] 进行训练。在原始的 GoPro 数据库中有 200 对模糊的和清晰的高分辨图像对，我们将其进行数据增广后用于模型训练以便获得更好的重建性能。首先，根据文献[136] 在（0.5-1.0）范围内用三个随机缩放因子调整每个清晰的和模糊的高分辨图像对的尺寸。然后，将每对图像数据裁剪成尺寸为 256×256 的图像块，裁剪步长为 128。接着对模糊图像和清晰图像进行降采样，得到相应的模糊低分辨图像块 (𝐼𝐿𝑅𝐷 ) 和 — 78 — 上海交通大学博士学位论文清晰低分辨图像块 (𝐼𝐿𝑅 )。最后，得到 107,584 个图像块三联体 (𝐼𝐿𝑅𝐷 ，𝐼𝐿𝑅 ，𝐼𝐻𝑅 ) 进行训练，并通过我们的边缘提取算法得到相应的边缘图像三联体 (𝐼𝐿𝑅𝐷𝐸 ，𝐼𝐿𝑅𝐸 ， 𝐼𝐻𝑅𝐸 ) 进行训练。为验证所提出的模糊图像超分辨方法的有效性，我们用最先进的超分辨方法 (EDSR[18] , RCAN[21] )、联合去模糊和超分辨方法 (SCGAN[138] , ED-DSRN[79] , DSN[80] , GFN[136] ) 和网络串联方案 (EDSR[18] , RCAN[21] ) 做参考对比。我们还重新训练了 SRNDeblur[48] 和 DeblurGAN[47] 网络以便进行全面比较。我们在 GoPro[47] , Köhler[135] 和 Lai[134] 三个数据集上对我们提出的方法和其他最先进的方法进行测试对比，计算重建的 HRD 图像和对应真实的高分辨图像之间的 PSNR 和 SSIM 指标。与往常一样，PSNR 和 SSIM 指标越高说明复原算法的性能越好。所有对比算法和我们的方法都是使用相同数据标准和实验环境来评估的。 4.3.3 消融实验图 4–9 我们提出的模糊图像超分辨网络的每个关键部分的视觉对比结果。(a) 原始 GFN 模型结果[136] 。(b) 增加注意力感知结构的结果。(c) 增加结构保持模块的结果。(d) 同时增加注意力感知结构和结构保持模块的结果。 Figure 4–9 The visual contrast results of each key component of our SIFN. (a) The results of our baseline model based on GFN[136] . (b) The result with attention-aware structure. (c) The results with structure-preserving module. (d) The results with both attention-aware structure and structure-preserving module. 为了验证所提出模型中结构保持模块、注意感知结构和交互融合模块的有效 — 79 — 上海交通大学博士学位论文表 4–1 在 GoPro 数据集中上采样率为 4 时 SIFN 的关键部分分析。模型 1 表示我们的运动模糊图像超分辨方法，没有结构保持架构和注意力机制。模型 2 表示我们的方法有结构保持架构，但没有注意力机制。模型 3 表示我们的方法没有结构保持架构，但有注意力机制。模型 4 表示我们的模糊图像超分辨方法同时增加结构保持模块和注意力机制。 Table 4–1 Analysis of key components in our SIFN for scale 4 on the GoPro dataset. Model1 indicates our motion blurry image SR approach without both structure-preserving architecture and attention mechanism. Model2 indicates our approach with structure-preserving architecture and without attention mechanism. Model3 indicates our approach without structure-preserving architecture and with the attention mechanism. Model4 indicates our blurry image SR approach with both structure-preserving architecture and attention mechanism. Method Edge Attention PSNR SSIM Time no no 27.3833 0.9162 0.0564 Model2 yes no 27.6162 0.9217 0.0637 Model3 no yes 27.3924 0.9135 0.0612 Model4 yes yes 27.6960 0.9225 0.0676 Model1 [136] 性，表 4–1显示了我们提出的方法 SINF 在 GoPro 数据集中上采样率为 4 时各关键部分的消融分析。 4.3.3.1 结构保持框架的有效性为验证结构保持模块对所提出的 SIFN 模型的重要作用，我们在相同实验条件下完成了有无结构保持模块的对比实验。从表4–1中可以看出，没有结构保持模块的 PSNR 比有结构保持模块的低很多（27.3833 dB v.s 27.6162 dB）。有结构保持模块的 SSIM 值为 0.9217，也比没有结构保持模块的 0.9162 高很多。图4–9还显示了有和无结构保持模块的模糊图像超分辨的视觉对比结果。从图中我们可以清楚地看到，具有结构保持模块的算法可以保持更多的边缘结构和细节。 4.3.3.2 注意机制的有效性为验证注意力感知结构的有效性，我们分别做了增加和不增加注意力感知结构情况的对比实验。表4–1中的实验结果显示，增加和不增加注意力感知结构的 PSNR 值分别为 27.3924 和 27.3833，这充分说明加入注意力感知结构后，模糊图像超分辨的性能可以得到有效提高。虽然增加注意力感知结构的 SSIM 为 0.9135，略低于无增加结构性能，但当注意力感知结构和结构保持模块同时使用时，可以有效提高重建的高分辨图像质量。图4–9还显示了增加和不增加注意力感知机制 — 80 — 上海交通大学博士学位论文的超分辨视觉对比结果，它清晰地表明，注意力模块可以增强网络特征表达能力，改善模糊图像超分辨复原效果。 4.3.3.3 交互融合模型的有效性为验证交互式融合模块的有效性，我们给出了增加和不增加交互式融合模块的超分辨重建性能。如表4–2、表4–3和表4–4所示，我们可以看到不同模糊图像超分辨方法的定量实验比较，包括单一图像超分辨方法和去模糊方法、两个网络串联的方法和端到端模糊图像超分辨方法。表4–2、表4–3、表4–4中的指标充分证明了我们提出的交互式融合模块的有效性。图4–9还显示了我们提出模型的消融分析实验的视觉对比结果。图4–9(a) 是我们基于 GFN[136] 基准模型的视觉结果。图4– 9(b) 和图 4–9(c) 分别是我们的模型具有注意力感知结构和具有结构保持模块的视觉结果。图4–9(d) 是我们的模型同时具有注意力感知结构和结构保持模块的结果。图4–9中视觉结果证明，每个关键部分都在我们提出的 SINF 模型中发挥着重要作用。与主流算法对比分析 4.3.4 4.3.4.1 定量结果表4–2显示了主流方法和我们的模型在 GoPro[47] 数据集中上采样率为 4 和 2 时的 PSNR、SSIM 和时间消耗指标对比。根据表4–2可以看出，我们算法的 PSNR 值为 27.6960，SSIM 值为 0.9225，在 GoPro[47] 数据集中上采样率为 4 时与其他方法相比有明显优势。对于两个任务直接串联的方法，表中显示最佳方法是 EDSR[18] +SRNDeblur[48] （先实现超分辨任务，再完成去模糊任务），上采样率为 4 和上采样率为 2 时的 PSNR 值分别为 25.8961 和 27.0496。然而，由于两个不同任务之间的误差积累，该方法整体模糊图像超分辨结果不是很理想。此外，先完成 SR 任务会大大增加后续去模糊的网络参数，导致时间和资源消耗增加。对于端到端的模糊图像 SR 方法，大多数方法（ED-DSRN[79] ，SCGAN[138] ，DSN[80] 和 GFN[136] ）都比串联方法效果更好。与相对优秀的基准方法 GFN 相比，我们的方法由于采用了结构保持模块和注意力感知机制可以保持更多的结构细节。同时交互式特征融合模块可以自动选择相关任务的辅助信息，提高图像重建性能。在时间消耗方面，我们的方法在 GoPro[47] 数据集上耗时为 0.0620s，这也表明我们的 SIFN 方法可以在保持更多结构和细节信息的情况下需要相对较少的时间消耗。表4–3显示了其他先进的重建算法和我们的模型在 Köhler[135] 数据集中上采样率为 4 和上采样率为 2 时的 PSNR、SSIM 和时间消耗指标对比。当上采样率为 — 81 — 上海交通大学博士学位论文表 4–2 不同方法在 GoPro[47] 数据集中上采样率为 4 和 2 时的定量指标对比。其中， EDSR[18] 、SRResNet[24] 、RCAN[21] 和 SCGAN[138] 是基于深度学习的经典图像超分辨算法， SRNDeblur[48] 和 DeblurGAN[47] 是经典图像去模糊算法。SRNDeblur[48] +EDSR[18] 是指先用 SRNDeblur[48] 算法实现去模糊任务，然后用 EDSR[18] 算法实现超分辨，最终实现从模糊的 LR 图像恢复出 HR 图像。同理，EDSR[18] +SRNDeblur[48] 表示 SRNDeblur[48] 算法在 EDSR[18] 算法之后实现模糊图像超分辨。ED-DSRN[79] 、DSN[80] 和 GFN[136] 是最新端到端的模糊图像超分辨方法。我们方法的指标在表格最后一行用黑体显示。 Table 4–2 Quantitative comparison with the state-of-the-art algorithms on GoPro[47] dataset for scale 4 and scale 2. Where, EDSR[18] , SRResNet[24] , RCAN[21] and SCGAN[138] are classical image super-resolution algorithms based on deep learning, and SRNDeblur[48] and DeblurGAN[47] are corresponding representative image deblurring algorithms. SRNDeblur[48] +EDSR[18] means that the SRNDeblur[48] algorithm is first used to realize the deblurring task and then the EDSR[18] algorithm is used to realize the super-resolution algorithm, so as to realize SR from the blurry LR image. Accordingly, EDSR[18] +SRNDeblur[48] represents that SRNDeblur[48] algorithm implements after EDSR[18] algorithm for the blurry image SR. ED-DSRN[79] , DSN[80] and GFN[136] are the latest end-to-end approach to implement blurry LR image super-resolution. Scale 4 and scale 2 are super-resolution scaling factors. The indicators of our method are shown in bold on the last line. GoPro Dataset Scale 4 Method [48] SRNDeblur [18] EDSR +SRNDeblur DeblurGAN EDSR +EDSR [48] [47] [18] [18] DeblurGAN [21] RCAN PSNR SSIM TIME PSNR SSIM TIME 25.3200 0.8880 0.0742 26.8430 0.9151 0.2098 25.8961 0.8008 0.5657 27.0496 0.8251 0.6216 [18] 23.4690 0.8562 0.8320 24.0460 0.8659 0.6720 [47] 23.6733 0.8693 0.1502 24.0954 0.8760 0.2080 [21] 24.8920 0.8572 0.4969 25.4480 0.8648 1.2301 [47] +EDSR +DeblurGAN [47] Scale 2 +RCAN +DeblurGAN 23.6777 0.8700 0.6021 24.0630 0.8750 0.5473 [21] 26.7710 0.8895 1.0213 28.2770 0.9139 1.2190 [48] 25.9800 0.8020 0.5230 27.0280 0.8245 0.5307 26.2000 0.8180 0.0700 - - - 24.8800 0.8360 0.6600 - - - 26.4400 0.8730 0.1000 28.2758 0.9078 0.1264 27.0100 0.8850 0.0510 29.4652 0.9187 0.1031 GFN 27.3833 0.9162 0.0564 29.8567 0.9346 0.0596 Ours 27.6960 0.9225 0.0620 30.2364 0.9469 0.0647 [48] SRNdeblur [21] RCAN +SRNdeblur [24] SRResNet [138] SCGAN ED-DSRN DSN[80] [136] +RCAN [79] 4 时，我们的 PSNR 和 SSIM 分别为 19.3158 和 0.6650，PSNR 与基准算法 GFN[136] 相比有 0.22dB 的领先优势。虽然与其他级联算法相比，我们的 PSNR 值只是相对较好。但是由于结构保持模块等原因，我们的方法具有非常优越的边缘保持性能， — 82 — 上海交通大学博士学位论文表 4–3 不同方法在 Köhler[135] 数据集中上采样率为 4 和 2 时的定量指标对比。其中， EDSR[18] 和 RCAN[21] 是基于深度学习的经典图像超分辨算法，SRNDeblur[48] 和 DeblurGAN[47] 是经典图像去模糊算法。SRNDeblur[48] +EDSR[18] 是指先用 SRNDeblur[48] 算法实现去模糊任务，然后用 EDSR[18] 算法实现超分辨，最终实现从模糊的 LR 图像恢复出 HR 图像。同理，EDSR[18] +SRNDeblur[48] 表示 SRNDeblur[48] 算法在 EDSR[18] 算法之后实现模糊图像超分辨。我们方法的指标在表格的最后一行用黑体显示。 Table 4–3 Quantitative comparison with the state-of-the-art algorithms on Köhler[135] dataset for scale 4 and scale 2. Where, EDSR[18] and RCAN[21] are classical image super-resolution algorithms based on deep learning, and SRNDeblur[48] and DeblurGAN[47] are corresponding representative image deblurring algorithms. SRNDeblur[48] +EDSR[18] means that the SRNDeblur[48] algorithm is first used to realize the deblurring task and then the EDSR[18] algorithm is used to realize the super-resolution algorithm, so as to realize SR from the blurry LR image. Accordingly, EDSR[18] +SRNDeblur[48] represents that SRNDeblur[48] algorithm implements after EDSR[18] algorithm for blurry image SR. Scale 4 and scale 2 are super-resolution scaling factors. The indicators of our method are shown in bold on the last line of the table. Köhler Dataset Scale 4 Method [48] SRNDeblur [18] EDSR +SRNdeblur DeblurGAN EDSR +EDSR [48] [47] [18] [18] DeblurGAN [21] RCAN PSNR SSIM TIME PSNR SSIM TIME 19.7640 0.5954 0.2125 19.4133 0.5987 0.1922 20.4288 0.5783 1.3043 20.2742 0.5778 1.4331 [18] 20.5910 0.6108 0.1355 20.4030 0.6083 0.4066 [47] 20.4502 0.6046 0.5211 20.3609 0.6059 0.7269 [21] 21.1490 0.5966 1.1336 21.0170 0.5935 1.6272 [47] +EDSR +DeblurGAN [47] Scale 2 +RCAN +DeblurGAN 19.8560 0.6040 0.7490 19.7580 0.6013 0.7157 [21] 19.8730 0.6085 2.7115 19.7596 0.6020 2.6695 [48] 20.3060 0.6438 1.5330 20.5860 0.6459 5.6500 18.8973 0.6259 0.3140 18.3205 0.6088 0.3467 GFN 19.2447 0.6645 0.1693 18.6489 0.6325 0.1735 Ours 19.4629 0.6678 0.1862 18.8527 0.6468 0.1918 [48] SRNdeblur [21] RCAN +RCAN +SRNdeblur ED-DSRN [79] [136] 取得了较好的 SSIM 指标。当上采样率为 2 时，与其他主流方法相比，我们的方法也能取得更好的 SSIM 值。表4–3中的结果充分说明了我们的 SIFN 模型在两个基准数据库中不同上采样率时都能达到相对满意的模糊图像超分辨效果。表4–4显示了其他先进算法和我们的模型在 Lai 数据集中上采样率为 4 和上采样率为 2 时的 PSNR、SSIM 和时间消耗指标对比，这也验证了我们的算法在结构和细节保持方面的优越性能。在表4–2、表4–3和表4–4中显示，即使 SCGAN[138] 和 SRResNet[24] 在新数据集 — 83 — 上海交通大学博士学位论文表 4–4 不同方法在 Lai[134] 数据集中上采样率为 4 和 2 时的定量指标对比。其中，EDSR[18] 和 RCAN[21] 是基于深度学习的经典图像超分辨率算法，SRNDeblur[48] 和 DeblurGAN[47] 是经典图像去模糊算法。SRNDeblur[48] +EDSR[18] 是指先用 SRNDeblur[48] 实现去模糊，然后用 EDSR[18] 算法实现超分辨，最终实现从模糊的 LR 图像恢复出 HR 图像。同理， EDSR[18] +SRNDeblur[48] 表示 SRNDeblur[48] 算法在 EDSR[18] 算法之后实现模糊图像超分辨。我们方法的指标在表格的最后一行用黑体显示。 Table 4–4 Quantitative comparison with the state-of-the-art algorithms on Lai dataset[134] for scale 4 and scale 2. Where, EDSR[18] and RCAN[21] are classical image super-resolution algorithms based on deep learning, SRNDeblur[48] and DeblurGAN[47] are corresponding representative image deblurring algorithms. SRNDeblur[48] +EDSR[18] means that the SRNDeblur[48] algorithm is first used to realize the deblurring task and then the EDSR[18] algorithm is used to realize the super-resolution task, so as to realize SR from the blurry LR image. Accordingly, EDSR[18] +SRNDeblur[48] represents that SRNDeblur[48] algorithm implements after EDSR[18] algorithm for blurry image SR. Scale 4 and scale 2 are super-resolution scaling factors. The indicators of our method are shown in bold on the last line of the table. Lai Dataset Scale 4 Method [48] SRNdeblur [18] EDSR EDSR SSIM TIME PSNR SSIM TIME 16.523 0.4686 0.0895 16.5800 0.4642 0.0927 [48] +SRNdeblur DeblurGAN [18] PSNR [18] +EDSR [47] 16.4437 0.4393 0.5026 16.7251 0.4428 0.7713 [18] 16.7210 0.4394 0.0512 16.8640 0.4321 0.0943 [47] 16.7542 0.4397 0.1668 16.8716 0.4278 0.1221 [21] 18.3030 0.4386 0.5436 18.4800 0.4295 1.2670 [47] +EDSR +DeblurGAN [47] DeblurGAN [21] RCAN Scale 2 +RCAN +DeblurGAN 16.7420 0.4400 0.2260 16.8720 0.4279 0.1210 [21] 18.0970 0.4684 0.5317 18.1650 0.4642 1.4410 [48] 16.3914 0.4378 0.8081 16.7190 0.4424 0.8091 15.8916 0.5136 0.1326 15.7216 0.5381 0.1364 GFN 16.1519 0.6448 0.0472 15.9768 0.6215 0.4920 Ours 16.3966 0.6467 0.0513 16.0347 0.6450 0.5274 [48] SRNdeblur [21] RCAN +SRNdeblur ED-DSRN [136] +RCAN [79] 上重新训练的模型优于预训练的模型，但由于其轻量级结构，它们不能很好地处理复杂的非均匀模糊问题。SCGAN[138] 首先用双三次插值放大低分辨图像，然后进行一系列卷积等操作实现模糊图像超分辨，但不可避免地增加了网络负担。同时，直接用双三次插值也会丢失相关细节。对于 ED-DSRN[79] ，它们可以同时实现去模糊和 SR。然而，单分支网络 ED-DSRN[79] 的特征学习不够准确，性能不如我们的基于注意力感知的双分支网络。对于 DSN[80] ，双监督结构可以充分利用 LR 图像和 HR 图像之间的相互依赖关系。然而，实现基于去模糊特征的 SR 仍然存在 — 84 — 上海交通大学博士学位论文错误积累的问题。对于超分辨网络和去模糊方法的串联方案，由于两个任务的误差积累使其性能并不理想。虽然先执行 SR 比先执行去模糊任务性能更好，但先完成 SR 任务会导致后面去模糊任务占用更多的 GPU 资源，消耗更多时间。与表现最好的串联方法相比，我们的方法在 PSNR 和时间消耗方面的优势非常明显。 4.3.4.2 定性结果图4–10显示了从 GoPro[46] 测试集选取的几张图像的重建性能对比，上采样率为 4。由图4–10可以看出，我们的 SIFN 模型重建出的高分辨图像具有更多的细节和更高的准确性。特别是，彩色边框区域突出了不同算法重建出的高分辨图像的结果。例如，图4–10(f) 中红色区域的腿和粉色区域的头饰充分说明我们的 SIFN 可以保留更多的结构细节。对于端到端的模糊图像超分辨方法 GFN[136] ，由于超分辨和去模糊任务之间的相互干扰，并不能很好地处理运动模糊，超分辨图像中有很多细节丢失。对于两个任务串联方法，如 DeblurGAN[47] +EDSR[18] 和 EDSR[18] +DeblurGAN[47] ，由于误差积累问题，往往会引入不希望出现的伪影。和这些方法不同的是，我们的方法可以有效地去除运动模糊，并在重建的高分辨图像中保持丰富的结构信息。图4–11显示了从 Köhler[135] 测试集提取的几幅图像上的重建性能对比，上采样率为 4。由图4–11可以看到，我们的 SIFN 模型重建出的高分辨图像中具有更多细节和更高准确性。特别是，彩色边框区域突出了不同算法的模糊图像超分辨结果。例如，图4–11(f) 中黄色的时钟指针和粉红色的数字，充分说明我们的算法可以重建出更清晰的高分辨图像。图4–12显示了 Lai 数据集中几幅图像的复原效果对比，上采样率为 2。图4– 12表明，与其他方法相比，由我们的模糊图像超分辨模型重建出的高分辨图像中具有更多的细节和更高的准确性。例如，黄色边框内的围巾和粉色边框内的沙滩都可以证明我们算法的优越性。运行时间评估 4.3.5 此外，图4–13给出了不同方法之间的时间和性能对比。图4–13可以看出，绿色代表串联方案获得的 SR 结果，蓝色代表端到端模糊图像超分辨方法获得的 SR 结果，红色是我们 SIFN 模型的结果。图4–13中的所有结果都是在 GoPro 测试数据集上评估的。由图4–13可以看出，我们提出的 SIFN 模型可以获得比其他方法更好的 PSNR 指标，而且计算成本和执行时间更低。 — 85 — 上海交通大学博士学位论文图 4–10 GoPro[47] 数据集中上采样率为 4 时定性结果可视化比较。(a) 列左上角的蓝色边框代表模糊的低分辨输入图像。(a) DeblurGAN[47] +EDSR[18] 的结果。(b) EDSR[18] +DeblurGAN[47] 的结果。(c) EDSR[18] +SRNDeblur[48] 的结果。(d) SRNDeblur[48] +EDSR[18] 的结果。(e) GFN[136] 的结果。(f) 我们方法的结果。这表明我们提出的方法可以生成更清晰的高分辨图像，具有更多的结构和细节，如红色边框内的腿和粉色边框内的头饰。 Figure 4–10 Visual comparison of qualitative results for 4× scale factor on the GoPro[47] dataset. The blue border in the upper left corner of the column (a) represents the blurry LR input. (a) The results by DeblurGAN[47] +EDSR[18] . (b) The results by EDSR[18] +DeblurGAN[47] . (c) The reconstructed HR images by EDSR[18] +SRNDeblur[48] . (d) The results by SRNDeblur[48] +EDSR[18] . (e) The results by GFN[136] . (f) The results by our SIFN. It shows that our proposed method can generate the sharper HR images with more structure and details, such as the legs in the red border and the headwear in the pink border. 4.4 本章小结本章主要介绍了所提出的基于结构保持和交互式融合的模糊图像超分辨网络。首先，我们为 SIFN 引入了基于额外边缘辅助和边缘约束的结构保护架构，以有效地保护复原图像中的结构和细节。然后，考虑到局部注意力和全局注意力模块在局部视图和整体视图中较强的特征表达能力，利用注意感知结构来提取更充分的复原特征信息以突出高频成分并踢除无关信息。此外，我们还使用了基于注意力加权的特征交互融合模块来促进模糊图像超分辨率的交互特征表达。基准数据集上的大量实验表明，所提出的方法 SIFN 比最先进的方法具有更好的模糊图 — 86 — 上海交通大学博士学位论文图 4–11 Köhler[135] 数据集中上采样率为 4 时的定性结果可视化比较。(a) 列左上角的蓝色边框代表模糊的低分辨输入。(a) DeblurGAN[47] +EDSR[18] 的结果。(b) DeblurGAN[47] +RCAN[21] 的结果。(c) EDSR[18] +DeblurGAN[47] 的结果。(d) RCAN[21] +DeblurGAN[47] 的结果。(e) GFN[136] 的结果。(f) 我们提出的 SIFN 的结果。这表明我们提出的方法可以保留更多的结构信息和细节，比如黄色区域的时钟指针和粉红色边框内的数字。 Figure 4–11 Visual comparison of qualitative results for 4× scale factor on the Köhler[135] dataset. The blue border in the upper left corner of the column (a) represents the blurry LR input. (a) The results by DeblurGAN[47] +EDSR[18] . (b) The results by DeblurGAN[47] +RCAN[21] . (c) The results by EDSR[18] +DeblurGAN[47] . (d) The results by RCAN[21] +DeblurGAN[47] . (e) The results by GFN[136] . (f) The results by our proposed SIFN. It shows that our proposed method can preserve more structure information and details, examples include the clock hands in yellow and the numbers in pink. 像超分辨复原效果和更低的资源消耗。最后，我们将致力于研究更具挑战性的多因素退化的图像超分辨，如噪声和模糊同时存在的图像超分辨复原任务。 — 87 — 上海交通大学博士学位论文图 4–12 Lai[134] 数据集中上采样率为 2 时的定性结果可视化比较。(a) 列左上角的蓝色边框代表模糊的低分辨输入。(a) DeblurGAN[47] +EDSR[18] 的结果。(b) DeblurGAN[47] +RCAN[21] 的结果。(c) EDSR[18] +DeblurGAN[47] 的结果。(d) RCAN[21] +DeblurGAN[47] 重建的 HR 图像。(e) GFN[136] 的结果。(f) 我们提出的 SIFN 的结果。这表明我们的 SIFN 可以保持更丰富的结构和细节，比如红色边框内的铁链，黄色边框内的围巾和粉色边框内的沙滩。 Figure 4–12 Visual comparison of qualitative results for 2× scale factor on the Lai dataset[134] . The blue border in the upper left corner of the column (a) represents the blurry LR input. (a) The results by DeblurGAN[47] +EDSR[18] . (b) The results by DeblurGAN[47] +RCAN[21] . (c) The results by EDSR[18] +DeblurGAN[47] . (d) The reconstructed HR images by RCAN[21] +DeblurGAN[47] . (e) The results by GFN[136] . (f) The results by our proposed SIFN. It shows that our SIFN can hold more structure and details, examples include iron chain in red border, scarf in yellow border and sandbeach in pink border. — 88 — 上海交通大学博士学位论文图 4–13 推理时间和重建的图像质量之间的对比。所有测试实验都在 GoPro 测试数据集上进行，结果表明我们的方法 (红色部分) 在较低的时间消耗下保持比其他方法更好的重建性能。 Figure 4–13 Comparison between inference time and image quality. All the results are evaluated on GoPro test dataset, it shows that our method (in red) can maintain better reconstruction performance than other methods with lower time consumption. — 89 — 上海交通大学博士学位论文 90 上海交通大学博士学位论文第五章总结与展望图像复原是从质量退化的图像中尽可能地恢复出原始的清晰图像。随着图像智能采集设备的普及，人们对高质量图像的需求越来越迫切。目前图像复原技术已广泛应用于医学影像、刑事侦查、空间探测和交通监控等各个领域。由于引起图像质量退化的因素多种多样，如何有效地构建退化模型并提升退化图像品质是亟待解决的难题。本学位论文主要聚焦图像复原算法研究，重点专注于单一失真因素下的图像超分辨、图像去运动模糊任务和多失真因素下的模糊图像超分辨任务。研究思路和方案主要是借助自然图像先验知识、图像信息融合机制和深度学习工具解决相关具体问题。 5.1 工作总结本文首先介绍了图像复原工作的研究背景及意义，然后以图像超分辨和图像去模糊为例，介绍了单一失真因素下图像复原任务的退化模型及求解过程。接着分析了图像超分辨问题、去运动模糊问题和复杂场景下多失真因素的图像复原问题（模糊图像超分辨）的研究现状，及其对应的局限性和挑战。基于传统先验知识对图像超分辨、图像去模糊等任务的重要作用，重点研制了将先验知识与深度卷积网络相结合的一系列图像复原方法，解决当前图像复原工作中的相关问题。论文主要成果和创新点总结如下：（1）为解决当前深度传感器采集的深度图分辨率难以满足实际需求的问题，提出一种基于彩色图引导的由粗到精级联网络实现深度图的超分辨复原。首先，为解决传统联合滤波方法在实现深度图超分辨过程中出现的纹理复制问题，该深度图超分辨方法设计了理想滤波器并借助卷积神经网络实现端到端的学习模型。然后，提出了由粗到精的级联网络结构来学习不同尺寸的滤波器，利用不同尺度的特征信息逐步实现深度图超分辨重建。此外，提出了新的彩色图像引导机制来解决高分辨彩色图和低分辨深度图之间信息不对齐的问题。该彩色图引导方式可以减轻纹理复制效应，并有效地保留深度图中的边缘细节。定量和定性的实验结果证明了所提出的深度图超分辨方法具有领先的深度图重建性能。（2）为解决以往盲图像去运动模糊方法对大规模成对训练数据的严格需求及模糊核估计中存在误差的问题，提出了一种基于多对抗优化和结构感知机制的循环一致生成对抗网络实现盲图像去运动模糊。首先，基于原始 CycleGAN 网络能够利用非成对训练数据实现源域和目标域之间风格转换这一特点，将 CycleGAN — 91 — 上海交通大学博士学位论文用于模糊图像域到清晰图像域的转换，实现非成对数据条件下的盲图像去运动模糊。然后，提出多对抗网络结构来利用多尺度信息在不同分辨率上约束网络，使其能够去除重建图像中的伪影并生成清晰的去模糊图像。此外，提出结构感知机制，将边缘图作为引导信息并增加多尺度边缘约束，从而增强多对抗网络的结构和细节保持能力。多个数据库中的定量和定性实验验证了所提出的无监督去模糊方法的优越性。（3）为解决多失真因素下运动模糊图像的超分辨问题，提出了一种结构保持交互式融合网络 SIFN，利用端到端的方式从模糊的低分辨图像重建出清晰的高分辨图像。首先，根据边缘信息对图像超分辨[89] 和去模糊[90] 任务非常重要这一先验知识，提出一种基于边缘图的结构保持模块。该模块利用边缘辅助信息和多尺度边缘约束提升重建网络的结构和细节保持能力。同时，为获得准确的模糊图像边缘信息以构建结构保持模块，提出了一个具有多分支融合结构的边缘提取网络。然后，为充分利用图像去模糊和超分辨任务之间的相互关系，提出基于边缘引导的交互式融合模块以自适应地融合去模糊和超分辨的特征信息。此外，借助局部和全局注意机制来增强 SIFN 的特征表达能力。定量和定性实验结果充分验证了所提出的模糊图像超分辨方法的有效性。 5.2 工作展望本论文对基于先验知识和深度学习的图像复原方法进行了研究，已取得了部分阶段性成果。然而，由于现实中图像信息采集条件和传输环境等复杂多样，真实场景中图像退化因素难以预判，图像复原任务的应用需求和使用场景也更加具有挑战性。本论文只对该领域的个别问题进行研究，且所提出的复原方法也有进一步提升空间，许多相关重要问题尚有待于深入研究。本文未来工作计划包括：（1）实现仿真图像复原模型在真实数据中的应用。现实生活中，真实场景的图像数据无法构建有监督训练需要的成对数据样本，而合成的图像数据和真实的图像数据存在较大的分布差异，这使得利用合成的成对样本数据训练的网络模型无法在真实的图像数据的应用中取得相对理想的图像复原性能。因此进一步探索自样本学习、循环对抗学习等无监督学习方法并用于真实图像超分辨和去模糊等图像复原任务显得非常重要。（2）解决实际需求中较大倍数的图像超分辨复原问题。目前的超分辨方法在放大 2 倍、3 倍、4 倍等都取得了较好的重建效果，但是在实现较大倍数的超分辨时，如从分辨率为 256*256 的图像生成 8K 图像，现有的方法还远远达不到理想效果。随着超高清设备的不断优化，结合实际应用需求，需要针对 4K/8K 等较大 — 92 — 上海交通大学博士学位论文倍数的图像超分辨复原开展一些工作。同时，如何实时地实现图像和视频的超分辨解决视频会议、赛事直播等实际应用中出现的卡顿和延时等问题也是未来需要考虑的重要问题。（3）解决多失真因素同时存在的图像复原问题。现在很多超分辨方法都只假设图像是低分辨率的而不存在其他失真问题，本论文也只是解决同时包含运动模糊污染和分辨率较低两种退化因素的复原问题，但是实际情况是图像往往同时存在多种失真，如果分而治之各种问题，并不能得到理想的效果。需要联合考虑不同退化问题的特点以及他们之间的联系从而有效解决更加复杂的多失真图像复原问题。（4）解决交叉学科中的图像复原问题。目前大部分图像复原工作都是在自然图像和视频领域开展相关工作，但是实际中，图像复原工作在生物医学和军事国防等领域也非常重要。如何结合交叉学科中的图像数据特点，借助深度学习和机器学习等算法实现特定的图像复原任务是未来的研究方向之一，我们将重点开展医学影像（如眼部 OCT 影像数据）的图像去噪和超分辨联合复原任务，为计算机辅助诊断和智慧医疗提供必要的技术支持。 — 93 — 上海交通大学博士学位论文 94 上海交通大学博士学位论文参考文献 [1] 冈萨雷斯等著. 数字图像处理（第二版）[M]. 北京, 2003. [2] 张凯. 基于卷积神经网络的图像去噪与超分辨率方法研究[D]. 哈尔滨: 哈尔滨工业大学, 2019. [3] Timofte R, De V, Gool L V. Anchored Neighborhood Regression for Fast Example-Based Super-Resolution[C]. in: IEEE International Conference on Computer Vision. 2013: 1920-1927. [4] Yang J, Wang Z, Lin Z, et al. Coupled Dictionary Training for Image SuperResolution[J]. IEEE Transactions on Image Processing, 2012, 21(8): 3467-3478. [5] Yang J, Wright J, Huang T S, et al. Image Super-Resolution Via Sparse Representation[J]. IEEE Transactions on Image Processing, 2010, 19(11): 2861-2873. [6] Zeyde R, Elad M, Protter M. On Single Image Scale-up Using Sparserepresentations[C]. in: International Conference on Curves and Surfaces. 2012: 711-730. [7] Yan Q, Xu Y, Yang X, et al. Single Image Superresolution Based on Gradient Profile Sharpness[J]. IEEE Transactions on Image Processing, 2015, 24(10): 31873202. [8] 周志华. 机器学习[M]. 北京, 2016. [9] 袁书聪. 基于深度学习的联合深度图超分辨算法[D]. 广州: 华南理工大学, 2019. [10] Fang F, Li J, Zeng T. Soft-Edge Assisted Network for Single Image SuperResolution[J]. IEEE Transactions on Image Processing, 2020, 29: 4656-4668. DOI: 10.1109/TIP.2020.2973769. [11] Li Y, Liu D, Li H, et al. Learning a Convolutional Neural Network for Image Compact-Resolution[J]. IEEE Transactions on Image Processing, 2019, 28(3): 1092-1107. DOI: 10.1109/TIP.2018.2872876. [12] Wen Y, Sheng B, Li P, et al. Deep Color Guided Coarse-to-Fine Convolutional Network Cascade for Depth Image Super-Resolution[J]. IEEE Transactions on Image Processing, 2019, 28(2): 994-1006. DOI: 10.1109/TIP.2018.2874285. — 95 — 上海交通大学博士学位论文 [13] Haut J M, Fernandez-Beltran R, Paoletti M E, et al. A New Deep Generative Network for Unsupervised Remote Sensing Single-Image Super-Resolution[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(11): 6792-6810. DOI: 10.1109/TGRS.2018.2843525. [14] Zhao X, Zhang Y, Zhang T, et al. Channel Splitting Network for Single MR Image Super-Resolution[J]. IEEE Transactions on Image Processing, 2019, 28(11): 5649-5662. DOI: 10.1109/TIP.2019.2921882. [15] Dong C, Loy C C, He K, et al. Learning a Deep Convolutional Network for Image Super-Resolution[C]. in: European Conference on Computer Vision. 2014: 184199. [16] Dong C, Loy C C, Tang X. Accelerating the Super-Resolution Convolutional Neural Network[C]. in: European Conference on Computer Vision. 2016: 391407. [17] Kim J, Lee J K, Lee K M. Accurate Image Super-Resolution Using Very Deep Convolutional Networks[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2016: 1646-1654. [18] Lim B, Son S, Kim H, et al. Enhanced Deep Residual Networks for Single Image Super-Resolution[C]. in: IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2017: 1132-1140. [19] Wang Z, Liu D, Yang J, et al. Deep Networks for Image Super-Resolution with Sparse Prior[C]. in: IEEE International Conference on Computer Vision. 2015: 370-378. [20] Haris M, Shakhnarovich G, Ukita N. Deep Back-Projection Networks for SuperResolution[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2018: 1664-1673. [21] Zhang Y, Li K, Li K, et al. Image Super-Resolution Using Very Deep Residual Channel Attention Networks[J]. CoRR, 2018, abs/1807.02758. arXiv: 1807.027 58. [22] Dai T, Cai J, Zhang Y, et al. Second-Order Attention Network for Single Image Super-Resolution[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2019: 11057-11066. — 96 — 上海交通大学博士学位论文 [23] Johnson J, Alahi A, Fei-Fei L. Perceptual losses for real-time style transfer and super-resolution[C]. in: European conference on computer vision. 2016: 694-711. [24] Ledig C, Theis L, Huszár F, et al. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2017: 105-114. [25] Sajjadi M S, Scholkopf B, Hirsch M. EnhanceNet: Single image super-resolution through automated texture synthesis[C]. in: 2017 IEEE International Conference on Computer Vision. 2017: 4491-4500. [26] Zhang W, Liu Y, Dong C, et al. RankSRGAN: Generative adversarial networks with ranker for image super-resolution[C]. in: 2019 IEEE International Conference on Computer Vision. 2019: 3096-3105. [27] Ignatov A, Romero A, Kim H, et al. Real-time video super-resolution on smartphones with deep learning, mobile ai 2021 challenge: Report[C]. in: 2021 IEEE Conference on Computer Vision and Pattern Recognition. 2021: 2535-2544. [28] Xiao Z, Fu X, Huang J, et al. Space-time distillation for video super-resolution[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2021: 21132122. [29] Liu S, Zheng C, Lu K, et al. Evsrnet: Efficient video super-resolution with neural architecture search[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2021: 2480-2485. [30] Diebel J, Thrun S. An Application of Markov Random Fields to Range Sensing[C]. in: Neural Information Processing Systems. 2005: 291-298. [31] Ferstl D, Reinbacher C, Ranftl R, et al. Image Guided Depth Upsampling Using Anisotropic Total Generalized Variation[C]. in: IEEE International Conference on Computer Vision. 2013: 993-1000. [32] He K, Sun J, Tang X. Guided Image Filtering[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(6): 1397-1409. [33] Yang Q, Yang R, Davis J, et al. Spatial-Depth Super Resolution for Range Images[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2007: 1-8. — 97 — 上海交通大学博士学位论文 [34] Kou F, Chen W, Wen C, et al. Gradient Domain Guided Image Filtering[J]. IEEE Transactions on Image Processing, 2015, 24(11): 4528-4539. [35] Ochotorena C A, Ochotorena C N, Dadios E. Gradient-guided filtering of depth maps using deep neural networks[C]. in: International Conference on Humanoid, Nanotechnology, Information Technology, Communication and Control, Environment and Management. 2015: 1-8. [36] Hua K L, Lo K H, Wang Y C F. Extended Guided Filtering for Depth Map Upsampling[J]. IEEE MultiMedia, 2016, 23(2): 72-83. [37] Yang Q, Ahuja N, Yang R, et al. Fusion of Median and Bilateral Filtering for Range Image Upsampling[J]. IEEE Transactions on Image Processing, 2013, 22(12): 4841-4852. [38] Chan D, Buisman H, Theobalt C, et al. A Noise-Aware Filter for Real-Time Depth Upsampling[C]. in: Workshop on Multi-camera and Multi-modal Sensor Fusion Algorithms and Applications. 2008: 1-12. [39] Park J, Kim H, Tai Y W, et al. High quality depth map upsampling for 3D-TOF cameras[C]. in: International Conference on Computer Vision. 2011: 1623-1630. [40] Riegler G, Rüther M, Bischof H. ATGV-Net: Accurate Depth SuperResolution[C]. in: European Conference on Computer Vision. 2016: 268-284. [41] Song X, Dai Y, Qin X. Deep Depth Super-Resolution: Learning Depth SuperResolution Using Deep Convolutional Neural Network[C]. in: Asian Conference on Computer Vision. 2016: 360-376. [42] Hui T W, Loy C C, Tang X. Depth Map Super-Resolution by Deep Multi-Scale Guidance[C]. in: European Conference on Computer Vision. 2016: 353-369. [43] Oh S, Kim G. Robust Estimation of Motion Blur Kernel Using a PiecewiseLinear Model[J]. IEEE Transactions on Image Processing, 2014, 23(3): 13941407. DOI: 10.1109/TIP.2014.2303637. [44] Chandramouli P, Jin M, Perrone D, et al. Plenoptic Image Motion Deblurring[J]. IEEE Transactions on Image Processing, 2018, 27(4): 1723-1734. DOI: 10.1109 /TIP.2017.2775062. [45] Xu X, Pan J, Zhang Y J, et al. Motion Blur Kernel Estimation via Deep Learning[J]. IEEE Transactions on Image Processing, 2018, 27(1): 194-205. — 98 — 上海交通大学博士学位论文 [46] Nah S, Kim T H, Lee K M. Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2017: 257-265. [47] Kupyn O, Budzan V, Mykhailych M, et al. DeblurGAN: Blind Motion Deblurring Using Conditional Adversarial Networks[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2018: 8183-8192. [48] Tao X, Gao H, Shen X, et al. Scale-Recurrent Network for Deep Image Deblurring[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2018: 8174-8182. [49] Fergus R, Singh B, Hertzmann A, et al. Removing Camera Shake from a Single Photograph[J]. ACM Transactions on Graphics, 2006, 25(3): 787-794. [50] Shan Q, Jia J, Agarwala A. High-quality Motion Deblurring from a Single Image[J]. ACM Transactions on Graphics, 2008, 27(3): 73:1-73:10. [51] Xu L, Jia J. Two-Phase Kernel Estimation for Robust Motion Deblurring[C]. in: European Conference on Computer Vision. 2010: 157-170. [52] Krishnan D, Tay T, Fergus R. Blind deconvolution using a normalized sparsity measure[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2011: 233-240. [53] Xu L, Zheng S, Jia J. Unnatural 𝐿0 Sparse Representation for Natural Image Deblurring[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2013: 1107-1114. [54] Pan J, Hu Z, Su Z, et al. Deblurring Text Images via 𝐿0 -Regularized Intensity and Gradient Prior[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2014: 2901-2908. [55] Sun L, Cho S, Wang J, et al. Edge-based blur kernel estimation using patch priors[C]. in: IEEE International Conference on Computational Photography. 2013: 1-8. [56] Pan J, Sun D, Pfister H, et al. Deblurring Images via Dark Channel Prior[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(10): 23152328. — 99 — 上海交通大学博士学位论文 [57] Kim T H, Lee K M. Segmentation-Free Dynamic Scene Deblurring[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2014: 27662773. DOI: 10.1109/CVPR.2014.348. [58] Bai Y, Jia H, Jiang M, et al. Single-Image Blind Deblurring Using Multi-Scale Latent Structure Prior[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2020, 30(7): 2033-2045. DOI: 10.1109/TCSVT.2019.2919159. [59] Nimisha T M, Singh A K, Rajagopalan A N. Blur-Invariant Deep Learning for Blind-Deblurring[C]. in: IEEE International Conference on Computer Vision. 2017: 4762-4770. [60] Schuler C J, Hirsch M, Harmeling S, et al. Learning to Deblur[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(7): 1439-1451. [61] Sun J, Cao W, Xu Z, et al. Learning a convolutional neural network for nonuniform motion blur removal[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2015: 769-777. [62] Engin D, Genç A, Ekenel H K. Cycle-Dehaze: Enhanced CycleGAN for Single Image Dehazing[C]. in: IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2018: 938-946. [63] 曹志义. 基于生成对抗网络的图像复原技术研究[D]. 北京: 北京邮电大学, 2016. [64] Xu L, Ren J S, Liu C, et al. Deep Convolutional Neural Network for Image Deconvolution[G]. in: Neural Information Processing Systems. 2014: 1790-1798. [65] Hradiš M, Kotera J, Zemčík P, et al. Convolutional Neural Networks for Direct Text Deblurring[C]. in: British Machine Vision Conference. 2015: 1-13. [66] Ramakrishnan S, Pachori S, Gangopadhyay A, et al. Deep Generative Filter for Motion Deblurring[C]. in: IEEE International Conference on Computer Vision Workshops. 2017: 2993-3000. [67] Li L, Pan J, Lai W S, et al. Dynamic Scene Deblurring by Depth Guided Model[J]. IEEE Transactions on Image Processing, 2020, 29: 5273-5288. DOI: 10.1109/TI P.2020.2980173. — 100 — 上海交通大学博士学位论文 [68] Madam N T, Kumar S, Rajagopalan A N. Unsupervised Class-Specific Deblurring[C]. in: European Conference on Computer Vision. Springer, Cham, 2018: 353-369. [69] Lu B, Chen J C, Chellappa R. Unsupervised Domain-Specific Deblurring via Disentangled Representations[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2019: 10217-10226. [70] Yuan Q, Li J, Zhang L, et al. Blind Motion Deblurring with Cycle Generative Adversarial Networks[J]. CoRR, 2019, abs/1901.01641. arXiv: 1901.01641. [71] Qian G, Gu J, Ren J S, et al. Trinity of Pixel Enhancement: a Joint Solution for Demosaicking, Denoising and Super-Resolution[J]. ArXiv, 2019. [72] Vasu S, Shenoi A, Rajagopazan A N. Joint HDR and Super-Resolution Imaging in Motion Blur[C]. in: 2018 25th IEEE International Conference on Image Processing (ICIP). 2018. [73] Mustaniemi J, Kannala J, Matas J, et al. LSD2 - Joint Denoising and Deblurring of Short and Long Exposure Images with Convolutional Neural Networks[J]., 2018. [74] Zhang D, Liang Z, Shao J. Joint image deblurring and super-resolution with attention dual supervised network[J]. Neurocomputing, 2020, 412. [75] Albluwi F, Krylov V A, Dahyot R. Image Deblurring and Super-Resolution Using Deep Convolutional Neural Networks[C]. in: 2018 IEEE 28th International Workshop on Machine Learning for Signal Processing (MLSP). 2018. [76] Yun J U, Park I K. Joint Face Super-Resolution and Deblurring Using a Generative Adversarial Network.[J]. CoRR, 2019, abs/1912.10427. arXiv: 1912.10427. [77] Zhang K, Zuo W, Zhang L. Learning a Single Convolutional Super-Resolution Network for Multiple Degradations[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2018: 3262-3271. [78] Gu J, Lu H, Zuo W, et al. Blind Super-Resolution With Iterative Kernel Correction[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2019: 1604-1613. [79] Zhang X, Wang F, Dong H, et al. A Deep Encoder-Decoder Networks for Joint Deblurring and Super-Resolution[C]. in: IEEE International Conference on Acoustics, Speech and Signal Processing. 2018: 1448-1452. — 101 — 上海交通大学博士学位论文 [80] Liang Z, Zhang D, Shao J. Jointly Solving Deblurring and Super-Resolution Problems with Dual Supervised Network[C]. in: 2019 IEEE International Conference on Multimedia and Expo (ICME). 2019: 790-795. DOI: 10.1109/ICME.2019.00 141. [81] 李乐仁瀚. 结合传统先验与深度神经网络的图像复原方法研究[D]. 武汉: 华中科技大学, 2019. [82] 张健. 基于稀疏表示模型的图像复原技术研究[D]. 哈尔滨: 哈尔滨工业大学, 2014. [83] Buades A, Coll B, Morel J M. A non-local algorithm for image denoising[C]. in: Computer Vision and Pattern Recognition. 2005. [84] Buades A, Coll B, Morel J M. Image enhancement by non-local reverse heat equation[J]. Cmla Preprint Centre De Mathématiques Et Leurs Applications, 2006. [85] He K, Jian S, Fellow, et al. Single Image Haze Removal Using Dark Channel Prior[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2011, 33(12): 2341-2353. [86] 刘玉涛. 基于视觉感知与统计的图像质量评价方法研究[D]. 哈尔滨: 哈尔滨工业大学, 2018. [87] 詹忆冰. 基于视觉感知特性的图像质量评价方法研究[D]. 合肥: 中国科学技术大学, 2018. [88] 王洪岩. 图像复原与增强中的几个问题研究[D]. 大连: 大连理工大学, 2019. [89] Nazeri K, Thasarathan H, Ebrahimi M. Edge-Informed Single Image SuperResolution[C]. in: IEEE International Conference on Computer Vision Workshop. 2019: 3275-3284. [90] Fu Z, Ma T, Zheng Y, et al. Edge-Aware Deep Image Deblurring[J]. CoRR, 2019, abs/1907.02282. arXiv: 1907.02282. [91] Yang W, Feng J, Yang J, et al. Deep Edge Guided Recurrent Residual Learning for Image Super-Resolution[J]. IEEE Transactions on Image Processing, 2017, 26(12): 5895-5907. [92] Kuster C, Popa T, Zach C, et al. FreeCam: A Hybrid Camera System for Interactive Free-Viewpoint Video[C]. in: Vision, Modeling, and Visualization. 2011: 1-8. — 102 — 上海交通大学博士学位论文 [93] Kim Y M, Theobalt C, Diebel J, et al. Multi-view image and ToF sensor fusion for dense 3D reconstruction[C]. in: IEEE International Conference on Computer Vision Workshops. 2009: 1542-1549. [94] Holz D, Schnabel R, Droeschel D, et al. Towards Semantic Scene Analysis with Time-of-Flight Cameras[C]. in: RoboCup 2010: Robot Soccer World Cup XIV. 2011: 121-132. [95] Shotton J, Sharp T, Kipman A, et al. Real-time Human Pose Recognition in Parts from Single Depth Images[J]. Communications of the ACM, 2013, 56(1): 116124. [96] Yang Y, Gao M, Zhang J, et al. Depth map super-resolution using stereo-visionassisted model[J]. Neurocomputing, 2015, 149: 1396-1406. [97] Li Y, Xue T, Sun L, et al. Joint Example-Based Depth Map Super-Resolution[C]. in: IEEE International Conference on Multimedia and Expo. 2012: 152-157. [98] Hosni A, Rhemann C, Bleyer M, et al. Fast Cost-Volume Filtering for Visual Correspondence and Beyond[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(2): 504-511. [99] Tombari F, Mattoccia S, Di Stefano L. Segmentation-Based Adaptive Support for Accurate Stereo Correspondence[C]. in: Pacific-Rim Symposium on Image and Video Technology. 2007: 427-438. [100] Kopf J, Cohen M F, Lischinski D, et al. Joint Bilateral Upsampling[J]. ACM Transactions on Graphics, 2007, 26(3): 96:1-96:5. [101] Yang Q. Stereo Matching Using Tree Filtering[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(4): 834-846. [102] Xie J, Feris R S, Sun M T. Edge-guided single depth image super resolution[J]. IEEE Transactions on Image Processing, 2016, 25(1): 428-438. [103] Scharstein D, Hirschmüller H, Kitajima Y, et al. High-Resolution Stereo Datasets with Subpixel-Accurate Ground Truth[C]. in: German Conference on Pattern Recognition. 2014: 31-42. [104] Lo K H, Wang Y C F, Hua K L. Joint trilateral filtering for depth map superresolution[C]. in: Visual Communications and Image Processing. 2013: 1-6. — 103 — 上海交通大学博士学位论文 [105] Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[C]. in: Neural Information Processing Systems. 2012: 1097-1105. [106] Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[J]. Communications of the ACM, 2017, 60(6): 8490. [107] Scharstein D, Szeliski R. High-accuracy stereo depth maps using structured light[C]. in: IEEE Conference on Computer Vision and Pattern Recognition: vol. 1. 2003: 195-202. [108] Scharstein D, Pal C. Learning Conditional Random Fields for Stereo[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2007: 1-8. [109] Hirschmuller H, Scharstein D. Evaluation of Cost Functions for Stereo Matching[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2007: 1-8. [110] Yang J, Ye X, Li K, et al. Color-Guided Depth Recovery From RGB-D Data Using an Adaptive Autoregressive Model[J]. IEEE Transactions on Image Processing, 2014, 23(8): 3443-3458. [111] Liu M Y, Tuzel O, Taguchi Y. Joint Geodesic Upsampling of Depth Images[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2013: 169176. [112] Lu J, Shi K, Min D, et al. Cross-based local multipoint filtering[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2012: 430-437. [113] Xie J, Chou C C, Feris R, et al. Single depth image super resolution and denoising via coupled dictionary learning with local constraints and shock filtering[C]. in: IEEE International Conference on Multimedia and Expo. 2014: 1-6. [114] Xie J, Feris R S, Yu S S, et al. Joint Super Resolution and Denoising From a Single Depth Image[J]. IEEE Transactions on Multimedia, 2015, 17(9): 1525-1537. [115] Mac Aodha O, Campbell N D F, Nair A, et al. Patch Based Synthesis for Single Depth Image Super-Resolution[C]. in: European Conference on Computer Vision. 2012: 71-84. — 104 — 上海交通大学博士学位论文 [116] Huang J B, Singh A, Ahuja N. Single image super-resolution from transformed self-exemplars[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2015: 5197-5206. [117] Whyte O, Sivic J, Zisserman A, et al. Non-uniform deblurring for shaken images[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2010: 491-498. [118] Vasu S, Rajagopalan A N. From Local to Global: Edge Profiles to Camera Motion in Blurred Images[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2017: 558-567. [119] Zhu J Y, Park T, Isola P, et al. Unpaired Image-to-Image Translation Using CycleConsistent Adversarial Networks[C]. in: IEEE International Conference on Computer Vision. 2017: 2242-2251. [120] Kim T, Cha M, Kim H, et al. Learning to Discover Cross-Domain Relations with Generative Adversarial Networks[C]. in: International Conference on Machine Learning. Springer, Cham, 2017: 1857-1865. [121] Wang Z, Simoncelli E P, Bovik A C. Multiscale structural similarity for image quality assessment[C]. in: Asilomar Conference on Signals, Systems Computers: vol. 2. 2003: 1398-1402. [122] Wen Y, Chen J, Sheng B, et al. Structure-Aware Motion Deblurring Using MultiAdversarial Optimized CycleGAN[J]. IEEE Transactions on Image Processing, 2021, 30: 6142-6155. DOI: 10.1109/TIP.2021.3092814. [123] Gan Y, Xu X, Sun W, et al. Monocular Depth Estimation with Affinity, Vertical Pooling, and Label Enhancement[C]. in: European Conference on Computer Vision. 2018: 232-247. [124] Schuler C J, Burger H C, Harmeling S, et al. A Machine Learning Approach for Non-blind Image Deconvolution[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2013: 1067-1074. [125] Lu B, Chen J C, Chellappa R. UID-GAN: Unsupervised Image Deblurring via Disentangled Representations[J]. IEEE Transactions on Biometrics, Behavior, and Identity Science, 2020, 2(1): 26-39. — 105 — 上海交通大学博士学位论文 [126] Michaeli T, Irani M. Blind Deblurring Using Internal Patch Recurrence[C]. in: European Conference on Computer Vision: vol. 8691. 2014: 783-798. [127] Isola P, Zhu J Y, Zhou T, et al. Image-to-Image Translation with Conditional Adversarial Networks[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2017: 5967-5976. [128] Wang Z, Bovik A C, Sheikh H R, et al. Image quality assessment: From error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612. [129] Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[C]. in: International Conference on Learning Representations. 2015: 1-14. [130] Paszke A, Gross S, Chintala S, et al. Automatic differentiation in PyTorch[C]. in: Neural Information Processing Systems Workshop. 2017: 1-4. [131] Kingma D P, Ba J L. Adam: A Method for Stochastic Optimization[C]. in: International Conference on Learning Representations. 2015: 1-15. [132] Hradiš M, Kotera J, Zemčík P, et al. Convolutional Neural Networks for Direct Text Deblurring[C]. in: British Machine Vision Conference. 2015: 1-13. [133] Liu Z, Luo P, Wang X, et al. Deep Learning Face Attributes in the Wild[J]. CoRR, 2014, abs/1411.7766. arXiv: 1411.7766. [134] Lai W S, Huang J B, Hu Z, et al. A Comparative Study for Single Image Blind Deblurring[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2016: 1701-1709. [135] Köhler R, Hirsch M, Mohler B, et al. Recording and Playback of Camera Shake: Benchmarking Blind Deconvolution with a Real-World Database[C]. in: European Conference on Computer Vision. 2012: 27-40. [136] Zhang X, Dong H, Hu Z, et al. Gated Fusion Network for Joint Image Deblurring and Super-Resolution[J]. CoRR, 2018, abs/1807.10806. eprint: 1807.10806. [137] Michaeli T, Irani M. Nonparametric Blind Super-resolution[C]. in: IEEE International Conference on Computer Vision. 2013: 945-952. [138] Xu X, Sun D, Pan J, et al. Learning to Super-Resolve Blurry Face and Text Images[C]. in: IEEE International Conference on Computer Vision. 2017: 251-260. — 106 — 上海交通大学博士学位论文 [139] Jiang J, Ma J, Chen C, et al. Noise Robust Face Image Super-Resolution Through Smooth Sparse Representation[J]. IEEE Transactions on Cybernetics, 2017, 47(11): 3991-4002. [140] Zhang K, Zuo W, Zhang L. Deep Plug-And-Play Super-Resolution for Arbitrary Blur Kernels[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2019: 1671-1681. [141] Xie S, Tu Z. Holistically-Nested Edge Detection[C]. in: IEEE International Conference on Computer Vision. 2015: 1395-1403. [142] He J, Zhang S, Yang M, et al. Bi-Directional Cascade Network for Perceptual Edge Detection[C]. in: IEEE Conference on Computer Vision and Pattern Recognition. 2019: 3823-3832. [143] Guo J, Ma S, Guo S. MAANet: Multi-view Aware Attention Networks for Image Super-Resolution[J]. CoRR, 2019, abs/1904.06252. arXiv: 1904.06252. — 107 — 上海交通大学博士学位论文 108 上海交通大学博士学位论文致谢时光荏苒，岁月如梭，转眼间在上海交通大学的四年博士生涯已悄然接近尾声。蓦然回首，各种滋味涌上心头，有课题遇到瓶颈时的迷茫困顿，有赶论文截稿日期的疲劳心酸，有论文被拒时的苦涩，也有论文被接收时的喜悦，这些都是我人生中的一段重要经历和珍贵回忆。在整个博士论文的完成过程中我得到了学校、学院、课题组的老师们、同学们、相关期刊会议的编辑和审稿人、学位论文评阅老师们和答辩委员会的老师们的指导帮助。在此博士论文完成之际，谨向所有关心帮助过我的老师们、同学们和相关学者致以诚挚的谢意。首先特别感谢我的博士生导师盛斌教授。感谢四年前盛老师接收我来到上海交通大学继续攻读博士学位，给与我继续学习和提升科研能力的机会。感谢盛老师在博士期间对我科研上的悉心指导和生活上的关心帮助。从科研选题、论文撰写、图表绘制、论证分析都离不开盛老师的悉心教导。此外，盛老师还为我提供各种与领域内专家学者合作交流的机会，让我开拓了视野并增长了见识。盛老师充满激情的工作态度和低调谦和的为人作风都是我学习的榜样。感谢冯大淦教授为我提供去悉尼大学交流学习的机会，让我有机会接触到前沿的科学研究，并为我提供优越的科研环境。冯老师渊博的知识、严谨的作风和广阔的视野都激励着我努力做出更多优秀的科研工作。同时，感谢悉尼大学的 jinman 老师和毕磊师兄对我科研方面的悉心指导和生活方面的关怀帮助。感谢李平老师对我学习科研的关心帮助，从论文章节安排、画图配色、参考文献格式等给予诸多指导，帮我指出科研方面的缺点和不足，促使我能不断完善进步。感谢林巍尧老师和李同益老师逐字逐句帮我修改论文并指导我补充实验论证分析，你们的宝贵意见对我的科研有着极大的帮助。感谢李华婷老师和陈志华老师对我学习和生活的关怀和帮助，是你们教会我做事、做学问都要细致严谨。感谢交大分析测试中心的老师们在疫情期间为我提供良好的学习和科研环境。学贵得师, 亦贵得友。衷心感谢师兄师姐和师弟师妹们一直以来的关心帮助。感谢陈佳伟师兄、石武祯师兄和郝阳阳师兄从博士申请入学至今的关心爱护和指导帮助。感谢胡巧平师姐和刘茹涵师妹在我学习和生活遇到困难时的支持鼓励。感谢邵志文师兄在赶项目急需服务器时为我提供帮助。感谢其他一起学习生活的同学：牛超越、高远宁、吕洪涛、谭鑫、Saba、Yan Ke 等。感谢上海交通大学为我提供了良好的学习环境和优越的科研资源。在这里，我们不仅能感受到人文关怀，在各种节日如中秋、端午等节日关怀，更重要的是为 — 109 — 上海交通大学博士学位论文我们提供了一流了师资力量、科研平台和学习环境。前沿的学术报告、先进的科研设备和丰富的交流机会都开拓了我的眼界，为我的科研提供极大帮助。感谢对论文进行评审的各位专家和答辩委员会的各位老师们，您们的宝贵意见使我认识到自己科研方面的不足并使论文得以进一步完善。特别感谢我的父母家人，是你们毫无保留的支持让我可以心无旁骛地完成我的博士学业。你们一直以来的培养教育和包容理解，是我完成博士阶段学习的重要基石；你们的关心照顾和鼓励支持，是我完成学习任务的力量源泉，让我有勇气面对学习生活中遇到的各种困难和挑战，愿您们永远幸福安康！ — 110 — 上海交通大学博士学位论文攻读学位期间发表（或录用）的学术论文 [1] Yang Wen, Bin Sheng, Ping Li, Weiyao Lin and Dagan Feng. Deep Color Guided Coarse-to-Fine Convolutional Network Cascade for Depth Image SuperResolution[J]. IEEE Transactions on Image Processing, 2019, 28, 994-1006.(SCI, CCF A 类期刊, IF 10.856) [2] Yang Wen, Jie Chen, Bin Sheng, Zhihua Chen, Ping Li, Ping Tan, Tong-Yee Lee. Structure-Aware Motion Deblurring Using Multi-Adversarial Optimized CycleGAN[J]. IEEE Transactions on Image Processing, 2021 (Early Access).(SCI, CCF A 类期刊, IF 10.856) [3] Yang Wen, Jihong Wang, Zhen Li, Bin Sheng, Ping Li, Jinman Kim and Lijuan Mao. Progressive Multi-Scale Reconstruction for Guided Depth Map SuperResolution via Deep Residual Gate Fusion Network [C]. 2021 Computer Graphics International Conference.(CCF C 类会议, EI) [4] Yang Wen, Yupeng Xu, Kun Liu, Bin Sheng, Lei Bi, Jinman Kim, Xiangui He and Xun Xu. A Classification Network for Ocular Diseases Based on Structure Feature and Visual Attention [C]. 2021 Computer Graphics International Conference. (CCF C 类会议, EI) [5] L.Dai,..,Yang Wen, Bin Sheng and Weiping Jia. A Deep Learning System for Detecting Diabetic Retinopathy Across the Disease Spectrum [J]. Nature Communications (SCI, IF 14.919). [6] Yang Wen, Bin Sheng, Lei Bi, Jinman Kim, Ping Li, Yupeng Xu, Xiangui He and Xun Xu. Multi-Stream Fusion Network for Multi-Distortion Image SuperResolution [C]. 2021 Computer Graphics International Conference.(CCF C 类会议, EI). — 111 — 上海交通大学博士学位论文 112 上海交通大学博士学位论文个人简历基本情况温阳，1990 年 01 月生于河南南阳。教育背景 • 2017 年 09 月至今，上海交通大学，博士研究生，计算机科学与技术专业 • 2012 年 09 月至 2015 年 01 月，西安电子科技大学，硕士研究生，电子与通信工程专业 • 2008 年 09 月至 2012 年 07 月，河南科技大学，本科，电子信息科学与技术专业研究兴趣计算机视觉，图像处理，医学影像分析 — 113 — 上海交通大学   学位论文原创性声明   本人郑重声明：所呈交的学位论文立进行研究工作所取得的成果。，是本人在导师的指导下除文中已经注明引用的内容外文不包含任何其他个人或集体已经发表或撰写过的作品成果的研究做出重要贡献的个人和集体，。，期：   本论。   本   。学位论文作者签名日   独对本文   均已在文中以明确方式标明人完全意识到本声明的法律结果由本人承担，２０２１年   ：１１月２２   日上海交通大学     学位论文版权使用授权书   本学位论文作者完全了解学校有关保留使用学位论文的规定同、，意学校保留并向国家有关部门或机构送交论文的复印件和电子版许论文被查阅和借阅，   允   本人授权上海交通大学可以将本学位论文的全。部或部分内容编人有关数据库进行检索等复制手段保存和汇编本学位论文保密□ ，，可以釆用影印缩印或扫描   、   。在 年解密后适用本授权书   。   ＾本学位论文属于 ７  不保密０   。（请在以上方框内打 “ ？ ”   ）学位论文作者签名  指导教师签名：曰期年／丨月曰 曰期：＾叫 ■   ：年丨｜月分   曰

基于视觉先验和深度学习的图像复原方法研究

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib