基于HEVC的码率控制算法硕士论文

分类号：密 TN919 ＵＤＣ：级：公开 11646 单位代码：______________ 硕士专业学位论文论文题目：基于 HEVC 的码率控制算法学号： 1411082704 姓名：陈伟国专业名称：学院：电子与通信工程信息科学与工程学院指导教师：陈芬合作导师：彭宗举论文提交日期：2017 年 5 月 19 日 A Thesis Submitted to Ningbo University for the Master’s Degree Rate Control Algorithm based on HEVC Candidate： Weiguo Chen Supervisors： Professor Fen Chen Faculty of Information Science and Engineering Ningbo University Ningbo 315211， Zhejiang P.R.CHINA Date: May 19, 201 宁波大学硕士专业学位论文致谢本论文是在陈芬副教授和彭宗举教授的悉心指导和关怀下完成的。三年来 ,两位恩师在学习上、生活上给了我无微不至的关心和帮助，对我的成长倾注了大量心血。我与陈芬老师的接触可以追溯到研究生复试阶段，是她给我迷茫的求学道路指明了方向，她以博大的胸怀和犀利的眼光分析了科研的前景和需要克服的难关，坚定了我的人生追求。在生活中，陈老师平易近人，对我更是关照有加，教导我如何做人。彭老师老师兢兢业业，对学术具有执着的理念，无论是授课还是修改论文都是一丝不苟，是我学习的榜样，给我学习的最大动力。在此，向尊敬的陈芬和彭宗举两位老师表示衷心的感谢和最诚挚的敬意。其次，要感谢给该论文评审的每位专家以及从开题答辩以来为我把关的每位专家老师，是您们百忙之中抽出宝贵的时间在本论文的立意上、创新价值上、书写规范以及语言表达上给予我诚恳的指导和帮助，让我精益求精，认真完成每一细节，借此论文致谢，特意感谢你们，祝愿各位专家老师身体健康、工作进步。再次，感谢宁波大学电路与系统研究所的老师们，他们是：蒋刚毅老师、邵枫老师、郁梅老师。每次向他们请教科研中的问题，他们都悉心指导，对我的研究工作提出了很多好的建议和中肯的意见。我不仅向他们请教科研中的问题，而且也从他们那里汲取很有价值的人生经验，他们对我的生活和身体也给予很多的关心和帮助，给我的研究生活注入了更多的朝气和动力。蒋刚毅老师不仅是一个很好的科研榜样，还是一个热爱生活的人，他用朝气和坚定鼓舞着我，让我时刻以他为榜样努力学习。最后，感谢研究所的同学们，他们是：焦仁直、金德富、陈嘉丽、李金龙、高颖、李鹏、田维军、刘珊珊、何美玲、王颖、刘晟、沈立波、胡晴晴、王静、胡天佑、左立文、潘志勇、林文崇、袁其政、宋昊、刘珍、杨家辉、许晴晴、车慧丽、杨桐、汤锐彬、宋阳、李长阳、姜求平、于娇文、黄超、王士培、陈婉婷、谢登梅、陈璐俊、管非凡等。他们和我一起学习和生活，是我最值得感谢的朋友。还要感谢我的父母和亲人以及女朋友对我求学的理解和帮助，对我学业及生活温暖的照顾、关心和支持。谨以此文表达内心的感激之情。 - 53 - 宁波大学硕士专业学位论文基于 HEVC 的码率控制算法摘要随着人们对视频服务消费水平的提高，人们也热衷于追求高分辨率视频。视频分辨率的增加，给视频的存储和传输带来了很大的挑战。目前，如何使编码产生的码流符合带宽要求是视频编码中的研究热点。码率控制成为了解决此问题的关键，码率控制通过控制编码量化参数，使输出码率接近带宽大小，充分利用带宽。本文通过研究新一代视频编码标准 HEVC 的帧内码率控制算法，提出了相关的改进算法和策略。主要包括两部分： 1) HEVC 帧内码率控制算法并没有考虑视频内容的复杂度，率失真性能还可以进一步提升。针对此问题，本文提出了基于复杂度分析的 HEVC 帧内码率控制算法。根据梯度因子来表征编码帧复杂度，梯度越大说明帧的复杂度越高，在分配时需要更多的比特来维持质量。首先通过图像复杂度和比特之间的近似线性关系，为每一帧合理分配比特。再根据帧内实际分配比特与预分配比特之差自适应更新平滑窗口，使帧与帧之间的比特波动减小。最后结合基本单元层的码率控制算法及时调节码率。与 Li 算法相比，对于相同的 PSNR 值，所提算法平均可以节省 2.3%的码率，最大可以节省 2.9%的码率。视频的客观质量平均可以提高 0.08dB，最大可以提高 0.12dB。整体码率波动性比 Li 要好，比特误差进一步减少。 2) 为了有效解决 HEVC 中的码率控制算法没有考虑视频特征保护的问题，提出了基于特征保护的 HEVC 码率控制算法。通过获取特征点掩膜，结合 HEVC 码率控制算法的三层比特分配框架。根据特征点分布情况给每个 LCU 分配不同的权重，提高 LCU 的匹配效率。在不显著降低视频主客观质量的前提下，尽可能提高视频特征点的保护数量。实验结果表明，所提算法与平台 HM15.0 相比，在时间复杂度可接受范围内，匹配率有所提高，平均提高 1.27%，保护了更多的特征点，提升了算法的性能。关键词：高效视频编码，码率控制， -I- 特征保护，比特误差，复杂度基于 HEVC 的码率控制算法 Rate Control Algorithm based on HEVC Abstract As the consumption level on video services increases, people are keen to pursue high resolution videos nowadays. However, the large amount of high resolution video data brings new challenges to video storage and transmission. At present, how to make the coding stream to meet the bandwidth requirement is a hot topic in video coding. Rate control becomes the key to solving this problem, through controlling the quantization parameter, the output rate is close to the bandwidth. In this paper, through the studies of intra frame rate control algorithms for the new generation of video coding standard HEVC, some algorithms and strategies are proposed. The contribution of this paper includes two parts: 1) HEVC intra rate control algorithm does not consider the complexity of video content, rate distortion performance can be further enhanced. To solve the problem, this paper proposed the intra-frame rate control algorithm of HEVC based on the complexity analysis. Firstly, the gradient factor is used to represent the complexity of coding frame, the greater the gradient is, the higher the frame complexity gets. Bits are allocated reasonably for each frame according to the approximate linear relationship between image complexity and bits. Then the smoothing window is adaptively updated according to the difference between the actual allocated bits and the pre allocated bits to reduce the bit fluctuation. Finally, combined with the basic unit layer rate control algorithm adjusts the rate in time. Compared with Li’s algorithm, for the same PSNR value, the proposed algorithm can save the bit by 2.3% on average, the maximal bit rate saving reach 2.9%. The objective video quality can increase 0.08dB on average and 0.12dB at most. The overall rate fluctuation is lower than Li’s algorithm, and the bit error is further reduced. 2) In order to effectively solve the problem that the rate control algorithm in HEVC does not take into account the video feature protection, a rate control algorithm based on feature protection is proposed. By acquiring the feature point mask, combining the three-layer bit allocation model of HEVC rate control algorithm. According to the distribution of feature points for each LCU assign different weights to improve the matching efficiency of LCU. Under the premise of not reducing the subjective and objective quality of video, the number of video feature points can be improved as much as possible. The experimental results show that compared with HM15.0 platform, within the acceptable range of time complexity, the proposed algorithm increases the matching rate by 1.27%. Hence more feature points can be protected and the performance of the algorithm is enhanced. Key word: HEVC, rate control, feature protection， bit error, complexity - II - 宁波大学硕士专业学位论文目引录言 ................................................................................................. - 1 - 1 绪论 ................................................................................................. - 3 1.1 选题背景................................................................................... - 3 1.2 国内外码率控制研究进展 .......................................................... - 5 1.3 论文的主要工作及创新之处 ....................................................... - 8 1.4 论文的结构安排 ........................................................................ - 8 2 HEVC 视频编码标准及其码率控制技术 ............................................ - 10 2.1 新一代视频编码标准 HEVC ..................................................... - 10 2.1.1 HEVC 编码框架 ............................................................... - 11 2.1.2 HEVC 关键技术 ............................................................... - 12 2.2 率失真优化技术 ...................................................................... - 18 2.3 码率控制技术.......................................................................... - 21 2.3.1 比特分配 ........................................................................ - 22 2.3.2 参数确定以及更新阶段 ................................................... - 24 2.4 本章小结................................................................................. - 25 3 基于复杂度分析的 HEVC 帧内码率控制算法.................................... - 26 3.1 复杂度分析及算法优化 ............................................................ - 26 3.2 窗口更新策略.......................................................................... - 28 3.3 实验结果及其分析 ................................................................... - 29 3.4 本章小结................................................................................. - 35 4 基于特征保护的 HEVC 码率控制算法 .............................................. - 36 4.1 特征掩膜的提取 ...................................................................... - 36 4.1.1 特征点提取分析 .............................................................. - 36 4.1.2 特征掩膜分析 ................................................................. - 39 4.2 HEVC 码率控制算法的修正 ...................................................... - 40 4.3 实验结果分析.......................................................................... - 41 4.3.1 实验配置 ........................................................................ - 41 4.3.2 结果及分析 ..................................................................... - 41 4.4 本章小结................................................................................. - 45 5 总结与展望..................................................................................... - 46 5.1 本文工作小结.......................................................................... - 46 - 基于 HEVC 的码率控制算法 5.2 未来研究展望.......................................................................... - 47 参考文献 ............................................................................................ - 48 在学研究成果 ..................................................................................... - 52 - 宁波大学硕士专业学位论文引言进入21世纪，多媒体技术丰富了人们的生活，多媒体服务随处可见，如多媒体会议、可视电话、手机、远程教学及家庭数字电视等。人类知识的获取 80%都与视觉直接相关，多媒体中视频内容的信息量也是最大。但是实际上，视频的数据量很大，不利于视频在网络中的实时传输。比如，一部90分钟的电影 (分辨率为 1920×1080，假设3个彩色分量的每个像素均用 8比特表示 )，需要几百 G的数据量，再大的硬盘也承受不了这么大的数据量，更无法将原始视频放在网络上传输。虽然带宽在不断提高，存储容量也在进一步增长，但是仍旧跟不上视频数据量的变化，所以视频必须经过压缩处理，适当降低视频质量，才能进行存储和传输。过去视频的分辨率较低，经过压缩后，码流可以在网络中进行传输，不会对视频的质量造成很大的影响，但是高分辨率视频的出现，使得早先的视频压缩标准越来越不能满足当代的需要，迫切地需要最新的视频编码标准进一步提高压缩比。针对此问题，在2013年，国际电联组织 (ITU-T)和移动视频专家组 (Moving Picture Experts Group，MPEG)成立的视频编码联合小组 (Joint Collaborative Team on Video Coding， JCTVC) 联合推出了最新的视频编码标准 — 高效视频编码 (High Efficiency Video Coding，HEVC)。视频编码的主要目的是利用像素与周围像素以及已编码帧对应像素值之间的联系，在视频质量可接受范围内提高压缩效率。除非一些重要的应用场所，比如珍贵的遥感、来之不易的医学视频等需要保留全部信息之外，其他人们实际接触的视频，比如广告、电影、监控等都是经过编码压缩处理后的视频。网络多媒体应用的种类越来越多，用户的要求也越来越高，当初的标清视频已经不再满足人们的需要，视频分辨率需要向更高方向发展。视频分辨率越大，意味着编码产生的码流越大。然而在实际的网络传输中，带宽有一定的限制，如果编码产生的码流大于带宽的峰值，则会造成视频的阻塞，从而只能丢弃视频的某些信息，根据码流的重要性，丢弃优先级较低的信息再进行传输，这样做的后果可能会使编码后的码流无法解析。因为视频某些重要信息的丢失，会使视频播放不流畅，出现卡壳、停顿和马赛克等效果，影响观看质量。如果编码产生的码流小于带宽的峰值，带宽利用不充分，也会造成视频质量的下降。为了解决此问题，码率控制算法应运而生，其主要目的是通过采取一定的手段，控制输出的比特数，使得编码后产生的码流尽可能的等于带宽的大小，充分利用带宽，改善视频的性能。本毕业论文主要研究 HEVC的码率控制算法，主要从两个方面展开讨论，第一，针对帧内比特分配问题，提出基于复杂度分析的 HEVC帧内码率控制算法。 -1- 基于 HEVC 的码率控制算法充分考虑复杂度，利用复杂度因子分配帧层的比特，然后结合自适应平滑因子进一步调整码率，最后结合基本单元层的码率控制算法，改善视频的率失真性能，提高码率控制的精度。第二，结合当前研究热点-计算机视觉，提出了基于特征保护的 HEVC码率控制算法，对标准码率控制算法进行了改进，提高了特征点的保护数量。利用尺度不变特征变换（Scale Invaria nt Feature Transfor m， SIFT）算法提取特征掩膜，根据掩膜把 LCU分成不同的优先级，根据 LCU级别自适应分配比特，在码率受限的情况下，更好地保护视频的特征点数量。 -2- 宁波大学硕士专业学位论文 1 绪论虽然传输带宽传递数据的能力在逐年提升，但是随着视频逐渐向清晰化方向发展，带宽的更新速度远远没有视频的数据量发展快。如何在保证频质量的前提下，减少视频数据量，使编码产生的码流与带宽相适应是当前的热点研究问题，本文研究了 HEVC 帧内、帧间的码率控制技术。本章首先对论文的选题背景进行介绍，阐述了码率控制技术在国内外的研究进展，接着介绍本论文的主要工作以及创新之处，最后给出了论文的结构安排。 1.1 选题背景随着电子显示、信息采集技术的快速发展，视频序列的分辨率从以前的标清逐渐向高清、甚至超高清方向普及 [1]。在信息化时代，多媒体视频应用往往受到人们的青睐，例如每天腾讯视频的浏览量高达数千万次。一些大的事件，比如演唱会、军事演习、抗震救灾等，人们总是能通过动态影像获得相当多的信息。但是随着视频向高清方向发展，未经压缩的视频数据量庞大，在带宽受限的情况下，无法将视频直接用于传输和存储，人们也就无法通过网络获取自己所需的视频信息。只有更进一步压缩视频，提高视频的压缩效率，才能在网络中更好的传输视频数据量。为此，ITU-T 和 MPEG 成立的视频编码联合小组 [2] 于 2013 年联合制定了新一代视频编码标准 —HEVC[3]，标准致力于压缩高清视频信息，去除视频的时空域冗余，减少视频的数据量，便于视频的传输和存储。由于人眼视觉的掩蔽效应，就算丢失部分视频细节信息，也不会影响观看的效果，却能增加视频的压缩效率，所以 HEVC 视频编码标准将广泛应用到视频多媒体服务中。视频在网络中传输时，网络带宽的限制会降低视频质量，影响观看效果。如果编码产生的码流大于带宽，就会在传输过程中堵塞数据，造成数据丢失，严重时可影响视频的解码播放，当码流小于带宽时，又会造成视频质量下降。所以在编码时应该考虑实际带宽大小控制编码输出的码率，这就是码率控制的作用。码率控制就是根据带宽的大小，自适应调节编码参数，逐层分配比特，在失真尽量小的前提下，使得编码产生的码率等于带宽大小，既不造成带宽资源的浪费，又不造成视频传输的阻塞和丢包，正是因为码率控制技术，高清视频才能通过网络传输到世界各地。如图 1.1 所示，码率控制根据信道带宽和一些错误隐藏机制以及视频信源的特性来控制编码的量化参数，使视频序列经过编码器后产生的码流符合带宽要求： -3- 基于 HEVC 的码率控制算法视频序列视频编码器码流网络传输视频解码器重建序列 QP 信道带宽视频信源特性码率控制错误隐藏机制图 1. 1 码率控制模块 Fig1.1 Rate control module 码率控制的主要任务是根据目标码率确定编码的量化参数，一般来说码率控制方案可以分为三个步骤：比特分配，根据目标比特数确定每个编码单元的比特。在实际的分配过程中，首先把比特分配到一个固定长度的图像组，然后通过帧在图像组所占的比重把比特分配给每一帧，最后到每一个编码单元，通过三层比特分配，可以提高比特的控制精度和利用效率。计算量化参数，根据比特和量化参数的关系模型，确定每个编码单元的量化参数，用此量化参数进行编码产生的比特总和就接近于目标比特。参数更新，利用已编码单元的相应参数更新当前编码单元的参数，进一步提高预测准确性，提高压缩性能。码率控制算法优劣的评价指标有码率控制的精度、率失真性能、码率波动性、客观质量和主观质量等。由于模型参数的不准确性，码率控制算法在精度方面还有提升空间，控制精度从整体上理解就是实际编码产生的比特与目标比特之间的误差大小，从细节上理解就是当前帧甚至当前编码单元预先分配比特与实际消耗比特之间的误差大小，误差大，说明控制精度不好。率失真性能的提高意味着在码率一定的情况下，编码输出的视频客观质量越好，或者在失真一定的情况下，码率节省得越多。码率的波动性越好意味着每一帧产生的比特方差较小，视频的质量波动性较好。如果视频波动性较大，意味着某些帧的比特数过高，不适用于在带宽限制条件下的传输视频流。客观质量的主要评价标准是峰值信噪比 (Peak Signa l to Noise Ratio， PSNR)，给定的目标比特下， PSNR 越大，说明经过编码后视频的质量越高，PSNR 越小，说明编码后视频失真较大，质量下降。主观质量主要是通过人工打分判断图像质量的好坏，但是人工带有主观色彩，比如观察时间过长，观察者眼睛感到疲劳，会与实际结果产生偏差，所以有时并不正比于客观质量评价标准。 -4- 宁波大学硕士专业学位论文 1.2 国内外码率控制研究进展目前，码率控制是国内外研究的热点课题，很多专家学者都为其发展进步做了很多研究创新工作，针对一些具体应用场合，提出了很多的码率控制算法。现有的码率控制策略中经常用到的模型有：以量化参数为参数的 R-Q 模型 [4]-[8 ]。以变换后的离散余弦变换 (Discrete Cosine Trans for m，DCT)系数中零的比例 ρ 为参数的 R- ρ 模型 [ 9]-[12] 以拉格朗日乘子为参数的 R-λ 模型 [ 13]-[16] 。学者围绕码率控制的评价标准 -码率控制的精度和主客观质量两个方面进行了很多研究。为了提高码率控制的精度，文献 [17]根据线性模型提出了基于内容复杂度的码率控制方法，该方法适合于 MPEG 系列编码标准。文献 [18]针对码率控制算法在精度控制方面效果不佳的问题，提出一种图像自适应码率控制算法，能够更加准确地控制输出码率。文献 [19] 通过探索码率、复杂度和量化参数 (Quantization Parameter，QP)之间的联系，在 R-Q 模型的基础上提高了码率控制的精度。文献 [20]提出基于结构相似度的博弈论方法，充分考虑了不同编码树单元的率失真特性，进一步优化最大编码单元 (Largest Coding Unit，LCU)层的比特分配，该方法在码率控制的精度、编码复杂度和视频质量稳定性等方面具有较好的性能。文献 [21]针对数字病理图像提出分区域编码模型，对感兴趣区域精细编码，对非感兴趣区域粗编码。该算法在保持感兴趣区域质量的前提下，提高了码率控制的精度。文献 [22]提出了基于梯度的 R-λ 模型，该方法提高了 HEVC 的帧内编码性能，减少了比特估计错误。针对复杂的视频场景，文献 [23]建立复杂度、QP 和码率之间的模型，所提出的算法减少了比特误差。文献 [24]从率失真理论分析的角度推导出影响输出码率的主要因素，通过预测视频内容的复杂度参数，提出了帧层码率分配算法，使目标码率与编码码率保持更好的一致性。文献 [25]提出了帧内联合码率估计模型，可以减少比特误差。文献 [26]发现 LCU 层的纹理复杂度和编码比特存在近似线性关系，利用此关系，提出自适应比特分配模型，通过考虑时空相关性和纹理复杂度，该模型可以取得更好的编码性能和更小的比特误差。文献 [27]利用时空相关性和运动信息，提出基本单元层的码率控制算法，该算法可以减小目标比特和分配比特之间的误差。为了在带宽受限的情况下提高视频的主客观质量，文献 [28]利用纹理信息和运动信息度量宏块的视觉敏感程度，在基本单元层根据敏感度因子分配比特，可以提高压缩视频的主观质量，也能进一步减少质量波动，提高人眼关注度高的区域质量。文献 [29]通过分析编码比特跟纹理复杂度的线性关系，提出自适应比特模型，同时利用复杂度模型决定初始化的 QP，最后修正 QP 的范围来进一步改善编码性能。文献 [30]针对特定的视频会议系统，提出了改善人脸区域视频质量的 -5- 基于 HEVC 的码率控制算法码率控制算法，在保证整体码率偏差较小的情况下，提高了人脸区域的质量。文献 [31]通过分析已编码 LCU 的失真与 λ 之间的线性关系，建立失真与 λ 之间的模型，所提出的算法在给定的比特下改善了视频的质量。文献 [32]通过肤色信息和帧差来确定感兴趣区域 (Regio n of Interest， ROI)的掩膜，对于 ROI 区域分配更多的比特资源，通过这种方法，在不提高计算复杂度的情况下，可以提高 ROI 区域的视觉质量。文献 [33]通过帧差法检测出运动区域和非运动区域，然后根据复杂度将非运动区域分为平坦区域和复杂区域。对三个区域根据视觉敏感权重分配比特，可以改善视频的主客观质量。文献 [34]提出了自适应的 R- Q 模型预测帧内比特，建立量化参数、宏块和复杂度之间的关系，通过减小 ROI 区域的 QP 值，分配更多的比特，从而更好的维持感知质量。文献 [35]为了改善主观视觉质量，提出感知比特分配方案，用级联人脸检测器提取出 ROI 区域，通过比特分配来优化 ROI 区域，实验结果此方案可以在 ROI 区域获得更好的客观质量。文献 [36]提出的 RIO 码率控制算法，重点保护视频会议场景的人脸区域，把编码单元分成两个区域，人脸区域设置小的 QP，该算法可以提高人脸区域的主观和客观质量。文献 [37]认为 HEVC 码率控制时， I 帧比特分配过多，视频整体质量波动较大，为了解决此问题，所以把 I 帧的 LCU 根据其运动情况和复杂度分成三个区域，然后分配不同的比特，减少质量波动的同时，可以提高视频的主客观质量。文献 [38] 根据纹理把 CU 分成不同类型，对纹理区域和非纹理区域提出帧层码率控制算法，实验结果表明该算法可以带来客观质量的提升，对于场景变换有很好的适应性。文献 [39]根据权重映射图分配比特，提出的方法可以分配更多的比特给人脸关注度高的区域，可以提高人脸部的视觉质量。文献 [40]提出了失真和帧间相关性的比特率模型，并把它纳入 ρ 域码率控制方案。该方案可以提高关键参考帧的质量，并且产生良好的率失真性能。文献 [41]提出了基于 H.265/HEVC 帧级比特分配算法。通过理论分析帧间相关性的具体特征，建立比特分配模型，提高视频的客观质量。文献 [42]认为在超高画质电视序列中， HEVC 在码率控制性能方面有所欠缺，分别在帧层比特分配和参数初始化方面对其作出改善，提高率失真性能。文献 [43]考虑已编码帧的相关信息来衡量当前帧的复杂度，算法可以改善视频的质量，并且可以节省比特。文献 [44]通过考虑 I 帧和 P 帧的复杂度以及两种类型帧之间的联合复杂度，建立复杂度模型，根据复杂度分配比特，所提算法可以减小 PSNR 的波动。文献 [45]利用 RBF 神经网络的方法来提高 ROI 的编码质量，相比于传统的算法，在 RIO 区域视频质量、率失真性能和比特控制精确度方面都有所提高。 -6- 宁波大学硕士专业学位论文另外针对 HEVC 可分级视频编码的扩展 (Scalable HEVC，SHVC)[46 ]中码率控制技术也有很多学者对其进行了研究 [47 ]-[50] ，文献 [49]认为 λ 是确定比特率和相应的失真的关键因素，通过考虑 SHVC 的时域、空域的相关性，发现增强层图片之间 λ 的比例与当前帧对其他增强层图片的影响成正比例关系。而在基础层的图片 λ 的比例与当前图像的基本层和增强层图像的影响成正比例关系。根据以上思想提出的比特分配算法可以提高视频的性能。文献 [51]首先优化每层第一帧的目标比特和编码参数，然后考虑帧内、帧间的层次依赖性，最后在空间和质量可扩展性的情况下，提出了比特分配优化算法，可以带来更好的率失真性能和更准确的比特控制。为了获得持续视频质量的输出，文献 [52]提出了基于 λ 的低延时码率控制算法，在基本单元层，通过建立失真与 λ 之间的新模型，减小了 PSNR 的偏差和编码帧之间的质量波动。类似的通过建立模型来提高编码质量波动的研究文献还有 [53][54 ]。文献 [55]提出 LCU 层的比特分配优化算法，建立更好的码率与失真之间关系，根据码率与失真的模型分类比特，所提算法在率失真性能、码率控制精度、鲁棒性方面都有所改善。文献 [56]为了改善帧级码率分配问题，通过考虑帧间的相关性，利用对偶近端算法，找到码率失真模型的精确解，提出了一个基于凸优化的帧层比特分配算法。文献 [57]认为编码时间会影响失真以及码率，建立了一个关于编码时间、失真和码率之间的模型，可以取得更高的编码效率。随着智能手机和无线网络的发展，视频传输的要求越来越高。比如，在无线情况下传输视频，对码率控制是一个考验，文献 [58]研究了如何在尺度变化的情况下保护图像的特征，通过分析特征的不同特性，再根据特征的重要程度分别用不同的 QP 进行编码，可以有效的保护特征区域，最后结合人眼视觉感知系统改善视频的质量。文献 [59]认为柯西分布能够更加准确的描述码率跟量化参数之间的关系，所以提出了新的码率控制算法，在一定程度上也能提高视频的质量。还有文献考虑了频域特征，比如文献 [60]认为在频域中，经过 DCT 变换后的交流系数可以直观的表示空间相关性，所以利用交流系数跟直流系数的一个比值来表示空间的复杂程度，如果这个块交流系数越大，说明这个块纹理越复杂。然后在时域利用运动矢量来表征块的运动情况，利用当前块的相邻块的运动矢量跟前一帧对应块的运动矢量的权重来自适应表示当前块的运动矢量，再用两者的加权来表示实际的复杂度，从而改善编码性能。文献 [61]认为混合的拉普拉斯模型需要更多的参数预测，计算复杂度比较高，所以通过改进拉普拉斯模型，再根据 KL 距离差异性分析来描述 DCT 变换系数。从分层编码结构中，根据帧在不同层次上质量相关性，结合视频的内容，在文献 [62]的基础上，自适应改变质量相关性因子，提高模型的预测准确性和视频的质量，并且进一步提高的码率分配的性能。文献 -7- 基于 HEVC 的码率控制算法 [63]针对立体图像编码，提出了有效的比特分配方法，主要集中在参考和残余图像之间的比特分配，通过寻找导致最小失真值的最优速率，改善视频的质量，所提算法适合立体编码结构。 1.3 论文的主要工作及创新之处本论文主要从 HEVC 的码率控制角度展开研究。通过探索发现，HEVC 中的码率控制算法没有考虑视频编码内容的复杂度，为此，提出了基于复杂度的 HEVC 帧内码率控制算法。经过进一步探索发现，在计算机视觉的应用领域，计算机获取物体的特征后进行相应的操作，而 HEVC 中的码率控制并没有对特征保护制定相应的算法，为此，提出了基于特征保护的 HEVC 帧内码率控制算法，更好地保护视频特征。本论文的研究内容及创新之处如下： 1) 传统的码率控制算法通过比特分配、参数更新等步骤，在码率输出的精度和效率上都取得不错的效果，但是算法并没有考虑到实际视频编码内容的复杂度。针对此问题，提出了基于复杂度的 HEVC 帧内码率控制算法。利用梯度表征复杂度，按照复杂度合理分配码率，根据产生的实际比特和预分配比特自适应地更新平滑窗口，结合基本单元层的码率控制算法及时调节码率，从而使输出码率尽可能与目标码率相等。与 Li 算法相比，对于相同的 PSNR 值，所提算法平均可以节省 2.3%的码率，最大可以节省 2.9%的码率。视频的客观质量平均可以提高 0.08dB，最高可以提升 0.12dB，并且进一步减小了比特误差。 2) HEVC 码率控制算法并没有考虑特征保护问题，导致编码后的视频与原始视频之间的特征匹配率偏低，影响后续视频处理算法的性能。针对此问题，提出了基于特征保护的 HEVC 码率控制算法，首先通过 SIFT 算法获取特征点的分布情况，提取特征点掩膜。然后结合 LCU 层比特分配算法，增加包含特征点的 LCU 的权重，减小当前块的量化参数，分配更多的比特给特征区域。在满足比特限制和维持主客观质量的情况下，使得经过信道传输后的视频保持更多的特征点数量。最后的结果表明，相比于 HM15.0 的码率控制算法，在视频的主客观质量没有显著降低的情况下，提出的算法平均可以提高视频的匹配率将近 1.27%，更好的保护了特征区域。 1.4 论文的结构安排本论文共分为五章，重点研究 HEVC 码率控制算法。结构安排如下：第一章首先介绍了论文的选题背景，接着阐述了国内外码率控制的研究进展，然后介绍了论文的主要工作以及创新之处，最后给出了论文的结构安排。 -8- 宁波大学硕士专业学位论文第二章介绍了 HEVC 视频编码标准及其码率控制技术。首先介绍了视频编码标准。接着介绍了率失真优化技术，最后介绍了 HEVC 码率控制算法，包括比特分配和参数更新过程。第三章对 HEVC 码率控制算法展开研究，通过进一步探索，提出了一种基于复杂度的 HEVC 帧内码率控制算法。在帧层，根据复杂度合理分配码率，利用实际比特和预分配比特之差自适应地更新平滑窗口，再结合基本单元层的码率控制算法及时调节码率，减小比特误差，最后给出了本方案的实验结果和具体分析。第四章提出了特征保护的 HEVC码率控制算法。首先通过计算获取视频序列的特征点，根据特征点分布情况，提取特征掩膜。然后根据特征点分布情况对图像进行分块处理，最后改进 LCU层比特分配算法，提高视频特征点的保护数量。最后对实验结果进行了分析与说明。第五章对本文进行了总结。本章总结了论文的研究工作，并提出了进一步研究的方向。 -9- 基于 HEVC 的码率控制算法 2 HEVC 视频编码标准及其码率控制技术随着计算机的发展，互联网以及通信技术的创新，从 2000 到现在，视频分辨率快速升级，对视频压缩性能提出了更高的要求。为了充分满足广大人民群众对日益增长的视频服务需求，ITU-T 和 MPEG 成立的视频编码联合小组于 2013 年联合推出了最新的视频编码标准 —HEVC，相对于 H.264/AVC[64 ]视频编码标准， HEVC 在其基础上可将压缩效率提高一倍以上。为了达到此目标， HEVC 在 H.264 的基础上，对很多环节都增加了改进措施，比如增加帧内预测的方向，增加块的尺寸、采用更大的块进行变换等。本章首先介绍新一代视频编码标准 HEVC，进而对 HEVC 编码标准中的关键技术进行简要叙述，接着介绍率失真优化技术，然后详细介绍码率控制技术，最后对本章内容进行小结。 2.1 新一代视频编码标准 HEVC 虽然以前的视频编码标准在当时能够满足实际的需要，但是在数字信息产业链的高速推动下，视频应用的趋势会朝着以下几个方向前进，第一，视频分辨率的增加，视频的分辨率从 720p 向更大分辨率发展，在一些特殊应用领域甚至出现了 4K×2K 的超高清视频，比如卫星遥感视频、医学分析视频等。普通的视频播放平台，比如腾讯、优酷等网站能根据用户的需要和实际带宽的大小选择流畅、标清、高清、超高清等不同的视频分辨率进行观看，人们希望看到更加清晰的视频，并且现在的硬件条件也进一步成熟，所以分辨率的增加是当前视频发展的趋势。第二，宏块增加，如果分辨率不大，单个宏块可以表示的信息较多，但是随着分辨率的快速增长，单个块所表示的信息量下降。并且块的个数也会随着分辨率的增加而指数增长，在编码过程中，会出现更多的时空域冗余，不利于进一步压缩，所以视频编码标准的编码块尺寸需要在以前基础上有所提高，保持更好的压缩性能。HEVC 中，块的尺寸已经调整到最大为 64×64，在以后甚至有可能 128×128。第三，带宽的增长总是跟不上视频数据量的发展，视频在网络中传输时，带宽限制是决定性的制约因素，如何提高带宽的利用效率也是视频传输需要考虑的重要问题之一。尽管 H.264 压缩效率优异，深受视频相关产业的喜爱，但是随着视频分辨率向超高清方向的推进，H.264 在压缩效率上有些不足。在这种情况下，HEVC 应运而生，对于高清、甚至超高清视频，通过增加或者改进关键技术， HEVC 比原来 H.264 的压缩效率更高，在保持质量接近的情况下，视频压缩效率提高一倍以上。 - 10 - 宁波大学硕士专业学位论文 2.1.1 HEVC 编码框架 HEVC 视频编码标准类似于以往的国际标准，其基本框架并没有大的改变，仍然采用混合编码框架 [3]。 HEVC 在这些核心模块中引入新的编码技术，进一步去除视频的空间、时间、统计、结构等冗余，更好地压缩视频数据。 HEVC 在整个编码过程中，首先把一帧图像分成若干个不重叠的 LCU 块。如果采用帧内预测，则当前 LCU 的像素值可以参考相邻块已编码的 LCU 像素值，预测当前像素值的大小。如果采用帧间预测，则需要参考相邻帧最匹配的 LCU 的信息。然后得到原始图像与预测图像之间的差值，即预测残差，因为图像的像素点有很强的空间和时间相关性，所以残差很大一部分数据是零。残差系数经过变换、量化和熵编码得到码流，还需要对量化后的残差系数进行反量化和反变换，经过去块滤波和样本自适应补偿，最后与预测值相加得到重构图像，得到参考帧。 HEVC 视频编码框图如图 2.1 所示。基本控制信息编码器控制 + 量化的变换系数变换/量化熵编码滤波控制分析帧内预测去块滤波 /SAO滤波 90 信息帧内估计滤波信息反量化/ 反变换帧内预测信息运动视频信号输入运动补偿视频信号输出运动估计编码帧缓存图 2.1 HEVC 视频编码框图 Fig.2.1 The coding strcture of HEVC - 11 - 基于 HEVC 的码率控制算法 2.1.2 HEVC 关键技术 1) 编码单元为了提高视频的压缩效率， HEVC 采用灵活的四叉树结构进行图像编码，这更加适用于高清视频。 HEVC 标准中，图像编码单元分为三种：编码单元 (Coding Unit，CU)，预测单元 (Prediction Unit，PU)以及变换单元 (Transform Unit，TU) [ 3 ] 。 CU 有四种尺寸大小，分别为 8×8、16×16、32×32、 64×64，最大的编码块称为最大编码单元 (Largest Coding Unit，LCU)。大的编码块主要针对于高清视频中的平坦区域，可以提高编码效率，小的编码块主要针对纹理变化区域，可以保留图像的细节，提高图像的质量。一个编码单元由三个部分组成，分别为亮度编码块、对应的色度编码块和相关的句法元素。CU 块是否继续分割取决于分割标志 flag，如果 flag 等于 0，则不再需要对 CU 块进行四叉树划分，如果 flag 的值不为 0，则需要将当前 CU 块分割成四个同样大小的子 CU 块。四叉树分割有利于提高编码的性能，减少所用的比特数。根据图像的不同内容，划分不同大小的编码单元进行编码，有利于优化视频的编码结构。 CU 划分结构如图 2.2 所示。 64 LCU0 Cudepth=0 LCU1 LCU2 LCU3 图像边界 Cudepth=1 32 Cudepth=2 Cudepth=3 16 8 图 2. 2 编码树单元分割结构图 Fig. 2. 2 Segmentation s truc ture of c oding tree unit PU 是进行预测的基本单元，包含了 CU 的帧内预测模式、运动矢量预测等范 - 12 - 宁波大学硕士专业学位论文畴。PU 最大不可超过 CU 的大小，最小为 4×4。对于一个 2N×2N 的 CU，采用帧内预测时，PU 有两种可选模式： 2N×2N、N×N；采用帧间预测时， PU 还有另外 6 种可选模式： 2N×N、N×2N 和其他四种非对称模式，PU 划分模式如图 2.3 所示。在某些场景中，非对称的预测模式可以进一步提高预测的准确性。 Intra 2N×2N N×N 2N×2N N×N Inter 2N×N N×2N 2N×nU 2N×nD nL×2N nR×2N 图 2. 3PU 划分模式 Fig. 2. 3 PU partition mode TU 是进行变换和量化的基本单元， TU 的尺寸灵活变化，最大为 32×32，最小为 4×4。TU 的尺寸大，能够更好的将能量集中，提高压缩的效率，但是会损失一部分图像的细节；尺寸小，可以保留更多的图像细节。在实际的编码过程中， TU 可以根据率失真代价大小自适应地选择最佳的尺寸。这种灵活的分割结构，既可以充分压缩变换后的残差系数，提高编码增益，又可以保留图像的部分细节，提高图像的质量。一个 32×32 的 CU 划分为多个 TU 时的四叉树结构如图 2.4 所示。 32 32 图 2. 4 T U 划分结构 Fig. 2. 4 T U partition s truc ture - 13 - 基于 HEVC 的码率控制算法 2) 帧内预测帧内预测是视频编码标准的一项核心技术，主要是利用已编码的像素值来预测当前像素值。跟 H.264 不同的是， HEVC 对于不同的 PU 尺寸块，其帧内预测模式都有所增加，例如对于 16×16 的尺寸块，有 35 种预测模式；对于 4×4 的尺寸块，有 18 种预测模式。预测方向的增加可以提高预测的精度，提高压缩的效率，亮度分量的预测模式如表 2.1 所示。帧内预测过程大致上分为三步：判断相邻像素的可用性，当参考像素不存在或不可用时，用距离参考像素最近的像素值来替换，如图 2.5 所示，当 A 的参考像素不存在时，B 区域的最下边像素值来代替所有 A 区域的像素值；同理当 E 区域的像素值不存在时，则用 D 最右边的像素值进行填充替换。 C D E B N N A 图 2. 5 相邻参考位置像素 Fig. 2. 5 Adjac ent referenc e pixels 滤波，根据 TU 大小来决定滤波的模式；根据参考像素预测当前 TU 的像素值。对于不同的区域，采用不同的预测模式，如果当前编码单元比较平坦，则采用 64 ×64 尺寸块的预测模式，如果当前场景复杂，细节部分较多，则采用小的尺寸块预测模式，两者结合使用，可以提高预测精度，提高编码的效率。 - 14 - 宁波大学硕士专业学位论文表 2.1 亮度分量预测模式 T ab. 2. 1 Luminanc e c omponen t predic tion model PU 尺寸预测模式数 4×4 16 个预测方向、DC 模式、Planar 模式 8×8 33 个预测方向、DC 模式、Planar 模式 16×16 33 个预测方向、DC 模式、Planar 模式 32×32 33 个预测方向、DC 模式、Planar 模式 64×64 2 个预测方向、DC 模式、Planar 模式 3) 帧间预测帧间预测是 HEVC 的又一项核心技术，当视频序列中物体变化比较缓慢时，两帧之间的像素值差别不大。利用帧的时间相关性进行编码，可以获得很高的压缩比。帧间预测过程中，运动估计是一个很重要的环节，通过运动搜索算法找出最佳匹配块，在 HEVC 中，提供了全搜索算法和 TZSearch 算法，全搜索算法匹配每一个编码块，找出最相似的块作为最佳匹配块，虽然可以提高帧间预测的精度，但是编码过程太耗时。TZSearch 算法通过菱形搜索模板和正方形搜索模板提高运动估计的速度，相比于全搜索算法，在性能略有降低的前提下，可以节省将近 80%的时间。在实际场景中，物体的运动并不是像素的整数倍，通过运动搜索找出来的匹配块可能误差较大。为此，可利用像素插值算法，将运动估计的精度提高到亚像素级别，亮度插值滤波器抽头系数和色度插值滤波器抽头系数如表 2.2、 2.3 所示。表 2.2 亮度插值滤波器抽头系数 T ab. 2. 2 Luminanc e interpolation filter tap c oeffic ient 亚像素位置抽头系数 1/4 {-1, 4, -10, 58, 17, -5, 1} 1/2 {-1, 4, -11, 40, 40, -11, 4, 1} 3/4 {1, -5, 17, 58, -10, 4, -1} - 15 - 基于 HEVC 的码率控制算法表 2.3 色度插值滤波器抽头系数 T ab. 2. 3 Chroma interpolation filter tap c oeffic ient 亚像素位置抽头系数 1/8 {-2, 58, 10, -2} 2/8 {-4, 54, 16, -2} 3/8 {-6, 46, 28, -4} 4/8 {-4, 36, 36, -4} 5/8 {-4, 28, 46, -6} 6/8 {-2, 16, 54, -4} 7/8 {-2, 10, 58, -2} 4) 变换、量化和熵编码编码块经过帧内、帧间预测之后，原始值与预测值相减即可得到预测残差。 HEVC 采用整数 DCT 变换对预测残差进行变换，从空间域转换到变换域，以变换系数的形式加以表示， 8×8 整数 DCT 变换矩阵如图 2.6 所示。适当的变换可以使得能量在变换域更为集中，然后经过量化处理，可以有效压缩图像。跟 H.264 不同的是， HEVC 选择变换的块更大，最大可以达到 32×32；另外 DCT 变换矩阵在整数化时放大的倍数比 H.264 大，最大倍数为 64 倍，所以 HEVC 的 DCT 矩阵更加接近于浮点 DCT，可以进一步提高编码性能。残差信号经过变换后，系数一般有很大的动态范围，为了达到更好地压缩效果，对变换系数进行量化，减少残 H8= 64 89 83 75 64 50 36 18 64 75 36 -18 -64 -89 -83 -50 64 50 -36 -89 -64 18 83 75 64 18 -83 -50 64 75 -36 -89 64 -18 -83 50 64 -75 -36 89 64 -50 -36 89 -64 -18 83 -75 64 -75 36 18 -64 89 -83 50 64 -89 83 -75 64 -50 36 -18 图 2. 6 DCT 变换矩阵 Fig. 2. 6 DCT trans form matrix 差信号的取值范围。 HEVC 中变换量化过程如图 2.7 所示，残差系数经过比例缩放后再进行量化。量化是指将某个区间的值映射为同一个值的过程，量化可以减 - 16 - 宁波大学硕士专业学位论文少系数动态范围，在反量化之后，不一定与原来的系数相等。量化是 HEVC 中非常重要的环节，由于量化前后系数不一致，所有会导致一定的失真。量化器有标量和矢量两种类型，标量量化器因为复杂度低、实现起来较容易，所以广泛应用于视频编码标准中，标量量化器的示意图如图 2.8 所示，在区间 [t i ，t i+1 ]中的值，都分别取 y i 作为输出值，通过量化，位于区间 [0,t 6 ]中的输出值被量化成 [y0 , y 1 ,y2 ,y3 ,y4 ,y5, y6 ]这七个值，减小系数的动态变化范围。熵编码模块主要将数据编码成二进制码流进行传输或存储，输入的信息可能包括变换系数、块的运动信息、帧内、帧间预测模式和块的索引值等。 HEVC 中的熵编码算法采用基于上下文二进制算术编码，其很好地利用了语法元素值之间的高阶信息，并且考虑了视频流的统计特性，进一步提高码率效率，主要分为三个步骤：二进制化、上下文建模和二进制算术编码。残差变换比例缩放量化系数图 2. 7 变换量化过程 Fig. 2. 7 T he proc es s of trans formation and quantization 输出信号y y6 y5 y4 y3 y2 y1 y0 0 t1 t2 t3 t4 t5 t6 输入信号x 图 2. 8 标量量化器示意图 Fig. 2.8 Schematic diagram of scalar quantizer 5) 环路后处理环路后处理主要包括两个步骤，去方块滤波和像素自适应补偿 (Sample - 17 - 基于 HEVC 的码率控制算法 Adaptive Offset，SAO)。由于块与块之间的变换量化过程相互独立，每个块的滤波系数都不相同，所以在编码块边界部分不连续；另外，在运动补偿过程中，相邻块的预测块可能来自不同的位置，也有可能来自不同的图像，导致块与块之间的像素值不平滑。方块效应严重影响图像的质量，还可能影响后续的编码图像。去方块滤波技术可以很好的去除边界效应，一方面可以提高视频的压缩性能，另一方面又可以提高图像的质量。去方块滤波技术的具体过程分为三个步骤：确定滤波的边界，确保被滤波的边界是 TU 或者是 PU 的边界；计算边界强度，有的边界是由于图像本身原因，导致该区域的纹理度量值很大，这种情况不需要滤波；根据阈值决定是强滤波、弱滤波还是不滤波。SAO 可以去除图像边缘周围产生的波纹现象，SAO 以编码单元为基本单位，利用分类器将像素划分为不同的类别，对不同的类别使用不同的补偿值。一般可以分为四种边界补偿模式，主要分为水平、垂直和对角线方向。如图 2.9 所示，其中 b 表示当前像素， a 和 c 表示与 b 相邻的像素。 a a a b c b a b c b c c 图 2. 9 4 种边界补偿模式 Fig. 2. 9 4 Kinds of boundary c ompens ation model 2.2 率失真优化技术视频压缩算法性能的好坏根据编码重建之后的视频与原始视频之间的失真和编码输出的比特率共同决定，失真和比特率相互制约、相互限制，失真的增加会导致比特率的减少，如果要获得更高的主、客观质量，则视频的编码产生的比特率会增加。在 HEVC 编码平台中，使用率失真优化技术来衡量视频编码的压缩性能， HEVC 视频编码器在 CU 分割、帧内帧间预测以及编码参数选择等方面都利用了率失真优化技术。在允许的失真范围内，如何使编码产生的总比特最小，或者是在一定的目标比特下，如何使编码后的视频质量最高，也就是重建视频与原始视频之间的失真最小是率失真优化研究的基本问题。在实际编码中，用 R 来表示码率，用 D 来表示失真，率失真函数曲线形式如图 2.10 所示。从图中可以 - 18 - 宁波大学硕士专业学位论文看出，率失真函数给出了限定失真条件下信息压缩允许的下界，当失真为 D* 时，函数 R(D * )是允许压缩的最低限度。 R(D) H(X) R(D* ) 0 D* DMAX D 图 2. 10 率失真函数曲线形式 Fig. 2. 10 The rate distortion func tion c urve form 1) 视频失真度量失真准确度的测量是衡量编码器性能好坏的重要条件，一般来说，视频的失真度量值应该与人眼感知一致。但是人眼感知系统非常复杂，纹理复杂的地方可以隐藏较多的失真，纹理平坦的区域失真较大时影响观看效果，还有运动区域也是人眼关注度比较高的区域。当前已有的一些度量标准仍然与主观感知质量有较大差距。常用的客观失真度量方法有绝对误差和 (Sum of Abso lute Difference， SAD)、平方误差和 (Sum of Squares Error，SSE)、峰值性噪比 (Peak Signa l to Noise Ratio， PSNR)、均方误差 (Mean Square Error， MSE)等。上述失真度量值的计算公式分别如下所示。 SAD  M 1 N 1   | fo ( x, y)  f r ( x, y) | (公式 2.1) x 0 y 0 1 SSE  M N M 1 N 1 2   | f o ( x, y )  f r ( x , y ) | x 0 y 0 - 19 - (公式 2.2) 基于 HEVC 的码率控制算法 PSNR  10log10 2552  M  N 2 M 1 N 1 (公式 2.3)   | f o ( x, y )  f r ( x, y ) | x 0 y 0 1 MSE  M N 2 M 1 N 1   | f o ( x, y )  f r ( x , y ) | (公式 2.4) x 0 y 0 公式 2.1 到公式 2.4 中，f o (x ,y)和 f r (x ,y)分别表示原始像素值和重构像素值， M 表示视频的宽度， N 表示视频的高度，从公式中可以看出，原始像素值与重构像素值之间的差值越大，则 SAD、 SSE、 MSE 越大，PSNR 越小。 2) 率失真优化方法在 HEVC 中，量化、预测、编码模式等过程的众多参数中，如何选择最好的编码参数，使得编码性能最佳是率失真优化需要考虑的问题。率失真优化从理论上给出了系统能够达到的最佳性能，但是确定序列的众多编码参数复杂度非常高，所以在参数选取过程中，一般都是将序列划分为众多的子任务，分别给每个子任务确定最优参数集，则视频序列最优参数集的选择等于最小化所有子任务的失真和。 N N i 1 i 1 min  Di , s.t. Ri  Rc (公式 2.5) 公式 2.5 中，Di 表示第 i 个子任务的失真，失真度量准则一般用上述提到的 SAD 、 SSE、PSNR 、 MSE 来衡量， Rc 表示带宽的大小， Ri 表示第 i 个子任务中消耗的比特数。公式 2.5 中的约束优化问题，在 HEVC 中，利用拉格朗日优化法转化为无约束优化问题。通过拉格朗日乘子 λ，公式 2.5 转换为： N N N i 1 i 1 i 1 min J , J   Di    Ri   ( Di    Ri ) (公式 2.6) N   Ji i 1 公式 2.6 中，J 表示率失真代价。公式 2.6 表明，对于每个独立的子任务，每个编码单元的失真和和码率互不相关，视频序列的编码参数集可以通过最小化每个编码单元的率失真代价来确定。亮度分量 λ 的计算公式为： - 20 - 宁波大学硕士专业学位论文 mode   Wk  2((QP12)/3) (公式 2.7) motion  mode (公式 2.8) 公式 2.7 中，λmode 表示预测模式时的拉格朗日因子，QP 为量化参数，Wk 表示权重因子。公式 2.8 中，λmotion 表示运动模式时的拉格朗日因子。色度分量 λchroma 的计算公式为： chroma  mode / wchroma (公式 2.9) wchroma  2((QPQPchroma )/3) (公式 2.10) 率失真理论在不考虑约束条件下，编码器能够达到的最好性能，但是实际中的很多制约因素，编码器根本无法达到理论值。 HEVC 视频编码的任务是找到更靠近实际率失真曲线的压缩方法。图 2.11 给出了实际的率失真曲线与理论的率失真曲线关系示意图，中间部分表示由于约束条件的影响，实际的率失真性能与理论的率失真性能之间的差值。 R(D) 理论R(D) 实际R(D) D 0 图 2. 11 理论率失真曲线与实际率失真曲线的关系 Fig. 2. 11 Relationship between theoretical rate distortion curve and actual rate distortion curve 2.3 码率控制技术视频图像被编码成码流后，需要在带宽中传输，码流过大，会引起网络传输中视频图像的阻塞和丢包，码流过小，就有可能导致存储空间的浪费，视频质量 - 21 - 基于 HEVC 的码率控制算法下降严重。码率控制通过调整编码参数使得码流跟带宽一致，从而充分利用带宽。码率控制为编码单元分配最优的比特，使实际产生的码流接近带宽大小，从而保证视频的质量。相比于 R-Q 模型，目前最新的码率控制模型是 R-λ 模型，该模型在码率控制精度和编码质量上都有较大改善。在 HEVC 的 R-λ 模型中，码率控制分为比特分配和参数确定以及更新两个阶段 [13] 。在参数更新过程中，根据分配给每一个基本单元的比特，确定用于编码的参数。 2.3.1 比特分配在比特分配过程中，首先将目标比特分配到每一个图片组 (Group of Picture， GOP)，再分配到每一帧，最后到基本单元。 1) GOP 层比特分配视频在编码的时候通常分成若干个连续的 GOP，是比特分配中的第一层，GOP 层比特分配的公式为： TGOP  Tbitleft  Taverpic  ( Nleft  SW ) SW  NGOPsize (公式 2.11) TGOP 为当前 GOP 分配的目标比特，对于帧内码率控制，每一个 GOP 分配的码率就是每一帧分配的码率， NGOPsize=1，如果是低延时编码结构，NGOPsize=4，如果是随机接入结构，NGOPsize=8。Tbitleft 为编码之后可用的剩余比特，Nleft 为剩余未编码帧数， SW 为平滑窗口，一般取 40，反映了其对缓冲区状态的调整尺度，作用是平滑编码帧的比特输出，由公式 2.11 可知，GOP 的分配策略是首先得到平均分配给每一帧的比特，然后根据编码配置方式决定分配的比特数。Taverpic 为每个编码帧平均分配的比特，通过公式 2.12 计算得到： Taverpic  Tt f (公式 2.12) 公式 2.12 中， f 为编码序列的帧率，T t 是序列级的目标码率，由用户根据实际网络带宽的情况设定。 2) 帧层比特分配帧层比特分配分级策略相比于比特平均分配策略，可以提高率失真性能，帧层比特分配时根据一帧图像在 GOP 中所占的权重来进行分配，权重根据时域预测结构而变化。权重大的图片，说明重要性比较高，一般是关键帧或者是参考帧。 - 22 - 宁波大学硕士专业学位论文权重如表 2.4、表 2.5 所示：表 2.4 低延时(Low Delay)结构时的权重编码顺序播放顺序 1 Tab.2.4 The weight of Low Delay structure 权重值 0.05≥bpp＞0 0.1≥bpp＞0.05 0.2≥bpp＞0.1 bpp>0.2 1 2 2 2 2 2 2 3 3 3 3 3 3 2 2 2 2 4 4 14 12 10 6 表 2.5 随机接入(Random Access)结构时的权重编码顺序 Tab.2.5 The weight of Random Access structure 权重值播放顺序 0.05≥bpp＞0 0.1≥bpp＞0.05 0.2≥bpp＞0.1 bpp>0.2 1 8 30 25 20 15 2 3 4 5 6 7 4 2 1 3 6 5 8 4 1 1 4 1 7 4 1 1 4 1 6 4 1 1 4 1 5 4 1 1 4 1 8 7 1 1 1 1 表 2.4、表 2.5 中 bpp 表示每比特像素，计算公式为： bpp  R w h  f (公式 2.13) 公式 2.13 中 R 表示目标比特， w 和 h 分别表示图像的宽和高， f 为帧率。所以帧层的比特分配公式为： Tleft  TGOP  CodedGOP Tslice  Tleft  (公式 2.14) wslice _ cur  (公式 2.15) wslice notcodedslice 公式 2.14 和公式 2.15，Tleft 表示当前 GOP 剩余的编码比特，TGOP 表示 GOP 预分配的比特数，CodedGOP 表示消耗的比特，wslice_cur 表示当前图片在整个 GOP 中的权重 - 23 - 基于 HEVC 的码率控制算法值，由表 2.4、表 2.5 决定。Tslice 表示帧层分配的比特。 3) LCU 层比特分配 LCU 层的比特分配是指根据当前图像的总比特数，为所有的 LCU 分配比特的过程，也是根据权重进行分配。分配公式如下： TLCU  Tslice  BitH  Coded slice  wLCU _ Cur  wLCU (公式 2.16) notcodedLCUs 公式 2.16 中， TLCU 表示当前 LCU 分配的比特，Tslice 表示当前帧的总比特， BitH 表示估计的头比特，是已编码图像头信息所用实际比特的平均值。 Codedslice 表示已经编码消耗的比特，wLCU_Cur 表示当前 LCU 的权重，由相同层图像对应位置 LCU 的 MAD 确定。 WLCU 与 MAD 的关系为： wLCU  MAD2 (公式 2.17) MAD 的计算公式为： MAD  1 N pixels | pred  porg | (公式 2.18) Npixels 表示当前 LCU 里的像素个数，Porg 表示原始信号的像素值，Pred 表示预测信号的像素值。 2.3.2 参数确定以及更新阶段通过比特分配过程，得到编码块的预分配比特之后，需要确定当前块的 QP ，才能进行编码。首先需要确定用于编码的 λ 值，再通过 λ 与 QP 的关系确定 QP 值，用于编码。 λ 与比特的关系为： λ  α  bpp β (公式 2.19) bpp 表示平均分配给每一个像素的比特，α 和 β 是两个模型参数，通过编码很多图片，然后数据拟合得出，初始值为 3.2003、 -1.367。 QP 与 λ 之间的关系为： QP  4.2005  ln λ  13.7122 (公式 2.20) - 24 - 宁波大学硕士专业学位论文计算得到的 QP 就可用于编码，为了适应序列的变化，α 和 β 会根据序列的内容自适应更新。设 αold 和 βold 分别表示之前编码单元的 α 和 β 值，αnew 和 βnew 分别表示更新之后的 α 和 β 值，λactual 为实际编码的编码参数， bppactual 表示上一帧相同位置 CU 编码消耗的实际比特，则更新过程可以表示为： αnew = αold + δα  (lnλactual - lnλcompute )  αold (公式 2.21) βnew  βold  δβ  (ln λactual  ln λcompute )  ln bppactual (公式 2.22) 其中， δα 和 δβ 根据不同的 bpp 选取不同的值，λcompute 采用下式计算： βold λcompute  αold  bppactual (公式 2.23) 在更新过程中，λ 和 QP 值的变化可能较大，编码视频的质量会因为码率分配的不平衡出现过大波动，所以在图片和基本单元级别，把 λ 和 QP 限制在一定范围内。图片级别的限定策略为： 2 2 λlpic _ avg  2 3  λcpic _ est  λlpic _ avg  2 3 (公式 2.24) QPlpic _ avg  2  QPcpic _ est  QPlpic _ avg  2 (公式 2.25) 公式 2.24、公式 2.25 中， λlpic_avg、 QPlpic_avg 分别表示相同层已编码图像的平均 λ 和 QP 值， λcpic_est、 QPcpic_est 分别表示当前图像估计的 λ 和 QP 值。在基本单元级别中， λ 和 QP 的限定策略为： 1 1 λlbu  2 3  λcbu _ est  λlbu  2 3 (公式 2.26) QPlbu  1  QPcbu _ est  QPlbu  1 (公式 2.27) 公式 2.26、公式 2.27 中，λlbu 、QPlbu 分别已编码单元的 λ 和 QP 值，λcbu_est、QPcbu_est 分别表示当前编码单元估计的 λ 和 QP 值。 2.4 本章小结本章首先介绍了 HEVC 的编码框架和关键技术，包括帧内、帧间、量化、熵编码等核心技术。接着介绍了率失真优化技术，最后阐述了 HEVC 码率控制技术，包括比特分配和参数更新两部分。 - 25 - 基于 HEVC 的码率控制算法 3 基于复杂度分析的 HEVC 帧内码率控制算法 HEVC 码率控制算法在码率输出的精度和效率上都取得不错的效果。通过三层的比特分配，码率更加接近于给定的带宽大小。但是在视频序列中，不同的图像复杂度差别较大，尤其是发生场景变换时候，图像之间分配的比特应该随着图像的复杂度变化而变化，这是 HEVC 码率控制算法所没有考虑到的，即没有考虑视频编码内容的复杂度。针对此问题，本章提出了一种基于复杂度的 HEVC 帧内码率控制算法，可以进一步提高码率控制的精度和视频质量。首先根据复杂度来合理分配码率，然后根据实际比特和预分配比特自适应地更新平滑窗口，最后结合基本单元层的码率控制算法及时调节码率，从而使输出码率尽可能与目标码率相等。实验结果表明，本章所提出的方法能够使输出码率更加接近目标码率，并且可以进一步提高视频质量。 3.1 复杂度分析及算法优化图像内容的复杂度有多种衡量方法，文献[65]认为梯度计算方法比较简单，也能较准确表现图像内容的复杂程度，适合描述静止图像的复杂度。并且人们倾向于用边缘来描述纹理复杂度，而边缘地区的相邻亮度像素值通常相差比较大，所以用梯度来衡量复杂度比较合适。因此本章采用梯度来描述图像的复杂度。梯度的计算公式为： H 1 W 1 Ck    (| Ii, j  Ii1, j |  | Ii, j  Ii, j 1 |) (公式 3.1) i 1 j 1 H W 公式 3.1 中，H、W 分别表示当前帧的高和宽。Ii,j 表示编码帧点 (i，j)位置的亮度分量像素值。 Ck 为第 k 帧的复杂度。为了进一步验证梯度跟编码比特之间是否存在线性关系，在量化参数分别为 22、 27、32、37 的情况下编码了复杂度互不相同的测试序列，每个序列编码 100 帧。本章利用 R2 来衡量线性拟合的程度。R2 定义为： R 2 2  i ( X i  X i e )  1  i ( X i  X i m )2 (公式 3.2) - 26 - 宁波大学硕士专业学位论文公式 3.2 中，X i 和 Xi-e 分别表示在 i 点上的实际值和通过线性拟合出的估计值，Xi-m 表示所有点的均值， R2 越接近 1，说明拟合程度越好，线性关系越强，模型就越准确。 (a) BlowingBubbles (c) RaceHorsesC QP=27 QP=27 (b) BlowingBubbles QP=32 (d) RaceHorsesC QP=32 图 3.1 复杂度与码率的关系 Fig. 3. 1 Relations hip betw een c omplexity and bit rate 图 3.1 是上述实验的结果。描述了 RaceHorsesC、 BlowingBubbles 序列的复杂度和码率的关系，横坐标表示复杂度，纵坐标表示码率，x 表示线性拟合之后的复杂度的大小，y 为拟合之后复杂度为 x 产生的码率。序列在 QP 为 27 和 32 的情况下进行编码。通过线性拟合，可以在图 3.1 中看到， R2 都约等于 1，线性拟合 - 27 - 基于 HEVC 的码率控制算法程度比较好。所以编码比特跟图像梯度之间存在近似的线性关系，并且复杂度越大，编码的比特就越多。从 3.1a 和 3.1b 这两个图中，可以看出对于同一序列用不同的 QP 进行编码时，码率跟梯度的线性关系依然存在，只是斜率略有变化。当 QP=27 时，斜率为 0.0715，当 QP=32 时，斜率为 0.0381。从 3.1a 和 3.1c 这两个图中可以看到，即使是不同序列，复杂度跟编码比特依然有非常好的线性关系。因此，本章在比特分配过程中采用图像的梯度进行指导。对梯度越大即纹理越复杂的帧，将会被分配更多的比特进行编码以保证编码质量，而对梯度较小即纹理简单的帧。只需要分配较少的比特。这种策略使得比特分配更加合理，减少了比特的浪费。综上分析，公式 2.12 改进为： Taverpic  CcurrG Tt  M CtotalG f (公式 3.3) M CtotalG   Ck (公式 3.4) k 1 公式 3.3 中， CcurrG 表示当前帧的图像复杂度，由公式 3.1 得到。CtotalG 表示编码帧总的复杂度，通过公式 3.4 计算得到， M 表示要编码的帧数。 HEVC 码率控制的过程是根据预分配的比特利用 R-λ 模型计算相应的量化参数以及拉格朗日乘子。量化参数以及拉格朗日乘子在一定程度上影响编码过程中的模式选取等过程，这些过程间接地影响实际的编码比特。由于上述原因，实际产生的比特和预分配的比特会存在一些偏差。为了使实际的编码比特更加地接近预分配的比特，本章利用平滑窗口对比特分配进行调节。其基本策略是根据前一帧的码率情况反馈调节当前帧的码率。因此，最终的比特分配策略为： TGOP  Tbitleft  Taverpic  ( Nleft  ASWcurr ) ASWcurr  NGOPsize (公式 3.5) 公式 3.5 中， ASWcurr 为自适应平滑窗口，在窗口更新策略中会进一步介绍。 3.2 窗口更新策略在比特分配策略中，平滑窗口对比特分配具有较大的影响，窗口的大小直接影响每一帧的预分配比特。在 R-λ 码率控制模型中，平滑窗口是固定值，这种策略不能根据实际编码情况进行实时地反馈调节。另外，相邻两帧之间梯度变化不 - 28 - 宁波大学硕士专业学位论文大，可以根据上一帧的梯度来预测当前帧的梯度，然后利用梯度跟码率的线性关系得到码率。当前一帧预先分配较多的比特，而实际消耗比特较少时，说明预分配比特过多，下一帧需要适当减少预先分配的比特。根据以上分析，本章定义自适应平滑窗口 ASW，使得 ASW 自适应地随着上一帧实际产生的码率和预分配码率差变化，如果前一帧预分配码率多，实际产生的码率少， ASW 就会根据码率差自适应变大，从而使当前帧分配的码率减少。如果前一帧预分配码率少，实际产生的码率多，ASW 就会根据码率差自适应变小，从而增加当前帧分配的码率。ASW 大小的计算的公式为： ASWcurr  ASW f -1  Test  Tact ASW f 1 (公式 3.6) 公式 3.6 中，T est 表示前一帧预先估计的码率， Tact 表示前一帧实际产生的码率， ASWf-1 表示前一帧的更新窗口。由公式 3.6 可以看到当 Test 大于 Tact 时，当前帧的 ASW 自适应变大，从而使得当前帧预分配的码率减少，当 Test 小于 Tact 时，当前帧的 ASW 自适应变小，从而使得当前预分配的码率增加。考虑到如果上一帧的码率偏差很大，相应 ASW 会变化很大，反向影响当前帧的码率分配，根据实验测试，把 ASW 限定在 [32,48]范围内比较合适，如果超过这个范围，就自动把这一帧的 ASW 设为 40。 3.3 实验结果及其分析为了客观准确地验证算法有效性，所有的实验都是在 HM11.0 平台下进行，实验中所有序列都采用全 I 帧进行编码，编码帧数为 100 帧。为了验证算法具有普适性，实验在同一目标码率下，采用 4:2:0 格式的不同分辨率序列：RaceHorses、 BQMall 、 BasketballPass 、 BQSquare 、 RaceHorsesC 、 BlowingBubbles 、 BasketballDrill 、 PartyScene、Johnny 进行测试，其中 BQMall、PartyScene 纹理较复杂， BasketballPass、 BQSquare 纹理比较平坦。最后将本算法与 Li 的算法 [13]对比。为了进一步比较本章所提的码率控制算法与 Li 算法的性能，定义 Rdev 如下所示： Rdev  | Rtarget  Ractual | Rtarget 100% (公式 3.7) - 29 - 基于 HEVC 的码率控制算法公式 3.7 中，Rtarget 为目标码率，Ractual 为实际产生的码率。Rdev 表示目标比特与实际产生比特之间的误差百分比，越小表示码率偏差越小，实际产生的码率更加接近目标码率。定义 GPSNR 为本章算法相比于 Li 算法 PSNR 的变化情况， “+” 表示本章算法高于 Li 的算法。 GPSNR  ProPSNR  LiPSNR (公式 3.8) 公式 3.8 中，ProPSNR 表示利用本章算法得到的序列的 PSNR，LiPSNR 表示利用 Li 算法得到的序列的 PSNR。表 3.1 码率比较序列 RaceHorses BasketballPass BQSquare BlowingBubbles RaceHorseC BasketballDrill BQMall Tab.3.1 Rate comparison Li Li-码率目标码率(kbps) -R dev（‰） (kbps) Pro-码率(kbps) Pro -R dev（‰） 900 900.086 0.096 900.026 0.029 1200 1200.043 0.036 1200.082 0.068 1500 1500.144 0.096 1500.122 0.081 900 900.032 0.036 899.936 0.071 1200 1199.960 0.033 1199.840 0.133 1500 1499.964 0.024 1499.960 0.027 900 900.034 0.038 900.110 0.122 1200 1199.837 0.136 1200.072 0.060 1500 1500.134 0.089 1500.077 0.051 900 900.016 0.018 900.068 0.076 1200 1199.972 0.023 1199.912 0.073 1500 1500.068 0.045 1499.928 0.048 900 900.010 0.011 899.954 0.051 1200 1200.002 0.002 1200.001 0.001 1500 1499.832 0.112 1499.976 0.016 900 900.052 0.058 900.000 0.000 1200 1200.104 0.087 1200.016 0.013 1500 1500.120 0.080 1500.200 0.133 900 900.005 0.006 899.962 0.042 - 30 - 宁波大学硕士专业学位论文 PartyScene Johnny 1200 1200.048 0.040 1200.048 0.040 1500 1500.038 0.025 1500.053 0.035 900 900.040 0.044 900.036 0.040 1200 1200.064 0.053 1200.028 0.023 1500 1499.944 0.037 1500.028 0.019 900 900.154 0.171 900.067 0.074 1200 1200.125 0.104 1199.866 0.112 1500 1500.250 0.167 1500.192 0.128 1200.040 0.062 1200.021 0.058 Average 表 3.2 PSNR 比较序列 RaceHorses BasketballPass BQSquare BlowingBubbles RaceHorseC BasketballDrill BQMall Tab.3.2 PSNR comparison 目标码率 LiPSNR (dB) ProPSNR (dB) (kbps) GPSNR (dB) 900 31.20 31.32 +0.12 1200 32.57 32.67 +0.10 1500 33.71 33.82 +0.11 900 33.16 33.27 +0.11 1200 34.63 34.75 +0.12 1500 35.81 35.92 +0.11 900 22.40 22.48 +0.08 1200 23.55 23.65 +0.10 1500 24.55 24.67 +0.12 900 27.98 28.09 +0.11 1200 29.05 29.16 +0.11 1500 29.96 30.06 +0.10 900 27.17 27.23 +0.06 1200 27.90 27.98 +0.08 1500 28.55 28.62 +0.07 900 27.49 27.57 +0.08 1200 28.45 28.52 +0.07 1500 29.31 29.40 +0.09 900 24.91 24.97 +0.06 - 31 - 基于 HEVC 的码率控制算法 PartyScene Johnny Average 1200 25.74 25.81 +0.07 1500 26.44 26.51 +0.07 900 21.64 21.67 +0.03 1200 22.11 22.14 +0.03 1500 22.51 22.56 +0.05 900 30.40 30.48 +0.08 1200 31.61 31.68 +0.07 1500 32.58 32.67 +0.09 28.35 28.43 +0.08 表 3.1、表 3.2 分别给出了测试序列 Racehorses、Johnny、BQMall、BasketballPass、 BQSquare、RaceHorsesC、BlowingBubbles、BasketballDrill、PartyScene 在各个码率下， Li 算法与本章算法的 PSNR 增益和输出码率情况。从表 3.1、表 3.2 的实验结果可知，本章算法能更好地根据图像的复杂度来分配每一帧的码率，本章实际输出码率更加接近目标码率，码率偏差相比于 Li 算法更小，而且 PSNR 有所增加。如 BQSquare 序列在 1500kbps 时 PSNR 增加 0.12dB，实际产生的码率更加接近目标码率， BasketballDrill 序列在 900kbps 时 PSNR 增加 0.08 dB，且码率正好等于目标码率。Racehorses 序列在 900kbps 时 PSNR 增加 0.12 dB，码率偏差比 Li 的更低。总的来说，本章算法的 PSNR 在 Li 的基础上平均增加 0.08 dB，码率偏差更小。这是因为，一方面在帧层码率分配的时候，考虑了图像的复杂度，复杂度高的帧分配更多的码率，使得码率分配更加合理。另一方面是利用 ASW 实现了码率反馈，当前一帧码率预分配过少，而实际消耗过多时，ASW 根据码率差自适应调节，使得当前帧预分配的码率跟实际消耗的码率差距减小，从而提高序列的 PSNR。但是比如 PartyScene，PSNR 只提高了 0.05 dB，提升不是很明显， BQMall 的 PSNR 相对来说提高也有限。原因在于，这两个序列的纹理复杂度较高，ASW 的变化大，一旦超过 ASW 的限定范围，ASW 就自动回归到原始值 40，所以 PSNR 提升有限。 - 32 - 宁波大学硕士专业学位论文表 3.3 BDBR 性能比较 Tab.3.3 BDBR performance comparison 序列 BDBR(%) BasketballPass -2.2% BQSquare -2.3% BlowingBubbles -2.9% RaceHorses -2.7% BasketballDrill -2.3% BQMall -2.2% PartyScene -2.1% RaceHorseC -2.4% Johnny -1.8% Average -2.3% 表 3.3 给出了测试序列 RaceHorses、Johnny、BQMall、BasketballPass、BQSquare、 RaceHorsesC、BlowingBubbles、BasketballDrill、PartyScene 相比于 Li 算法的 BDBR 性能变化情况，“- ”表示本章算法优于 Li 算法。从表 3.3 的结果可知，对于相同的 PSNR，本章算法的率失真性能在 Li 的基础上有所提高，如 RaceHorseC 序列率失真性能增加了 2.4%，BQSquare 序列率失真性能相比于 Li的算法增加了 2.3%， BlowingBubbles 序列率失真性能增加了 2.9%，其余序列的率失真性能也有所增加。总的来说，对于相同的 PSNR，各个序列的率失真性能在 Li 的基础上平均增加 2.3%。这是因为，一方面利用复杂度来分配码率，充分提高码率的利用效率，另一方面在 ASW 自适应变化过程中，每一帧分配的码率跟实际需要的码率偏差更小，可以更好的利用码率，提高率失真性能。图 3.2 是 Blowingbubbles 序列和 BQSquare 序列的率失真性能曲线图，横坐标表示编码产生的比特，纵坐标表示 PSNR，正方形表示本章所提算法，菱形为 Li 所提算法。由图 3.2 可知，本章所提算法对 Blowingbubbles 序列和 BQSquare 序列的率失真性能比 Li 的算法要好，其他序列的率失真性能也有所提高。图 3.3 给出了不同分辨率序列 BasketballPass、BQMall 在本算法与平台算法下的码率波动性比较，横坐标表示编码的帧数，纵坐标表示编码每一帧产生的比特。从图 3.3 中可以看出序列 BasketballPass、BQMall 的码率相比于 Li 的算法，在提高 PSNR 的前提下，整体码率波动性更好。本算法相比于 Li 的算法在 BasketballPass - 33 - 基于 HEVC 的码率控制算法序列的前 30 帧码率波动明显减小，后续帧的波动性也比较小， BQMall 除了第 31 帧外，码率波动性都比 Li 的更好，本章算法在增加视频客观质量的同时，进一步稳定了视频的比特波动性。主要是因为本章算法考虑了帧层的复杂度，根据复杂 (a) Blowingbubbles (b) BQSquare 图 3.2 本章算法与 Li 算法的率失真性能比较 Fig.3.2 Comparison of RDO between proposed algorithm and Li algorithm 度分配比特，然后 ASW 根据预分配比特和实际比特的差值自适应变化，进一步平滑码率误差。跟 Li 算法相比，实际产生的码率与分配码率之间的偏差更小，码率分配更加准确，从而提高码率的利用效率，进一步改善编码性能。 (a) BasketballPass (b) BQMall 图 3.3 本章算法与 Li 算法的码率波动性比较 Fig.3.3 Comparison of rate volatility between proposed algorithm and Li algorithm - 34 - 宁波大学硕士专业学位论文 3.4 本章小结本章根据视频内容的复杂度自适应分配目标比特，分别从帧层和参数更新模块进行了优化。在帧层，利用梯度作为每一帧的复杂度来自适应分配比特，复杂度高的帧分配更多的比特，从而改善视频的质量。另外，提出了一个自适应参数更新的方法，通过前一帧的预分配比特和实际产生比特的差值来更新当前帧的平滑窗口。实验结果表明，本方法编码后的视频质量 Li 的要好，实际产生的码率比 Li 的算法更加接近目标码率。 - 35 - 基于 HEVC 的码率控制算法 4 基于特征保护的 HEVC 码率控制算法现有的码率控制算法在压缩性能和编码效率上都取得不错的效果，码率控制通过多级的比特分配策略，把比特分配到具体的编码单元，再通过相应的模型计算出编码单元的 QP，使编码产生的码流接近于目标比特。通过码率控制技术，在带宽一定的限制下，可以提高视频的质量，满足人们的视觉需求。但是在一些新兴应用中，比如智能视频监控、视频拼接等。经过压缩传输后的视频是计算机对其进行处理，而计算机一般都是通过提取特征对视频中的物体进行研究和探索。所以当最终压缩的视频信息接收者是计算机时，码率控制的比特分配过程就需要致力于保护视频中的重要特征，对特征区域分配更多的比特，保护更多的特征点，计算机视觉算法处理相应的压缩视频时可以取得更好的性能，但是 HEVC 中的码率控制算法并没有考虑这种情况。为了有效解决此问题，本章在码率分配过程中考虑了图像的特征，根据图像的特征掩膜分配比特。根据特征点把 LCU 块分成不同级别，根据编码单元的优先级分配比特。根据最后对结果的分析可知，本章所提算法对不同的视频序列都有不错的效果，在不增加复杂度的情况下，提高了视频特征点的保护数量。 4.1 特征掩膜的提取 SIFT 算法由 David Lowe 在 1999 年提出并发表，于 2004 年正式对其进行完善总结 [66]。 SIFT 算法对于目标的平移、旋转以及很多非正常情况都能保持良好的匹配性能，应用领域非常广泛，所以本文利用 SIFT 算法提取特征点，根据特征分布情况提取特征掩膜，便于后续处理。 4.1.1 特征点提取分析利用 SIFT 算法提取特征点，首先需要对图像下采样，得到分辨率不同的图像金字塔，金字塔中的每一层图像与标准差不同的高斯函数卷积，得到一组（ octave）模糊程度不同的图像。设均值为 u，标准差为 δ 的高斯函数为： G ( x)   1 2 2 e ( x u ) 2 2 2 (公式 4.1) 标准差 δ 越大，卷积图像越模糊。序列 BasketballPass 第一帧与标准差分别为 2、 4、 6 的高斯函数卷积效果如图 4.1 所示。 - 36 - 宁波大学硕士专业学位论文 (b) δ=2 时的卷积图像 (a) 原始图像 (c) δ=4 时的卷积图像 (d) δ=6 时的卷积图像图 4.1 BasketballPass 第一帧与高斯函数卷积效果 Fig.4.1 BasketballPass 1st frame and Gauss function convolution effect 然后对同一组中相邻的图片进行相减，得到高斯差分图像组。最后比较当前像素点与同一组相邻两层图片对应像素点的 3×3 领域内共 26 个像素点的大小，初步确定极值点。极值比较如图 4.2 所示，其中红色点表示当前像素值，黑色点表示 3×3 邻域的像素值。 Scale 图 4.2 极值检测 Fig.4.2 Extreme point detection - 37 - 基于 HEVC 的码率控制算法上述方法检测的极值点容易受噪声的干扰，为了获得稳定的特征点，需要进一步对高斯差分函数进行曲线拟合或者剔除不稳定的边缘响应点等操作，即可确定特征点的位置。在实际应用中，视频的分辨率越大，相应的用来表示视频的特征点数量就越多，并且特征点的重要程度各不相同，一般来说，响应越大，重要性越强，反之亦然。 (a) BasketballPass (b) PartyScene 图 4.3 序列特征点的响应情况 Fig.4.3 Response of sequence feature points 图 4.3 表示 BasketballPass 序列前 100 个特征点和 PartyScene 序列前 300 个特征点的响应。其中横坐标表示特征点个数，纵坐标表示对应特征点的响应，在本文算法中优先选取响应强的特征点进行保护。特征点数量过多，会造成特征分布过于广泛，重要性降低，太少又不足以表示图像的信息，所以本文根据序列分辨率不同选取不同特征点进行处理，特征选取情况如表 4.1 所示。表 4.1 特征点选取情况 Tab. 4.1 Feature points selection 分辨率 416×240 832×480 1920×1080 特征点 100 个 300 个 1000 个序列 BasketballPass100 个特征点和 PartyScene300 个特征点在原始图中的分布情况如图 4.4 所示，图中白色圆中心表示特征像素点的位置。 - 38 - 宁波大学硕士专业学位论文 (a) BasketballPass (b) PartyScene 图 4.4 序列第七帧特征点分布情况 Fig. 4.4 Distribution of feature points in the sequence of seventh frames 4.1.2 特征掩膜分析由上述方法得到的特征点，经过统计发现每一组(octave)的特征点分布情况如图 4.5 所示。特征点分布在第一组中的比例较高，所以第一组上的特征点所在区域需要重点保护。特征区域掩膜的提取，可以根据特征点在 LCU 中的分布情况，把每一个 LCU 划分为不同等级，等级越高，说明包含的特征点保护级别越高。 (a) BasketballPass (b) PartyScene 图 4.5 特征点在每一组中的分布情况 Fig. 4.5 distribution of feature points in each octave - 39 - 基于 HEVC 的码率控制算法 (a) BasketballPass 原始图 (b) BasketballPass 分块掩膜图 (c) Cactus 原始图 (d) Cactus 分块掩膜图图 4.6 原始图与掩膜图比较 Fig.4.6 comparison between original and mask BasketballPass 序列和 Cactus 序列的特征掩膜图如图 4.6 所示。图 4.6b 和图 4.6d 中，每个区域都是以 LCU 尺寸大小为单位进行划分。其中，白色的区域表示含有第一组 (octave)特征点的 LCU 集合，浅灰色的区域表示含有第二组 (octave) 特征点的 LCU 集合，深灰色的区域表示含有第三组 (octave)特征点的 LCU 集合，黑色块表示不含特征点的 LCU 集合。在比特分配时，根据区域包含特征点的级别不同，分配不同的比特。如果一个块包含不同 octave 的特征点，将 octave 小的索引作为当前块的索引值。 4.2 HEVC 码率控制算法的修正由 HEVC 基本单元层比特分配公式 2.16 可知，比特分配算法只是根据当前 LCU 在整个图片中所占的权重来分配比特，并没有考虑图片特征因素。在一些新兴应用中，特征保护相对整体质量来说显得更加重要，所以本文在基本单元层比特分配时考虑特征的分布情况，根据图像的特征分布来分配每个基本单元的比特，保护特征区域。由 4.1.2 小节可知，根据特征掩膜图，把图片中的 LCU 分成了多种不同的等级， LCU 等级越高，需要分配更多的比特给当前 LCU，以保护 - 40 - 宁波大学硕士专业学位论文块内的特征点。LCU 等级越低，则在满足基本主观质量的情况下，分配较少的比特。比特分配公式为： Tleft  Tpic  BitHeader  Coded pic wLCU _ Cur TLCU  Tpic   wLCU (公式 4.2) L (公式 4.3) notcodedLCUs 公式 4.2 中，Tleft 表示编码当前 LCU 后剩余的比特，Tp ic 表示当前帧分配的比特， Bit Head e r 表示头信息比特，Codedpic 表示已经编码消耗的比特。L 表示当前 LCU 块的权重，根据不同的优先级，L 的取值如表 4.2 所示。表 4.2 L 权重值 Tab. 4.2 L weight value octave 1 2 3 4 L a b c d 如果当前 LCU 中没有包含特征点，则按照 HEVC 基本单元的原始比特分配算法分配相应的比特。如果当前 LCU 中包含 octave 为 1 的特征点，则 L=a，权重最大，分配的比特最多，通过实验数据拟合可知，在 a=3、 b=1.5、 c=1.5、 d=1 时匹配效果最佳。 4.3 实验结果分析 4.3.1 实验配置为了客观准确地验证算法有效性，所有的实验都是在 HM15.0 平台下进行，实验中所有序列都采用全 I 帧编码，编码帧数为 150 帧。采用 4:2:0 格式的不同分辨率序列：BasketballPass、PartyScene、BasketballDrill、BasketballDrive、Cactus、ParkScene、 Kimono1 进行测试。 4.3.2 结果及分析本章旨在于保护视频特征点数量，视频经过传输后，如果特征点跟原始视频特征数量匹配越多，则说明本文算法性能更好，所以本章用 MS 来衡量码率控制性能的好坏。MS 的计算公式定义为： - 41 - 基于 HEVC 的码率控制算法 MS   N ip ×100%  Noi (公式 4.4) 其中 Nip表示第 i 帧已经保护的特征点个数，压缩视频的特征点经过比率测试、对称测试后，选出高质量、鲁棒性较强的匹配点作为原始视频的特征匹配点。Nio表示第 i 帧未经压缩时的特征点个数，对于分辨率为 416×240 的序列，未经压缩时的特征点 Nio个数为 100，对于分辨率为 832×480 的序列，未经压缩时的特征点 Nio个数为 300，对于分辨率为 1920×1080 的序列，未经压缩时的特征点 Nio个数为 1000。MS 越大，说明保护的特征点越多，算法性能越好。测试结果如表 4.3 所示：表 4.3 匹配率比较 Tab.4.3 Comparison of matching rate org △MS(%) pro sequence bitrate(kbps) MS(%) bitrate(kbps) MS(%) 5029.26 86.49 5028.70 87.81 +1.32 2945.32 79.94 2945.41 81.59 +1.65 1647.93 69.94 1647.95 71.26 +1.32 901.32 56.73 901.31 57.83 +1.10 47787.88 89.16 47787.87 90.04 +0.89 30061.30 83.56 30060.86 84.16 +0.60 18055.61 75.09 18055.43 75.93 +0.84 9929.46 62.70 9929.50 64.23 +1.53 20555.15 85.93 20554.99 87.46 +1.53 11156.37 78.58 11156.32 80.30 +1.72 5990.83 68.56 5990.90 69.93 +1.37 3310.64 54.76 3311.03 55.80 +1.04 62351.17 85.91 62351.29 87.00 +1.09 26109.53 78.28 26109.60 79.32 +1.05 13714.05 66.91 13714.11 68.70 +1.79 7669.85 52.40 7669.67 54.10 +1.71 107508.46 87.21 107508.77 88.30 +1.09 BasketballPass PartyScene BasketballDrill BasketballDrive Cactus - 42 - 宁波大学硕士专业学位论文 49906.65 80.05 49907.26 81.03 +0.98 27075.97 69.85 27075.21 70.84 +0.98 14651.16 55.24 14651.58 56.62 +1.38 52789.76 85.46 52789.86 86.29 +0.83 28636.71 77.70 28636.79 78.68 +0.98 14899.06 65.76 14898.99 67.02 +1.26 7347.46 47.31 7347.45 48.98 +1.68 18697.94 83.30 16898.48 83.89 +0.59 10609.08 74.87 10609.39 75.87 +1.00 6290.85 61.87 6290.96 63.57 +1.70 3701.83 43.48 3701.82 45.88 +2.41 21697.55 71.68 21697.55 72.95 +1.27 ParkScene Kimono1 Average 表 4.3 给出了测试序列 BasketballPass、PartyScene、BasketballDrill、BasketballDrive、 Cactus、ParkScene 和 Kimono1 特征匹配性能比较情况，其中 org 表示原始的码率控制算法， pro 表示本章提出的码率控制算法， MS 表示匹配率，通过公式 4.4 计算得到。△MS 表示匹配增益，由本章算法的匹配率与原始算法匹配率相减得到， “+” 表示本算法优于原始算法。由表 4.3 可知，本章算法的匹配率相比于原始算法有所提高，比如 Kimono1 的低码率时原始算法匹配率为 43.48%，本章算法为 45.88%，增加了 2.41%，其码率也在可控范围内。BasketballPass 在高码率时原始算法匹配率为 86.49%，本章算法为 87.81%，提高了 1.32%。BasketballDrill 在低码率时原始算法匹配率为 78.58%，本章算法为 80.30%，提高了 1.72%。跟原始的码率控制算法相比，本章提出的算法整体提高匹配性能 1.27%，这是因为在码率分配时，对特征 LCU 块进行保护，尽可能保留块内的细节和特征区域，多分配比特提高编码块的质量，所以在特征匹配时，可以提高匹配效率。从表 4.3 中还可以看出，对于同一序列，编码的目标比特不同，匹配率不同。总体上来说，序列在不同码率下进行编码时，目标比特越小，匹配增益越大，因为在目标比特充足时，视频的特征区域和非特征区域都有很好的质量，所以提升空间有限，但是随着目标码率的减少，视频的总体质量变差，通过本文的特征保护算法，可以优先给特征区域分配较多的比特，从而充分保障特征区域的质量，对于非特征区域进行粗量化，可以更好地提高视频的匹配率。 - 43 - 基于 HEVC 的码率控制算法表 4.4 算法时间复杂度比较 Tab.4.4 Algorithm time complexity comparison 序列 BasketballPass BasketballDrill BasketballDrive 时间(org) 100% 100% 100% 时间(pro) 104% 106% 106% 从时间复杂度角度来分析，本章选取低分辨率序列 BasketballPass、BasketballDrill 和高分辨序列 BasketballDrive 作为测试对象。由表 4.4 可知，时间复杂度都在可控范围内，因为本章利用 SIFT 算法提取特征点，根据特征点将 LCU 块分类两个过程，都可以看成是编码之前进行的预处理操作，并不会占用编码时间。后续掩膜读取过程和基本单元层比特分配过程，产生的复杂度都在可接受范围内，其他所有序列的情况类似。 (a) BasketballPass (b) BasketballDrive 图 4.7 PSNR 波动性比较 Fig.4.7 Comparison of PSNR volatility 图 4.7 是 BasketballPass 序列和 BasketballDrive 序列的客观质量波动图，横坐标表示编码帧数，纵坐标表示 PSNR。由图 4.7 可知，本章提出的码率控制算法在质量波动性方面与原始码率控制算法相当，视频客观质量不会出现较大的变化，视屏质量的波动也在一定范围内。图 4.8 是 BasketballDrill 序列第一帧在相同目标比特下的效果图，左图为原始平台算法编码结果，右图是本章的算法编码结果。从图中可以看出，两帧图像主观质量相差不大，篮球区域和 19 号球员区域的质量比原始的编码效果更好，本章算法避免了特征块分配比特过多，其他块比特过少而产生的块效应，从而造成 - 44 - 宁波大学硕士专业学位论文视频质量下降。总的来说，本章所提算法并没有对视频的主观质量造成很大的影响，在兼顾主观质量的情况下，提升了特征的匹配效率。 (a) 原始编码效果 (b) 本章编码效果图 4.8 BasketballDrill 第一帧效果图 Fig.4.8 1st frame of BasketballDrill between the original and proposed 4.4 本章小结针对当前的 HEVC 码率控制算法没有考虑视频特征的保护问题，本章提出了基于特征保护的帧内码率控制算法，对标准码率控制算法进行了改进，提高了特征点的保护数量。根据特征掩膜把基本单元块分成不同的等级，根据 LCU 所在等级分配不同的比特。从最后的结果分析可知，本算法不会影响视频的观看质量，也不会显著降低客观质量。本算法针对 HEVC 帧内码率控制算法做出了改进，在未来的工作中，会考虑利用时域信息来指导比特分配，进一步提高匹配率。 - 45 - 基于 HEVC 的码率控制算法 5 总结与展望 5.1 本文工作小结随着超高清显示技术的发展，视频数据的爆炸式增长， HEVC 视频编码技术由于其优秀的压缩性能，将会成为视频应用中的主流编码技术。如何根据带宽大小来合理分配资源，是码率控制中的一个重要研究问题。基于此背景，本文从 HEVC 码率控制角度进行研究，通过研究帧层的比特分配算法，发现，码率控制算法在码率控制的精确度和率失真性能方面还可以进一步提高，据此对帧层的码率控制算法进行了改进。针对具体的应用，码率控制性能还有所欠缺，据此对码率控制算法进行了改进。本毕业论文的主要工作总结如下： 1) HEVC 码率控制算法采用三层比特分配策略，逐层分配比特，根据 R-λ 模型计算得到量化参数，充分利用比特资源。但是在研究中发现，帧层比特分配策略并没有考虑视频帧本身的纹理复杂度。为了提高视频编码的性能，本文提出了复杂度分析的 HEVC 码率控制算法，考虑视频帧的纹理复杂度，重新分配帧层的比特。通过定义纹理复杂度因子，纹理复杂的帧在比特分配时所占的权重更大。在实验中发现，平滑窗口对视频的质量也有一定的影响，具体提出了平滑窗口自适应更新的方法，即通过前一帧的预分配比特和实际产生比特的差值来更新。实验结果表明所提算法与 Li 的算法相比，提出的算法改善了率失真性能，对于相同的 PSNR，各个序列的平均可以节省 2.3%的码率，最高可以节省 2.9%的码率。在目标码率相同的情况下，提高了视频的质量， PSNR 最高可以增加 0.12dB，平均增加大约 0.08dB，相比于 Li 的码率控制算法，所提方法的比特控制精确度更高，码率分配更加准确，从而提高码率的利用效率。 2) 在计算机视觉发展大潮中，很多压缩视频的后续处理是计算机相关算法对其进行探索和研究。码率控制的比特分配过程需要致力于保护视频中的重要特征，对特征区域进行保护，分配更多的比特，在后续的计算机视觉相关算法进行处理时，可以取得跟原始序列相近的性能。但是 HEVC 中的码率控制算法并没有考虑这种情况。为了有效解决此问题，本文提出了基于特征保护的 HEVC 码率控制算法，通过 SIFT 提取特征点，根据特征点在 LCU 中的位置，提取特征掩膜，并对其进行分级标记处理，对重要的 LCU 块分配更多的比特，保块内的特征数量，对不含特征点的 LCU 块，在保持视频质量基本稳定的前提下，减少比特的分配。最后的实验结果表明相比于原始平台算法 HM15.0，所提算法可以提高视频的匹配率，最高可以增加 2.41%，平均可以增加 1.27%。算法的时间复杂度也在可接 - 46 - 宁波大学硕士专业学位论文受范围内，视频质量波动性跟原始平台相差无几，没有损失视频的客观质量，从主观的角度看，也没有出现某些块分配码率过多，剩余块分配码率过少而出现的块效应，所提算法在兼顾主观质量的情况下，提升了特征的匹配效率。 5.2 未来研究展望码率控制算法在带宽受限的情况下传输视频数据，在保证视频的整体质量方面具有非常重大的意义。本文对 HEVC 码率控制算法做了一些改进措施，但是对其发展贡献有限，有待于进一步的工作。结合本论文的研究内容，未来的研究可以从几个方向入手： 1) 结合视觉因素的码率控制模型。如何利用人眼视觉的掩蔽效应提高压缩效率，更好的去除视觉冗余，改善编码性能是一大研究热点，可通过考虑更加贴近人眼的视觉因子，比如 JND 或者其他视觉感知因子等对编码比特的影响。建立视觉因素与比特的模型，根据视觉注意模型来分配比特，使得编码压缩后的质量更加符合人的视觉需求。当前虽然有很多的码率控制算法对这方面展开研究，但是人眼视觉不仅仅是关注一些运动物体和脸部区域，有时候人们也会主观选择一些物体进行关注，如交通监控系统，人们就会对车辆和行人感兴趣。利用人眼视觉在特定场景下的注意机制，如何将特殊情况下的人眼视觉注意机制应用到码率控制比特分配中是需要重点研究和探索的问题。 2) 随着计算机视觉技术的大力发展，视频的智能化处理越来越普及，如何提高压缩视频与原始视频的匹配率，在计算机视觉处理中很重要。同样带宽下，特征保护的越多，算法在处理压缩视频时，与处理原始视频时的效果越接近。在本论文的特征保护码率控制算法中，特征掩膜需要预先提取，此方法增加了在实际应用中的复杂度，如何利用时空相关性甚至频域相关性来预测当前帧的特征区域进行编码也是可以进一步研究的方向。 3) 码率控制算法在整体的比特控制精度上取得了很好的效果，但是每一帧预分配比特与实际消耗比特之间的误差还有很大的提升空间，可以利用深度学习和机器学习对比特分配进行改进，利用图像的特征进行训练，提高模型参数的准确性，再根据训练好的模型分配每一帧或者每一个 LCU 的比特，提高比特的利用效率和比特控制精度。 - 47 - 基于 HEVC 的码率控制算法参考文献 [1] Chernock R, Whittaker J C. Next-generation broadcast television: ATSC 3.0 [Standards in a Nutshell], IEEE Signal Processing Magazine, 2016, 33(1):158-162. [2] VCEG I. Joint Call for proposals on video compression technology [C]. VCEGAM91 and MPEG N, 2010, 11113: 2010. [3] Sullivan G J, Ohm J R, Han W J, et al. Overview of the High Efficiency Video Coding (HEVC) standard[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2012, 22(12):1649-1668. [4] Sanz-Rodriguez S, Schierl T. A rate control algorithm for HEVC with hierarchical GOP structures. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, Vancouver, BC, 2013:1719-1723. [5] Liang X, Wang Q, Zhou Y, et al. A novel R-Q model based rate control scheme in HEVC. 2013 Visual Communications and Image Processing (VCIP), Kuching, 2013: 1-6. [6] Xu M, Deng X, Li S, et al. Region-of-interest based conversational HEVC coding with Hierarchical perception model of face[J]. IEEE Journal of Selected Topics in Signal Processing, 2014, 8(3):475-489. [7] Luo J, Ahmad I, Sun Y. Controlling the bit rate of multi-object videos with non-cooperative game theory[J]. IEEE Transactions on Multimedia, 2010, 12(2):97-107. [8] Tan Y H, Yeo C, Li Z. Single-pass rate control with texture and non-texture rate-distortion models[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2012, 22(8): 1236-1245. [9] Liu M, Guo Y, Li H, et al. Low-complexity rate control based on ρ-domain model for Scalable Video Coding[C]. 2010 IEEE International Conference on Image Processing, Hong Kong, 2010:1277-1280. [10] Zhang F, Steinbach E. Improved ρ-domain rate control with accurate header size estimation[C]. 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Prague, 2011:813-816. [11] Wang S, Ma S, Wang S, et al. Quadratic ρ-domain based rate control algorithm for HEVC[C]. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, Vancouver, BC, 2013: 1695-1699. [12] He Z, Wu D O. Linear rate control and optimum statistical multiplexing for H.264 Video Broadcast[J]. IEEE Transactions on Multimedia, 2008, 10(7): 1237-1249. [13] Li B, Li H Q, Li L, et al. Lambda domain rate control algorithm for High Efficiency Video Coding[J]. IEEE Transactions on Image Processing, 2014, 23(9): 3841-3854. [14] Xie J F, Song L, Xie R, et al. Temporal dependent bit allocation scheme for rate control in HEVC[C]. 2015 IEEE Workshop on Signal Processing Systems (SiPS), Hangzhou, 2015:1-6. [15] Li S L, Xu M, Wang Z L. A novel method on optimal bit allocation at LCU level for rate control in HEVC[C]. 2015 IEEE International Conference on Multimedia and Expo (ICME), Turin, 2015: 1-6. [16] Zhao H L, Xie W, Zhang Y C, et al. An SSIM-motivated LCU-level rate control algorithm for HEVC[C]. 2013 Picture Coding Symposium (PCS), San Jose, CA, 2013: 85-88. [17] Tang T Y and Liu Z. Rate control based on content complexity in video coding[J]. Journal of Electronics & Information Technology, 2006, 28(6): 1115 -1119. [18] Cui Z G and Zhu X C . Image complexity adaptive intra-frame rate control algorithm for H.264/AVC [J].Journal of Electronics & Information Technology, 2010, 32(11): 2547-2553. [19] Tian L, Zhou Y M, Cao X J, et al. A new rate-complexity-QP algorithm (RCQA) for High Efficiency Video Coding intra-picture rate control[C]. 2014 International Conference on Computing, Networking and - 48 - 宁波大学硕士专业学位论文 Communications (ICNC), 2014:375-380. [20] Gao W, Kwong S, Zhou Y, et al. SSIM-based game theory approach for rate-distortion optimized intra frame CTU-level bit allocation[J]. IEEE Transactions on Multimedia, 2016, 18(6): 988-999. [21] Sanchez V, Auli l F, Vanam R, et al. Rate control for lossless region of interest coding in High Efficiency Video Coding intra coding with applications to digital pathology images [C]. Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on. IEEE, 2015:1250-1254. [22] Wang M H, Ngan K N, Li H L. An efficient frame-content based intra frame rate control for High Efficiency Video Coding[J]. IEEE Signal Processing Letters, 2015, 22(7): 896-900. [23] Tu Q, Guo X Q, Men A D, et al. A frame-level HEVC rate control algorithm for videos with complex scene over wireless network[C]. 2014 IEEE 79th Vehicular Technology Conference (VTC Spring), Seoul, 2014:1-5. [24] Li W, Yang F Z, Ren P. H.265/HEVC frame-level bitrate allocation algorithm considering video content [J]. Journal on Communications, 2015, 134(5):1167-1174. [25] Lu Q, Cen F, Xu W. Efficient rate control for intra-only coding in high efficiency video coding[C]. 2013 Ninth International Conference on Natural Computation (ICNC), Shenyang, 2013: 1329-1333. [26] Sun H, Zhang C, Gao S. LCU-level bit allocation for rate control in High Efficiency Video Coding[C]. 2014 IEEE China Summit & International Conference on Signal and Information Processing (ChinaSIP), Xi'an, 2014: 354-358. [27] Hou Y, Ye Y, Lei J J, et al. Rate control for HEVC based on spatio-temporal context and motion complexity [J]. Multimedia Tools & Applications, 2016:1-19. [28] Zheng Q Y, Yu M, Peng Z J, et al. Human visual system-based rate control algorithm for H.264/AVC[J]. Journal of Optoelectronics Laser, 2011, 22(3):440-445. [29] Sun H, Gao S, Zhang C. Adaptive bit allocation scheme for rate control in high efficiency video coding with initial quantization parameter determination[J]. Signal Processing Image Communication, 2014, 29(10):1029-1045. [30] Marwa M, Marco C, Beatrice P P, et al. ROI-based rate control using tiles for an HEVC encoded video stream over a lossy network, Image Processing (ICIP)[C]. 2015 IEEE International Conference on, Quebec City, QC, 2015: 1389-1393. [31] Wang M H and Ngan K N. Optimal bit allocation in HEVC for real-time video communications[C]. Image Processing (ICIP), 2015 IEEE International Conference on, Quebec City, QC, 2015: 2665-2669. [32] Liu Y, Li Z G, Soh Y C. Region-of-interest based resource allocation for conversational Video communication of H.264/AVC[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2008.18(1): 134-139, [33] 孙乐, 戴明, 陈晓露,等. 基于人眼视觉系统的 H.264/AVC 码率控制算法[J]. 光学精密工程, 2014, 22(4):1020-1028. [34] Wu C Y, Su P C, Yeh C H, et al. A joint content adaptive rate-quantization model and region of interest intra coding of H.264/AVC[C]. 2014 IEEE International Conference on Multimedia and Expo (ICME), Chengdu, 2014:1-6. [35] Deng X, Xu M, Wang Z. A ROI-based bit allocation scheme for HEVC towards perceptual conversational video coding[C]. 2013 Sixth International Conference on Advanced Computational Intelligence (ICACI), Hangzhou, 2013:206-211. [36] Chiang J C, Hsieh C S, Chang G, et al. Region-of-interest based rate control scheme with flexible quality on demand[C]. 2010 IEEE International Conference on Multimedia and Expo, Suntec City, 2010:238-242. - 49 - 基于 HEVC 的码率控制算法 [37] Wang P, Zhang Y, Hu H M, et al. Region-classification-based rate control for flicker suppression of I-frames in HEVC[C].2013 IEEE International Conference on Image Processing, Melbourne, VIC, 2013: 1986-1990. [38] Lee B, Kim M, Nguyen T Q. A frame-level rate control scheme based on texture and non-texture rate models for High Efficiency Video Coding[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2014, 24(3): 465-479. [39] Li S, Xu M, Deng X, et al. Weight-based R- λ, rate control for perceptual HEVC coding on conversational videos [J]. Signal Processing Image Communication, 2015, 38(C):127-140. [40] Wang S, Ma S, Wang S, et al. Rate-GOP based rate control for High Efficiency Video Coding[J]. IEEE Journal of Selected Topics in Signal Processing, 2013, 7(6): 1101-1111. [41] Liu M, Ren P, Xiang Z. Frame-level bit allocation for hierarchical coding of H.265/HEVC considering dependent rate-distortion characteristics[J]. Signal Image & Video Processing, 2016, 10(8):1457-1463. [42] Zupancic I, Naccari M, Mrak M, et al. Studying rate control methods for UHDTV delivery using HEVC[C].2016 International Symposium ELMAR, Zadar, 2016: 47-50. [43] Zhou M, Zhang Y, Li B, et al. Complexity-based intra frame rate control by jointing inter-frame correlation for high efficiency video coding [J]. Journal of Visual Communication & Image Representation, 2017, 42:46-64. [44] Yan B, Sun K. Joint complexity estimation of I-frame and P-frame for H.264/AVC rate control[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2012, 22(5): 790-798. [45] Zhang Z W, Jing T, Han J N.A new rate control scheme for video coding based on region of interest, in IEEE Access , 2017:1-1. [46] Hamidouche W, Raulet M, Deforges O. 4K Real-time and parallel software video decoder for multilayer HEVC extensions[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 26(1): 169-180. [47] Biatek T, Hamidouche W, Travers J F, et al. Adaptive rate control algorithm for SHVC: Application to HD/UHD[C]. 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Shanghai, 2016: 1382-1386. [48] Li L, Li H Q. λ Domain based optimal bit allocation for scalable high efficiency video coding[C]. 2015 IEEE International Symposium on Circuits and Systems (ISCAS), Lisbon, 2015:2788-2791. [49] Yang S H, Vo P B. Adaptive bit allocation for consistent video quality in scalable High Efficiency Video Coding[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016:1-1. [50] Boyce J M, Ye Y, Chen J, et al. Overview of SHVC: scalable extensions of the High efficiency video coding standard[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 26(1): 20-34. [51] Li L, Li B, Liu D, et al. λ-Domain rate control algorithm for HEVC scalable extension[J]. IEEE Transactions on Multimedia, 2016, 18(10): 2023-2039. [52] Wang M H, Ngan K N, Li H. Low-delay rate control for consistent quality using distortion based lagrange multiplier[J]. IEEE Transactions on Image Processing, 2016, 25(7): 2943-2955. [53] Hou J, Wan S, Ma Z, et al. Consistent video quality control in scalable video coding using dependent distortion quantization model[J] IEEE Transactions on Broadcasting, 2013,59(4): 717-724. [54] Xu L, Li S, Ngan K N, et al. Consistent visual quality control in video coding[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2013, 23(6): 975-989. [55] Li S X, Xu M, Wang Z L, et al. Optimal bit allocation for CTU level rate control in HEVC[J]. IEEE - 50 - 宁波大学硕士专业学位论文 Transactions on Circuits and Systems for Video Technology, 2016:1-1. [56] Fiengo A, Chierchia G, Cagnazzo M, et al. Rate allocation in predictive video coding using a convex optimization framework[J]. IEEE Transactions on Image Processing, 2017, 26(1): 479-489. [57] Chen Q, Wu D. Delay-rate-distortion model for real-time video communication[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2015, 25(8): 1376-1394. [58] Chao J, Huitl R, Steinbach E, et al. A novel rate control framework for SIFT/SURF feature preservation in H.264/AVC video compression[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2015, 25(6): 958-972. [59] Yoon Y J, Kim H, Jung S H, et al. A new rate control method for hierarchical video coding in HEVC[M]. IEEE international Symposium on Broadband Multimedia Systems and Broadcasting, Seoul, 2012: 1-4. [60] Zeng H, Ngan K N, Wang M. Perceptual adaptive lagrange multiplier for high efficiency video coding[C].2013 Picture Coding Symposium (PCS), San Jose, CA, 2013: 69-72. [61] GAO W, Kwong S, and Yuan H, et al. DCT coefficient distribution modeling and quality dependency analysis based frame-level bit allocation for HEVC[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 26(1): 139-153. [62] Wang X, Kwong S, Zhang Y, et al. Applying game theory to rate control optimization for Hierarchical B-pictures[J]. IEEE Transactions on Broadcasting, 2013, 59(4): 591-601. [63] Hachicha W, Kaaniche M, Beghdadi A, et al. Efficient inter-view bit allocation methods for stereo image coding[J]. IEEE Transactions on Multimedia, 2015, 17(6): 765-777. [64] Schwarz H, Marpe D, Wiegand T. Overview of the scalable video coding extension of the H.264/AVC Standard[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2007, 17(9): 1103-1120. [65] Jing X, Chau L P, Siu W C. Frame complexity-based rate-quantization model for H.264/AVC Intra frame Rate Control[J]. IEEE Signal Processing Letters, 2008, 15:373-376. [66] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Joural of Computer Vision, 2004, 60(2):91-110. - 51 - 基于 HEVC 的码率控制算法在学研究成果 1、作为研究人员参加的项目 /课题 [1] 国家自然科学基金资助项目（No.61620106012） [2] 浙江省自然科学基金资助项目（ No.LY16F010002, No.LY17F010005） [3] 宁波市自然科学基金资助项目（No.2015A610127, No.2015A610124） 2、在学期间所获奖励 [1] 2015-2016 年宁波大学学业奖学金二等奖 [2] 2016-2017 年宁波大学学业奖学金二等奖 [3] 第十二届全国研究生数学建模竞赛三等奖 3、在学期间发表的论文 [1] 基于复杂度分析的 HEVC 帧内码率控制算法[J]. 计算机应用与软件 ,2017,(01):143-148.(第一作者) 4、参与的科研项目 [1] An adaptive bit mismatch rectification algorithm for intra frame rate control in HEVC, 2015 8th International Congress on Image and Signal Processing (CISP), Shenyang, 2015：80-84. (第三作者) - 52 -

基于HEVC的码率控制算法硕士论文

Products

Support

基于HEVC的码率控制算法硕士论文

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib