1673-9418/2023/17(01)-0001-26 doi: 10.3778/j.issn.1673-9418.2205035 计算机科学与探索 Journal of Frontiers of Computer Science and Technology 人脸视频深度伪造检测方法综述 张 璐 1,2,芦天亮 1+,杜彦辉 1 1. 中国人民公安大学 信息网络安全学院,北京 100038 2. 山东警察学院 侦查系,济南 250200 + 通信作者 E-mail: lutianliang@ppsuc.edu.cn 摘 要:深度伪造(deepfake)技术的非法应用会对社会稳定、个人名誉甚至国家安全造成恶劣影响,因此针对 人脸视频的深度伪造检测成为计算机视觉领域中的难点与研究热点。目前该领域的研究建立在传统人脸识 别与图像分类技术基础上,通过搭建深度学习网络判别真伪,但存在数据集质量不一、多模态特征如何有效结 合、模型泛化能力较差等问题。为进一步促进深度伪造检测技术的发展,对当前各类人脸视频深度伪造算法 进行了全面总结,并对已有算法进行了归类、分析、比较。首先,主要介绍人脸视频深度伪造检测数据集;其 次,对近三年主要的伪造视频检测方法进行总结,以特征选择为切入点,从空间特征、时空融合特征、生物特征 的角度对各项检测技术进行分类整理,并对基于水印与区块链等非主流检测方法进行介绍;然后,从特征选 择、迁移学习、模型设计与训练思路等方面介绍了各类检测方法所呈现出的主流趋势;最后,对全文进行总结 并对未来技术发展进行展望。 关键词:深度学习;多媒体取证;深度伪造;视频检测;人脸篡改 文献标志码:A 中图分类号:TN911.73;TP391 Overview of Facial Deepfake Video Detection Methods ZHANG Lu1,2, LU Tianliang1+, DU Yanhui1 1. Institute of Information and Network Security, Peoples Public Security University of China, Beijing 100038, China 索 2. Department of Investigation, Shandong Police College, Jinan 250200, China 探 Abstract: The illegal use of deepfake technology will have a serious impact on social stability, personal reputation and even national security. Therefore, it is imperative to develop research on facial deepfake videos detection tech- 与 nology, which is also a research hotspot in the field of computer vision in recent years. At present, the research is 学 based on traditional face recognition and image classification technology, building a deep neural network to deter- g r 科 o . j 机 a e 算 c . 计 w w w mine a facial video is real or not, but there are still problems such as the low quality of dataset, the combine of multimodal features and the poor performance of model generalization. In order to further promote the development of deepfake video detection technology, a comprehensive summary of various current algorithms is carried out, and the existing algorithms are classified, analyzed and compared. Firstly, this paper mainly introduces the facial deepfake 基金项目:中国人民公安大学 2020 年基本科研业务费重大项目(2020JKF101);国家社会科学基金重大项目(21&ZD193);中国人 民公安大学 2022 年拔尖创新人才培养经费支持研究生科研创新项目(2022yjsky014);国家重点研发计划“网络空间安全”重点专 项(2017YFB0802804)。 This work was supported by the Major Project of 2020 Basic Scientific Research Fund of Peoples Public Security University of China (2020JKF101), the Major Project of the National Social Science Foundation of China (21&ZD193), the 2022 Innovative Talent Development Funds to Support Postgraduate Research and Innovation Projects of Peoples Public Security University of China (2022yjsky014), and the“Cyberspace Security”Key Project of the National Key Research and Development Program of China (2017YFB0802804). 收稿日期:2022-05-09 修回日期:2022-07-01 Journal of Frontiers of Computer Science and Technology 2 2023, 17(1) 计算机科学与探索 videos detection datasets. Secondly, taking feature selection as the starting point, this paper summarizes the main method of detecting deepfake videos in the past three years, classifies various detection technologies from the perspectives of spatial features, spatial-temporal fusion features and biological features, and introduces some new detection methods based on watermarking and blockchain. Then, this paper introduces the new trends of facial deepfake video detection methods from the aspects of feature selection, transfer learning, model architecture and training ideas. Finally, the full text is summarized and the future technology development is prospected. Key words: deep learning; multimedia forensics; deepfake; video detection; face forgery 2017 年 12 月,一个名为“DeepFakes”的 Reddit 用 1 数据集 户正式发布了第一个利用深度神经网络生成的以好 数据集主要用来训练、验证及评估模型的质量 莱坞女星盖尔·加朵为主人公的伪造色情视频,这正 与性能表现。与人脸识别、图像分类等传统计算机 式标志着人脸视频深度伪造技术的兴起。单词“深度 视觉任务相比,人脸视频深度伪造检测任务是近几 伪造” (deepfake)源 自“ 深 度 学 习 ” (deep learning)与 年 伴 随 着 以 DeepFake 为 代 表 的 图 像/视 频 伪 造 技 术 “造假” (fake)的组合,这成为利用深度学习实现人物 的产生发展而诞生的,因此深度视频伪造的数据集 换脸、表情编辑等视频伪造的一系列技术的统称,用 种类与数量相对较少。当前使用较为广泛的人脸深 以躲避识别、混淆视听、娱乐用户以及其他目的[1]。近 度视频伪造数据集如表 1 所示,其中 DFDC(deepfake 年来深度伪造技术已经逐渐从娱乐领域渗透到了政 detection challenge)[3]、FaceForensics ++ [4]、Celeb- DF[5] 治、媒体、体育等多个领域。在商业领域,电影特效、 等均是被广泛应用的数据集,但近几年随着研究思 广告营销等是深度伪造技术两大应用方向。在政治 路的创新,针对不同技术方法、任务及特点也出现了 领域,深度伪造技术易带来负面影响,尤其是在操纵 许多新的数据集。 选举方面极易带来负面的信任危机。例如 2016 年美 (1)UADFV、DF-TIMIT 国大选期间由特朗普支持者所制作的佩洛西的伪造 UADFV[6]、DF- TIMIT[7] 均 是 人 脸 视 频 深 度 伪 造 视频在互联网上被大肆传播;2018 年美国也出现了 检测研究早期所提出的数据集,可作为基准测试数 利用深度伪造视频伪造前任总统对时任总统进行辱 据集使用。其缺点在于数据集规模较小,伪造技术 骂的视频片段 ;近期伴随着俄乌战场形势的发展, 较浅,整体质量较低,因此检测难度低,各类基准方法 在互联网上也出现了俄罗斯总统普京宣布已实现和 均可取得较高检测率,无法有效判别模型的可用性。 平,以及乌克兰总统泽连斯基宣布放下武器的伪造 除此之外,DF-TIMIT 数据集带有原始视频的音轨信 视频。 息,没有对音轨信息进行修改,因此可通过音画不同 [2] 深度伪造的技术原理简单,最常用的两种技术 便 是 自 动 编 码 器 与 对 抗 生 成 网 络(generative adver- 索 与 探 步对视频真伪进行检测,研究意义与价值相对较低。 (2)FaceForensics++ 学 sarial network,GAN)。近几年随着技术的发展,人脸 为弥补传统数据集伪造质量较低、伪造技术单 视频深度伪造的成本与难度越来越低,出现了很多 一的缺点,FaceForensics++数据集被提出并被广泛应 “傻瓜式” “ 一键式”的换脸软件与应用,这进一步使 用。该数据集从 YouTube 获取 1 000 个原始视频,并 得互联网上各类针对人脸的深度伪造视频数量激 对其分别运用多种篡改技术生成共 5 000 个伪造视 增,颠覆了人们对于“耳听为虚、眼见为实”观念的认 频,且具有三种不同压缩率(c0,c23,c40)。数据集的 识。据统计,当前深度伪造产品泛滥成灾,增长率已 生成采用了 DeepFakes、Face2Face、FaceSwap、Neural 超 300%,其滥用已对私人权利、个人名誉甚至是社会 Textures 与 FaceShifter 五种技术。其中,FaceSwap 是 稳定与国家安全产生威胁,因此对于人脸深度伪造 一种基于图形的方法,用于将面部区域从源视频传 视频,应当掌握一定的检测方法,以能够实现对绝大 输 到 目 标 视 频 ,其 利 用 稀 疏 检 测 到 的 脸 部 特 征 点 g r 科 o . j 机 a e 算 c . 计 w w w 多数的伪造视频图像的鉴定分类。 本文以人脸深度伪造视频为研究对象,主要针 (landmarks)提取源人物与目标人物的脸部图像,并 在脸部交换之后通过渲染模型与图像混合进行颜色 对 2019 年以来所公开的人脸视频深度伪造检测研究 校正并完成人脸替换;DeepFakes 基于自动编码器, 成果在采用特征的角度上进行总结。 编码器提取面部图像的潜在特征,解码器重建面部 张 3 璐 等:人脸视频深度伪造检测方法综述 表1 Table 1 真实/伪造 数据量 数据集名称 UADFV Datasets of facial deepfake video detection 真实 数据来源 49/49 DF-TIMIT 人脸视频深度伪造检测各类数据集 YouTube 优点 缺点 发布 年份 FakeAPP 提出时间较早 数据量较少 2018 包含不同像素级的子数 音轨未修改 据集 2018 视频伪造技术 0/620 VidTIMIT FaceSwap 1 000/5 000 YouTube DeepFake、Face2Face、 伪造技术较多, 包含多种 数据集整体质量较 2019 FaceSwap、Neural Textures 分辨率与压缩率 差,伪造痕迹明显 Celeb-DF 590/5639 YouTube DeepFake 分 辨 率 高 ,视 频 颜 色 自 伪造方法较单一 , 2019 然,数据集质量较高 数据集规模较小 DFDC 23 654/104 500 真人拍摄 DFAE、FaceSwap、 FSGAN、StyleGAN 等 全真实场景,贴近现实, 数据集整体质量较 2020 数量巨大 差,伪造痕迹明显 DeeperForensics-1.0 50 000/10 000 真人拍摄 YouTube DeepFake 数 据 规 模 较 大 、多 样 性 伪 造 视 频 生 成 算 丰富且充分考虑现实世 法单一,采用编码 2020 界的真实情况 器方式生成 FFIW 12 000/10 000 YouTube FSGAN、FaceSwap 使用人脸交换作 针 对 多 场 景 情 况 ,伪 造 为 伪 造 数 据 生 成 2021 质量较高 算法 KoDF 62 166/175 776 真人拍摄 FaceSwap、FSGAN 等 数 量 巨 大 ,平 衡 数 据 集 数据质量不一 中亚洲人所占比例 使用人脸篡改作 数 量 巨 大 ,视 频 中 每 一 为 伪 造手段,应用 个人物都提供了参考信 2020 于基于身份对比伪 息与真实对应视频 造检测研究 FaceForensics++ (FF++) Vox-DeepFake 1 125 429/1 045 786 VoxCeleb DeepFake、FSGAN、 FaceShifter WildDeepfake 3 805/3 509 互联网 未公开 包 括 现 实 中 多 场 景 ,具 数据集规模较小 有较高真实性 FFPMS 0/14 000(帧) FF++ DeepFake、Face2Face、 FaceSwap 等 具有帧级与视频级标签 2021 2019 数据规模小,整体 2020 伪造质量较低 图像,为了在源图像和目标图像之间交换面部,需要 考虑到不同的性别、年龄、种族的人群,并使用较为 两个编码器/解码器对;Face2Face 是一种面部重演 单一的 DeepFakes 方式生成 5 639 个平均长度为 13 s 系统,可将源视频的表情转移到目标视频,同时保持 的 MPEG4.0 格式的伪造视频。数据集通过提升人脸 目标人的身份,是人脸属性编辑的典型代表;Neural 分辨率,建立伪造视频与原始视频中人脸的颜色转 Textures[9] 使用原始视频数据来学习目标任务的神经 换算法,更好地融合伪造区域与原始区域的边界等 纹 理 ,模 型 只 修 改 与 嘴 部 区 域 相 对 应 的 面 部 表 情 , 算法提高数据质量。 [8] 探 与 学 索 而 眼 睛 区 域 保 持 不 变 ,在 模 型 训 练 过 程 中 则 使 用 该数据集相较于之前各类数据集的整体质量较 Pix2Pix 中的基于补丁的 GAN 损失;FaceShifter 克 高,可以用于模拟真实环境中的伪造生成视频。其 服了现有技术合成交换人脸时仅利用来自目标图像 缺点是数据集整体规模较小,且正负样本不平衡,通 的有限信息的缺陷,解决交换的人像中可能存在的 常在模型的跨库测试中模拟现实世界中的伪造视频 遮挡问题,提升面部替换逼真度。 进行测试,衡量模型的泛化能力。 [10] g r 科 o . j 机 a e 算 c . 计 w w w [11] “FaceForensics++”数据集特点是数据规模大,伪 (4)DFDC 造技术种类较多,但是视觉效果较差,视频面部合成 当前常用的人脸视频深度伪造检测数据集普遍 痕迹明显,因此常被用作模型训练,以进行后续的库 存在数据规模较小的问题,基于此现状,DFDC 数据 内与跨库测试。 集被提出并应用。该数据集是目前较大的公开可用 (3)Celeb-DF 的领域内数据集之一,包含来自 3 426 名付费演员的 鉴于上述各类数据集数据质量参差不齐的现 10 万多个视频片段,且均统一为 10 s 的视频长度,便 状 ,Celeb- DF 数 据 集 被 提 出 与 应 用 。 该 数 据 集 从 于模型的训练,减少预处理步骤。此外,数据集中的 YouTube 上采集了 59 位名人的 590 个真实视频,视频 伪 造 视 频 通 过 多 种 DeepFakes、GAN 和 Non-Learned Journal of Frontiers of Computer Science and Technology 4 2023, 17(1) 计算机科学与探索 方 法 生 成 ,考 虑 了 多 种 生 成 技 术 ,相 较 于 传 统 的 重。考虑到东西方人在脸型、骨形、行为习惯等方面 UADFV 与 DF-TIMIT 等数据集具有较高的多样性。 的不同,Kwon 等人建立了一个基于韩国主题的伪造 该数据集中视频来源为真人拍摄,故相较于其 视 频 数 据 集 KoDF(Korean deepfake)[16],其 是 第一个 他数据集来说视频内容较为生活化,全真实场景,贴 以亚洲人为视频人物主题的伪造视频检测数据集。 近现实。其缺点在于人脸所占部分较小,动作幅度 数 据 集 共 包 含 403 个 人 物 的 175 776 个 伪 造 视 频 与 较大时边界伪影会比较明显。 62 166 个真实视频,数据集规模巨大,且利用 6 种不 (5)DeeperForensics-1.0 [12] 同的合成模型生成深度伪造视频。为了平衡亚洲人 DeeperForensics-1.0 数据集共计包括 60 000 个 在现有的深度造假检测数据库中所占的比例,KoDF 视频数据,其中真实视频 50 000 个,伪造视频 10 000 的参与者主要由韩国人组成,视频的收集考虑到人 个,总共 1 760 万帧。数据集的生成采用了 DF-VAE 物的年龄、性别与所在地的分布,且在视频拍摄过程 (deepfake variational auto-encoder)算法,考虑到质量 中引入了摄像机角度、焦距、位置、背景、道具、灯光 [12] 逼真、多样性丰富、数量充足、视频有足够的压缩模 等方面的细微变化。 数据集的生成采用了 FaceSwap、DeepFakeLab[14]、 糊等变化要求,其包括结构提取模块、解耦模块与融 合模块,并通过光流差异最小化来优化时序的连续 FSGAN[15]、FOMM(first order motion model)[17]、ATFHP (audio-driven talking face head pose)[18]、Wav2Lip[19] 六 性,提高伪造视频的质量。 数据集的伪造生成充分考虑并模拟了现实世界 种伪造技术,数据质量整体较高。其缺点是质量差 的具体情况,考虑到不同的头部姿势、照明条件、脸 距较大,部分伪造视频中篡改痕迹明显,无法有效衡 部表情、相机角度、人物肤色、失真情况等多方面因 量模型分类能力。 素。其缺点在于伪造生成过程的方式较为单一,采 (8)Vox-DeepFake 基于身份一致性的检测方法是人脸视频深度伪 用“面部识别-脸部交换”的自编码器模式。 造检测的重要方法,且取得了较高的准确率,但是该 (6)FFIW 传统数据集中,每一帧所出现的人脸数量通常 方法依赖于具有大量参照对象的数据集,传统领域 为 1,而在现实世界中的伪造视频却不受人脸数量的 内数据集无法满足该方法的要求。因此 Dong 等人建 限制。同一帧画面中可能会出现多个人脸,并且选 立了一个包含视频中所涉及人物的参考视频的数据 择其中部分或者全部的人脸进行篡改。因此为了增 集 Vox-DeepFake[20],用于实现基于身份一致性的视频 强模型在同一帧画面中的真伪辨别能力,Zhou 等人 伪造检测。 索 针对多场景下的伪造检测而建立了 FFIW(face foren- Vox-DeepFake 数据集是在 VoxCeleb 数据集基础 sics in wild)数据集 。该数据集中共包括 10 000 个 上 进行建设的,是当前数据规模最大的数据集,包 高质量的伪造视频,每帧会出现多张人脸(最少 1 张, 括 4 000 个身份和超过 100 万个伪造视频,平均每个 最多 15 张,平均为 3 张人脸),其中部分或者全部人脸 身份对应 25.2 个独立的伪造视频,因此提供了更大 被篡改伪造,这更能代表真实世界环境中的 伪 造 情 的参考多样性。该数据集的缺点是只考虑换脸这一 况 。 数 据 集 的 生 成 采 用 了 DeepFaceLab 、FSGAN 种 伪 造 类 型 ,且 数 据 集 主 要 应 用 于“ 基 于 身 份 一 致 (face swapping generative adversarial networks)[15]、 性”检测方法,虽然检测准确率较高,但主要针对具 [13] 与 学 g r 科 o . j 机 a e 算 c . 计 w w w [14] FaceSwap 三种伪造技术。 探 [21] 该数据集除了视频级别的标注,还提供了人脸 级别的标注,方便模型训练。伪造数据的生成基于 有参照视频的重要人物,故应用场景较少。 (9)WildDeepfake 当前大部分数据集中原始视频采集来源单一, 对抗网络,节省人力成本,但是生成算法仍是基于人 且视频中场景单一,与真实世界中丰富多样的场景 脸交换,因此数据集的难度取决于模型所采用的人 不符,在场景种类方面无法模拟真实现实。为克服 脸交换算法。 此问题,Zi 等人建立了 WildDeepfake 数据集 [22],其中 (7)KoDF 当前大部分的数据集原始数据来源为 YouTube 真实视频 3 805 个,伪造视频 3 509 个。数据集中的 视频内容更加多样化,各种各样的活动(如广播、电 截取或真人拍摄,其中绝大部分均为欧美人物主题, 影、采访、谈话和许多其他),不同的场景、背景、照明 亚 洲 人 在 其 中 所 占 比 例 极 低 ,数 据 不 平 衡 现 象 严 条件、压缩率、分辨率和格式等,更符合真实环境中 张 5 璐 等:人脸视频深度伪造检测方法综述 的复杂情况。但该数据集整体规模较小,只能用作 模型的测试与验证,无法有效利用其进行训练以增 强模型表现。 2.1 人脸视频深度伪造检测难点 人脸视频深度伪造检测技术在发展过程中出现 了模型架构多样、特征选择灵活的特点,但当前的研 (10)FFPMS 究成果依然难以达到落地应用的标准。该挑战的难 考虑到伪造视频中并非所有帧均为篡改帧与部 分帧伪造质量较低,从而会影响到模型整体学习效 点主要体现在以下几方面: (1)多模态数据的使用 果的特殊情况,Li 等人提出应用多实例学习的思想 在本文所介绍的各类常用伪造检测视频数据集 进 行 视 频 真 伪 检 测 ,并 基 于 该 方 法 构 建 了 FFPMS 中,大部分均不包括音频数据,只保留视觉数据。而 (face forensics plus with mixing samples)数 据 集 ,实 当前随着伪造技术的不断发展,单纯使用图像画面, 现在帧级和视频级对不同的检测方法进行评估 。 从空域、频域、时域等方面提取特征灌入模型进行训 该数据集从压缩率为 c40 的 FaceForensics++数据集 练以实现伪造检测的思路必将越来越呈现出局限性。 的每个视频中进行抽取,并在视频中出现多张人脸 因此对于多模态数据的使用也是该领域研究的难点 时随机对其进行部分或者全部的替换,因此视频包 之一,体现在如何有效提取多模态数据并将其特征 括帧级与视频级的数据标注。该数据集缺点是数据 化,以及如何有效融合多模态数据特征实现不同类 量较小,且整体伪造质量较低,部分视频伪造痕迹明 型特征的相互融合、相互补充。为解决该问题,众多 显,无法用来进行有效的模型训练。 研究者从音画特征的提取与训练入手,取得了一定 [23] 效果。但当前对于人脸视频深度伪造检测领域的多 2 基于特征选择的人脸视频深度伪造检测方法 近几年伴随着深度学习的发展,人脸视频深度 伪造的检测也逐渐摆脱了人工挖掘特征、传统机器 模态数据研究,依然处于起步阶段,研究人员与成果 较少。 (2)训练数据质量与数量不一 学习分类的模式,使用各类深度神经网络进行检测 人脸视频深度伪造检测常用数据集如前文所 鉴定。并在模型训练的过程中,利用多种训练方式 述,但其数据质量与数量不一。模型训练结果好坏 不断提高精确度 。同时在特征利用方面,也呈现出 极大程度取决于训练数据的规模与质量,因此如何 选择范围广泛化、关键特征重点化的特点。本章首 有效利用已有数据集也是该领域研究难点之一。为 先总结了人脸视频深度伪造检测方面的难点,然后 解决该问题,众多研究者从创建新型数据集、采用各 重点聚焦于近三年在该领域的研究成果,以模型所 类数据增强方法等方面进行解决。 [24] 使用的视频图像特征为切入点,如图 1 所示,从空间 (3)代表性特征提取 索 探 特征、时空融合特征、生物特征等方面,对在该领域 模型泛化能力是人脸视频深度伪造检测模型的 内的最新研究进展进行梳理总结,并对这些检测方 主要衡量指标,具体体现在模型跨库测试与跨伪造 式中所呈现出的发展趋势进行分类整理,以期为后 方法的测试等方面。因此,如何在训练数据中提取 续的研究提供方向与借鉴。 出不因伪造方法而异的区分性特征也是制约该领域 学 g r 科 o . j 机 a e 算 c . 计 w w w 图1 Fig.1 与 人脸视频深度伪造检测方法分类 Classification of facial deepfake video detection methods 6 Journal of Frontiers of Computer Science and Technology 2023, 17(1) 计算机科学与探索 发展的重要因素。为解决该问题,研究者从生成对 使用 Scharr 算子提取 YCbCr 色彩空间中 Cb 和 Cr 分 抗、自监督、对比学习等方法提出了众多解决方案, 量的图像边缘信息,利用拉普拉斯算子(Laplacian)提 并取得了一定成果。 取 RGB 色 彩 空 间 中 G 分 量 的 图 像 边 缘 二 阶 梯 度 信 2.2 息,并用 EfficientNet-B0 进行分类。Nataraj 等人 [39] 提 基于空间特征的检测方法 基于空间特征对人脸深度伪造视频进行检测是 取了视频帧中像素级别的共现矩阵,并使用 CNN 进 较为传统和有效的检测方法,也是应用较广的特征 行视频真伪的检测。Coccomini 等人 [33]将原始视频帧 选择方法,其是指在视频分解为帧的基础上,以每一 应用于 EfficientNet[40]和 ViT(vision transformer)及 Cross- 个 图 像/帧 为 对 象 ,在 空 域 、频 域 等 方 面 所 进 行 的 检 ViT[41] 上,也取得了当前 DFDC 任务的 Benchmark,进 测。因此,基于空间特征的检测方法适用于几乎全 一步表明了直接利用图像空间域特征进行伪造检测 部的当前深度伪造视频数据集,将伪造视频的检测 的简单有效性。 任务转化为针对每一帧图像的分类任务,属于经典 由于深度伪造视频中的人脸与真实人脸图像十 的人脸分类任务范畴。基于空间特征的检测方法的 分相似,而普通卷积在提取人脸面部特征时获得的 优点在于简单有效,因为伪造视频势必会对原始图 卷积特征图过于单一,无法为模型后续检测工作提 像的空域、频域分布产生扰动,所以研究提取这种局 供 有 效 依 据 。 针 对 此 问 题 ,暴 雨 轩 等 人 [34] 在 ResNet 部与整体的不一致性便可作为模型训练与判别的特 网络中引入分组卷积提取丰富特征,并在下采样过 征。然而,由于每一帧的伪造是独立的,故在伪造当 程中引入最大池化以强化关键特征,同时引入注意 前帧时无法考虑到之前已伪造帧的情况,因此与真 力通道为每个特征图分配不同权重,最后通过数据 实视频相邻帧之间的连续性、关联性相比,伪造视频 增强策略丰富数据集,并迫使模型学习到更丰富的 帧与帧之间存在着时空上的不连续性,而基于空间 特征表示。 特征的检测方法却忽略了时序上的特征提取,导致 传统 CNN 网络进行分类时对于图像平移、扭曲、 特征提取的遗漏。同时,对于压缩率较高的数据集, 旋转等操作具有较高敏感性,容易带来误差从而影 由于其图像的空域、频域特征被压缩处理,故基于空 响后续模型分类。为克服此问题,Nguyen 等人 [35] 将 间特征的检测方法效果较差。 胶囊网络应用于伪造视频的检测任务中,首先使用 基于空间特征的检测,根据所利用的具体特征 VGG-19 进行图像特征的提取,再将其灌入胶囊网络 不同,可以分为基于图像空间域的检测、基于图像频 中。基于动态路由的胶囊网络的使用不仅可以有效 率域的检测和基于图像上下文空间的检测等。其中, 避免图像平移、扭曲、旋转而带来的误差,同时能够 基于图像空间域的检测是以图像/视频帧的像素域为 使用更少的训练数据最大化地学习到有效信息。但 主要对象,通过各类卷积神经网络(convolutional neural 是该模型无法避免胶囊网络训练速度慢、效率低的 network,CNN)的卷积、池化等操作所提取特征进行 问题,因此也无法完全取代卷积神经网络进行人脸 检测的方法;基于图像频率域的检测,是指图像/视频 视频深度伪造检测。 探 与 学 索 帧的空间频率,是将图像看作二维平面的信号,以对 前人工作主要是针对整幅图像的空间域特征进 应像素的灰度值(彩色图像对应 RGB 三个分量)作为 行广度提取,而不同区域中特征的重要程度与贡献 信号的幅值,其反映了图像的像素灰度在空间中的 度是不同的,因此会导致模型无法有效挖掘出局部 变化情况;基于图像上下文空间的检测,与前两者聚 的 、具 有 区 分 性 的 分 类 特 征 。 针 对 此 问 题 ,Zhao 等 焦于完整图像不同,更加关注图像/视频帧内人脸及 人 [42] 将 人脸视频深度伪造检测表述为细粒度分类问 其他部分(即上下文)之间在空间上的区别联系,以 题进行研究。如图 2 所示 [42],提出基于多注意力头的 其作为特征进行学习与分类。 检测网络。该网络提出区域独立性损失作为损失函 g r 科 o . j 机 a e 算 c . 计 w w w 2.2.1 基于图像空间域的检测方法 基于图像空间域的检测方法是较为传统且有效 的 检 测 方 法 。 研 究 结 果 显 示 ,直 接 将 视 频 应 用 于 CNN 及其各类变种网络中,并结合一定的注意力模 块,便能取得较好的效果[13,25-37]。 朱新同等人 [38] 提取并融合 YCbCr 与 RGB 特征, 数,并通过多注意力头迫使网络注意到不同的局部 特征,通过纹理特征增强块放大浅层特征中的细微 假象,并在注意力图的指导下使用双线性池化聚合 低层次的纹理特征和高层次的语义特征。类似的, 为了增强图像伪造痕迹,抑制原始信息,Guo 等人 [43] 针对 GAN 生成的伪造视频提出了预处理模块,利用 张 7 璐 等:人脸视频深度伪造检测方法综述 图2 Fig.2 多注意力头的深度伪造检测 Multi-attention head deepfake detection 多层的残差结构对图像进行卷积后作差,以突出和 真伪的同时需要预测出对应的伪造配置,以此提高 增强伪造痕迹。 判别器对于不同伪造技术的泛化能力,在跨库测试 对图像空间域进行分解与组合也是有效利用空 中取得 80%的准确率。类似的,Zhao 等人 [48]也利用自 间域特征的方法。Zhou 等人[44]提出了融合人脸图像原 监督学习策略,生成像素级别的标签数据,并认为经 始特征与基于块级别隐藏特征的双流网络,在图像空 过伪造生成过程后的视频图像保留了不同源的特 间 域 特 征 基 础 上 结 合 了 色 彩 滤 波 阵 列(color filter 征,通过检测图像中像素之间的不一致性便可以判 array,CFA)、局部噪声残差这样的低级别相机特征, 断视频真伪,因为真实视频图像的局部之间是具有 共同进行训练与分类。Zhu 等人 引入人脸的 3D 重 一致性的。该模型在跨库测试中取得超过 90%的准 建中的信息作为原始空间域特征的补充,模型在库 确率,是利用空间域特征进行人脸视频深度伪造检 内检测取得了较好效果。但该方法只选择了重建后 测研究中泛化能力最好的模型之一。但是该模型只 人脸的部分组成成分,因此涉及到部分图像特征被 能鉴定面部编辑的伪造视频图像, 对于利用 GAN 网络 丢弃,并且对于无法进行重建的人脸图像不能进行 直接生成全伪造图像无法进行鉴定与检测。 训练和预测的情况。 2.2.2 基于图像频率域的检测方法 基于图像频率域的检测方法在近几年研究论文 中出现的频率不高,主要集中在挖掘图像频率信号 中的高频信号、相位谱等,利用频域特征或者频域与 空域的融合特征进行人脸深度伪造视频检测 [49-52],具 体体现在以下几方面。 目前基于空间域的检测方法倾向于过度拟合到 某种造假算法所特有的纹理模式,因而缺乏泛化能 力。当前的伪造生成模型在伪造过程中都必须经过 上采样过程,而上采样之后图像的频域上和自然图 像会出现明显的差异 [53]。在图像频率域,高频信号祛 除了颜色纹理,比低频信号更能够有效地区分真实与 伪造视频 [54]。因此,Li 等人 [55] 提出了自适应频率特征 生成模块以挖掘频率信息,通过离散余弦变换(discrete cosine transform,DCT)将视频帧的各个通道的 [45] 由于单纯基于图像空域的伪造检测方法聚焦于 单帧图像中的伪造痕迹提取,而不同伪造技术所对 探 与 学 索 g r 科 o . j 机 a e 算 c . 计 w w w 应的伪造痕迹特点不同,因此模型在泛化能力测试 上表现较差。为增强模型跨库测试的能力,Liu 等人[46] 聚焦于增强模型鲁棒性,在挖掘空域特征之前,将原 始图像划分为若干相同大小的块,并随机进行块内 的像素打乱和块间的位置打乱,迫使模型挖掘更具 有区分特性的伪造痕迹。但是该方法只是采用数据 增强的思路提高模型鲁棒性,未能深度挖掘不同伪 造技术的区别与共性,因此泛化能力提升有限。针 对此问题,Chen 等人 [47] 采用对抗网络同时训练生成 器与判别器,并用训练的判别器进行测试。其创新 点在于生成器在伪造之前随机生成伪造配置,包括 伪造区域、融合类型与融合比例,判别器在预测视频 Journal of Frontiers of Computer Science and Technology 8 2023, 17(1) 计算机科学与探索 高频与低频信号进行分离后重新组合,再通过卷积 标签的真伪视频对作为训练数据,解决了数据量的 与线性池化操作有效提取频率特征。同时,为了更 问题。 好地挖掘伪造视频与真实视频之间的差异,文章还 如果在伪造过程中没有使用融合技术,上述模 提出了单中心损失(single-center loss,SCL)作为损失 型就无法进行检测,并且该方法受图像噪声的影响 函数辅助训练,以更好地聚焦类内差异,而拉大类间 很大,这意味着没有学习到人脸伪造检测的内在特 差异。Liu 等人 同样也是利用上采样过程中频域的 征,检测效果不稳定。为克服此问题,Nirkin 等人 [60] 变化,但认为真实视频与伪造视频频域中的相位谱 则在 VGGFace2 数据集上预训练两个视觉网络,分别 较于幅度谱变化更加明显,更应当在模型学习中有 对应数据集中图像/视频帧中的人脸部位和扣除上下 重点的偏向和倾斜。 文背景信息部分,两个网络模型的输出作差便是人 [56] 以上方法主要利用图像频率域特征进行深度伪 脸与上下文之间的差异信息。如图 3 所示 [60],配合第 造视频检测,却忽略了原始空域特征的像素特征,因 三个视觉网络,以待检测的真伪视频为训练数据,将 此将频域与空域特征结合能够有效弥补两者不足, 三个网络的输出进行融合用作最后的分类。 在库内与跨库检测中均取得较使用单一特征时更高 与空域特征两方面计算两两区域之间的差异,以判 2.2.4 基于空间特征检测技术测评结果 在人脸视频深度伪造检测方面,常用的指标是 ACC 与 AUC。其中,ACC(accuracy)为准确率,通过 计算正确预测数量占全部测试集数量的比值获得; AUC(area under curve)为 ROC 曲线所围出图形的面 积。ROC(receiver operating characteristic curve)全称 为受试者工作特征曲线,它是根据一系列不同的二 分类方式(通常为阈值), 以真阳性率为纵坐标, 假阳性 断视频真伪。 率为横坐标绘制的曲线。AUC 指数通过计算 ROC 所 2.2.3 围图形的面积来衡量分类器学习与分类效果优劣。 的准确率。Wang 等人 则提出结合频域与空域的多 [57] 模态方式,挖掘图像中不因伪造技术不同而变化的 具有鲁棒性的伪造痕迹。Chen 等人 [58]将原始的图像/ 视频帧划分为若干区域,考虑到真实区域之间差异 较小、真实区域与伪造区域之间差距较大的特点,在 将原始图像划分为若干区域的基础上,从频域特征 基于图像上下文空间的检测方法 当前主流的生成人脸深度伪造视频的方法是利 上文主要介绍了利用空间特征实现人脸视频深 用生成对抗网络与自动编码器,其中前者更倾向于 度伪造检测的各项技术方法,其中部分算法在数据 完全“从无到有”地创造出一个人的视频,后者倾向 集上测评结果如表 2 所示(所列数据均为测试时的最 于在已有的真实的视频基础上,通过人脸识别与局 好结果)。 部替换等步骤,生成面部替换或人脸属性编辑的伪 2.3 索 基于时空融合特征的检测方法 探 造视频。而此类伪造视频,只是对于图像/视频帧中 视频本质便是帧的快速切换。因此相邻帧之间 的人脸部分(或仅仅其中的局部)进行篡改,而画面 在背景、人物动作上是具有联系的。而在人脸视频 中的其他部位(如人的躯干、图片背景)是不做更改 深度伪造的过程中,首先将原始视频分隔成帧,再对 的。因为被篡改和未被篡改的区域之间在理论上存 每一帧分别进行处理和伪造,最后再进行压缩编码, 在着必然的不同,所以利用这种不同进行人脸视频 生成伪造后的视频。与基于空间特征的检测方法相 深度伪造的检测(即基于图像上下文空间的检测方 对应的,基于时空融合特征的检测方法综合了空间 法)也是近几年提出的重要方法。 与时间两个维度的不一致性,因此适用于几乎全部 与 学 g r 科 o . j 机 a e 算 c . 计 w w w Li 等人 [59] 较早地提出利用上下文进行伪造检测 的当前深度伪造视频数据集。其优点主要体现在帧 的思想。当前的伪造技术在实现细节上具有不同, 间特征的提取弥补了单纯利用图像空间特征所带来 所伪造的结果在特征表现上也是不同的,因此为了 的特征缺失问题,在高压缩的数据集上的表现也稍 提高模型的泛化能力,应当聚焦于所有技术的共同 好于后者。 点。文章观察到绝大多数的视频伪造算法都是把目 基于时空融合特征的检测方法,根据所采用的 标人物的脸裁剪下来,经过编辑后放到源人物的脸 模型结构与原理不同,可以分为基于循环神经网络 上,因此会有融合过程。既然要融合,就会有边界, (recurrent neural network,RNN)的 时 空 融 合 特 征 检 边界的检测就可以作为判断视频真伪的标准。同 测、基于卷积的时空融合特征检测、基于像素位移的 时,因为此方法只关注融合边界,所以并不需要打好 时空融合特征检测。其中,基于 RNN 的时空融合特 张 9 璐 等:人脸视频深度伪造检测方法综述 图3 Fig.3 表2 Table 2 基于人脸及其上下文的深度伪造检测 Deepfake detection based on face and context 基于空间特征的深度伪造检测技术测评结果 Test result of deepfake detection technologies based on spatial features 库内测试 方法 数据集 跨库测试 测评结果/% 数据集 测评结果/% LFA[53] Celeb-DF ACC=99.70 未进行跨库测试 RFM[29] DFDC AUC=99.97 未进行跨库测试 i_ResNet34-DA[34] FF++ ACC=98.67 未进行跨库测试 CapsuleForensics FF++ ACC=99.33 未进行跨库测试 FD2Net [35] FF++ AUC=99.45 EfficientCrossViT[33] DFDC ACC=88.00, AUC=95.10 DSP-FWA FF++ AUC=59.10 FF++ ACC=97.52, AUC=98.10 [42] FF++ ACC=97.60, AUC=99.29 Block Shuffling[46] FF++ ACC=95.30, AUC=99.68 High-Frequency [45] [27] F3-Net[51] Multi-Attention ACC=98.40 FF++ ACC=91.50, AUC=95.32 MPSM FF++ ACC=97.59, AUC=99.46 FFIW ACC=69.40, AUC=70.90 FF+ AUC=98.40 FF++ AUC=87.40 FF++ ACC=99.30 [58] FFIW[13] Adversarial Strategy X-Ray [59] DCL[61] PCL [48] [47] FF++ → Celeb-DF FF++ → Celeb-DF 探 与 FF++ → Celeb-DF 学 FF++ → Celeb-DF 索 AUC=67.70 DFDC → FF++ ACC=80.00 AUC=64.60 AUC=65.17 AUC=67.44 AUC=67.95 g r 科 o . j 机 a e 算 c . 计 w w w FF++ SPSL[56] [54] FF++ → DFDC 未进行库内测试 FF++ → Celeb-DF AUC=73.80 FF++ → Celeb-DF AUC=78.26 FF++ → Celeb-DF AUC=79.70 FF++ → Celeb-DF AUC=81.00 FF++ → Celeb-DF AUC=76.88 FF++ → Celeb-DF AUC=78.30 FF++ → Celeb-DF AUC=80.58 FF++ → Celeb-DF AUC=81.80 征 检 测 主 要 依 赖 RNN(LSTM、GRU)挖 掘 帧 与 帧 之 在时间域上的变化以及相邻帧之间的相关性来找到 间的连续性关系;基于卷积的时空融合特征检测通 上一帧跟当前帧之间存在的对应关系,即光流法。 过精心设计的不同大小卷积核,挖掘时间上的连续 2.3.1 基于 RNN 的时空融合特征检测方法 循环神经网络(RNN)在自然语言处理中经常被 性;基于像素位移的时空融合特征检测,是通过像素 Journal of Frontiers of Computer Science and Technology 10 用来提取上下文之间的语义联系,在视频处理领域, 2023, 17(1) 计算机科学与探索 Masi 等 人 [70] 提 出 一 种 双 流 网 络 ,一 路 走 普 通 的 也可用来挖掘相邻帧之间的相关性。近几年利用时 RGB,一 路 采 用 LoG 算 子 处 理 后 的 图 像 ,用 于 抑 制 空融合特征检测人脸深度伪造视频的工作中,基于 RGB 图像的内容信息,提取高频信号。两个分支均 RNN 的时空融合特征检测占据较大比例。 使用 DenseNet 结构,之后使用融合模块将两路融合, 如图 4 所示,Sabir 等人 直接将 CNN 与 RNN 进 [62] 并经过 LSTM 抽取帧间的信息最后进行分类。另外, 行组合得到较好的检测效果,首先利用 CNN 进行每 提出基于 one-class-classification 的损失函数,让正样 一图像/视频帧的特征提取,再使用 RNN 挖掘相邻帧 本拉近,同时推开负样本。 之间的时序关系。这也成为基于 RNN 的时空融合特 Montserrat 等人 [71] 为了增强模型的泛化能力,同 征检测方法的基本思路 [63-64]。在此基础上,Chintha 等 时考虑每一帧的图像内容及伪造质量问题。每一帧 人 使用 Xception 和 Bi-LSTM 取代之前的 CNN 和 在模型最终判断视频是否伪造的过程中所起到的作 RNN,并在交叉熵损失基础上增加 KL 散度损失以提 用 是 不 同 的 ,因 此 提 出 了 自 动 脸 部 权 重(automatic 高检测准确率。Fei 等人 发现人脸运动的振幅在视 face weighting,AFW),通过自动加权,在预测时强调 频中首先被放大,虚假视频会比原始视频表现出更 哪些是重要的,哪些是不重要的。如图 5 所示 [71],模 严重的失真或闪烁,因此首先使用运动增强放大人 型使用 EfficientNet 提取帧的特征,并通过全连接层 脸的面部运动,然后用 InceptionV3 提取每一帧的特 获取预测的逻辑概率与权重,最后连同特征本身一 征,最后结合 LSTM(long short-term memory)提取时 同 输 入 GRU(gated recurrent unit)中 提 取 时 序 特 征 , 序信息。Wu 等人 则进一步在空间与时间特征基础 完成最后的分类。 上,增加了图像的隐写分析特征,检测隐藏的被篡改 2.3.2 基于卷积的时空融合特征检测方法 与利用 RNN 提取时序特征不同,基于卷积的时 空融合特征检测更加依赖于卷积核的设计。通常的 方 法 是 对 图 像/视 频 帧 的 卷 积 核 的 时 间 维 度 进 行 设 计,以提取帧间的连续性与相关性等特征。 邢豪等人 [72]使用 MTCNN(multi-task cascaded convolutional network)检 测 出 视 频 中 每 一 帧 的 人 脸 图 像,并将 64 个相邻帧组成一组输入灌入到 3D 卷积网 络中,以充分利用时间与空间特征时序特征。在此 过程中,为迫使模型更好地关注脸部细节,也可在数 据经过每一层卷积网络时结合注意力图,以更有针 对性地提取特征 [13]。但是此方法虽然使用 3D 卷积, 但依然更多地依赖空间上的特征,而对时间特征关 [65] [66] [67] [68] 的痕迹,如图像像素的异常统计特征等。 上述解决方案简单且经典,但是并没有结合深 度伪造视频的独有特点,并不是专门为实现人脸深 度伪造视频检测而设计的模型,因此在库内及跨库 检测中并没有体现出太高的准确率。结合深度伪造 视频所特有的视频帧之间的不连续性,很多研究提 出了各自的解决方案。Amerini 等人 [69]从伪造视频的 生成阶段入手,认为视频在伪造的最后阶段对每一 帧进行压缩编码时,在生成 I 帧、B 帧、P 帧的过程中 带来预测误差,可以以帧间的预测误差作为特征输 入,经过 CNN 的特征提取与 LSTM 的时序提取,最终 进行分类。 探 与 学 索 g r 科 o . j 机 a e 算 c . 计 w w w 图4 Fig.4 基于 CNN 与 RNN 的深度伪造检测 Deepfake detection based on CNN and RNN 张 11 璐 等:人脸视频深度伪造检测方法综述 图5 Fig.5 基于自动权重分配的深度伪造检测 Deepfake detection based on automatic face weighting 注力度不够,这也是直接利用 3DCNN 进行时序提取 会有一些抖动。于是,文章设计了时空实例,用来刻 的普遍问题 。 画帧间一致性,辅助 DeepFakes 检测。具体而言,研 [73] 为克服此问题,Zheng 等人 进一步提出利用视 [74] 频不连续性实现深度伪造视频检测。首先,针对相 邻帧之间的不连续性,如表 3 所示,卷积核的时间维 度进行手动设置,并将卷积核的长宽维度设置为 1, 究人员使用文本分类里常用的 1 - d 卷积,使用不同 大小的核对输入的人脸序列从多视角进行编码,从 而得到时空实例,用于最终检测。 Gu 等人 [75] 进一步从局部的角度上时空上挖掘不 使之能够在时间维度上充分挖掘特征,而不过多进 一 致 ,提 出 时 空 不 一 致 学 习(spatial- temporal incon- 行空间卷积。另外,考虑到某些情况下,视频帧间的 sistency learning,STIL)模块。该模块可以嵌入任何 不连续性并非出现在相邻帧,而是出现在相隔若干 的主干网络中辅助进行特征提取,创新地提出了在 帧的两帧之间,因此选择使用将上一步骤中提取出 挖掘时间不一致时,除了利用卷积核在水平方向提 来的特征信息灌入 Transformer 中以捕捉长距离的不 取帧间不一致之外,也在垂直角度上挖掘时间特征, 连续性。 并将提取到的时间与空间特征进行拼接作为最终的 分类特征。但是该方法对帧采取了稀疏采样策略, 表3 Table 3 模型参数设置 并且采样帧的间隔可能太大而无法捕捉到由细微运 Model parameter settings Convolution Kernel size Stride Conv1 5 × 1 × 1, 64 1, 1, 1 Pool1 Res2 Pool2 Res3 Res4 Res5 1 × 1 × 5, max é1 × 1 × 1, 64 ù ê3 × 1 × 1, 64 ú × 3 ê ú ë1 × 1 × 1, 256û 索 动引起的不一致。 1, 4, 4 — 为 了 克 服 上 述 问 题 ,基 于 片 段 不 一 致(snippets 探 inconsistency module,SIM)的 方 法 被 提 出 [76]。 首 先 , 与 将原始视频分为若干片段,各片段都由相同数量的 相邻帧组成;然后,针对片段内部的不一致,分别从 学 g r 科 o . j 机 a e 算 c . 计 w w w 2 × 1 × 1, max é1 × 1 × 1, 128ù ê3 × 1 × 1, 128ú × 4 ê ú ë1 × 1 × 1, 512û é1 × 1 × 1, 256 ù ê3 × 1 × 1, 256 ú × 6 ê ú ë1 × 1 × 1, 1 024û é1 × 1 × 1, 512 ù ê3 × 1 × 1, 512 ú × 3 ê ú ë1 × 1 × 1, 2 048û 正反两方向计算水平与垂直时序特征;紧接着,对于 2, 1, 1 片段之间的不一致,分别从正反两方向作差以表示 — 整合为统一的模块,嵌入到已有的主干网络中辅助 前后片段之间不一致;最后,分别将片段内与片段间 特征提取并进行最后的分类。该模型在跨库测试中 — — Li 等人 [23] 采用多实例学习的思想。在传统多实 例 学 习 中 ,实 例 与 实 例 间 是 相 互 独 立 的 ,但 由 于 DeepFakes 是单帧篡改的,导致同一人脸在相邻帧上 取得了接近 80%的准确率。 2.3.3 基于像素位移的时空融合特征检测方法 基于像素位移即光流法(optical flow)。光流是 空间运动物体在观察成像平面上像素运动的瞬时速 度。光流法是利用图像序列中像素在时间域上的变 化以及相邻帧之间的相关性来找到上一帧跟当前帧 之间存在的对应关系,从而计算出相邻帧之间物体 的运动信息的一种方法。通常将二维图像平面特定 Journal of Frontiers of Computer Science and Technology 12 2.4 坐标点上的灰度瞬时变化率定义为光流矢量。 Amerini 等人 优先提出利用像素位移即光流法 [77] 2023, 17(1) 计算机科学与探索 基于生物特征的检测方法 人脸视频深度伪造归根结底是对人脸的伪造, 进行人脸视频深度伪造的检测。真实视频与伪造视 作为伪造者来说,伪造的目的便是通过人脸的局部 频在所形成的光流的大小、方向、分布等方面存在差 编辑、直接替换或者完整生成,以实现将目标人物人 异,而这个差异可以被 CNN 获取与分析。文章首先 脸与源人物身份的缝合。伪造视频是对人身份的更 使 用 PWC- Net(pyramid,warping,and cost volume 改,因此从本质上来说,对人脸视频深度伪造检测的 CNN-Net)[78] 提取视频的光流特征,然后分别结合预 最有效方法是对视频中所出现的人的身份进行检 训练的 VGG16 和 ResNet50 捕获光流差异,最后接入 测。前文所介绍的对于图片或视频的空间、时间、频 全连接层和 Sigmoid 进行最后的二分类。模型在常 率、像素等方面的检测只是对于载体的检测,而基于 见的 DeepFakes、Face2Face、FaceSwap 的数据集上进 生物特征的检测则是基于人的,是不以伪造技术、承 行训练和测试,两种卷积网络分别取得了 81.61%和 载介质不同而出现不同的。基于生物特征的检测主 75.46%的准确率。 要依赖于两个假设:一是不同身份的人所表现出来 Chintha 等人 在前人利用光流法进行检测的基 的行为方式、说话习惯等是不同的,因此可以作为鉴 础上,进一步利用 OpenCV 的 Canny 边缘检测方法获 定视频中所出现人物是否符合其所表现出来的身份 取每一帧的边缘信息以更加丰富特征表达,形成图 的标准;二是真实的人与计算机生成和伪造的人相 像的“边-流特征图”。再与图像的原始 RGB 以不同 比,在行为表现上是不同的。真实的人是更具有生 方 式 进 行 融 合 ,共 同 形 成 输 入 模 型 的 最 终 特 征 组 理特征的,例如眨眼频率、神态情感等。但是基于生 合。根据融合方式不同选择不同的 Xception 结构,并 物特征的检测方法却依赖于底层的图像处理技术, 接入 Bi-LSTM 网络挖掘帧间的关联性与相关性,最 尤其是对图像或视频的空间处理与识别技术,如表 后使用全连接与 Sigmoid 进行二分类。文章主要在 情识别 [80]、身份识别等 [81]。基于生物特征的检测方法 常 用 的 FaceForensics ++ 、DFDC 等 数 据 集 上 进 行 训 适用于大多数的深度伪造视频数据集,对于视频压 练、验证与测试,训练与测试使用相同数据集时平均 缩率、是否包含音频等方面有一定的要求。该方法 准确率最高达到 97.94%,使用不同数据集时最高达 的优点在于脱离视频载体,从“人”的角度判别视频 到 81.29%,表示了模型具有一定的泛化能力。 中人物对象的身份真伪,取得目前最高的跨库测试 2.3.4 基于时空特征融合技术测评结果 上文主要介绍了利用空间与时间特征融合实现 人脸视频深度伪造检测的各项技术方法,其中部分 算法在数据集上测评结果如表 4 所示(所列数据均为 测试时的最好结果)。 准确率;缺点在于该方法对数据集的要求相较于其 [79] 表4 Table 4 采用了辅助的外部数据集,主要用于对重要人物的 探 伪造视频检测,应用场景较窄。 基于生物特征的检测方法根据具体使用的侧重 与 基于时空特征融合的深度伪造检测技术测评结果 学 Test result of deepfake detection technologies based on spatial-temporal fusion features g r 科 o . j 机 a e 算 c . 计 w w w 库内测试 方法 跨库测试 数据集 测评结果/% Face Weighting[71] DFDC ACC=91.88 SSTNET[68] FF++ ACC=98.57 未进行跨库测试 PE-LSTM[69] FF++ ACC=94.29 未进行跨库测试 Optical Flow 数据集 测评结果/% 未进行跨库测试 FF++ ACC=81.61 未进行跨库测试 S-MIL[23] Celeb-DF ACC=99.23 未进行跨库测试 STIL Celeb-DF ACC=99.78 SIM [77] [75] [76] Two-Branch[70] FTCN[74] EdgesOpticalFlow[79] RCNN [65] 索 他检测方法较高,泛化测试效果较好的检测方法均 Celeb-DF ACC=99.61 FF++ AUC=98.70 未进行库内测试 DFDC ACC=97.97 Celeb-DF ACC=99.16 FF++ → Celeb-DF ACC=75.58 FF++ → Celeb-DF AUC=73.41 FF++ → DFDC ACC=81.29 FF++ → Celeb-DF ACC=77.65 FF++ → Celeb-DF AUC=86.90 FF++ → DFDC ACC=90.10 张 13 璐 等:人脸视频深度伪造检测方法综述 点不同,可以分为基于身份一致性的检测、基于面部 测效果较好,但是需要人工提取相关行为动作特征, 关 键 部 位 识 别 的 检 测 、基 于 音 画 特 征 的 伪 造 检 测 。 并通过相关性分析确定与最终分类最相关的特征组 其中,基于身份一致性的检测主要针对以重要人物 合,效率较低,同时此模型的泛化能力较差。但是, 或关键性人物为代表的具有大量该对象真实视频为 此类方法的特点在于“定制性”,由于分类的高准确 参考的一类人群;基于人物生理信号的检测则是通 率,可将其应用于对重要商业人物与政治人物的保 过对图像/视频中所出现人物的面部(或整个头部)的 护上。 行为、神态等进行识别分析,以判断是否是真实的人; 上述方法在特征挖掘时只利用到视频中人物的动 基于音画特征的伪造检测方法则是以待检测视频为 态特征,而忽略掉静态特征,因此在特征选择上势必 研究对象,对声音与画面在同步性、匹配性上进行关 会丢掉一些有区别性的特征。为克服此问题, Agarwal 联关系分析,以判断是真实视频或是伪造视频。 等人 [83]除了利用视频中人物的动态特征之外,也进一 2.4.1 基于身份一致性的检测方法 基 于 身 份 一 致 性 的 检 测 可 以 解 释 为“ 比 较 、对 比”,通过对照参考集来判断检测集的真实性。此类 方法的可靠性较高,但是应用范围相对较窄,应用的 限制也较多,因此适合应用在涉及重要人物的视频 的真实性检测上。 美国加州大学伯克利分校 Hany Farid 教授团队 的 Agarwal 等人 [82] 对此类检测方式进行了较深的研 究。文献[82]认为针对重要政治人物的深度伪造视 频会对社会问题、国家安全造成不可估计的重大损 失,因此针对重要人物专门建立了一套鉴定涉及其 视频是否伪造的检测方法。文章对几位重要人物在 公开场合的真实视频展开分析,并对不同人在讲话 过程中的面部和头部运动进行降维后发现具有明显 的区分特性,因此可以认定头部与面部动作可以作 为视频中身份一致性检测的依据。文章首先对视频 中人脸进行识别,并通过关键点(运动单元)从脸部 提取 20 个运动肌肉并对其动作进行建模;通过皮尔 森相关性找出最相关的 190 组特征向量,并将其作为 最终特征用于模型的学习与分类。此类方法虽然检 步以基于面部识别的静态生物特征进行特征补充。 其 中 静 态 特 征 由 VGG 提 取 ,动 态 行 为 特 征 由 FAbNet(facial attributes-net)[84] 提 取 ,以 两 者 作 为 与 参 照 集的比对标准进行视频伪造的鉴定,实现了能够在 4 s 的视频中判断出视频的真伪。 为了克服上述方法需要人工提取特征所带来的 效率低下问题,Cozzolino 等人 [85] 提出时序 ID 网络用 来比较待检测视频人物与该对象的真实对照视频之 间的相似度。训练过程如图 6 所示 [67],首先对视频中 的每一帧提取出面部特征,并通过 3D 模型将其映射 成低维表示,然后使用时序 ID 网络比较输入特征之 间相似度,同时也作为判别器来与 3DMM 生成网络 进行对抗学习。3DMM 生成网络的作用是生成类似 于经过 DeepFake 篡改过的视频,通过对抗学习使得 时序 ID 网络能够学到有效区分的脸部特征。测试阶 索 段如图 7 所示 [67],将时序 ID 网络用作待测视频与对照 参考视频的比较器,输出最终的分类结果。文章选 探 择 VoxCeleb2 数据集进行训练,将其中的 5 120 个视频 作为训练集,512 个作为验证集。每个 Batch 包括 64 与 个 96 帧的视频,其中的 64 个视频又分别是 8 个人的 8 学 g r 科 o . j 机 a e 算 c . 计 w w w 图6 Fig.6 训练过程 Training process 14 Journal of Frontiers of Computer Science and Technology 图7 Fig.7 2023, 17(1) 计算机科学与探索 测试阶段 Testing process 段视频。测试集选择为 DFD(deepfake dataset)数据 集,准确率达 84.8%。 chine,SVM)分类器进行分类。 Li 等人 [6] 充分考虑到真实人物的生理特征。真 Dong 等人 [86] 提出利用人脸内部区域与外部区域 实人物对象平均会在 6 s 出现一次眨眼行为,而伪造 的对比作为检测特征,结合外部参照集进行身份一 视频则不会在伪造过程中对此进行建模,因此可使 致性检测。首先,将两组真实图像利用 X-Ray 的方 用 VGG16 识别眼部特征,用 LSTM 提取时序信号判 法 分 别 交 换 内 外 脸 生 成 两 组 训 练 数 据 ,利 用 Trans- 断是否在一段时间内出现眨眼的行为以判断视频中 former 分别提取人脸内部与外部区域,通过最小化内 人物的真伪。 [59] 脸一致性、外脸一致性完成训练过程。在测试阶段, 同样基于人的生理特征,Qi 等人 [90]提出了利用心 结合外部参照数据库,在其中找到与测试对象内脸 A 跳信号来检测视频中人物对象的真实性。文章认 最接近的对应内脸 A′ ,然后在参照集中找到 A′ 所对 为,血液在流过脸部时会引起皮肤颜色的微小变化, 应的外脸 B′ ,计算 B′ 与 A 的对应外脸 B 的相似度。 这种变化肉眼无法看到,但通过视频中帧的像素点 测试对象的外脸同样进行如上相似度计算。通过以 变化可以检测到,因此推测假的视频中的心率变化 上计算,实现检测对象与外部参照集中对象的身份 与真的视频中的心率变化不一致。文章首先在心率 一致性检测,进而判断测试对象的身份真实性。该 提取算法 STR(spatial-temporal representation)[91] 的基 方法在模型的泛化测试上取得了较好的效果,在多 础上改进了从视频中放大并提取人物对象的心跳信 个 跨 库 测 试 中 取 得 了 96.34% 的 平 均 准 确 率 。 类 似 号算法,并将其分解为 RGB 三个通道的分量,获得运 的,在测试时若不使用外部参照集,只是计算测试对 动 放 大 时 空 映 射(motion- magnified spatial- temporal 象的内外脸之间一致性以判断对象真伪时,跨库平 map,MMST Map);然后将其作为输入,利用卷积池 均准确率为 87.01%。 化与 RNN 网络获取空间与时间的注意力模块;最后 探 与 学 索 g r 科 o . j 机 a e 算 c . 计 w w w 2.4.2 基于人物生理信号的检测方法 基于人物生理信号的伪造检测是以视频中人脸 动态图像为对象,通过使用 Landmarks 对关键性部位 的识别与追踪 [87],分析其行为特征、生物特征 [88]、生理 特征,以识别视频中人物是否具有真实的人的生物 特征的方法。 Yang 等人 [89] 认为伪造视频只是篡改替换了视频 中 人 物 的 中 心 表 情 ,而 不 是 将 整 个 头 部 进 行 替 换 。 因此可以将中心表情的运动姿势和整个头部的运动 姿 势 作 为 特 征 ,结 合 支 持 向 量 机(support vector ma- 将所有结果进行合并,利用 ResNet18 与 Sigmoid 作为 最后的分类器。Ciftci 等人 [92] 同样基于计算机视觉技 术,从视频的人脸信号中提取生物特征,建立人脸纹 理与心跳之间的关系,用作伪造视频的检测。Nguyen 等人 [93]在特征选择方面进行了创新,提出眉毛部分是 合成图像中最易受到影响的区域,因此使用眉毛匹 配作为特征进行伪造检测。 Matern 等人 [94]提取眼睛、牙齿以及脸部轮廓等位 置的特征来鉴定视频真伪,并使用 Logistic 回归或浅 层全连接网络等浅层分类器进行训练与分类。文章利 张 15 璐 等:人脸视频深度伪造检测方法综述 用的特征主要包括全局一致性(global consistency)、 使用 ResNet18 语义作为特征提取器提取语义特征, 光 照 估 计(illumination estimation)和 几 何 估 计(geo- 并将降维后的特征输入至时空网络中进行最终的分 metry estimation)。其中,全局一致性指伪造视频中 类 。 在 具 体 训 练 之 前 ,利 用 唇 读 数 据 集(lip reading 人物在全局上表现的矛盾性,例如瞳孔颜色、眼睛大 dataset,LRD)[99],使 用 交 叉 熵 作 为 损 失 函 数 ,对 Res- 小等不一致;光照估计指伪造过程中由数据隐式模 Net18 和时空网络进行预训练。此数据集是以嘴部 拟入射光照时所带来的错误与不精准,容易在面部 的动作为训练数据,以对应的单词为标签,通过预训 (尤其在鼻子附近)产生过暗的阴影,同时眼睛中的 练学习到与自然嘴部动作相关的丰富的内部表征。 反射也会被简化为白色斑点或者消失;几何估计是 在真正视频检测的训练中,则将 ResNet 的特征提取 指伪造过程中对原始人脸扣除或替换的过程导致缝 层参数冻结,只对最后的分类网络进行微调。该方 合边界的出现或者细节的丢失。 法在同数据集和跨数据集中的表现都非常优越,体 2.4.3 基于音画特征的检测方法 音画特征即视频中声音与画面的相关特征,其 包括时间上和内容上的同步性。目前部分的伪造视 频存在关注于对视频内容伪造,而对音画匹配性注 意力不够的问题,因此可以将其作为视频真伪鉴别 的标准。但此方法只应用于同时包括声音与画面通 道的视频,而对只有声音或画面的视频无法使用此 类方法。 关注视频画面与声音的同步性是重要的检测思 路与方法 [95-96]。Chugh 等人 [97] 提出了画面与声音的模 态不协调平分,通过训练集获取分数阈值来表征画 面与声音的协调程度,以表示视频真伪。然而该方 法对于视频音画特征的利用缺乏理论解释,也没有 较为直观的说服力,而且最终检测效果依赖于通过 训 练 集 挖 掘 的 分 数 阈 值 的 质 量 ,因 此 测 试 效 果 较 差。为了克服该问题,深度挖掘视频中音画特征,并 能够从理论上解释特征利用的有效性,应当着重于 声音与画面人物动作的匹配性,其中使用最多的是 对视频中声音与人物嘴部运动的相关性分析。 Haliassos 等人 [98] 利用伪造视频中的嘴唇运动的 语义不连规则进行检测。如图 8 所示 [98],首先对待检 测视频通过 Landmarks 定位并裁剪出嘴唇部分;然后 现出较好的模型泛化能力。但是该方法需要借助已 发方面具有极高成本。 为克服上述问题,Zhao 等人 [100] 采用自监督训练 思想。首先,在训练过程中,分别提取成对真实视频 中的音频与嘴部的视频进行对比学习,其中嘴部动 作的提取利用 Transformer 实现。通过训练,学习到 真实视频中嘴部运动表示方式。然后,利用深度伪 造视频数据集对 Transformer 进行参数微调便可在跨 库测试中取得较好效果。该方法虽然克服了预训练 需要大量打标签的外部训练数据成本问题,但是在 对伪造数据进行训练时,会冻结一半的网络,这可能 会牺牲最终的检测性能。对应的,Haliassos 进一步提 出 RealForensics 模 型 [101],采 用 BYOL(bootstrap your own latent)的自监督训练策略 [102],并在 BYOL 的基础 上考虑声音与图像双模态,具体体现在分别利用声 索 音与图像作为教师网络,利用真实视频中图像和音 探 频模态的一致性,学习人物面部的运动表示。RealForensics 在跨库测试中取得了较好的效果。 与 Lin 等人 [103] 同样关注嘴部的行为特征,通过检测 嘴部动作与声音的匹配性来判断视频真伪。文章观 学 g r 科 o . j 机 a e 算 c . 计 w w w 图8 Fig.8 标注的其他训练数据(如唇读数据),在训练数据开 察到一些词语的发音在嘴唇的行为特征上是具有较 基于嘴唇语义不连续的深度伪造检测 Deepfake detection based on semantic irregularities of lips Journal of Frontiers of Computer Science and Technology 16 2023, 17(1) 计算机科学与探索 明显区别的,例如单词“Apple”的发音经历了嘴巴从 计语音人脸匹配检测模型,在一个通用的视听数据 扁平到聚合的过程,真实视频中对于这个单词的连 集上度量两者的匹配程度。然后,该模型可以在不 续几帧的嘴部动作相较于伪造视频会更加连贯自 进行任何微调的情况下平稳地转移到深度造假数据 然。基于此观察,文章建立了“音频-唇形”的映射,用 集, 从而增强了跨数据集的泛化能力。模型在 DFDC 和 于对视频中人物嘴唇行为与声音匹配性的检测,以达 FakeAVCeleb 上 的 库 内 测 试 准 确 率 较 高,利 用 FF++ 到视频真实性检测的目的。类似的,Agarwal 等人 [104] 和 DFDC 的跨库测试也取得超过 90%的准确率,但其 也通过对视频中关键音节的识别来进行视频真伪检 未在跨库测试中使用常用的高伪造质量的 Celeb-DF 测,其主要通过音位(phoneme)和视位(visemes)的匹 数据集进行测试。 除了嘴唇与声音的一致性检测之外,Agarwal 等 配情况来实现。音位是语言学中能够区别意义的最 小语音单位。例如妈(ma)和发(fa)两个字的音调相 人 同,用来对其进行区别的最小单位就是 m 和 f。视位 否是伪造视频。该方法认为真实的人说话时嘴唇 表示发音一个词时的面部和口腔动作,是语音的基 (下颚)的运动和耳朵的微小运动(例如耳廓和耳道 本可视构建基块。研究发现对于一些特殊音位,其 的微小形状变化)之间是有关联的,但是换脸技术一 视位也具有特殊性,因此重点关注视频中发音为 M 般只关注脸部替换,而不会对耳朵进行替换。但是 (mama)、B(baba)或 P(papa)的 单 词 相 关 的 视 位,通 此类方法限制较多,需要在视频中有完整耳部露出, [106] 还提出利用耳部和嘴部行为的协同关系判断是 因此应用范围相对较窄。Mittal 等人 [107] 进一步从视 过比较音画的同步性来检测视频真伪。 Cheng 等人 [105] 在 DFDC 中随机抽取 2 000 段真实 频与音频特征中使用 MFN(memory fusion network) 视频与 10 000 段伪造视频,用 VGG 网络分别提取其 网络分别提取情感向量 [108],从情感向量的角度比较 中声音与人脸特征,并通过降维在二维层面上分别 音画的相似度关系。但是上述方法在特征的可解释 展示真实与伪造视频中声音与人脸的欧氏距离,以 性上较于嘴部运动分析较差,且测试效果相对较差, 此证明伪造视频中的音画不同步问题。同时,作者 故相关研究较少。 提取 5 个人共计 2 000 个真实语音片段的声音特征, 2.4.4 基于生物特征检测技术测评结果 上文主要介绍了利用生物特征实现人脸视频深 度伪造检测的各项技术方法,其中部分算法在数据 集上测评结果如表 5 所示(所列数据均为测试时的最 好结果)。 并展示其在二维上的明显区别,证明声音是具备区 分不同对象身份特征的。基于以上观察,即声音和 人脸在一定程度上的同质性,提出从“声音-人脸”匹 配的角度进行深度伪造检测的方法。为此,首先设 表5 Table 5 EyebrowForensics[93] Inconsistent Head Poses[89] Visual Artifacts[94] [107] Audio-Visual Dissonance[97] Appearance and Behavior[83] Joint Audio-Visual[95] DeepRhythm[90] ID-Reveal [85] LRNet[87] FakeCatcher[88] LipForensics[98] Audio-Video[100] ICT [86] RealForensics[101] ICT-Ref[86] 数据集 测评结果/% Celeb-DF AUC=87.90 UADFV AUC=97.40 FaceForensics AUC=86.60 与 跨库测试 数据集 学 索 探 Test result of deepfake detection technologies based on biological features 库内测试 方法 EmotionForensics 基于生物特征的深度伪造检测技术测评结果 测评结果/% 未进行跨库测试 g r 科 o . j 机 a e 算 c . 计 w w w DFDC AUC=84.40 DFDC ACC=90.55,AUC=90.66 FF++ AUC=99.00 FF++ ACC=97.62, AUC=99.65 DeepFakes ACC=100.00 DFD ACC=84.80, AUC=96.00 FF++ AUC=97.30 自建库 ACC=91.07 FF++ ACC=98.80, AUC=99.70 FF++ ACC=99.20, AUC=99.90 未进行库内测试 未进行库内测试 未进行库内测试 未进行跨库测试 未进行跨库测试 未进行跨库测试 未进行跨库测试 未进行跨库测试 未进行跨库测试 FF++ → DFDC FF++ → DFDC ACC=64.10 ACC=80.40, AUC=91.00 FF++ → Celeb-DF AUC=56.90 FF++ → Celeb-DF AUC=82.40 FF++ → Celeb-DF AUC=85.71 FF++ → Celeb-DF AUC=96.41 FF++ → Celeb-DF ACC=86.48 FF++ → Celeb-DF AUC=84.20 FF++ → Celeb-DF AUC=86.90 张 3 17 璐 等:人脸视频深度伪造检测方法综述 紧凑的二进制哈希码,用于保证视频的完整性。 其他检测方法 3.1 Koopman 等人 [117] 从视频的底层物理特性考量 , 基于水印的检测方法 前文所述的所有方法均有较为明确的特征选 将 光 响 应 非 均 匀 性(photo response non- uniformity, 择,并均属于被动检测,是在伪造视频已经产生并传 PRNU)分析应用于人脸视频深度伪造的检测。数字 播的情况下进行检测与鉴定,这也是目前绝大多数 图像的 PRNU 模式是由数码相机的光敏感传感器的 的人脸视频深度伪造检测所采用的主流思路。与被 工件缺陷造成的噪声模式,这种噪声模式是高度个 动检测相对应的是主动检测方式,最常用的便是基 性化的,通常被称为数字图像的指纹。文章从待检 于水印技术的检测方法。该方法在生成、制作和发 测 的 视 频 中 随 机 抽 取 部 分 关 键 帧 ,并 将 其 进 行 分 布人脸视频之前,在视频中加入水印 组。通过计算并比较各组视频帧的 PRNU 得到视频 小的信号噪声扰动 [110] [109] 或者各类微 ,普通人眼无法看出区别,但任 何对视频的二次编辑行为均会留下痕迹 [111] ,通过对 痕迹的鉴定以判断视频是否被篡改,并可以按照线 的标准化互相关分数(normalized cross correlation score, NCCS)。实验证明,真实视频的 NCCS 与伪造视频是 不同的,可以作为视频真伪鉴定的标准。 Huang 等人 [118]提出一种跨图像、跨模型的通用对 索找寻篡改人。 Kim 等人 [112]提出一个分散归因模型,使用一组与 抗水印生成方法 CUMA(cross-model universal adver- 每个用户端模型相关联的二元线性分类器,每个分 sarial),只需少量的面部图像(128 张)进行训练,生成 类器都由用户特定的密钥参数化,并将关联的模型 的 水 印 就 可 以 保 护 几 乎 所 有 的 面 部 图 片 ,使 多 种 分布与真实数据分布区分开来,即通过密钥实现将 DeepFake 模型不能将其篡改。具体的,文章提出了 用户端模型的水印与无水印的用户进行区分,使得 两级扰动融合(two-level perturbation fusion)的策略, 生成的视频具备用户属性,以保障实现后续对于伪 使得生成的水印进行图像级别融合(image-level fu- 造视频传播路径的追踪。 sion)、模型级别融合(model-level fusion),提高水印 Yu 等人 [113] 主要针对由 GAN 网络生成的各类伪 的迁移性。同时,为了减少迭代生成水印时步长对 造视频进行检测与主动防御。文章首先将数字指纹 结果的影响,提高在不同模型之间的迁移性,CMUA 嵌入到训练数据中,然后发现并验证了数字指纹从 使 用 TPE 自 动 搜 索 不 同 模 型 的 更 新 步 长 。 实 验 证 训练数据到各类生成模型的专业性,并最后出现在 明,该方法在伪造视频的检测与主动防御方面均具 最终生成的伪造结果中。整个过程对于图像级与模 有较强的鲁棒性。 型级的其他干扰与扰动可以保持较好的鲁棒性。 3.2 索 基于区块链的检测方法 探 Ma 等人 [114] 分析到之前的基于对视频关键帧编 近些年,区块链已在许多领域得到有效使用,到 码进行伪造检测的主动防御方法具有耗时耗力的低 目前为止,针对基于该技术的人脸视频深度伪造检 效问题,因此提出了基于空间与时间特性的视频数 测问题的研究很少。它可以创建一系列唯一的不可 字指纹生成算法。文章使用卷积网络和循环神经网 更改的元数据块,因此是用于数字来源解决方案的 络分别提取每一帧的空间特征与帧间的时间特征, 出色工具。Hasan 等人 [119] 使用区块链与智能合约进 以此作为视频的数字水印,实现了在传统图片水印 行伪造视频的检测,认为只有视频具备可追溯性才 的基础上补充时间信息的目的。Li 等人 [115] 提出并行 可被认定是真实视频,否则是伪造视频。为此,文章 的 3D 卷积神经网络结构,提取连续帧之间的特征关 提出智能合约用于存储数字内容及其元数据的星际 联作为视频水印,以达到对视频复制的检测。Tang 文件系统(interplanetary file system,IPFS)的哈希值, 等人 提出一种对几何变换和空间变化均具有鲁棒 因此使用以太坊智能合约来追踪数字内容的出处及 性的视频哈希生成算法 ST-PCT(spatial-temporal polar 其原始来源。每一个视频都有一个智能合约,该智 cosine transform)算法,它将视频视为三维矩阵,并在 能合约能够链接到其上级视频或来源视频,同理每 对视频执行 DCT 变换后执行 PCT 变换,这种变换可 一个视频也有一个指向其子视频或下级视频的链 以 提 取 时 空 域 的 特 征 ,具 有 几 何 不 变 性 。 基 于 ST- 接,这样即使视频内容被复制多次,也有迹可循,可 PCT,进一步提出了用于视频拷贝检测的几何鲁棒视 以按照链接找到其最原始的出处,对伪造行为也可 频水印生成方法,生成的视频特征被压缩并量化为 做到有效追踪。 [116] 与 学 g r 科 o . j 机 a e 算 c . 计 w w w Journal of Frontiers of Computer Science and Technology 18 4 2023, 17(1) 计算机科学与探索 Vision Transformer[120] 与 Swin Transformer[121] 的 预 训 检测方法发展特点 从 2019 年起,针对人脸视频深度伪造检测的研 练模型常被用来作为模型底层的特征提取器[31,33,57,122-125], 究数量增长较快,其中在特征选择、模型设计、训练 通过在深度伪造数据集上对模型的微调以减少模型 思路等方面均出现了较多的新趋势与特点,主要集 训 练 成 本 ,提 高 模 型 最 终 的 分 类 能 力 。 Transformer 中在迁移学习的应用、注意力模块的使用以及非传 的自注意力机制适用于挖掘图像中各 Patch 之间的相 统神经网络与学习方法的应用等方面。 关性,从而定位到图像中被伪造和篡改区域。同时, 4.1 不同尺寸的 Patch 设计也可以迫使 Transformer 关注 特征选择 除了传统图像处理领域的特征提取之外,近几 年在人脸视频深度伪造检测技术领域所涉及到的特 征选择同样呈现出了一些新的趋势与特点。 不同层面的图像特征,提高模型特征提取效率。 4.3 模型设计与训练思路 与图像分类、身份识别等计算机视觉领域传统 一是特征选择更加细化。除了利用图像层面的 任务相比,人脸视频深度伪造检测既有独有特点又 空域特征之外,越来越多的研究文献倾向于进一步 有共通之处。前者体现在其作为伪造视频数据,与 细挖图像频率的特征。且对于图像频率,也有更多 真实视频在空域、频域等方面必然存在偏差,因此研 的文献聚焦于高频与低频、相位谱与幅度谱等对人 究的重点在于挖掘真伪样本之间的差异,而传统计 脸视频深度伪造检测的作用与价值。 算机视觉所研究对象均为真实或伪造数据,因此更 二是更加注重生物特征的选择与利用。伪造视 多关注样本内容上的差异即可。后者体现在深度伪 频归根结底是对人的身份的伪造,因此相较于从图 造检测的底层特征提取、特征融合、模型分类与传统 像与视频的间接角度,鉴别视频真伪的根本还是从 计算机视觉任务是相同的,其中涉及到的人脸识别、 人的生物特征角度进行判别,从而对于生物特征的 动作识别等技术也具有共同之处。基于上述原因, 选择与利用成为该领域近几年新的特点。除了传统 在模型架构设计与训练思路两方面,人脸视频深度 的眼球颜色、眼睛对称、视觉伪影等浅层生物特征之 伪造检测与传统计算机视觉任务相比,也应当具有 外,如耳部运动、心跳节奏、面部运动趋势等深层的 共同性与独特性,各类训练方法也能够迁移并应用 生物特征也被用来进行真伪检测,并取得不错的效 到视频真伪检测模型的学习中。 果,但当前应用最多的还是利用视频声音与人物嘴 4.3.1 损失函数的定制 在机器学习中,交叉熵常被用作分类问题中的 损失函数。但随着越来越多复杂网络结构、训练方 法的创新与使用,单纯的交叉熵损失无法完整地评 估模型的好坏。另外,不同的损失函数对于同样的 数据集,在相同的网络结构情况下,对最终的结果影 响依然存在着较大的差异[126]。 另外,与传统视频图像的多分类不同,人脸视频 深度伪造检测通常是“真-伪”两分类,并更注重挖掘 真伪样本之间的差异。基于以上原因,使用单交叉 熵作为损失的研究越来越少,更多的结合具体模型 设计而提出的定制型损失函数被创新与应用。 Zhao 等人 [42] 提出区域独立性损失,确保每个注 意力图集中在一个特定的区域而不重叠,并且集中 的区域在不同的样本中是一致的。Sun 等人[127]与 Li 等 人 [55]分别提出类内紧凑的损失函数与单中心损失,使 同类数据更加聚集,同时推远非同类型数据。Chintha 等人 [65] 则在交叉熵损失的基础上增加 KL 散度作为 补充。 因此,结合人脸视频深度伪造检测的任务要求, 部运动表示之间的相关性作为伪造检测的特征。 4.2 迁移学习的应用 迁移学习的应用是当前人脸视频深度伪造检测 方法研究领域所呈现的重要趋势特点之一,其出现 包括两方面原因:一是相较于传统图像识别、分类等 任务,视频真伪检测领域的训练数据的数量规模较 小,数据整体质量参差不齐。同时深度伪造视频的 g r 科 o . j 机 a e 算 c . 计 w w w 检测依赖于底层对于视频人脸的提取、动作的识别, 因此将成熟的模型进行迁移学习,能够最大程度在 已学习知识的基础上,有效利用深度伪造视频数据 集进行模型的训练与微调,节约训练成本,提高模型 表现。二是随着生物特征在深度伪造检测中已证明 其优越表现,基于视频中对象的生物及生理信号的 提取训练将成为该领域的重要研究分支。其中将涉 及到如嘴部运动 [103]、语义连贯性分析 [98]、人物对象微 表情分析等领域的先验知识,因此通过迁移学习,将 这些领域已成熟的训练模型用作底层特征提取,并 在深度伪造数据集上进行微调,能够提高特征的针 对性,进而提高模型表现。 探 与 学 索 张 19 璐 等:人脸视频深度伪造检测方法综述 应当更有针对性地设计损失函数,使之能够更加突 限制地扩大训练数据规模,确保模型能够获得充分 出真伪样本的差异性, 聚集同类样本, 排斥异类样本。 训练,提高模型表现。三是实际部署的泛化能力要 4.3.2 注意力机制的应用 注意力机制最早在自然语言处理和机器翻译对 齐文本中提出并使用,并取得了不错的效果。在计 算机视觉领域,也有一些学者探索了在视觉和卷积 神经网络中使用注意力机制来提升网络性能的方 法。注意力机制的基本原理很简单:网络中每层不 同特征的重要性不同,后面的层应该更注重其中重 要的信息,抑制不重要的信息。在人脸深度伪造视 频中,对于人脸的替换与二次编辑只是针对视频中 人物对象的完整脸部或者脸部中的具体位置(如眼 睛、嘴巴等),而对于脸部以外的部位所篡改的概率 较小,因此使用注意力机制能够更好地在图像层面 让模型关注到易篡改区域。在频域层面,使用注意 力机制也能够使模型更好地关注到随篡改行为有明 显变化的频域范围[128]。 在模型设计中融入注意力机制是提高当前深度 伪造视频检测模型表现的有效方法 [13,42],聚焦于视频 图像中的不同区域,提高图像特征的挖掘能力,配合 模型实现分类。注意力作为模块,也可以插入到当前 各类分类模型中,作为即插即用的组成部分[29,129],迫使 模型挖掘视频图像底层特征,而非只关注域表层具有 优良分类性能的特征, 以提高模型的泛化能力。 求使得模型必须能够兼顾识别挖掘出各类伪造数据 4.3.3 学习方法的创新应用 由于领域内可用数据数量相对较少,单一模型 性能有限,各类数据集之间特征差距较大所带来的 对模型泛化能力的要求等多方面原因,近几年,越来 越多的基于多任务和复杂模型的非传统神经网络结 构与学习方式被应用于人脸视频深度伪造检测领域。 自监督学习的应用是近两年在人脸视频深度伪 造 检 测 领 域 被 广 泛 应 用 的 学 习 训 练 思 路 [47,61,86,100- 101]。 通过对无标签数据设计辅助任务来挖掘数据自身的 表征特性作为监督信息,来提升模型的特征提取能 力。自监督学习在深度伪造视频检测领域具有重要 应用价值的原因有三方面:一是当前各类深度伪造 视频数据集的质量参差不齐,既有 Celeb-DF、DeeperForensics-1.0 等质量较高、贴近现实的数据集,也有 FaceForensics++等数据整体质量较低、伪造痕迹明显 的数据集,因此不同数据质量使得训练出的模型表 现不一,无法达到应用级标准。二是当前深度伪造 数据的规模与数量有待进一步提高,因此为更有效 地利用当前数据集,采用自监督学习能够理论上无 的过程中引入多实例学习的思想。 的篡改痕迹,通过自监督的学习方式,迫使模型提取 深层特征,而不因数据集种类的不同而提取不同层 级的视频图像特征,进而提高模型的整体泛化能力, 使之达到能够解决现实生活中伪造视频识别的目 的。研究结果证明,自监督学习能够有效提升模型 在跨库测试中的表现,无论训练集的伪造质量高低, 其检测准确率均取得了较好效果[61]。 另外,多实例学习也是近几年在人脸视频深度 伪造检测领域应用较多的学习方式。伪造视频的生 成是将原始视频分隔成帧,然后对每一帧伪造后进 行编码压缩发布。在这个过程中,可能存在帧与帧 之间的伪造质量与效果不同,或者存在部分帧并没 有进行伪造的情况。其中,不同帧的不同伪造质量 会在训练阶段影响模型的参数学习,视频中部分未 经过篡改的原始帧若被打标签为“被伪造”也同样会 干扰模型的训练。基于此,可采用多实例学习的思 想,把待检测的视频分割为若干个包(bag),其中包含 若干个实例(帧),如果其中有一个实例被检测为伪 造,则可以标记整个视频均是伪造的。因此,多实例 学习可以仅在拥有视频级标签的情况下进行学习。 Zhou 等人 [13] 与 Li 等人 [23] 均在人脸视频深度伪造检测 索 除此之外, 元学习[127]、 多任务学习[130]、 孪生训练[30,131] 也均是当前人脸视频深度伪造检测模型在训练学习 探 阶段所呈现出的新特点。其中,通过元学习,可在多 个数据域上训练,结合不同域的人脸对模型的贡献 与 不同,使得模型更容易学习到具体每一个数据域的 学 偏差特点;通过多任务学习,对于输入的待检测的视 g r 科 o . j 机 a e 算 c . 计 w w w 频,同时输出对其是否伪造的二分类结果与伪造区 域的定位结果;通过孪生训练,使得在网络层的编码 空间中学习一种能够很好地分离真实类和虚假类样 本(即人脸)的表示 [30,131],提高后续模型的分类能力。 5 总结展望 人脸视频深度伪造检测是近些年新兴的研究方 向,也是人工智能领域的研究热点。本文主要对近 三年的人脸视频深度伪造检测技术从特征选择方面 进行了总结,主要包括以下内容: (1)对常用数据集进行整理,包括领域内权威数 据 集 和 侧 重 不 同 学 习 方 法 、训 练 模 型 的 新 型 数 据 Journal of Frontiers of Computer Science and Technology 20 集 。 以 UADFV、DF-TIMIT 为 代 表 的 传 统 深 度 伪 造 2023, 17(1) 计算机科学与探索 也较少。 数据集由于数量少、伪造质量低已不符合当前学术 (6)总结了近些年各类检测方法所呈现出来的 研究的要求。以 DFDC、FaceForencies++、Celeb-DF 为 趋势,包括特征选择、模型设计、训练思路等方面的 代表的数据集是当前领域内研究常用的数据集,其 创新与特点。由于人脸视频深度伪造检测属于计算 中 Celeb-DF 由于伪造质量较高常被用来模拟现实生 机视觉领域,但又有其独特性,同时该领域的数据集 活 中 的 伪 造 视 频 ,进 而 用 于 测 试 模 型 的 泛 化 能 力 。 相对较少,因此需要结合任务的特点,选择设计合理 另外,由于不同研究者的特征选择、模型结构、训练 的学习与训练策略,充分利用有限数据集,提升模型 思路不同,进而提出若干新型数据集,如包含多实例 表现。 人脸的 FFIW 数据集、含有视频人物参考信息的 VoxDeepFake 数据集等。但总体来说,数据集的建立与 伪造技术的发展之间仍然存在差距,若要使模型达 到工业应用标准,势必需不断提高数据集质量。 (2)总结了基于空间特征的检测方法。根据挖 掘空间特征的挖掘对象不同,分为基于图像空间域、 图像频率域与图像上下文空间的检测方法。基于空 人脸视频深度伪造检测未来的发展方向,将体 现在以下几方面: (1)迁移学习与大规模预训练模型的使用。利 用大规模数据集与成熟的网络模型,通过迁移学习 实现对视频图像中丰富的人脸特征、局部特征的提 取,以提高后续分类的准确度。 (2)数 据 集 的 真 实 性 与 模 型 泛 化 能 力 的 提 高 。 间特征的检测方法集中于从单帧的视频图像中提取 深度伪造技术发展迅速,越来越多的高质量伪造视 空域特征、频域特征与图像上下文差异特征,其优点 频层出不穷,作为检测技术,应当更加贴近真实世界 是能够从图像底层挖掘真伪视频的差异,相对具有 中的伪造现状,使用更具有泛化能力的模型检测各 较高的模型泛化能力,但却忽略了视频中相邻帧之 类伪造技术生成的篡改视频。 间由于伪造技术所带来的时序上不一致。 (3)主动防御技术的发展。目前绝大多数的检 (3)总结了基于时空融合特征的检测方法。根 测均是事后的被动检测,只有主动防御才能从根本 据时序特征提取方法的不同,分为基于 RNN、基于卷 上杜绝伪造视频的生成与传播,这也是未来发展的 积与基于像素位移的时空融合特征检测方法。时空 方向。 融合特征弥补了单纯基于空间特征的不足,将单帧 的空间特征与相邻帧之间的时序不一致性进行统一 融合,从“时间-空间”的角度综合分析视频真伪。但 参考文献: 索 [1] 姬德强. 深度造假: 人工智能时代的视觉政治[J]. 新闻大 是如何有效表示时间特征,并如何将时间与空间特 学, 2020, 7: 1-16. 征进行融合,是重要的研究内容,直接关系到最终模 JI D Q. DeepFake: visual politics in the era of artificial in- 型的测试效果。 telligence[J]. Journalistic University, 2020, 7: 1-16. (4)总结了基于生物特征的检测方法。根据利 用的生物特征不同,分为基于身份一致性、人物生理 探 与 [2] 高 威, 萧 子 豪, 朱 益 灵. DeepFake 技 术 背 后 的 安 全 问 题: 机遇与挑战[J]. 信息安全研究, 2020, 6(7): 634-644. 学 g r 科 o . j 机 a e 算 c . 计 w w w 信号与音画特征的检测方法。与空间特征、时空融 合特征不同,该方法更从“人”的本质上判断视频中 出现人物的真伪,进而判定视频真伪。此类方法在 模型检测中取得不错的效果,但是对于生理特征的 GAO W, XIAO Z H, ZHU Y L. The security problems of the DeepFake technology: oppotunities and challenges[J]. Journal of Information Security Research, 2020, 6(7): 634-644. [3] DOLHANSKY B, BITTON J, PFLAUM B, et al. The deepfake detection challenge (DFDC) dataset[J]. arXiv:2006.07397, 2020. 设计与挖掘需要部分的先验知识,特征提取效率较 [4] RÖSSLER A, COZZOLINO D, VERDOLIVA L, et al. Face- 低。同时,外部参照集的使用降低了模型的应用范 Forensics ++ : learning to detect manipulated facial images 围,更适用于对重要人物的保护,同时也降低了模型 的训练与预测速度。 (5)总结了基于水印技术及区块链的检测方法。 [C]//Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision, Seoul, Oct 27- Nov 2, 2019. Pis-cataway: IEEE, 2019: 1-11. [5] LI Y Z, YANG X, SUN P, et al. Celeb-DF: a large-scale cha- 包括基于数字签名、数字水印、区块链、智能合约的 llenging dataset for deepfake forensics[C]//Proceedings of 检测方法等。此类方法摆脱了传统的特征提取、模 the 2020 IEEE/CVF Conference on Computer Vision and 型训练的过程,但是需要大量的先验知识,应用场景 Pattern Recognition, Seattle, Jun 13-19, 2020. Piscataway: 张 21 璐 等:人脸视频深度伪造检测方法综述 IEEE, 2020: 3204-3213. arXiv:2002.10137, 2020. [6] LI Y, CHANG M C, LYU S. In ICTU Oculi: exposing AI [19] PRAJWAL K R, MUKHOPADHYAY R, NAMBOODIRI V generated fake face videos by detecting eye blinking[J]. P, et al. A lip sync expert is all you need for speech to lip arXiv:1806.02877, 2018. generation in the wild[C]//Proceedings of the 28th ACM [7] KORSHUNOV P, MARCEL S. DeepFakes: a new threat to face recognition? Assessment and detection[J]. arXiv:1812.08685, 2018. International Conference on Multimedia, Seattle, Oct 12-16, 2020. New York: ACM, 2020: 484-492. [20] DONG X Y, BAO J M, CHEN D D, et al. Identity- driven [8] THIES J, ZOLLHOFER M, STAMMINGER M, et al. Face2- deepfake detection[J]. arXiv:2012.03930, 2020. Face: real-time face capture and reenactment of RGB videos [21] NAGRANI A, CHUNG J S, XIE W D, et al. VoxCeleb: large- [C]//Proceedings of the 2016 IEEE Conference on Computer scale speaker verification in the wild[J]. Computer Speech & Vision and Pattern Recognition, Las Vegas, Jun 26-30, 2016. Washington: IEEE Computer Society, 2016: 2387-2395. Language, 2020, 60: 101027. [22] ZI B J, CHANG M H, CHEN J J, et al. WildDeepfake: a [9] THIES J, ZOLLHÖFER M, NIEßNER M. Deferred neural challenging real-world dataset for deepfake detection[C]//Pro- rendering: image synthesis using neural textures[J]. ACM ceedings of the 28th ACM International Conference on Multi- Transactions on Graphics, 2019, 38(4): 66. media, Seattle, Oct 12- 16, 2020. New York: ACM, 2020: [10] ISOLA P, ZHU J Y, ZHOU T, et al. Image- to- image trans- 2382-2390. lation with conditional adversarial networks[C]//Proceedings [23] LI X, LANG Y, CHEN Y, et al. Sharp multiple instance lear- of the 2017 IEEE Conference on Computer Vision and Pat- ning for deepfake video detection[C]//Proceedings of the tern Recognition, Honolulu, Jul 21- 26, 2017. Washington: 28th ACM International Conference on Multimedia, Seattle, IEEE Computer Society, 2017: 1125-1134. Oct 12-16, 2020. New York: ACM, 2020: 1864-1872. [11] LI L, BAO J, YANG H, et al. FaceShifter: towards high fi- [24] LE T N, NGUYEN H H, YAMAGISHI J, et al. Open- delity and occlusion aware face swapping[J]. arXiv:1912.13457, Forensics: large- scale challenging dataset for multi- face 2019. forgery detection and segmentation in-the-wild[J]. arXiv: [12] JIANG L M, LI R, WU W, et al. DeeperForensics- 1.0: a 2107.14480, 2021. large-scale dataset for real-world face forgery detection[C]// [25] AFCHAR D, NOZICK V, YAMAGISHI J, et al. MesoNet: Proceedings of the 2020 IEEE/CVF Conference on Computer a compact facial video forgery detection network[C]//Pro- Vision and Pattern Recognition, Seattle, Jun 13- 19, 2020. ceedings of the 2018 IEEE International Workshop on Infor- Piscataway: IEEE, 2020: 2886-2895. mation Forensics and Security, Hong Kong, China, Dec 11- [13] ZHOU T, WANG W, LIANG Z, et al. Face forensics in the 索 13, 2018. Piscataway: IEEE, 2018: 1-7. wild[C]//Proceedings of the 2021 IEEE/CVF Conference on [26] DE LIMA O, FRANKLIN S, BASU S, et al. Deepfake de- Computer Vision and Pattern Recognition, Jun 19-25, 2021. tection using spatiotemporal convolutional networks[J]. arXiv: Piscataway: IEEE, 2021: 5778-5788. 2006.14749, 2020. [14] PEROV I, GAO D, CHERVONIY N, et al. DeepFaceLab: integrated, flexible and extensible face-swapping framework [J]. arXiv:2005.05535, 2020. 探 与 [27] LI Y, LYU S. Exposing deepfake videos by detecting face warping artifacts[J]. arXiv:1811.00656, 2018. 学 g r 科 o . j 机 a e 算 c . 计 w w w [28] GUARNERA L, GIUDICE O, BATTIATO S. Deepfake de- [15] NIRKIN Y, KELLER Y, HASSNER T. FSGAN: subject ag- tection by analyzing convolutional traces[C]//Proceedings nostic face swapping and reenactment[C]//Proceedings of of the 2020 IEEE/CVF Conference on Computer Vision and the 2019 IEEE/CVF International Conference on Computer Pattern Recognition Workshops, Seattle, Jun 14-19, 2020. Pis- Vision, Seoul, Oct 27-Nov 2, 2019. Piscataway: IEEE, 2019: cataway: IEEE, 2020: 2841-2850. 7184-7193. [16] KWON P, YOU J, NAM G, et al. KoDF: a large-scale Korean deepfake detection dataset[J]. arXiv:2103.10094, 2021. [17] SIAROHIN A, LATHUILIÈRE S, TULYAKOV S, et al. [29] WANG C R, DENG W H. Representative forgery mining for fake face detection[C]//Proceedings of the 2021 IEEE Conference on Computer Vision and Pattern Recognition, Jun 19-25, 2021. Piscataway: IEEE, 2021: 14923-14932. First order motion model for image animation[C]//Proceedings [30] BONETTINI N, CANNAS E D, MANDELLI S, et al. Vi- of the Annual Conference on Neural Information Proces- deo face manipulation detection through ensemble of CNNs sing Systems 2019, Vancouver, Dec 8-14, 2019: 7135-7145. [C]//Proceedings of the 25th International Conference on [18] YI R, YE Z, ZHANG J, et al. Audio-driven talking face video Pattern Recognition, Milan, Jan 10- 15, 2021. Piscataway: generation with learning- based personalized head pose[J]. IEEE, 2021: 5012-5019. Journal of Frontiers of Computer Science and Technology 22 [31] WODAJO D, ATNAFU S. Deepfake video detection using 2023, 17(1) 计算机科学与探索 9-15, 2019: 6105-6114. convolutional vision transformer[J]. arXiv:2102.11126, 2021. [41] CHEN C F R, FAN Q, PANDA R. CrossViT: cross-attention [32] LIU Z, QI X, TORR P H S. Global texture enhancement for multi- scale vision transformer for image classification[C]// fake face detection in the wild[C]//Proceedings of the 2020 Proceedings of the 2021 IEEE/CVF International Conference IEEE/CVF Conference on Computer Vision and Pattern Re- on Computer Vision, Montreal, Aug 28, 2021. Piscataway: cognition, Seattle, Jun 13- 19, 2020. Piscataway: IEEE, 2020: IEEE, 2021: 357-366. 8060-8069. [42] ZHAO H, ZHOU W, CHEN D, et al. Multi-attentional deep- [33] COCCOMINI D A, MESSINA N, GENNARO C, et al. Com- fake detection[J]. arXiv:2103.02406, 2021. bining EfficientNet and vision transformers for video deep- [43] GUO Z, YANG G, CHEN J, et al. Fake face detection via fake detection[C]//LNCS 13233: Proceedings of the 21st In- adaptive manipulation traces extraction network[J]. Computer ternational Conference on Image Analysis and Processing, Lecce, May 23-27, 2022. Cham: Springer, 2022: 219-229. Vision and Image Understanding, 2021, 204(11): 103170. [44] ZHOU P, HAN X, MORARIU V I, et al. Two-stream neural [34] 暴雨轩, 芦天亮, 杜彦辉, 等. 基于 i_ResNet34 模型和数据 networks for tampered face detection[C]//Proceedings of 增强的深度伪造视频检测方法[J]. 计算机科学, 2021, 48 the 2017 IEEE Conference on Computer Vision and Pattern (7): 77-85. Recognition Workshops, Honolulu, Jul 21-26, 2017. Washing- BAO Y X, LU T L, DU Y H, et al. Deepfake video detection method based on i_ResNet34 model and data augmentation[J]. Computer Science, 2021, 48(7): 77-85. [35] NGUYEN H H, YAMAGISHI J, ECHIZEN I. Capsule- ton: IEEE Computer Society, 2017: 1831-1839. [45] ZHU X, WANG H, FEI H, et al. Face forgery detection by 3D decomposition[C]//Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Forensics: using capsule networks to detect forged images Jun 19-25, 2021. Piscataway: IEEE, 2021: 2929-2939. and videos[C]//Proceedings of the 2019 IEEE International [46] LIU S, LIAN Z, GU S, et al. Block shuffling learning for Conference on Acoustics, Speech and Signal Processing, Brighton, May 12-17, 2019. Piscataway: IEEE, 2019: 23072311. deepfake detection[J]. arXiv:2202.02819, 2022. [47] CHEN L, ZHANG Y, SONG Y, et al. Self-supervised learning of adversarial example: towards good generalizations for [36] 耿鹏志, 唐云祁, 樊红兴, 等. 基于 CutMix 算法和改进 Xception 网络的深度伪造检测研究[J]. 激光与光电子学进展, deepfake detection[J]. arXiv:2203.12208, 2022. [48] ZHAO T C, XU X, XU M Z, et al. Learning self-consistency 2022, 59(16): 348-355. for deepfake detection[C]//Proceedings of the 2021 IEEE/ GENG P Z, TANG Y Q, FAN H X, et al. Deep forgery CVF International Conference on Computer Vision, Montreal, detection using CutMix algorithm and improved Xception Oct 10-17, 2021. Piscataway: IEEE, 2021: 15023-15033. network[J]. Laser & Optoelectronics Progress, 2022, 59(16): [49] GU Q, CHEN S, YAO T, et al. Exploiting fine-grained face 348-355. 索 探 forgery clues via progressive enhancement learning[J]. arXiv: [37] 张时润, 彭勃, 王伟, 等. 基于空洞卷积和注意力机制的深 度伪造检测[J]. 现代电子技术, 2022, 45(5): 42-48. 2112.13977, 2021. 与 [50] DURALL R, KEUPER M, PFREUNDT F J, et al. Unmas- ZHANG S R, PENG B, WANG W, et al. Deepfake detec- king deepfakes with simple features[J]. arXiv:1911.00686, tion based on dilated convolution and attention mechanism 2019. 学 g r 科 o . j 机 a e 算 c . 计 w w w [J]. Modern Electronics Technique, 2022, 45(5): 42-48. [38] 朱新同, 唐云祁, 耿鹏志. 基于特征融合的篡改与深度伪 造图像检测算法[J]. 信息网络安全, 2021, 21(8): 70-81. [51] QIAN Y, YIN G, SHENG L Z, et al. Thinking in frequency: face forgery detection by mining frequency-aware clues[J]. arXiv:2007.09355, 2020. ZHU X T, TANG Y Q, GENG P Z. Detection algorithm of [52] ZHANG X, KARAMAN S, CHANG S F. Detecting and tamper and deepfake image based on feature fusion[J]. Net- simulating artifacts in GAN fake images[C]//Proceedings info Security, 2021, 21(8): 70-81. of the 2019 IEEE International Workshop on Information [39] NATARAJ L, MOHAMMED T M, MANJUNATH B S, et al. Detecting GAN generated fake images using co-occurrence matrices[J]. Electronic Imaging, 2019(5): 532. Forensics and Security, Delft, Dec 9-12, 2019. Piscataway: IEEE, 2019: 1-6. [53] FRANK J, EISENHOFER T, SCHÖNHERR L, et al. Lever- [40] TAN M, LE Q. EfficientNet: rethinking model scaling for con- aging frequency analysis for deep fake image recognition volutional neural networks[C]//Proceedings of the 36th Inter- [C]//Proceedings of the 37th International Conference on national Conference on Machine Learning, Long Beach, Jun Machine Learning, Jul 13-18, 2020: 3247-3258. 张 23 璐 等:人脸视频深度伪造检测方法综述 [54] LUO Y C, ZHANG Y, YAN J C, et al. Generalizing face convolutional structures for audio spoof and video deepfake forgery detection with high-frequency features[C]//Procee- detection[J]. IEEE Journal of Selected Topics in Signal Pro- dings of the 2021 IEEE/CVF Conference on Computer Vi- cessing, 2020, 14(5): 1024-1037. sion and Pattern Recognition, Jun 19-25, 2021. Piscataway: IEEE, 2021: 16317-16326. [66] CHOLLET F. Xception: deep learning with depthwise separable convolutions[C]//Proceedings of the 2017 IEEE Con- [55] LI J, XIE H, LI J, et al. Frequency- aware discriminative ference on Computer Vision and Pattern Recognition, Ho- feature learning supervised by single- center loss for face nolulu, Jul 21-26, 2017. Washington: IEEE Computer Society, forgery detection[J]. arXiv:2103.09096, 2021. 2017: 1800-1807. [56] LIU H G, LI X D, ZHOU W B, et al. Spatial-phase shallow [67] FEI J, XIA Z, YU P, et al. Exposing AI- generated videos learning: rethinking face forgery detection in frequency with motion magnification[J]. Multimedia Tools and Appli- domain[J]. arXiv:2103.01856, 2021. cations, 2021, 80(20): 30789-30802. [57] WANG J, WU Z, CHEN J, et al. M2TR: multi-modal multi- [68] WU X, XIE Z, GAO Y T, et al. SSTNet: detecting manipu- scale transformers for deepfake detection[J]. arXiv:2104.09770, lated faces through spatial, steganalysis and temporal features 2021. [C]//Proceedings of the 2020 IEEE International Conference [58] CHEN S, YAO T P, CHEN Y, et al. Local relation learning for face forgery detection[C]//Proceedings of the 35th AAAI on Acoustics, Speech and Signal Processing, Barcelona, May 4-8, 2020. Piscataway: IEEE, 2020: 2952-2956. Conference on Artificial Intelligence, the 33rd Conference [69] AMERINI I, CALDELLI R. Exploiting prediction error in- on Innovative Applications of Artificial Intelligence, the consistencies through LSTM-based classifiers to detect deep- 11th Symposium on Educational Advances in Artificial In- fake videos[C]//Proceedings of the 2020 ACM Workshop telligence, Feb 2-9, 2021. Menlo Park: AAAI, 2021: 1081- on Information Hiding and Multimedia Security, Denver, 1088. Jun 22-24, 2020. New York: ACM, 2020: 97-102. [59] LI L Z, BAO J, ZHANG T, et al. Face X- Ray for more [70] MASI I, KILLEKAR A, MASCARENHAS R M, et al. general face forgery detection[C]//Proceedings of the 2020 Two- branch recurrent network for isolating deepfakes in IEEE/CVF Conference on Computer Vision and Pattern Re- videos[C]//LNCS 12352: Proceedings of the 16th European cognition, Seattle, Jun 13-19, 2020. Piscataway: IEEE, 2020: Conference on Computer Vision, Aug 23- 28, 2020. Cham: 5000-5009. Springer, 2020: 667-684. [60] NIRKIN Y, WOLF L, KELLER Y, et al. Deepfake detection [71] MONTSERRAT D M, HAO H X, YARLAGADDA S K, et based on discrepancies between faces and their context[J]. al. Deepfakes detection with automatic face weighting[C]// IEEE Transactions on Pattern Analysis and Machine Intelli- Proceedings of the 2020 IEEE/CVF Conference on Computer gence, 2022, 44(10): 6111-6121. Vision and Pattern Recognition Workshops, Seattle, Jun 13- [61] SUN K, YAO T, CHEN S, et al. Dual contrastive learning for general face forgery detection[J]. arXiv:2112.13522, 2021. [62] SABIR E, CHENG J X, JAISWAL A, et al. Recurrent con- 索 探 19, 2020. Piscataway: IEEE, 2020: 2851-2859. [72] 邢豪, 李明. 基于 3D CNNS 的深度伪造视频篡改检测[J]. 与 计算机科学, 2021, 48(7): 86-92. volutional strategies for face manipulation detection in videos XING H, LI M. Deepfake video detection based on 3D [C]//Proceedings of the 2019 IEEE Conference on Computer convolutional nerual network[J]. Computer Science, 2021, Vision and Pattern Recognition Workshops, Long Beach, 48(7): 86-92. 学 g r 科 o . j 机 a e 算 c . 计 w w w Jun 16-20, 2019. Piscataway: IEEE, 2019: 80-87. [73] ZHANG D C, LI C Y, LIN F Z, et al. Detecting deepfake [63] GÜERA D, DELP E J. Deepfake video detection using videos with temporal dropout 3DCNN[C]//Proceedings of recurrent neural networks[C]//Proceedings of the 15th IEEE the 30th International Joint Conference on Artificial Intelli- International Conference on Advanced Video and Signal gence, Aug 19-26, 2021: 1288-1294. Based Surveillance, Auckland, Nov 27-30, 2018. Piscataway: IEEE, 2018: 1-6. [64] 邢豪. 基于时空特征的深度伪造视频篡改检测[D]. 太原: 太原理工大学, 2021. [74] ZHENG Y L, BAO J M, CHEN D, et al. Exploring temporal coherence for more general video face forgery detection[J]. arXiv:2108.06693, 2021. [75] GU Z H, CHEN Y, YAO T P, et al. Spatiotemporal inconsis- XING H. Deepfake video detection based on spatial- temporal tency learning for deepfake video detection[C]//Proceedings features[D]. Taiyuan: Taiyuan University of Technology, 2021. of the 29th ACM International Conference on Multimedia, [65] CHINTHA A, THAI B, SOHRAWARDI S J, et al. Recurrent Chengdu, Oct 20- 24, 2021. New York: ACM, 2021: 3473- Journal of Frontiers of Computer Science and Technology 24 3481. 2023, 17(1) 计算机科学与探索 15088-15097. [76] GU Z H, CHEN Y, YAO T P, et al. Delving into the local: [86] DONG X Y, BAO J M, CHEN D D, et al. Protecting dynamic inconsistency learning for deepfake video detection celebrities with identity consistency transformer[J]. arXiv: [C]//Proceedings of the 36th AAAI Conference on Artificial 2203.01318, 2022. Intelligence, the 34th Conference on Innovative Applica- [87] SUN Z K, HAN Y J, HUA Z Y, et al. Improving the effi- tions of Artificial Intelligence, the 12th Symposium on Edu- ciency and robustness of deepfakes detection through pre- cational Advances in Artificial Intelligence, Feb 22- Mar 1, cise geometric features[C]//Proceedings of the 2021 IEEE 2022. Menlo Park: AAAI, 2022: 744-752. Conference on Computer Vision and Pattern Recognition, [77] AMERINI I, GALTERI L, CALDELLI R, et al. Deepfake Jun 19-25, 2021. Piscataway: IEEE, 2021: 3609-3618. video detection through optical flow based CNN[C]//Pro- [88] CIFTCI U A, DEMIR I, YIN L. FakeCatcher: detection of ceedings of the 2019 IEEE/CVF International Conference synthetic portrait videos using biological signals[J]. IEEE on Computer Vision Workshops, Seoul, Oct 27- 28, 2019. Transactions on Pattern Analysis and Machine Intelligence, Piscataway: IEEE, 2019: 1205-1207. 2020. DOI: 10.1109/TPAMI.2020.3009287. [78] SUN D, YANG X, LIU M Y, et al. PWC-Net: CNNs for op- [89] YANG X, LI Y Z, LYU S. Exposing deep fakes using in- tical flow using pyramid, warping, and cost volume[C]//Pro- consistent head poses[C]//Proceedings of the 2019 IEEE In- ceedings of the 2018 IEEE Conference on Computer Vision ternational Conference on Acoustics, Speech and Signal Pro- and Pattern Recognition, Salt Lake City, Jun 18- 22, 2018. cessing, Brighton, May 12-17, 2019. Piscataway: IEEE, 2019: Washington: IEEE Computer Society, 2018: 8934-8943. 8261-8265. [79] CHINTHA A, RAO A, SOHRAWARDI S, et al. Leveraging [90] QI H, GUO Q, XU J F, et al. DeepRhythm: exposing deep- edges and optical flow on faces for deepfake detection[C]// fakes with attentional visual heartbeat rhythms[C]//Procee- Proceedings of the 2020 IEEE International Joint Conference dings of the 28th ACM International Conference on Multi- on Biometrics, Houston, Sep 28-Oct 1, 2020. Piscataway: IEEE, media, Seattle, Oct 12-16, 2020. New York: ACM, 2020: 2020: 1-10. 4318-4327. [80] LOPES A T, DE AGUIAR E, DE SOUZA A F, et al. Facial [91] NIU X, SHAN S, HAN H, et al. RhythmNet: end-to-end heart expression recognition with convolutional neural networks: rate estimation from face via spatial-temporal representation coping with few data and the training sample order[J]. Pat- [J]. IEEE Transactions on Image Processing, 2019, 29: 2409- tern Recognition, 2017, 61: 610-628. 2423. [81] DONG X, SI W, HUANG W. ECG-based identity recogni- [92] CIFTCI U A, DEMIR I, YIN L J. How do the hearts of deep tion via deterministic learning[J]. Biotechnology & Biotech- fakes beat? Deep fake source detection via interpreting resi- nological Equipment, 2018, 32(3): 769-777. duals with biological signals[C]//Proceedings of the 2020 [82] AGARWAL S, FARID H, GU Y M, et al. Protecting world leaders against deep fakes[C]//Proceedings of the 2019 IEEE 索 探 IEEE International Joint Conference on Biometrics, Houston, Sep 28-Oct 1, 2020. Piscataway: IEEE, 2020: 1-10. 与 Conference on Computer Vision and Pattern Recognition [93] NGUYEN H M, DERAKHSHANI R. Eyebrow recognition Workshops, Long Beach, Jun 16-20, 2019. Piscataway: IEEE, for identifying deepfake videos[C]//Proceedings of the 19th 2019: 38-45. International Conference of the Biometrics Special Interest 学 g r 科 o . j 机 a e 算 c . 计 w w w [83] AGARWAL S, FARID H, EL- GAALY T, et al. Detecting Group, Sep 16-18, 2020: 199-206. deep-fake videos from appearance and behavior[C]//Procee- [94] MATERN F, RIESS C, STAMMINGER M. Exploiting dings of the 12th IEEE International Workshop on Infor- visual artifacts to expose deepfakes and face manipulations mation Forensics and Security, New York, Dec 6-11, 2020. [C]//Proceedings of the 2019 IEEE Winter Applications of Piscataway: IEEE, 2020: 1-6. Computer Vision Workshops, Waikoloa Village, Jan 7-11, 2019. [84] WILES O, KOEPKE A S, ZISSERMAN A. Self-supervised learning of a facial attribute embedding from video[J]. arXiv: 1808.06882, 2018. [85] COZZOLINO D, RÖSSLER A, THIES J, et al. ID-Reveal: identity-aware deepfake video detection[C]//Proceedings of Piscataway: IEEE, 2019: 83-92. [95] ZHOU Y P, LIM S N. Joint audio-visual deepfake detection [C]//Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision, Montreal, Oct 10- 17, 2021. Piscataway: IEEE, 2021: 14780-14789. the 2021 IEEE/CVF International Conference on Computer [96] WANG G, ZHANG P, XIE L, et al. An audio- visual atten- Vision, Montreal, Oct 10- 17, 2021. Piscataway: IEEE, 2021: tion based multimodal network for fake talking face videos 张 25 璐 等:人脸视频深度伪造检测方法综述 detection[J]. arXiv:2203.05178, 2022. [97] CHUGH K, GUPTA P, DHALL A, et al. Not made for each Intelligence, and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence, New Orleans, other- audio- visual dissonance- based deepfake detection and Feb 2-7, 2018. Menlo Park: AAAI, 2018: 5634-5641. localization[C]//Proceedings of the 28th ACM International [109] COX I, MILLER M, BLOOM J, et al. Digital watermarking Conference on Multimedia, Seattle, Oct 12-16, 2020. New York: ACM, 2020: 439-447. and steganography[M]. San Mateo: Morgan Kaufmann, 2007. [110] AKHTAR N, MIAN A. Threat of adversarial attacks on [98] HALIASSOS A, VOUGIOUKAS K, PETRIDIS S, et al. Lips don’t lie: a generalisable and robust approach to face forgery detection[C]//Proceedings of the 2021 IEEE Conference on Computer Vision and Pattern Recognition, Jun 19- 25, 2021. Piscataway: IEEE, 2021: 5039-5049. [99] CHUNG J S, ZISSERMAN A. Lip reading in the wild[C]// deep learning in computer vision: a survey[J]. IEEE Access, 2018, 6: 14410-14430. [111] HUANG Q, ZHANG J, ZHOU W, et al. Initiative defense against facial manipulation[J]. arXiv:2112.10098, 2021. [112] KIM C, REN Y, YANG Y. Decentralized attribution of generative models[J]. arXiv:2010.13974, 2021. Proceedings of the 13th Asian Conference on Computer Vi- [113] YU N, SKRIPNIUK V, ABDELNABI S, et al. Artificial sion, Taipei, China, Nov 20-24, 2016. Cham: Springer, 2016: GAN fingerprints: rooting deepfake attribution in training 87-103. data[J]. arXiv:2007.08457, 2007. [100] ZHAO H, ZHOU W, CHEN D, et al. Self-supervised trans- [114] MA C, GU Y, GONG C, et al. Unsupervised video hashing former for deepfake detection[J]. arXiv:2203.01265, 2022. via deep neural network[J]. Neural Processing Letters, 2018, [101] HALIASSOS A, MIRA R, PETRIDIS S, et al. Leveraging real talking faces via self- supervision for robust forgery detection[J]. arXiv:2201.07131, 2022. [102] GRILL J B, STRUB F, ALTCHÉ F, et al. Bootstrap your 47(3): 877-890. [115] LI J, ZHANG H, WAN W, et al. Two-class 3D-CNN classifiers combination for video copy detection[J]. Multimedia Tools and Applications, 2020, 79(7): 4749-4761. own latent—a new approach to self- supervised learning [116] TANG W, WO Y, HAN G. Geometrically robust video ha- [C]//Advances in Neural Information Processing Systems, shing based on ST-PCT for video copy detection[J]. Multi- 2020, 33: 21271-21284. media Tools and Applications, 2019, 78(15): 21999-22022. [103] LIN J, ZHOU W, LIU H, et al. Lip forgery video detec- [117] KOOPMAN M, RODRIGUEZ A M, GERADTS Z. Detection tion via multi- phoneme Selection[C]//Proceedings of the of deepfake video manipulation[C]//Proceedings of the 20th 2021 International Workshop on Safety & Secruity of Deep Irish Machine Vision and Image Processing Conference, Learning, New York, Jun 7-11, 2021: 1-8. Belfast, Aug 29-31, 2018: 133-136. 索 [104] AGARWAL S, FARID H, FRIED O, et al. Detecting deep- [118] HUANG H, WANG Y T, CHEN Z Y, et al. CMUA-Water- fake videos from phoneme- viseme mismatches[C]//Procee- mark: a cross- model universal adversarial watermark for dings of the 2020 IEEE/CVF Conference on Computer combating deepfakes[J]. arXiv:2105.10872, 2021. Vision and Pattern Recognition, Seattle, Jun 14- 19, 2020. Piscataway: IEEE, 2020: 2814-2822. [105] CHENG H, GUO Y, WANG T, et al. Voice- face homo- 探 [119] HASAN H R, SALAH K. Combating deepfake videos using 与 blockchain and smart contracts[J]. IEEE Access, 2019, 7: 41596-41606. 学 g r 科 o . j 机 a e 算 c . 计 w w w geneity tells deepfake[J]. arXiv:2203.02195, 2022. [106] AGARWAL S, FARID H. Detecting deep- fake videos from aural and oral dynamics[C]//Proceedings of the 2021 IEEE [120] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: transformers for image recognition at scale[J]. arXiv:2010.11929, 2020. Conference on Computer Vision and Pattern Recognition [121] LIU Z, LIN Y T, CAO Y, et al. Swin transformer: hierar- Workshops, Jun 19-25, 2021. Piscataway: IEEE, 2021: 981- chical vision transformer using shifted windows[J]. arXiv: 989. 2103.14030, 2021. [107] MITTAL T, BHATTACHARYA U, CHANDRA R, et al. [122] HEO Y J, CHOI Y J, LEE Y W, et al. Deepfake detection Emotions don’t lie: an audio-visual deepfake detection me- scheme based on vision transformer and distillation[J]. thod using affective cues[J]. arXiv:2003.06711, 2020. arXiv:2104.01353, 2021. [108] ZADEH A, LIANG P P, MAZUMDER N, et al. Memory [123] JEON H, BANG Y, WOO S S. FDFtNet: facing off fake fusion network for multi-view sequential learning[C]//Pro- images using fake detection fine-tuning network[C]//Pro- ceedings of the 32nd AAAI Conference on Artificial In- ceedings of the 35th IFIP TC 11 International Conference telligence, the 30th Innovative Applications of Artificial on ICT Systems Security and Privacy Protection, Maribor, Journal of Frontiers of Computer Science and Technology 26 Sep 21-23, 2020. Cham: Springer, 2020: 416-430. 2023, 17(1) 计算机科学与探索 [132] FERNANDO T, FOOKES C, DENMAN S, et al. Exploiting [124] KHORMALI A, YUAN J S. DFDT: an end- to- end deep- human social cognition for the detection of fake and frau- fake detection framework using vision transformer[J]. App- dulent faces via memory networks[J]. arXiv:1911.07844, lied Sciences, 2022, 12(6): 2953. 2019. [125] KHAN S A, DAI H. Video transformer for deepfake detec- [133] DU M, PENTYALA S, LI Y, et al. Towards generalizable tion with incremental learning[C]//Proceedings of the 29th deepfake detection with locality- aware autoencoder[C]// ACM International Conference on Multimedia, Chengdu, Proceedings of the 29th ACM International Conference on Oct 20-24, 2021. New York: ACM, 2021: 1821-1828. Information and Knowledge Management, Ireland, Oct 19- [126] RAMACHANDRAN S, NADIMPALLI A V, RATTANI A. An experimental evaluation on deepfake detection using deep face recognition[J]. arXiv:2110.01640, 2021. [127] SUN K, LIU H, YE Q X, et al. Domain general face for- 23, 2020. New York: ACM, 2020: 325-334. [134] GUO Z H, YANG G B, CHEN J Y, et al. Fake face detection via adaptive residuals extraction network[J]. arXiv: 2005.04945, 2020. gery detection by learning to weight[C]//Proceedings of the 35th AAAI Conference on Artificial Intelligence, the 张璐(1994—),男,博士研究生,助教,主要研 33rd Conference on Innovative Applications of Artificial 究方向为计算机视觉、深度学习。 Intelligence, the 11th Symposium on Educational Advances ZHANG Lu,born in 1994, Ph.D. candidate, in Artificial Intelligence, Feb 2-9, 2021. Menlo Park: AAAI, teaching assistant. His research interests include 2021: 2638-2646. computer vision and deep learning. [128] KHORMALI A, YUAN J S. ADD: attention- based deepfake detection approach[J]. Big Data and Cognitive Com- 芦天亮(1985—),男,博士,副教授,博士生导 puting, 2021, 5(4): 49. 师,主要研究方向为信息安全、深度学习、恶意 [129] DANG H, LIU F, STEHOUWER J, et al. On the detection 软件。 of digital face manipulation[C]//Proceedings of the 2020 LU Tianliang, born in 1985, Ph.D., associate IEEE/CVF Conference on Computer Vision and Pattern professor, Ph.D. supervisor. His research inter- Recognition, Seattle, Jun 13- 19, 2020. Piscataway: IEEE, ests include information security, deep learning 2020: 5781-5790. and malware. [130] NGUYEN H H, FANG F, YAMAGISHI J, et al. Multitask learning for detecting and segmenting manipulated 杜彦辉(1969—),男,博士,教授,博士生导师, facial images and videos[J]. arXiv:1906.06876, 2019. 主要研究方向为信息安全、深度学习。 索 [131] HSU C C, ZHUANG Y X, LEE C Y. Deep fake image DU Yanhui, born in 1969, Ph.D., professor, Ph.D. detection based on pairwise learning[J]. Applied Sciences, supervisor. His research interests include infor- 2020, 10(1): 370. mation security and deep learning. 学 与 探 g r 科 o . j 机 a e 算 c . 计 w w w