密码学报 ISSN 2095-7025 CN 10-1195/TN Journal of Cryptologic Research, 2020, 7(4): 525–540 ©《密码学报》编辑部版权所有. E-mail: jcr@cacrnet.org.cn http://www.jcr.cacrnet.org.cn Tel/Fax: +86-10-82789618 人工智能与密码专栏 面向加密数据的安全图像分类模型研究综述* 孙隆隆1,2, 李 辉1,2, 于诗文2, 王迎雪3 1. 西安电子科技大学 综合业务网理论及关键技术国家重点实验室, 西安 710071 2. 西安电子科技大学 网络与信息安全学院, 西安 710126 3. 中国电子科学研究院 社会安全风险感知与防控大数据应用国家工程实验室, 北京 100041 通信作者: 李辉, E-mail: hli@xidian.edu.cn 摘 要: 自 2012 年 AlexNet 模型提出以来, 图像分类技术研究进入了深度学习时代. 模型分类能力的 提高使得技术的实际应用变得普及, 许多企业将图像分类与云计算等技术结合, 为用户提供各类便捷服务. 但是模型的广泛使用带来了巨大的图像数据隐私泄漏风险. 这一问题严重阻碍了图像分类技术的应用与 发展. 为此研究人员尝试将同态加密和安全多方计算等密码学技术与图像分类模型相结合, 设计隐私保护 方案. 由于引入隐私保护会对模型的可用性 (执行速度和分类精度) 造成影响, 因此兼顾安全性与可用性 成为研究重点. 本文对基于加密技术的图像分类模型隐私保护研究进行了全面调研, 介绍了常用密码学技 术的原理和适用性; 依据模型使用场景的不同将问题分为模型推理和训练两类, 对每一类问题当前的研究 进展进行了详细介绍, 比较了不同方案的特点和效果. 最后基于当前研究的不足与难点, 对本问题未来的 研究方向做了展望. 关键词: 图像分类; 深度学习; 隐私保护; 同态加密; 安全多方计算 中图分类号: TP309.7 文献标识码: A DOI: 10.13868/j.cnki.jcr.000387 中文引用格式: 孙隆隆, 李辉, 于诗文, 王迎雪. 面向加密数据的安全图像分类模型研究综述[J]. 密码学报, 2020, 7(4): 525–540. [DOI: 10.13868/j.cnki.jcr.000387] 英文引用格式: SUN L L, LI H, YU S W, WANG Y X. A survey on encrypted image recognition models[J]. Journal of Cryptologic Research, 2020, 7(4): 525–540. [DOI: 10.13868/j.cnki.jcr.000387] A Survey on Encrypted Image Recognition Models SUN Long-Long1,2 , LI Hui1,2 , YU Shi-Wen2 , WANG Ying-Xue3 1. State Key Laboratory on Integrated Services Networks, Xidian University, Xi’an 710071, China 2. School of Cyber Engineering, Xidian University, Xi’an 710126, China 3. National Engineering Laboratory for Public Safety Risk Perception and Control by Big Data (PSRPC), China Academy of Electronics and Information Technology, Beijing 100041, China Corresponding author: LI Hui, E-mail: hli@xidian.edu.cn * 基金项目: 社会安全风险感知与防控大数据应用国家工程实验室主任基金; 国家自然科学基金 (61972309, 61672408); 教育 部中央高校基本科研业务费 (JB181505); 陕西省自然科学基础研究计划 (2018JM6073) Foundation: Fund of National Engineering Laboratory for Public Safety Risk Perception and Control by Big Data (PSRPC); National Natural Science Foundation of China (61972309, 61672408); the Fundamental Research Funds for the Central Universities (JB181505); Natural Science Basic Research Plan of Shaanxi Province of China (2018JM6073) 收稿日期: 2019-10-27 定稿日期: 2020-04-14 Journal of Cryptologic Research 密码学报 Vol.7, No.4, Aug. 2020 526 Abstract: Since the introduction of the AlexNet in 2012, the research for image recognition has entered the era of deep learning. The improvement of the model’s ability has made the application of image recognition popular. Many companies deploy image recognition models with cloud computing to provide users various convenient services. However, the widespread use of models has brought generous image data leakage risks, which seriously hinders the application and development of image recognition technology. To this end, researchers have tried to combine cryptography, such as homomorphic encryption and secure multi-party computation, with image recognition models to design privacy-preserving schemes. The introduction of privacy-preserving technology affects the usability of models (computational efficiency and classification accuracy), therefore, balancing security and usability becomes a research hotspot. In this paper, a comprehensive survey on encryption based privacy protection for image classification is given, and the principles and applicability of various cryptographic techniques are introduced. According to different application scenarios of the model, the problems are divided into two types: model inference and training. The current research progress is described in detail according to these two types of problems. Finally, according to the shortcomings and difficulties of the current research, several future research directions are proposed. Key words: image recognition; deep learning; privacy-preserving; homomorphic encryption; secure multi-party computation 1 引言 近年来, 人工智能相关技术的研究产生了突破性进展, 特别是以神经网络模型为核心代表的各种机器 学习技术被广泛应用于计算机视觉、自然语言处理、语音识别等领域, 进而深刻地改变着人们的生活. 但 是, 技术是一把双刃剑. 移动终端设备、视频监控网络和传感器网络等随时随地地获取着个人用户的各类 信息数据, 规范利用此类数据可以为用户带来更便捷的使用体验, 而非法使用数据则会带来严重的安全和 隐私风险. 从互联网科技巨头到传统的酒店、快递等服务行业, 无论是蓄意滥用还是受到攻击, 近年来各 类信息泄露事件可谓层出不穷 [1, 2] , 单纯依靠机构的自我约束显然不足以保证数据的安全, 为此以欧美为 代表的各国政府加紧提出了如《通用数据保护条例》(General Data Protection Regulation, GDPR)、 《加 州消费者隐私法案》(California Consumer Privacy Act, CCPA) 等相关数据保护法规 [3, 4] . 这些法规对 数据接入和使用做出了严格的限制. 部分现有机器学习技术要求用户将个人数据上传到服务提供商的服 务器, 以便训练一个可用的模型或利用已训练模型进行推理得到结果, 而在这些法规限制下, 数据获取变 得更加严格, 部分普通机器学习技术面临失效. 自动图像分类具有重要的应用价值, 一直以来都是研究的热点. 由于高性能计算、移动互联网等技术 的发展与提高, 计算能力愈来愈高、图像收集愈来愈便捷. 图像分类技术已从人工设计特征 [5] 发展为自动 提取特征, 从早期的支持向量机 [6] 、浅层神经网络 [7] 等模型发展为当前主流的深度学习模型 [8, 9] , 图像数 据量与模型复杂度均有了极大的提升. 然而, 图像分类应用的普及引出了一个重要的问题: 如何保障图像 分类模型应用过程中的隐私安全? 同样, 隐私保护技术的研究也由来已久. 早期有 k 匿名化 (k-anonymity)、l 多样化 (l-diversity) [10, 11] 等技术用于隐私保护, 但此类方法多只适合于提供数据特定统计学信息, 难以应用于复杂机器学习模型. 近年来研究人员提出了差分隐私 (Differential Privacy, DP) [12] 的概念, 一些学者将差分隐私引入各类机 器学习模型, 提出了不同隐私保护方案, 旨在确保发布已训练完成的模型时, 用于训练模型的数据信息不 被泄漏. 对于图像分类中目前主流的深度学习技术, 其使用涉及到两个基本过程: 模型训练和模型推理. 模型训练过程需要用到大量的训练数据, 反复迭代使模型参数收敛到较优值, 完成训练; 模型推理过程相 对简单, 即利用已训练完成的模型, 输入数据得到输出. 由此可以看出深度学习的使用无法简单看作数据 发布过程, 还存在各种额外的隐私问题. 由于近年密码学发展研究迅速, 诸如同态加密 (Homomorphic Encryption, HE) 和其他安全多方计 算 (Secure Multi-Party Computation, SMC) 协议等在计算效率上大幅提升, 实用性愈来愈强, 因此被认 孙隆隆 等: 面向加密数据的安全图像分类模型研究综述 527 为在机器学习相关的隐私保护问题中具有应用前景 [13] , 同时各种加密技术也被引入到云环境下的密文计 算与查询应用中 [14, 15] . 针对保护输入图像数据隐私条件下的模型训练与推理问题, 研究人员提出了结合 密码学中的加密技术设计训练或推理方案. 此类方法通常被用来解决模型输入数据的隐私保护问题. 面对数据安全与隐私性、模型有效性等问题, 已有研究人员提出了许多兼顾两者的解决方案. 针对图 像分类模型训练与推理过程中的相关隐私保护问题, 本文从问题定义、原理介绍、方案分析三个方面全面、 系统地介绍了最新的研究进展, 探讨了未来的研究方向. 首先根据使用场景分析图像分类模型存在的隐私 风险, 其次调研密码学研究领域中可用的相关加密与保护技术, 简要介绍它们的设计原理和适用场景. 最 后系统介绍相关保护技术与图像分类模型相结合的研究进展, 对不同方法进行多维度的分析与比较. 特别 指出, 本文着重于调研密码学技术在图像分类模型隐私保护中的应用, 对于非密码学技术 (如差分隐私) 将 不展开论述. 本文的剩余部分按如下结构组织: 第 2 节介绍了图像分类模型应用过程中存在的相关隐私风险; 第 3 节介绍了相关密码学技术的基本原理和研究进展; 第 4 节介绍针对推理过程的相关模型隐私保护方 案; 第 5 节介绍针对训练过程的相关模型隐私保护方案. 第 6 节总结了当前的研究难点, 展望了未来的相关 研究方向. 第 7 节总结了全文. 2 图像分类模型隐私问题分类 同其他信息安全问题一样, 图像分类模型的隐私保护研究也需要定义安全模型, 目前各类保护方案使 用的安全模型主要有半诚实模型 (Semi-honest Security) 和恶意模型 (Malicious Security). 半诚实模型 假设参与方均严格按照约定计算协议内容执行计算, 在不违反协议的前提下推测对方隐私信息; 恶意模型 可以使用任何攻击手段 (容许违背协议内容) 来获取对方隐私信息. 由于深度学习的运用, 图像分类模型往往需要大规模存储和计算资源来支撑, 因此通常结合公有云服 务来使用. 然而, 依托云服务完成分类模型训练和推理任务时, 将产生图像数据所有权与使用权分离的现 象, 从而会带来一系列的安全隐私风险. 本文根据图像分类模型的使用场景将隐私保护问题分为模型推理 和模型训练的隐私保护两类. 2.1 模型推理的隐私问题 机构或企业针对图像分类需求利用自身已有样本数据在本地完成模型训练, 之后将训练好的模型部署 到云端, 利用云服务面向个人或其他机构提供推理服务. 推理服务使用者在使用服务时需要将含有敏感信 息的图像上传云端, 云端模型完成对图像推理, 向用户返回结果. 此场景中的数据拥有者为推理服务的使 用者. 研究主要集中于保护推理服务使用者的图像信息不被云端非法使用. 根据对推理服务使用者的要求可分为在线推理 (Online Inference) 和离线推理 (Offline Inference). 在线推理要求云端在执行推理过程中, 与使用者保持连接以便完成必要的交互计算, 最终获得推理结果; 离线推理仅要求使用者仅完成上传 (加密) 图像数据一步操作, 便可以得到推理结果. 2.2 模型训练的隐私问题 图像分类模型的训练相比推理过程要复杂许多, 隐私保护难度更大. 通过调研图像分类模型的训练需 求, 本文将模型训练进一步细分为外包训练和协同训练两种情况, 如图1所示. 不同情况对应的隐私保护问 题也不同. (1) 外包训练: 用户需要利用自己的图像数据训练一个图像分类模型, 由于缺少计算设备需要使用云 服务商提供的训练服务. 因此用户需要将可能含有敏感信息的训练数据集上传到云端, 云端利用这些数据 集训练一个分类模型返回给用户. 此场景中的数据拥有者为训练数据的提供者者. 研究主要集中于保护训 练图像数据的隐私信息不被云端窃取. (2) 协同训练: 深度学习中有一个基本共识是, 增加训练数据通常都能带来模型精度的提升. 对于某些 训练任务, 训练图像可能来自于多个数据拥有者, 为了能够训练一个精度更高的模型从而共同受益, 数据 拥有者们希望在相互不共享私有数据的前提下完成模型训练. 综上所述, 模型推理与训练涵盖了图像分类应用的主要使用场景, 下文中将根据这两类场景分别介绍 当前的图像分类模型隐私保护方案. Journal of Cryptologic Research 密码学报 Vol.7, No.4, Aug. 2020 528 数据2 上传图像 数据1 返回模型 用户 数据3 云服务商 辅助服务器 外包训练 协同训练 . 图 1 模型训练隐私保护分类 Figure 1 Classification of privacy-preserving training 3 相关密码学方法介绍 密码学等安全保护技术是构建隐私保护模型的基础工具, 针对图像分类应用, 已有研究方案主要基 于安全多方计算方法, 并尤其以同态加密技术为主. 安全多方计算起源于姚期智教授提出的百万富翁问 题 [16] : 两位百万富翁想知道谁更富有, 但是他们不想让对方知道有关自己财富的信息. 安全多方计算是 一种重要的隐私保护技术, 可用于分布式投票、私人竞标和拍卖、共享签名或解密功能以及私人信息检索 等, 同时在机器学习的隐私保护问题上也具有广泛的研究运用. 它早期被用于决策树、关联规则挖掘、朴 素贝叶斯分类和 K-means 聚类等模型的隐私问题研究 [17–20] , 近年来也被引入深度学习模型的隐私保护 中. 为全文叙述的连贯性以及便于对后续各类方案的理解, 本节对同态加密以及其他相关技术做简单介绍. 3.1 同态加密 早在 1978 年, 麻省理工学院教授 Rivest [21] 首次提出了同态的概念, 提出了对密文执行计算的可能 性. 同态加密是指一类加密方案, 其容许第三方对密文执行某些特定的运算类型, 并保证得到的密文解密 后为原始明文执行对应运算的结果, 此过程保证第三方无法获得明文的任何信息. 同态加密的定义如下: 定义 1 设 x 为输入数据、f 为任意运算, 若存在加密方案 E 满足以下等式, 其中 Enc 为加密运算、 Dec 为解密运算、f ′ 为对应的密文运算, 则方案 E 是一种同态加密. f (x) = Dec(f ′ (Enc(x))) 同态加密思想巧妙, 用途广泛. 但遗憾的是, 目前学界还未找到一种实际理想的加密方案, 即已有的方 案 E 均对输入 x、运算 f 有一定限制. 通常来讲, 根据容许的运算类型和运算次数的不同, 可将现有的同 态加密方案分为以下三类: (1) 部分同态加密 (Partially Homomorphic Encryption, PHE): 仅支持对密文执行特定的运算, 即 对 f 的类型有限制. (2) Somewhat 同态加密 (Somewhat Homomorphic Encryption, SWHE): 仅支持对密文执行有限 次的运算, 即对 f 的使用次数有限制. (3) 全同态加密 (Fully Homomorphic Encryption, FHE): 支持对密文执行任意次的任意运算, 即对 f 无任何限制. 由于对于有限集合, 加法和乘法运算构成了对任意函数运算的完备性, 所以通常将部分同态加密分为 加法同态和乘法同态两类: (1) 加法同态: 将 f 限制为加法运算, 满足 Enc(x) +′ Enc(y) = Enc(x + y). (2) 乘法同态: 将 f 限制为乘法运算, 满足 Enc(x) ×′ Enc(y) = Enc(x × y). 部分同态加密在构造上相对容易, 主要依赖于各种公钥密码体制. 利用 RSA 公钥密码体制的同态 性, Rivest 等人构造了最早的乘法同态 [21] . 基于 GM 概率公钥密码体制可以实现加法同态 [22, 23] . 利用 ElGamal 公钥密码体制同样可以构造一种乘法同态加密方案 [24] . Paillier 于 1999 年提出了一种新的概 孙隆隆 等: 面向加密数据的安全图像分类模型研究综述 529 率加密体制, 基于此可以构造出加法同态 [25] . 澳大利亚 CSIRO 的研究人员实现并开源了 Paillier 方案1 , 已被广泛使用. 除此之外, 还有许多针对以上方案的改进与优化研究, 本文不再详细介绍. Somewhat 同态加密尽管在理论上是不完美的, 但在一些计算相对简单的场景下, 却可以实际使用. 更重要的是, Somewhat 同态加密是构造全同态加密的基础. 2005 年, Boneh 等人首次构造了同时支持加 法和乘法同态的 Somewhat 同态加密方案 BGN [26] . 2009 年是同态加密的里程碑之年, Gentry 在他的博士论文中首次提出了全同态加密的构造框架 [27] . 简单来说, Gentry 首先构造了 Somewhat 同态加密方案, 在加密过程中引入 “噪声”, 每次执行密文运算 操作都会使 “噪声” 加大, 需要注意的是当 “噪声” 达到一定程度后会造成解密错误, 因此只能执行有限次 的加法、乘法操作. 为解决这一问题, Gentry 提出了自举 (Bootstrapping) 技术, 可以将原密文转换为一 个新的 “噪声” 更小的密文, 并保证不改变对应明文. 至此, Gentry 完成了全同态构造. 此后在 Gentry 工 作的启发下, 研究人员提出了各种全同态构造方法. 根据构造工具的不同, 可分为四类: (1) 基于多项式环 上的理想格构造 Somewhat 同态加密 [27, 28] . (2) 基于整数上的分解困难构造 [29, 30] . (3) 基于容错学习问 题 (Learning with Error, LWE) [31–33] . (4) 基于 NTRU 密码体制构造 [34, 35] . 可以说自 2009 年来, 全同 态的构造研究取得了飞速的进步. 近年来同态加密的方案设计与优化层出不穷, 但是将同态加密运用于实际中还离不开方案的完整可靠 实现. 目前较有代表性的开源实现有: (1) HElib 库2 , 支持 BGV 加密方案 [36] 和 CKKS 加密方案 [33] , 依 赖于 NTL 库. (2) 由微软开发的 SEAL 库 [37] , 实现了 BGV 加密方案和 CKKS 方案且不依赖于外部库. (3) TFHE 库3 , 实现了 CGG 加密方案, 依赖于 FFTW. (4) HEAAN 库4 , 由 CKKS 加密方案的作者开 发, 依赖于 NTL 库. (5) 由 NuCyper 公司开发的 NuFHE 库5 , 提供了对 TFHE 库的 GPU 加速支持. 计算速度提升两个数量级. 同态加密技术经过几十年的研究, 已有大量的研究成果, 有研究人员针对同态加密有更全面详细的综 述性介绍 [38, 39] . 为了更好地推动同态加密研究和应用的发展, 学界和工业界成立了同态加密的标准化组 织6 , 发布了相关技术标准 [40] . 图像分类模型的训练和推理需要大量的复杂计算, 而同态加密提供了密文数据上的计算能, 因此如果 先对模型的输入数据加密 (此过程实现了隐私保护) 然后使用同态计算实现模型训练或推理 (此过程保证 了模型的可用性) 便可满足保护隐私条件下使用模型的需求. 3.2 其他构造工具 混淆电路 [41] (Garbled Circuit, GC) 容许计算参与方安全地求解约定好的布尔电路, 由于数学函数在 计算机内部均由布尔电路实际表示, 因此可以利用这种方法计算任何函数. 给定一个函数 f (x1 , x2 ), x1 和 x2 分别为不同参与方的私有输入, 其中一方执行混淆电路的生成, 另一方求解电路. 计算过程还需引入不 经意传输 (Oblivious Transfer, OT) 使得电路求解方可以安全地加密私有输入. 原始的混淆电路方案基于半诚实模型假设, 此后研究人员使用 cut-and-choose 技术 [42] 将混淆电路 拓展到恶意模型, 同时近些年来, 也有许多优化方法不断被提出 [43, 44] , 从而大大提升了计算效率, 使得方 案的实用性不断增强。 秘密共享 (Secret Sharing, SS) 最早由 Shamir 和 Blakley 分别提出 [45, 46] , 基本思想是将隐私数据 拆分为多个子部分, 分发给多个参与者持有, 容许持有者直接对数据进行计算. 对于一个 (n,t) 门限安全共 享方案, 秘密被分割为 n 部分且由 n 个参与方分别持有, 方案保证任意大于 t 个参与方可以协作还原秘 密, 而任意小于等于 t 个参与方共谋时无法还原秘密. 秘密共享基于不共谋假设, 以此来避免计算复杂度 较高的密码学操作. 因此基于秘密共享的方案通常要比基于同态加密技术的方案计算效率更高. 1 https://github.com/n1analytics/python-paillier https://github.com/shaih/HElib 3 https://github.com/tfhe/tfhe 4 https://github.com/snucrypto/HEAAN 5 https://github.com/nucypher/nufhe 6 http://homomorphicencryption.org/ 2 Journal of Cryptologic Research 密码学报 Vol.7, No.4, Aug. 2020 530 4 模型推理隐私保护研究 利用训练好的模型对外提供推理服务是图像分类领域常用的应用模式. Gilad-Bachrach 等人 [47] 提 出的 CryptoNets 模型是将全同态加密与神经网络相结合的较早研究之一, 为后期的研究提供了基本思路. 图 2 描述了方案的流程与关键技术. 用户首先将自己的数据加密处理, 然后上传到存储图像分类模型的云 服务商, 云端执行加密推理后返回加密的结果, 用户解密后获取真实结果. 由于同态加密不支持非多项式 运算和比较运算, 故方案将卷积神经网络模型中的非线性激励函数 ReLU:f (x) = max(0, x) 替换为平方 ∑ 激励函数 f (x) = x2 , 使用放缩求和函数 f (⃗x) = xi 替换最大池化层, 放缩求和函数具备和平均池化 类似的特性且避免了对密文执行除法运算. 由于其使用的全同态加密只支持整数运算, 因此方案使用多项 式编码的方法近似表示浮点数, 同时针对密文下大数溢出的问题, 提出了利用中国剩余定理进行大数运算. 以上技术使得同态加密与神经网络的结合成为可能, 但不足之处在于造成模型分类精度的损失. 文中基于 SEAL 库实现了 CryptoNets 模型, 在 MNIST 数据集上的模型分类精度可达 98.95%, 单次推理耗时 250 秒. 此外由于实验采用的同态加密方案支持单指令多数据 (Single Instruction Multiple Data, SIMD) 操 作, 因此支持多达 4096 张图片的并行推理. 用户 编解码 云服务商 非线性近似 加密数据 数据拥有者 加解密 计算提供者 推理结果 保证隐私 模型简化 加密优化 提高精度 加快速度 图 2 CryptoNets 方案基本流程示意 Figure 2 Basic process of CryptoNets 此后有许多新的研究方案被提出, 其中有部分研究工作引入了服务器与客户端的交互, 因此可进一步 分为两类: (1) 非交互式方案. 客户端加密需要推理的图像后发送给推理服务提供方, 推理服务提供方计算 后将结果返回客户端, 中间不容许额外的数据交互, 不需要客户端提供额外的计算, 因此适用于离线推理 需求; (2) 交互式方案. 在推理服务提供方计算结果的过程中容许与客户端进行交互, 客户端具有一定的计 算能力, 因此适用于在线推理需求. 4.1 非交互式方案 Hesamifard 等人 [48] 提出的 CryptoDL 模型同样采用了明文训练、密文推理的思想. 主要针对神经网 络模型中非多项式函数的近似问题做了讨论与改进, 文中比较了数值分析、泰勒级数、切比雪夫多项式等 方法, 提出低阶多项式近似 ReLU、Sigmoid、Tanh 等激励函数并给出了误差理论保证, 相比 CryptoNets 方案使用的平方激活函数等降低了模型推理精度上的损失. 该方案基于 HELib 库实现, 对 MNIST 数据 集可以实现 99.25% 的分类精度. Chou 等人提出的 FasterCryptoNets [49] 方案主要对模型简化与编码技术做了改进. 作者首先结 合文献 [50] 中提出的神经网络剪枝方法减小原始模型中的参数数量, 减少乘法运算量. 然后对剩余参 数, 设计了一种适合同态运算的网络参数稀疏表示方法, 利用逐级量化方法实现明文编码的最大稀疏性, 两种技术共同加快了推理速度但也损失少量的分类精度. 此外针对方案要求的最大稀疏编码, 方案使用 f (x) = 2−3 x2 +2−1 x+2−2 近似替换 ReLU 函数. 实验结果表明新方案比原 CryptoNets 方案在推理速度 上快一个数量级. 此后 Brutzkus 等人在文献 [51] 中进一步对编码表示方法尝试改进, 以便加密方案可用于更深更复杂 的模型, 从而提高分类精度. 文中提出了两种手段: 第一, 基于向量化思想精心设计数据表示方法, 并基于 表示方法定义了一系列运算, 以提高计算速度; 第二, 在加密推理中首次引入迁移学习技术, 首先利用公开 模型得到得到图像的语义特征表示, 此过程过滤了图像的敏感信息, 之后输入加密网络进行推理. 孙隆隆 等: 面向加密数据的安全图像分类模型研究综述 531 以上方案均采用多项式来近似神经网络的非线性激励函数, 对于 CryptoNets 和 CryptoDL 这类仅使 用了一两层激励层的模型来说效果理想, 但对于更深层的网络模型, 这种处理方式使得在训练过程中网络 模型难以收敛, 因此, 如何进一步拓展网络的深度成为一大挑战. Chabanne 等人 [52] 将深度学习中经常使 用的 BatchNorm 层与原有加密方案结合从而有效地加深了网络层数. 加入 BatchNorm 层使得非线性激 励层的输入都被限制在一个稳定的分布内, 从而使加深网络层数成为可能. 与之前方案不同的是, 在训练 阶段模型仍采用 ReLU 激励函数, 而在推理阶段使用多项式近似替换. 对医学图像进行自动分类可以显著减轻高昂的医疗成本, 而且对某些疾病诊断精度甚至优于经验丰富 的医生. 但是由于医疗数据的高度敏感性, 迫切需要在推理过程中加入隐私保护手段. Chao 等人 [53] 提出 了 CaRENets 方案, 可以在实际应用中实现高分辨率加密图像的高效推理. CaRENets 的核心技术是采 用新的全同态压缩打包方案, 该方案与卷积神经网络紧密集成, 使其具有内存占用效率和推理速度的双重 优势. 他们将 CaRENets 方案应用于早产儿视网膜病变 (ROP) 和糖尿病视网膜病变 (DR) 检测中. 实验 表明使用压缩打包方案, 相比 CryptoNets 内存效率提高了 45 倍, 推理速度提高了 4–5 倍. 但仍未能应用 于复杂模型, 因此分类精度不理想. Bourse 等人 [54] 提出了一种新的面向神经网络的同态加密框架 FHE-DiNN. 文中首次提出针对参数 离散化神经网络进行加密推理, 设计了第一个专门针对神经网络计算优化的同态加密方案. 该工作对同态 加密方案 [55] 的 Bootstrapping 过程进行修改, 以减小密文规模并实现同态符号函数运算, 进而利用此符 号函数作为非线性激励函数, 此过程大大提高了网络的推理速度, 不过也因此损失了一些推理精确度. 实 验表明在相同安全级别下, FHE-DiNN 模型推理速度比 CryptoNets 方案有两个数量级的提高, 推理精度 损失了 2.6%. 文献 [56] 进一步针对参数离散化神经网络中的二进制参数网络提出了几种加速密文推理的 技巧, 提出约简树加法器 (Reduce Tree Adder) 和排序网络 (Sorting Network) 技术加速点积计算, 同时 将参数由 {−1, 1} 转换为 {0, 2} 计算以提高稀疏性. 最后将方案应用于人脸图像和手写体数字的识别. 神经网络使用到大量的矩阵运算, 文献 [57] 针对矩阵的安全外包计算问题进行研究, 并将其应用于加 密神经网络模型. 注意到同态加密方案中的密文包装 (Ciphertext Packing) 技术可以大幅提高计算效率, 作者将矩阵运算变换分解以便适用于密文包装, 将密文与密文矩阵乘法时间复杂度从 O(d2 ) 降为 O(d). 文中基于以上改进提出了加密神经网络框架 E2DM. 以上方案均使用 CPU 进行加密计算, 借鉴深度学习领域广泛采用的 GPU 计算思想, Badawi 等 人 [58] 首次提出可支持 GPU 计算的同态加密神经网络模型 HCNN, 模型采用了低精度训练、同态加密优 化和 GPU 加速实现等技术, 相比 CPU 推理速度可提升一个数量级以上. 4.2 交互式方案 交互式方案多基于安全多方计算实现, 相比单纯同态加密推理速度有极大提升. Liu 等人利用秘密共 享成功构造了不经意神经网络 (Oblivious Neural Networks, ONN) [59] . 方案采用了和 SecureML [60] 相 同的思想, 由客户端 C 和服务器 S 加性共享网络每层的输入和输出值, 对于一个约定的函数 y = f (x; w), 设 C、S 分别持有 xC 、xS , 满足 x = xC +xS . 设计一种协议 F 使得结果交互计算后 C 和 S 分别得到 y C 、y S , 且满足 y = y C +y S , 则 S 将 y S 发送给 C, C 便可以得到结果 y. 若服务器 S 半诚实, 则协议过 程 S 无法获得 xC , 从而满足数据的隐私性要求. 文中基于此构造了不经意线性层、激励层和池化层并依 此提出了 MiniONN 技术, 创新之处在于可以将现有神经网络模型不经过任何修改而转换为不经意神经网 络. 同时为了加速计算, 方案还引入了离线的预计算手段. 协议基于 ABY 两方计算库和 SEAL 同态加密 库实现, 对 MNIST 图像的推理时间降到 1.28 秒. Juvekar 等人组合使用同态加密和混淆电路, 提出了安全神经网络推理框架 GAZELLE [61] . 框架基 于半诚实模型, 由同态层、线性代数核心和网络推理三部分组成, 同态层提供基本加密运算, 为此设计了 PATH 加法同态库; 线性代数核心提供高效的矩阵运算, 结合密文包装和密文置换技术设计了用于同态矩 阵-向量乘法和同态卷积的新算法; 网络推理基于安全两方计算实现模型推理, 为此设计了一种可以在同态 和混淆电路编码之间进行转换的协议. 与 MiniONN 方案相比, GAZELLE 框架可以隐藏关于神经网络的 更多信息, 因此安全性更高, 同时推理时间缩短 20–30 倍. Xie 等人将贝叶斯学习与同态加密结合提出了 BAYHENN 方案 [62] , 方案使用贝叶斯神经网络提供 了对模型参数的额外保护. 在贝叶斯学习中将网络的每一个参数看作是一个分布而不是确定的值, 从而可 Journal of Cryptologic Research 密码学报 Vol.7, No.4, Aug. 2020 532 以利用这种不确定性保护隐私. 方案使用全同态加密保护输入图像的隐私, 设计了 SLC 和 SNC 两种协议 分别用于网络线性和非线性部分的计算, 同样要求服务器半诚实. 相比 GAZELLE 方案, 推理速度提高了 近 5 倍, 但由于贝叶斯网络参数的不确定性, 推理精度略有下降. 4.3 研究小结 通过以上调研可知, 针对模型推理已有多种隐私保护方案. 表1对当前主流方案进行了比较. 加密技术 与安全假设一项展示了方案所依赖的密码学技术、秘钥强度和额外的安全性假设, 安全性假设影响方案的 实际适用场景. 从分类精度来看, 对于一些小型数据集无论是交互还是非交互式方案, 均能满足较好的精 度要求. 但是对于复杂数据集, 当前各类方案的精度离实用还有一定差距. 综合来看, 现有方案主要基于同 态加密和安全多方计算技术, 前者安全性假设简单, 有较强的理论保证, 后者推理速度更快, 能应用于较复 杂的分类模型. 表 1 现有面向推理的隐私保护方案对比 Table 1 Comparison of different schemes for privacy preserving infernence 数据集 方案 模型 层数 Gilad-Bachrach et al. [47] CNN Hesamifard et al. Chou et al. [48] [49] [51] Brutzkus et al. [52] ∗ 加密技术与安全假设 是否交互 分类精度 2 FHE;80 否 ⋆⋆⋆⋆ CNN 1 FHE;80 否 ⋆⋆⋆⋆ CNN 2 FHE;128 否 ⋆⋆⋆⋆ CNN 2 FHE;128 否 ⋆⋆⋆⋆ CNN 6 FHE;− 否 ⋆⋆⋆⋆ Bourse et al. [54] MLP 2 FHE;80 否 ⋆⋆⋆⋆ Sanyal et al. [56] BNN − FHE;− 否 ⋆⋆⋆⋆ CNN 2 FHE;80 否 ⋆⋆⋆⋆ CNN 2 FHE;128 否 ⋆⋆⋆⋆ CNN 3 FHE,SMP;128; 半诚实 是 ⋆⋆⋆⋆ CNN 2 PATH,SMP;128; 半诚实 是 − 2 FHE;128; 半诚实 是 ⋆⋆⋆⋆ CNN 7 FHE,SMP;128; 半诚实 是 ⋆⋆ CNN 7 PATH,SMP;128; 半诚实 是 − 6 FHE;128; 半诚实 是 ⋆⋆⋆ Chabanne et al. † MNIST Jiang et al. [57] Badawi et al. Liu et al. [58] [59] Juvekar et al. [61] Xie et al. [62] Liu et al. [59] BayesianNN CIFAR-10 Juvekar et al. IDC Xie et al. ROP DR ∗ [61] [62] BayesianNN Chao et al. [53] CNN 2 FHE;80 否 ⋆⋆ Chao et al. [53] CNN 2 FHE;80 否 ⋆ 激活函数层数. † 其中 ⋆⋆⋆⋆∈ (95%, 100%],⋆⋆⋆∈ (90%, 95%],⋆⋆∈ (80%, 90%],⋆∈ (0%, 80%]. 由于 Somewhat 同态加密方案支持 SIMD 操作, 因而一些隐私保护方案利用 SIMD 特性来实现对输 入数据的批量推理功能. 当用户一次需要推理大量图片时, 这一特性可以有效地降低总推理时间, 但对只 需要推理单张图片的情况没有帮助. 此外同态加密固有的低效性导致目前还难以将其运用于深层的卷积 神经网络模型, 因此当前方案使用的模型与数据集相对较小. 图像分类模型隐私保护方案的实现涉及到深度学习、密码学和软件工程学等领域的知识, 少有研究团 队开源方案实现, 实验复现难度较大. 为了方便进行不同实验的比较, 以及面向生产环境部署方案, 有研 究团队致力于加密深度学习框架的开发. Intel 人工智能研究院开源了 nGraph-HE 框架 [63] , 框架基于 nGraph 深度学习编译器, 结合了当前先进的图编译技术, 向下兼容 SEAL 和 HEAAN 加密库, 向上兼容 TensorFlow、MXNet 和 Pytorch 深度学习框架. 利用 nGraph-HE 框架实现的 CryptoNets 模型取得了 孙隆隆 等: 面向加密数据的安全图像分类模型研究综述 533 与原文中近似的推理速度, 表明框架引入的额外时间开销较小. SEALion 是另一个加密深度学习框架 [64] , 其专注于明文训练、密文推理模式. 框架基于 TensorFlow 和 SEAL 库, 提供 Keras 风格的接口, 支持浮 点数到加密数据类型的自动编码. 5 模型训练隐私保护研究 图像分类模型的训练需要大量的图像数据, 同样存在泄漏图像敏感信息的风险. 从分类模型的计算过 程来看, 模型推理仅执行一个前向传播; 而模型训练要比推理复杂许多, 对于非凸模型 (如在图像分类领域 广泛使用的卷积神经网络), 模型训练时通常使用随机梯度下降 (Stochastic Gradient Descent, SGD) 优 化, 因此需要多次迭代执行前向传播、损失计算和反向传播. 二者计算复杂度有多个数量级以上的差距. 因此不同于推理, 在训练的隐私保护方案中往往需要用户将数据拆分到多个服务器, 服务器之间基于安全 多方计算协议完成模型的迭代训练. 5.1 外包训练 Mohasse 等人首次提出了一种基于安全两方计算来训练神经网络的方案 SecureML [60] . 用户将模型 训练任务外包给两个服务器 (安全模型要求两个服务器不合谋) 来完成. 方案利用加性秘密共享来实现安 全加法和乘法运算, 两个服务器分别持有秘密 x 的一部分, 用 ⟨x⟩0 和 ⟨x⟩1 来表示. 对于加法 c = a+b, 服务器各自计算 ⟨c⟩i = ⟨a⟩i + ⟨b⟩i , 则 c = ⟨c⟩0 + ⟨c⟩1 ; 对于乘法 c = a · b, 依次计算 ⟨e⟩i = ⟨a⟩i − ⟨u⟩i , ⟨f ⟩i = ⟨b⟩i −⟨v⟩i , ⟨c⟩i = i · e · f +f · ⟨a⟩i +e · ⟨b⟩i +⟨z⟩i , 则有 c = ⟨c⟩0 +⟨c⟩1 , 其中 ⟨u⟩, ⟨v⟩, ⟨z⟩ 称为乘法三 元组且满足 z = u · v. 三元组与共享的秘密无关, 因此方案将训练分为离线和在线两个阶段: (1) 在离线阶 段, 服务器生成在线阶段所需要的乘法三元组, 文中基于同态加密和不经意传输给出了两种生成方法并将 一般的协议矢量化以加速离线计算, 基于同态加密的优势在于通信开销更小, 基于不经意传输的优势在于 速度更快; (2) 在线阶段中, 两个服务器获得客户端分享的秘密 (即客户端的训练数据), 并在该秘密上使用 随机梯度下降算法来训练模型, 对于激活函数方案使用不经意传输计算. 方案将小数转换为整数后再进行 两方计算, 为了将小数部分用固定长度的比特表示做了截断处理, 文中证明这种截断对模型的训练精度没 有影响. 方案基于以上安全计算实现了逻辑回归和 CNN 模型的训练, 不足之处在于所需的通信开销巨大, 训练速度对于大多数实际应用来说仍然太慢. 微软研究院的团队提出 SecureNN [65] , 同时适用于隐私保护的训练和推理. 与 SecureML 方案不同 的是 SecureNN 基于三方或四方服务器训练模型, 安全模型要求任意两方服务器不共谋. 文中首先构造了 多方矩阵计算、多方比较、多方除法等基本运算, 然后基于此实现了卷积、ReLU 函数、最大池化函数和 它们导函数的计算, 从而实现在神经网络上的安全训练和推理. 方案通过新提出的最高有效位 (MSB) 计 算协议加速计算, 相比 SecureML 方案速度提高了 8–407 倍, 同时在安全推理中相比 MiniONN 方案也更 快. 通常对于此类多服务器训练方案, 参与方越多训练速度愈快, 但安全性假设愈强. 针对图像分类常用的分布式训练场景, 文献 [66] 提出了隐私保护方案 CodedPrivateML. 不同于以往 方案, CodedProvateML 通过利用最新提出的 Lagrange 编码技术 [67] 实现秘密共享来达到保护训练数据 和模型参数的目的, 首先利用随机量化将数据和权重值变换在有限域, 然后使用 Lagrange 编码技术将量 化后的值与随机矩阵编码, 保证了协议信息论安全, 最后利用分布式计算节点训练. 但拉格朗日编码仅支 持多项式计算, 为此文中尝试了一系列量化和近似计算方法. 假设对逻辑回归中 Sigmoid 函数的近似阶数 为 r, 训练数据拆分为 K 份, 分布式节点为 N 个, 则当共谋节点个数 T 满足 N ≥ (2r + 1)(K + T − 1) + 1 时可保证数据安全. CodedPrivateML 相比基于同态加密的方案训练速度更快, 但实验中仅进行了逻辑回 归模型的训练, 是否适用于深度学习模型的训练仍需进一步探讨. 以上方案需要多个服务器参与协作才能完成训练, 并且严格要求这些服务器间不共谋, 该安全性模型 要求较高, 现实应用中面临很多限制. 为此研究人员尝试完全使用同态加密技术训练模型, Han 等人 [68] 首次实现了完全基于同态加密训练的图像分类模型, 训练过程使用批梯度下降优化技术, 以便最大地利用 加密方案的 SIMD 特性, 同时使用 NAG 优化方法避免同态运算中耗时的除法操作. 此外, 作者同样采用 了在加密图像推理研究中广泛使用的多项式函数来近似激励函数. 较之推理过程, 模型训练需要较高的运 算精度, 因而选择支持近似定点数计算的 HEAAN 同态加密方案 [33] . 不足之处在于方案同样仅实现了在 Journal of Cryptologic Research 密码学报 Vol.7, No.4, Aug. 2020 534 MNIST 数据集的二分类问题上对逻辑回归模型的训练. 5.2 协同训练 当数据所有者为多个时, 图像分类模型的训练由多个用户协同完成, 需要设计针对协同训练的隐私保 护方案. 利用多密钥同态加密 (Multi-Key Fully Homomorphic Encryption, MK-FHE) 技术可以满足这 一需求, 文献 [69] 对此进行研究, 首先利用 MK-FHE 技术构造方案, 不同数据拥有者利用私钥加密数据 并发送给服务器, 服务器计算后将得到的结果返回给每一个数据拥有者, 最后所有数据拥有者共同执行多 方计算将结果解密. 为了避免解密阶段的交互过程, 作者又提出基于双重解密机制和同态加密相结合的方 案, 并给出了详细的安全性分析. 多密钥同态加密的瓶颈在于巨大的计算复杂度, 文献 [70] 针对多数据源情况下的模型训练需求提出 了隐私保护方案 PDLM. 不同的用户可以使用各自的公钥加密图像, 方案利用分布式双陷门公钥加密系 统实现将多密钥加密的图像转换为单一秘钥加密的图像, 针对前向和反向传播分别设计了安全多方计算协 议, 使用泰勒展开式近似计算 Sigmoid 函数. 训练由秘钥生成中心、数据拥有者、服务提供者和云计算服 务商协同完成, 安全模型假设服务提供者和云计算服务商不共谋. Zhang 等人了提出 GELU-Net [71] 方案, 利用客户端和服务器的协同计算来避免多项式近似激励函 数所造成的精度损失. 方案在训练过程中要求服务器半诚实, 利用服务器 (模型所有者) 计算模型中除激 励函数外的其他部分, 客户端 (图像所有者) 计算激励函数部分. 以上思路同时避免了密文间的乘法同态 运算, 因此可以采用更高效的加法同态加密方案 Paillier. 另外针对训练过程中可能存在的隐私泄露问题, 该方案还提出了一种基于添加噪声的安全梯度更新方法, 用于实现反向传播过程中的隐私保护, 并给出了 安全性分析. 同时文中指出通过调整训练策略, 方案也可以支持多数据源训练的隐私保护. 5.3 研究小结 从图像分类模型的训练的要求来看, 模型训练的隐私保护难度较大, 当前相关研究方案较少, 仍然处 于研究的探索阶段. 表 2 对现有研究方案进行了总结归纳, 可以看出基于多密钥加密的方案相比其他多方 计算方案精度损失较大, 另外针对同样数据集, 与推理相比模型训练的精度损失也更大. 目前的研究方案 多适用于浅层网络, 适用于当前图像分类领域的实际使用的深度卷积神经网络模型的隐私保护方案几乎还 是空白. 同时部分方案安全性假设过强, 实际使用环境很难满足这些假设, 因此还需研究人员积极探索. 表 2 现有面向训练的隐私保护方案对比 Table 2 Comparison of different schemes for privacy preserving training 数据集 方案 So et al. MNIST‡ LR 1 [71] Mohassel et al. [60] MNIST ∗ 加密技术与安全假设 是否交互 SS; 不共谋 是 ⋆⋆⋆⋆ FHE 否 ⋆⋆⋆⋆ 2 Paillier; 半诚实 是 ⋆⋆⋆⋆ 2 SMP; 不共谋 是 ⋆⋆⋆ 3 FHE; 不共谋 是 ⋆⋆⋆⋆ 2 SMP; 不共谋 是 ⋆⋆ 2 SMP; 不共谋 是 [68] Zhang et al. 分类精度 † CNN Wagh et al. CIFAR-10 激活函数层数. 层数 [66] Han et al. ∗ 模型 † [65] Ma et al. [70] Ma et al. [70] CNN 其中 ⋆⋆⋆⋆∈ (95%, 100%],⋆⋆⋆∈ (90%, 95%],⋆⋆∈ (80%, 90%],⋆∈ (0%, 80%]. ⋆ ‡ 取两个数字二分类. 面向隐私保护的模型训练已有优秀的开源实现, PySyft 是其中的代表 [72] . PySyft 框架集合了差分隐 私、安全多方计算和联邦学习等技术, 底层基于 Pytorch 框架, 框架内部实现了 SPDZ 和 SecureNN 训练 方案. TF-Encrypted 是另一个基于 TensorFlow 的安全多方计算框架 [73] , 支持常见的机器学习模型、优 化方法和分布式计算. 孙隆隆 等: 面向加密数据的安全图像分类模型研究综述 535 6 研究展望 从以上对各种方案的介绍分析来看, 虽然对于一些简单的图形分类任务, 如 MNIST 数据集, 实验证 明一些针对浅层分类模型的保护方案, 在安全性与可用性 (分类精度和执行速度) 方面均取得了不错的效 果. 但是对于复杂的分类任务, 如 ImageNet 数据集, 需要使用大型深度分类模型时, 目前还不存在一种在 安全性与可用性方面满足实用条件的保护方案. 客观来讲, 面向图像分类应用的隐私保护问题研究还有很 大的探索空间. 安全性、分类精度和计算速度是评价图像分类模型隐私保护方案的三大指标. 不同的图像分类应用对 三者的需求是不同的, 同时提高三者难度较大, 因此可以针对应用的特点适当侧重某些指标, 满足实用需 求. 结合现有的工作, 本文对本图像分类模型隐私保护问题未来的研究方向给出了展望. 6.1 相关密码学工具研究 密码学技术是隐私保护方案的基础, 其性能直接决定图像分类模型最终的可用性. 使用同态加密的方案存在三个方面需要改进: 功能性、时效性和准确性. 在功能性上, 目前同态加密 方案还不能支持机器学习模型中用到的所有操作, 如比较运算等, 因此需要研究这些操作的代替方法或利 用其它安全密码协议或隐私保护手段对同态加密做补充; 在时效性上, 尽管不断有高效的同态机制被提出, 同态运算的时间开销仍然显著高于明文上对应运算若干各数量级, 机器学习模型本就属于计算密集型任 务, 直接用同态运算替换后必然导致模型执行时间的剧增, 因此需要研究加快同态加密的运算速度; 在准 确性上, 目前的同态加密方案本质上只支持有限整数运算, 然而图像分类中广泛使用的深度学习需要大量 的浮点运算, 为此需要研究编码技术弥补来提高效率. 以上问题的进一步解决才能推动隐私保护方案在图 像分类应用中实际使用. 基于安全多方计算构建隐私保护训练方案较为灵活, 适用于一些复杂场景的隐私保护需求. 与同态加 密方案一样, 也存在功能性、时效性和准确性的问题, 为此可以从密码学原语、密码学协议设计方向展开 研究, 可以基于文献 [74] 中提出的多方矩阵乘法协议构造神经网络模型. 在方案设计前应分析清楚部署场 景的限制以及攻击者模型, 如文献 [60, 65] 提出的方案需要引入多个服务器并假设相互不共谋, 多数使用 场景很难满足这一需求, 因此需要设计其他协议. 6.2 方案的硬件加速 图像分类研究的进步离不开深度学习的技术发展, 而深度学习技术的突破得益于 GPU 计算的运用. 为了突破基于加密技术的隐私保护方案的计算速度瓶颈, 有必要研究同态加密等技术的硬件加速方法. GPU 提供了强大的并行计算能力, 文献 [58] 实现了基于 GPU 同态加密的模型推理, 虽然提升了 推理速度, 但使用的计算资源过于昂贵, 且没有开源实现方案. 目前支持 GPU 加速的开源同态加密库 有 cuFHE 和 nuFHE, 分别采用快速数论变换 (Number Theoretic Transform, NTT) 和 (Fast Fourier Transform, FFT) 变换加速多项式乘法, 不足之处在于只提供了布尔运算的同态加密, 无法直接应用于卷 积神经网络等机器学习模型. 此外对于深度学习模型, GPU 显存占用较多, 而加密方案往往具有较大的密 文膨胀率, 需要更多的显存空间, 这也限制了相关方案使用 GPU 来加速, 因此 GPU 加速还需进一步研 究. 密码学算法大多依赖大数运算, GPU 对此支持有限, 这也是目前使用 GPU 加速效果不甚理想的原因 之一. 因此还可以使用 FPGA 和 ASIC 加速计算, 目前已有一些尝试, 但将同态加密与深度学习的硬件加 速相结合的研究还是空白, 为此仅实现加法和乘法操作是远远不够的, 未来发挥并行计算的特点, 需要实 现针对密文的张量运算, 模型常用操作的向量化. 6.3 图像分类模型轻量化与压缩 对于密码学技术, 不论是同态加密还是安全多方计算, 都需要额外的大量计算开销, 除了以上从密码 学方向进行改进优化, 还可以从图像分类模型的角度简化模型, 减小加密模型的时间开销, 从而增强相关 隐私保护方案的实用性. 学界认为深度学习模型普遍存在参数冗余. 近年来, 深度学习领域的研究人员已经意识到了模型简化 与压缩的重要性, 提出了许多改进方案. 主要分为两类: 模型轻量化设计和模型压缩. Journal of Cryptologic Research 密码学报 Vol.7, No.4, Aug. 2020 536 模型轻量化在设计阶段即考虑到计算复杂度, 目的在于设计高效的图像分类模型. 已提出的 [75–77] SqueezeNet、MobileNet 和 ShuffleNet 等模型 通过使用卷积核分解、深度可分离卷积、分组卷 积等技术简化模型. 影响模型计算速度主要是模型的参数数量和参数执行运算的复杂度. 值得注意的是, 尽管一些轻量化技术大幅的减少了模型参数量, 但变相地增加了运算复杂度, 因此计算时间仍然巨大. 模型压缩是指将一个已训练好的模型通过一些技术手段, 减少参数量或运算复杂度, 同时保持原始的 分类精度. 常用的压缩方法可分为两类: 模型剪枝 (Pruning) 和模型量化 (Quantization). 模型剪枝可以 通过剔除原始模型中不重要的连接和卷积核来减少参数量. 目前提出有正则化、随机、静态、动态等剪枝 方法 [50, 78] . 模型量化针对模型参数, 不改变模型结构. 相关研究证实使用低精度浮点数训练模型, 也可以 得到与浮点数训练相匹配的分类精度. 而针对模型推理过程, 可采用更激进的量化策略 [79] . 除此之外, 还有神经模型搜索 (Neural Architecture Methods, NAS) [80] 、知识蒸馏 (Knowledge Distillation) [81] 等方法用于高效模型设计. 目前模型简化研究多针对普通使用场景. 未来可根据密文运算的特点, 有针对性地研究模型简化技术, 从而减小隐私保护方案的计算负荷, 提高方案的实用性. 6.4 联邦学习 针对多数据源模型训练的隐私保护可以利用联邦学习 (Federated Learning) 技术, 联邦学习最早由 Google 提出 [82] , 用于多个移动终端用户协同训练一个模型. 文献 [83] 进一步提出了联邦迁移学习 (Federated Transfer Learning). 在训练过程中参与方的数据均保存在本地, 不涉及原始数据的交换. 首先在本 地进行模型训练, 然后通过加密手段交换参与各方的用户中间识别符, 而非用户数据本身. 任意一方可通 过识别符找出相同的用户, 将这部分用户的不同特征作为输入, 进行模型训练和交换参数. 在整个训练的 过程中参与方之间不能反推对方的特征数据, 从而有效保护训练数据的隐私. 联系学习目前的缺陷在于巨大的通信开销, 以及对参与方本地算力的要求, 因此目前仅适合于特定的 训练场景. 运用于格式化数据的模型训练已有良好的效果, 适用于普通场景的图像 (非格式化数据) 分类 模型联邦学习训练还需进一步研究参数交换方案, 降低计算、通信开销. 6.5 可拓展性 尽管本文聚焦于图像分类任务, 但其所依赖的底层模型 “卷积神经网络” 被广泛应用于其他计算机视 觉基本任务, 如目标定位 (Object Localization)、目标检测 (Object Detection)、图像分割 (Image Segmentation), 以及一些衍生的高级任务. 同时, 卷积神经网络与其他深度学习模型如循环神经网络等在优 化方法等方面存在许多共性. 因此相关隐私保护方法也可以被其他领域借鉴. 7 总结 本文综述了基于加密技术的面向图像分类应用隐私保护的相关研究进展. 将密码学技术、隐私保护技 术与机器学习模型相结合可以解决图像分类应用中存在的安全问题, 具有重要的研究价值和现实的应用价 值. 文中首先分析了图像分类应用过程存在的不同隐私风险. 简要介绍了当前主流的同态加密、安全多方 计算的技术原理. 而后根据不同的隐私需求详细论述了不同保护技术与图像分类模型相结合的研究方案. 最后, 针对这一领域的研究难点, 讨论了未来的研究方向. 总体来说, 面向图像分类应用的隐私保护研究仍处于起步阶段. 加密方法的低效性、模型计算的复杂 性同时决定了此问题的解决还存在多方面的研究挑战. 参考文献 [1] The New York Times. Facebook security breach exposes accounts of 50 million users[EB/OL]. https://www. nytimes.com/2018/09/28/technology/facebook-hack-data-breach.html. 2018. [2] Secsmart Top 10 most attractive data leakage events in 2018[EB/OL]. https://www.aqniu.com/vendor/42297. html. 2019. 闪捷信息. 2018 年最引人注目的国内外十大数据泄露事件[EB/OL]. [3] European Union. Regulation (EU) 2016/679 of the European parliament and of the council of 27 April 2016 on the protection of natural persons with regard to the processing of personal data and on the free movement of such 孙隆隆 等: 面向加密数据的安全图像分类模型研究综述 [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] 537 data, and repealing directive 95/46[EB/OL]. https://publications.europa.eu/en/publication-detail/-/publication/ 3e485e15-11bd-11e6-ba9a-01aa75ed71a1/language-en. 2016. California State Legislature. Ab-375 privacy: Personal information: Businesses[EB/OL]. https://leginfo.legislature.ca.gov/faces/billTextClient.xhtml?bill_id=201720180AB375. 2018. LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91–110. [DOI: 10.1023/B:VISI.0000029664.99615.94] CORTES C, VAPNIK V. Support-vector networks[J]. Machine Learning, 1995, 20(3): 273–297. [DOI: 10.1007 /BF00994018] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278–2324. [DOI: 10.1109/5.726791] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C/OL]. In: Advances in Neural Information Processing Systems 25. 2012: 1–9. http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]. In: Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016: 770–778. [DOI: 10.1109/CVPR.2016.90] SWEENEY L. k-anonymity: A model for protecting privacy[J]. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 2002, 10(5): 557–570. [DOI: 10.1142/S0218488502001648] MACHANAVAJJHALA A, GEHRKE J, KIFER D, et al. l-diversity: Privacy beyond k-anonymity[C]. In: Proceedings of the 22nd International Conference on Data Engineering (ICDE). IEEE, 2006: 24. [DOI: 10.1109/ICDE.2006.1] VAN TILBORG H C A, JAJODIA S. Encyclopedia of Cryptography and Security[M]. 2nd ed, Springer Boston, MA, 2011. [DOI: 10.1007/978-1-4419-5906-5] BAE H, JANG J, JUNG D, et al. Security and privacy issues in deep learning[J]. CoRR, 2018, abs/1807.11655. JIANG L Z, XU C X, WANG X F, et al. Application of (fully) homomorphic encryption for encrypted computing models[J]. Journal of Cryptologic Research, 2017, 4(6): 596–610. [DOI: 10.13868/j.cnki.jcr.000210] 蒋林智, 许春香, 王晓芳, 等. (全) 同态加密在基于密文计算模型中的应用 [J]. 密码学报, 2017, 4(6): 596–610. [DOI: 10.13868/j.cnki.jcr.000210] WANG W G, LI H. Secure skyline query processing over location-based data[J]. Journal of Cryptologic Research, 2018, 5(2): 218–230. [DOI: 10.13868/j.cnki.jcr.000233] 王维国, 李辉. 一种面向位置信息的安全 Skyline 查询方案 [J]. 密码学报, 2018, 5(2): 218–230. [DOI: 10.13868/j. cnki.jcr.000210] YAO A C. Protocols for secure computations[C]. In: Proceedings of the 23rd Annual Symposium on Foundations of Computer Science (FOCS). IEEE, 1982: 160–164. [DOI: 10.1109/SFCS.1982.38] LINDELL Y, PINKAS B. Privacy preserving data mining[C]. In: Advances in Cryptology—CRYPTO 2000. Springer Berlin Heidelberg, 2000: 36–54. [DOI: 10.1007/3-540-44598-6_3] VAIDYA J, CLIFTON C. Privacy preserving association rule mining in vertically partitioned data[C]. In: Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD). ACM, 2002: 639–644. [DOI: 10.1145/775047.775142] JAGANNATHAN G, WRIGHT R N. Privacy-preserving distributed k-means clustering over arbitrarily partitioned data[C]. In: Proceedings of the Eleventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD). ACM, 2005: 593–599. [DOI: 10.1145/1081870.1081942] VAIDYA J, KANTARCIOGLU M, CLIFTON C. Privacy-preserving naïve Bayes classification[J]. The VLDB Journal, 2008, 17(4): 879–898. [DOI: 10.1007/s00778-006-0041-y] RIVEST R L, ADLEMAN L, L M. On data banks and privacy homomorphisms[J]. Foundations of Secure Computation, 1978, 4(11): 169–180. GOLDWASSER S, MICALI S. Probabilistic encryption and how to play mental poker keeping secret all partial information[C]. In: Proceedings of the 14th Annual ACM Symposium on Theory of Computing (STOC). ACM, 1982: 365–377. [DOI: 10.1145/800070.802212] BENALOH J. Dense probabilistic encryption[C]. In: Proceedings of the Workshop on Selected Areas of Cryptography. Kingston, ON, Canada, 1994: 120–128. GAMAL T E. A public key cryptosystem and a signature scheme based on discrete logarithms[C]. In: Advances in Cryptology—CRYPTO ’84. Springer Berlin Heidelberg, 1985: 10–18. [DOI: 10.1007/3-540-39568-7_2] PAILLIER P. Public-key cryptosystems based on composite degree residuosity classes[C]. In: Advances in Cryptology—EUROCRYPT ’99. Springer Berlin Heidelberg, 1999: 223–238. [DOI: 10.1007/3-540-48910-X_16] BONEH D, GOH E, NISSIM K. Evaluating 2-DNF formulas on ciphertexts[C]. In: Theory of Cryptography—TCC 538 Journal of Cryptologic Research 密码学报 Vol.7, No.4, Aug. 2020 2005. Springer Berlin Heidelberg, 2005: 325–341. [10.1007/978-3-540-30576-7_18] [27] GENTRY C. A Fully Homomorphic Encryption Scheme[D/OL]. Stanford University, 2009. https://crypto. stanford.edu/craig/craig-thesis.pdf [28] SMART N P, VERCAUTEREN F. Fully homomorphic encryption with relatively small key and ciphertext sizes [C]. In: Public Key Cryptography—PKC 2010. Springer Berlin Heidelberg, 2010: 420–443. [DOI: 10.1007/9783-642-13013-7_25] [29] VAN DIJK M, GENTRY C, HALEVI S, et al. Fully homomorphic encryption over the integers[C]. In: Advances in Cryptology—EUROCRYPT 2010. Springer Berlin Heidelberg, 2010: 24–43. [DOI: 10.1007/978-3-642-13190-5_2]. [30] CHEON J H, CORON J, KIM J, et al. Batch fully homomorphic encryption over the integers[C]. In: Advances in Cryptology—EUROCRYPT 2013. Springer Berlin Heidelberg, 2013: 315–335. [DOI: 10.1007/978-3-642-383489_20] [31] BRAKERSKI Z, VAIKUNTANATHAN V. Fully homomorphic encryption from ring-LWE and security for key dependent messages[C]. In: Advances in Cryptology—CRYPTO 2011. Springer Berlin Heidelberg, 2011: 505–524. [DOI: 10.1007/978-3-642-22792-9_29] [32] BRAKERSKI Z, GENTRY C, VAIKUNTANATHAN V. (Leveled) fully homomorphic encryption without bootstrapping[J]. ACM Transactions on Computation Theory, 2014, 6(3): 13:1–13:36. [DOI: 10.1145/2633600] [33] CHEON J H, KIM A, KIM M, et al. Homomorphic encryption for arithmetic of approximate numbers[C]. In: Advances in Cryptology—ASIACRYPT 2017, Part I. Springer Berlin Heidelberg, 2017: 409–437. [DOI: 10.1007/978-3-319-70694-8_15] [34] HOFFSTEIN J, PIPHER J, SILVERMAN J H. NTRU: A ring-based public key cryptosystem[C]. In: Algorithmic Number Theory—ANTS 1998. Springer Berlin Heidelberg, 1998: 267–288. [DOI: 10.1007/BFb0054868] [35] LÓPEZ-ALT A, TROMER E, VAIKUNTANATHAN V. On-the-fly multiparty computation on the cloud via multikey fully homomorphic encryption[C]. In: Proceedings of the 44th Symposium on Theory of Computing Conference (STOC). ACM, 2012: 1219–1234. [DOI: 10.1145/2213977.2214086] [36] BRAKERSKI Z, GENTRY C, VAIKUNTANATHAN V. Fully homomorphic encryption without bootstrapping[J]. IACR Cryptology ePrint Archive, 2011: 2011/277. https://eprint.iacr.org/2011/277 [37] SEAL. Microsoft SEAL (release 3.3)[EB/OL]. https://github.com/Microsoft/SEAL. 2019. [38] ACAR A, AKSU H, ULUAGAC A S, et al. A survey on homomorphic encryption schemes: Theory and implementation[J]. ACM Computing Surveys, 2018, 51(4): 79:1–79:35. [DOI: 10.1145/3214303] [39] LI Z P, MA C G, ZHOU H S. Overview on fully homomorphic encryption[J]. Journal of Cryptologic Research, 2017, 4(6): 561–578. [DOI: 10.13868/j.cnki.jcr.000208] 李增鹏, 马春光, 周红生. 全同态加密研究 [J]. 密码学报, 2017, 4(6): 561–578. [DOI: 10.13868/j.cnki.jcr.000208] [40] ALBRECHT M, CHASE M, CHEN H, et al. Homomorphic encryption security standard[S]. Toronto, Canada: HomomorphicEncryption.org, 2018. [41] YAO A C. How to generate and exchange secrets[C] In: Proceedings of the 27th Symposium on Foundations of Computer Science (FOCS). IEEE, 1986: 162–167. [DOI: 10.1109/SFCS.1986.25] [42] LINDELL Y, PINKAS B. An efficient protocol for secure two-party computation in the presence of malicious adversaries[C]. In: Advances in Cryptology—EUROCRYPT 2007. Springer Berlin Heidelberg, 2007: 52–78. [DOI: 10.1007/978-3-540-72540-4_4] [43] KOLESNIKOV V, SCHNEIDER T. Improved garbled circuit: Free XOR gates and applications[C]. In: Automata, Languages and Programming—ICALP 2008. Springer Berlin Heidelberg, 2008: 486–498. [DOI: 10.1007/978-3540-70583-3_40] [44] ZAHUR S, ROSULEK M, EVANS D. Two halves make a whole: Reducing data transfer in garbled circuits using half gates[C]. In: Advances in Cryptology—EUROCRYPT 2015, Part II. Springer Berlin Heidelberg, 2015: 220–250. [DOI: 10.1007/978-3-662-46803-6_8] [45] SHAMIR A. How to share a secret[J]. Communications of the ACM, 1979, 22(11): 612–613. [DOI: 10.1145/ 359168.359176] [46] BLAKLEY G R. Safeguarding cryptographic key[C]. In: Proceedings of 1979 International Workshop on Managing Requirements Knowledge (MARK). IEEE, 1979: 313–318. [DOI: 10.1109/MARK.1979.8817296] [47] GILAD-BACHRACH R, DOWLIN N, LAINE K, et al. CryptoNets: Applying neural networks to encrypted data with high throughput and accuracy[C/OL]. In: Proceedings of Machine Learning Research. 2016, 48: 201–210. http://proceedings.mlr.press/v48/gilad-bachrach16.pdf [48] HESAMIFARD E, TAKABI H, GHASEMI M. Deep neural networks classification over encrypted data[C]. In: Proceedings of the Ninth ACM Conference on Data and Application Security and Privacy (CODASPY). ACM, 2019: 97–108. [DOI: 10.1145/3292006.3300044] 孙隆隆 等: 面向加密数据的安全图像分类模型研究综述 539 [49] CHOU E, BEAL J, LEVY D, et al. Faster CryptoNets: Leveraging sparsity for real-world encrypted inference[J]. CoRR, 2018, abs/1811.09953. [50] GUO Y W, YAO A B, CHEN Y R. Dynamic network surgery for efficient DNNs[C/OL]. In: Advances in Neural Information Processing Systems 29. 2016: 1–9. http://papers.nips.cc/paper/6165-dynamic-network-surgery-forefficient-dnns.pdf [51] BRUTZKUS A, ELISHA O, GILAD-BACHRACH R. Low latency privacy preserving inference[C/OL]. In: Proceedings of Machine Learning Research. 2019, 97: 812–821. http://proceedings.mlr.press/v97/brutzkus19a /brutzkus19a.pdf [52] CHABANNE H, DE WARGNY A, MILGRAM J, et al. Privacy-preserving classification on deep neural network[J]. IACR Cryptology ePrint Archive, 2017: 2017/035. https://eprint.iacr.org/2017/035 [53] CHAO J, BADAWI A A, UNNIKRISHNAN B, et al. CaRENets: Compact and resource-efficient CNN for homomorphic inference on encrypted medical images[J]. CoRR, 2019, 1901.10074. [54] BOURSE F, MINELLI M, MINIHOLD M, et al. Fast homomorphic evaluation of deep discretized neural networks[C]. In: Advances in Cryptology—CRYPTO 2018, Part III. Springer Cham, 2018: 483–512. [DOI: 10.1007/978-3-319-96878-0_17]. [55] CHILLOTTI I, GAMA N, GEORGIEVA M, et al. Faster fully homomorphic encryption: Bootstrapping in less than 0.1 seconds[C]. In: Advances in Cryptology—ASIACRYPT 2016, Part I. Springer Berlin Heidelberg, 2016: 3–33. [DOI: 10.1007/978-3-662-53887-6_1]. [56] SANYAL A, KUSNER M J, GASCÓN A, et al. TAPAS: Tricks to accelerate (encrypted) prediction as a service[C]. In: Proceedings of Machine Learning Research. 2018, 80: 4490–4499. http://proceedings.mlr.press/ v80/sanyal18a/sanyal18a.pdf [57] JIANG X, KIM M, LAUTER K E, et al. Secure outsourced matrix computation and application to neural networks[C]. In: Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security (CCS). ACM, 2018: 1209–1222. [DOI: 10.1145/3243734.3243837] [58] BADAWI A A, CHAO J, LIN J, et al. The AlexNet moment for homomorphic encryption: HCNN, the first homomorphic CNN on encrypted data with GPUs[J]. IACR Cryptology ePrint Archive, 2018: 2018/1056. https://eprint.iacr.org/2018/1056 [59] LIU J, JUUTI M, LU Y, et al. Oblivious neural network predictions via minionn transformations[C]. In: Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security (CCS). ACM, 2017: 619–631. [DOI: 10.1145/3133956.3134056] [60] MOHASSEL P, ZHANG Y. Secureml: A system for scalable privacy-preserving machine learning[C]. In: Proceedings of IEEE Symposium on Security and Privacy (SP). IEEE, 2017: 19–38. [DOI: 10.1109/SP.2017.12] [61] JUVEKAR C, VAIKUNTANATHAN V, CHANDRAKASAN A. GAZELLE: A low latency framework for secure neural network inference[C]. In: Proceedings of USENIX Security Symposium. USENIX, 2018: 1651–1669. [62] XIE P, WU B, SUN G. BAYHENN: Combining Bayesian deep learning and homomorphic encryption for secure DNN inference[C]. In: Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence (IJCAI-19). Macao, China. 2019: 4831–4837. [DOI: 10.24963/ijcai.2019/671] [63] BOEMER F, LAO Y, CAMMAROTA R, et al. nGraph-HE: A graph compiler for deep learning on homomorphically encrypted data[C]. In: Proceedings of the 16th ACM International Conference on Computing Frontiers (CF). ACM, 2019: 3–13. [DOI: 10.1145/3310273.3323047] [64] VAN ELSLOO T, PATRINI G, IVEY-LAW H. Sealion: A framework for neural network inference on encrypted data[J]. CoRR, 2019, abs/1904.12840. [65] WAGH S, GUPTA D, CHANDRAN N. SecureNN: Efficient and private neural network training[J]. IACR Cryptology ePrint Archive, 2018: 2018/442. https://eprint.iacr.org/2018/442 [66] SO J, GULER B, AVESTIMEHR A S, et al. Codedprivateml: A fast and privacy-preserving framework for distributed machine learning[J]. IACR Cryptology ePrint Archive, 2019: 2019/140. https://eprint.iacr.org/2019/140 [67] YU Q, LI S Z, RAVIV N, et al. Lagrange coded computing: Optimal design for resiliency, security, and privacy [C/OL]. In: Proceedings of Machine Learning Research—The 22nd International Conference on Artificial Intelligence and Statistics (AISTATS). PMLR, 2019, 89: 1215–1225. http://proceedings.mlr.press/v89/yu19b.html [68] HAN K, HONG S, CHEON J H, et al. Logistic regression on homomorphic encrypted data at scale[C] In: Proceedings of Conference on Innovative Applications of Artificial Intelligence (IAAI). AAAI Press, 2019: 9466– 9471. [DOI: 10.1609/aaai.v33i01.33019466]. [69] LI P, LI J, HUANG Z, et al. Multi-key privacy-preserving deep learning in cloud computing[J]. Future Generation Computer Systems, 2017, 74: 76–85. [DOI: 10.1016/j.future.2017.02.006]. [70] MA X D, MA J F, LI H, et al. PDLM: Privacy-preserving deep learning model on cloud with multiple keys[J]. 540 Journal of Cryptologic Research 密码学报 Vol.7, No.4, Aug. 2020 IEEE Transactions on Services Computing, 2018: 1–1. [DOI: 10.1109/TSC.2018.2868750] [71] ZHANG Q, WANG C, WU H Y, et al. GELU-net: A globally encrypted, locally unencrypted deep neural network for privacy-preserved learning[C]. In: Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence (IJCAI). Stockholm, Sweden. 2018: 3933–3939. [DOI: 10.24963/ijcai.2018/547] [72] RYFFEL T, TRASK A, DAHL M, et al. A generic framework for privacy preserving deep learning[J]. CoRR, 2018, abs/1811.04017. [73] DAHL M, MANCUSO J, DUPIS Y, et al. Private machine learning in TensorFlow using secure computation[J]. CoRR, 2018, abs/1810.08130. [74] LUO W J, LI X. The secure multi-party protocol of matrix product and its application[J]. Chinese Journal of Computers, 2005, 28(7): 1230–1235. [DOI: 10.3321/j.issn:0254-4164.2005.07.021] 罗文俊, 李祥. 多方安全矩阵乘积协议及应用 [J]. 计算机学报, 2005, 28(7): 1230–1235. [DOI: 10.3321/j.issn:02544164.2005.07.021] [75] IANDOLA F N, MOSKEWICZ M W, ASHRAF K, et al. SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <1 MB model size[J]. CoRR, 2016, abs/1602.07360. [76] HOWARD A, SANDLER M, CHU G, et al. Searching for MobileNetV3[J]. CoRR, 2019, abs/1905.02244. [77] MA N N, ZHANG X Y, ZHENG H T, et al. ShuffleNet V2: Practical guidelines for efficient CNN architecture design[C] In: Computer Vision—ECCV 2018. Springer Cham, 2018: 122–138. [DOI: 10.1007/978-3-030-012649_8] [78] HAN S, MAO H Z, DALLY W J. Deep compression: Compressing deep neural network with pruning, trained quantization and Huffman coding[C/OL]. In: Proceedings of 4th International Conference on Learning Representations (ICLR). San Juan, Puerto Rico, 2016. http://arxiv.org/abs/1510.00149 [79] RASTEGARI M, ORDONEZ V, REDMON J, et al. XNOR-net: Imagenet classification using binary convolutional neural networks[C] In: Computer Vision—ECCV 2016. Springer Cham, 2016: 525–542. [DOI: 10.1007/978-3-319-46493-0_32] [80] ZOPH B, LE Q V. Neural architecture search with reinforcement learning[C/OL]. In: Proceedings of 5th International Conference on Learning Representations (ICLR). Toulon, France, 2017. https://openreview. net/pdf?id=r1Ue8Hcxg [81] HINTON G E, VINYALS O, DEAN J. Distilling the knowledge in a neural network[J]. CoRR, 2015, abs/1503.02531. [82] MCMAHAN B, MOORE E, RAMAGE D, et al. Communication-efficient learning of deep networks from decentralized data[C/OL]. In: Proceedings of Machine Learning Research—The 20th International Conference on Artificial Intelligence and Statistics (AISTATS). PMLR, 2017: 1273–1282. http://proceedings.mlr.press /v54/mcmahan17a/mcmahan17a.pdf [83] LIU Y, CHEN T, YANG Q. Secure federated transfer learning[J]. CoRR, 2018, abs/1812.03337. 作者信息 孙隆隆 (1995–), 陕西榆林人, 研究生在读. 主要研究领域为 机器学习的隐私保护. llsun@stu.xidian.edu.cn 李辉 (1983–), 陕西西安人, 教 授. 主要研究领域为数据安全 与隐私保护. hli@xidian.edu.cn 于诗文 (1996–), 辽宁抚顺人, 研究生在读. 主要研究领域为 密文机器学习、联邦学习. swyu0301@126.com 王迎雪 (1989–), 山东滨州人, 高级工程师. 主要研究领域为 机器学习、多媒体信号处理. wangyingxue@csdslab.net