Face Recognition with Learning-based Descriptor Authors: Zhimin Cao, Qi Yin, Xiaoou Tang, and Jian Sun 讲解人: 谢术富 提纲 作者信息 文章信息 拟解决的问题与采用的思路 本文的方法 实验 结论 作者的相关信息—第一作者 Zhimin Cao B.Eng., Tsinghua University Email: czm008@ie.cuhk.edu.hk Paper: CVPR’10(1篇)。 作者的相关信息—第二作者 ? Qi Yin ITCS, Tsinghua University(清华大学理论计 算机科学研究中心) 作者的相关信息—第三作者 Xiaoou Tang(S’93-M’96-SM’02-F’09) Professor, Department of Information Engineering, the Chinese University of Hong Kong. Publication: K. He, J. Sun, and X. Tang, " Single Image Haze Removal Using Dark Channel Prior ," CVPR, 2009. … Homepage: http://www.ie.cuhk.edu.hk/people/xotang.html 作者的相关信息—第四作者 Jian Sun 微软亚洲研究院 视觉计算组 研究员 1997,2000,2003于西安交通大学分别获得学士、硕士、博士学位。 研究兴趣 交互式计算机视觉(用户交互+视觉) 互联网上的计算机视觉(大图像集合+视觉) 论文 CVPR’10(5篇) ICCV’09(1篇) SIGGRAPH’09(3篇) CVPR’09(2篇) HomePage:http://research.microsoft.com/en-us/people/jiansun/ 提纲 作者信息 文章信息 拟解决的问题与采用的思路 本文的方法 实验 结论 文章信息 文章出处 CVPR 2010 相关文献 Yoav Freund, Sanjoy Dasgupta, Mayank Kabra, Nakul Verma, Learning the structure of manifolds using random projections, NIPS 2007. Abstract We present a novel approach to address the representation issue and the matching issue in face recognition (verification). Firstly, our approach encodes the micro-structures of the face by a new learning-based encoding method. Unlike many previous manually designed encoding methods (e.g., LBP or SIFT), we use unsupervised learning techniques to learn an encoder from the training examples, which can automatically achieve very good tradeoff between discriminative power and invariance. Then we apply PCA to get a compact face descriptor. We find that a simple normalization mechanism after PCA can further improve the discriminative ability of the descriptor. The resulting face representation, learning-based (LE) descriptor, is compact, highly discriminative, and easy-to-extract. Abstract To handle the large pose variation in real-life scenarios, we propose a pose-adaptive matching method that uses posespecific classifiers to deal with different pose combinations (e.g., frontal v.s. frontal, frontal v.s. left) of the matching face pair. Our approach is comparable with the state-of-the-art methods on the Labeled Face in Wild (LFW) benchmark (we achieved 84.45% recognition rate), while maintaining excellent compactness, simplicity, and generalization ability across different datasets. 摘要 我们提出了一种新颖的方法来强调人脸识别(确认)中的表示和匹配问 题。 首先,我们的方法利用一种新的基于学习的编码方法来编码图像上的 微结构。不同于以前人工设计的编码方法(如LBP和SIFT),我们利用 无监督学习的方法从训练样本中得到一个编码器。 然后,我们应用PCA得到一个紧致的人脸表示。我们发现,PCA之后 的一种简单的归一化操作可以进一步提高表示的判别能力。最终的人 脸表示是紧致的,高判别性的,且易于提取的。 为了处理实际环境中的姿态变化,我们提出了一种姿态自适应的匹配 方法,该方法利用了特定姿态的分类器来处理不同的姿态组合(例如, 正面对正面,正面对左侧)。在保持了较高的紧致性,简单性和不同 数据集上的推广性的条件下,我们的方法同LFW上最好的方法是可比 的(该方法达到了84.45%的识别率)。 提纲 作者信息 文章信息 拟解决的问题与采用的思路 本文的方法 实验 结论 本文所研究问题的提出 LBP, HOG等是手工设计(handcrafted)的特征表示。 这些方法存在两个问题: 手工设计的表示方法不能保证最优的表示。 在人脸图像上,模式的分布并不均匀,有些模式在人脸图像上很 少出现。 在1000幅人脸图像上统计得到的模式分布图 本文的主要思想 提出基于学习的编码方法,利用无监督的学习方法来编码人脸的微结构。 在1000幅人脸图像上统计得到的模式分布图 对基于学习的特征表示,进一步利用PCA得到更紧致的表示。 当一对图像是不同的姿态组合时,不同部件所起的作用是不同的。根据 这一观察,训练了特定姿态组合的分类器,进行最后的分类。 文章结构 Introduction Overview of the framework Learning-based descriptor extraction Pose-adaptive matching Experimental results Conclusion and discussion 提纲 作者信息 文章信息 拟解决的问题与采用的思路 本文的方法 实验 结论 本文的方法 姿态自适应分类器 LE特征表示 本文的方法 图像/块级别上的LE特征表示 部件的对齐 姿态自适应的匹配 基于学习的特征表示 采样与归一化 基于学习的编码与直方图表示 PCA降维 采样与归一化 在半径为r的圆环上以等间隔采样r*8个像素, 构成一个向量。 对该向量进行模归一化操作。 采样方式 R1=1,包括中心(9个点) R1=3 无中心(24个点) R1=1,R2=2 包括中心(25个点)(最优) R1=4 R2=7 无中心(88个点) 基于学习的编码 三种无监督学习的方法(向量量化) K-means PCA tree 随机投影树(Random-projection tree) 根据图像上采样得到的向量集合,利用无监督 学习的方法得到一个codebook. 随机投影树的构建过程 PCA树&随机投影树 二者都是构建一棵树,叶子结点作为每个 cluster的表示。 不同之处: 构建树的规则不同。 挑选规则 PCA树: 随机生成树: 选择随机的单位投影方向。 根据选择的方向对样本点进行分裂。 特征表示 通过编码,输入图像变成了”码字”图像。 将“码字”图像划分为若干个图像块,提取直方图。 图像大小:84x96 图像块数目:5x7=35 PCA降维.(256 code, 原始维数:256x35=8960维,降维 后维数:400维) 多LE表示 利用线性SVM组合不同LE表示产生的相似度。 - S1 + S2 + S3 S4 - - + + - - - + - + SVM 本文的方法 图像/块级别上的特征表示 部件的对齐 姿态自适应的匹配 部件的对齐 利用相似变换分别对齐人脸的9个部件。 优点: 部件对得更准,而不需要考虑整幅人脸 图像. 本文的方法 图像/块级别上的特征表示 部件的对齐 姿态自适应的匹配 姿态自适应配准 动机:当不同姿态的图像匹配时,不同部件的 作用是不同的。 基本思路 将姿态划分为正面(F)、朝左(L)、朝右(R)三个 类别。 姿态的分类 从Multi PIE数据库中选择了三幅Gallery图像,对测 试图像计算它与三幅Gallery图像的相似度,将最相 似的Gallery图像的姿态作为当前测试图像的姿态类 别。 基本思路 给定人脸的姿态,一对图像的可能姿态组合有 {FF, FL(LF), FR(RF), LL, LR(RL), RR}。 对给定的姿态组合,根据给定的训练集合来训 练相应的线性SVM分类器。 给定一对测试图像时,根据姿态组合选择相应 姿态组合的分类器进行分类。 提纲 作者信息 文章信息 拟解决的问题与采用的思路 本文的方法 实验 结论 实验 LFW上测试 不同学习方法的影响 PCA特征归一化与无归一化的对比 LE与已有方法的对比 不同特征点对齐的影响 姿态自适应与无姿态自适应的对比 Single LE与 Multiple LE的对比 本文方法与已有方法的对比 Multi PIE上结果 LFW简介 13,233幅人脸图像,5749个人。其中,1680 个人有两幅或更多幅图像,剩余4069人只有一 幅图像。 图像大小是250x250个像素,JPEG格式,绝 大多数彩色图像。 一些图像包含多张人脸,只有图像中心位置的 人脸才作为定义的人脸。 对任意的训练-测试划分,每个子集的人是互 斥的。 LFW测试协议 两种视图:视图1用于调试算法参数(模型或 参数选择),视图2用于性能报告。 视图1:训练集(pairsDevTrain.txt):1100对匹 配图像与1100对未匹配图像;测试集 (pairDevTest.txt):500对匹配图像与500对未 匹配图像 视图2:性能报告。只能用一次。包括10个子 集。一旦方法或模型通过视图1确定了,该方 法或模型利用视图2的数据进行评测。10折交 叉验证。 LFW测试协议 限制的训练(restricted training) 非限制的训练(unrestricted training) 实验者不能利用人的名字来推断非训练集给出的两幅图像的等价性: 例如, 乔治.布什的图像对(10,12)与(42,50)来自同一类,实验者不能利用(10,42) 作为同一类放入训练集中;实验者可利用对的等价性来扩充训练集:例如, (1,2)与(2,3)是同一类,那么(1,3)可以加入训练集。 实验者可以利用人的名字来构建任意的训练与测试对 (peopleDevTrain.txt&peopleDevTest.txt). 但是,报告结果时测试数据只 能用pairs.txt文件. 常见方法所属类别: PCA, SVM, LBP等属于限制训练的方法。 LDA属于非限制训练的方法。 LFW测试协议 10 p ˆ SE 10 10 ˆ i View2估计的平均精度: ˆ 10 pi表示Veiw2利用子集i测试时的分类精度. View2上精度的标准差: i 1 pi ˆ 2 i 1 9 精度应当根据独立于测试数据选择的参数与 阈值确定。 LFW测试结果 Restricted training results Unrestricted training results 不同学习方法的影响 测试: LFW 随机投影树要比 PCA树,KMeans更好,因 此被选作学习方 法。 PCA特征归一化与无归一化的 对比 直接利用PCA特征 性能比LE表示要差。 对PCA特征进行L1 或L2归一化后,性能 会有较大提升。 “特征L2归一化+欧 式距离”等价 于”consine相似 度”。 LE与已有方法的对比 Single LE+PCA比 LBP高一些。 Multiple LE相比 Single LE有较大提 高。 不同特征点对齐的影响 5点对齐比2点对齐有很大提升。 部件级上的对齐同5点对齐的对比并不明显。 姿态自适应与无姿态自适应的 对比 图像块的划分 姿态自适应 结果 无 76.2%±0.41% 有 78.3%±0.42% 每种姿态组合,随机采 样3000 同类/异类对, 对6种姿态组合,共有 18000个样本。 取一半作训练集,另一 半做测试集。 Single LE与 Multiple LE的对比 整幅图像 编码 直方图 部件 LE 相似度 向量(9维) 整幅图像 LE 相似度 向量(4维) SVM Multiple LE+Comp 部件 LE 相似度 向量(36维) 姿态 自适应分类 Multiple LE+Comp PCA Single LE+holistic 姿态 Single LE+Comp 自适应分类 Single LE与 Multiple LE的对比 Multiple LE+comp最 优 Single LE+comp与 Multiple LE+holistic 相当 本文方法与已有方法的对比 同类方法中, 排名第三。 Multi PIE上结果 在LFW上训练得到的LE码本。 推广性能还不错。 提纲 作者信息 文章信息 拟解决的问题与采用的思路 本文的方法 实验 结论 结论以及进一步工作 LE表示以及姿态自适应的匹配具有很好的性 能。 MultiPIE上的结果表明提出的方法具有很好的 推广性。 采样方式是人工设计的,能否自动地学习得到? 本文可以借鉴的地方 DoG处理 特征点对齐 相似度向量+SVM 多种特征组合 谢谢!