PPT

advertisement
Face Recognition with
Learning-based Descriptor
Authors: Zhimin Cao, Qi Yin,
Xiaoou Tang, and Jian Sun
讲解人: 谢术富
提纲






作者信息
文章信息
拟解决的问题与采用的思路
本文的方法
实验
结论
作者的相关信息—第一作者

Zhimin Cao

B.Eng., Tsinghua University
Email: czm008@ie.cuhk.edu.hk
Paper:



CVPR’10(1篇)。
作者的相关信息—第二作者


?
Qi Yin
ITCS, Tsinghua University(清华大学理论计
算机科学研究中心)
作者的相关信息—第三作者




Xiaoou Tang(S’93-M’96-SM’02-F’09)
Professor, Department of Information Engineering, the
Chinese University of Hong Kong.
Publication:
 K. He, J. Sun, and X. Tang, " Single Image Haze
Removal Using Dark Channel Prior ," CVPR, 2009.
 …
Homepage:
http://www.ie.cuhk.edu.hk/people/xotang.html
作者的相关信息—第四作者






Jian Sun
微软亚洲研究院 视觉计算组 研究员
1997,2000,2003于西安交通大学分别获得学士、硕士、博士学位。
研究兴趣
 交互式计算机视觉(用户交互+视觉)
 互联网上的计算机视觉(大图像集合+视觉)
论文
 CVPR’10(5篇) ICCV’09(1篇) SIGGRAPH’09(3篇) CVPR’09(2篇)
HomePage:http://research.microsoft.com/en-us/people/jiansun/
提纲






作者信息
文章信息
拟解决的问题与采用的思路
本文的方法
实验
结论
文章信息

文章出处


CVPR 2010
相关文献

Yoav Freund, Sanjoy Dasgupta, Mayank Kabra,
Nakul Verma, Learning the structure of manifolds
using random projections, NIPS 2007.
Abstract


We present a novel approach to address the representation
issue and the matching issue in face recognition (verification).
Firstly, our approach encodes the micro-structures of the face by
a new learning-based encoding method. Unlike many previous
manually designed encoding methods (e.g., LBP or SIFT), we
use unsupervised learning techniques to learn an encoder from
the training examples, which can automatically achieve very
good tradeoff between discriminative power and invariance.
Then we apply PCA to get a compact face descriptor. We find
that a simple normalization mechanism after PCA can further
improve the discriminative ability of the descriptor. The resulting
face representation, learning-based (LE) descriptor, is compact,
highly discriminative, and easy-to-extract.
Abstract


To handle the large pose variation in real-life scenarios, we
propose a pose-adaptive matching method that uses posespecific classifiers to deal with different pose combinations
(e.g., frontal v.s. frontal, frontal v.s. left) of the matching face
pair.
Our approach is comparable with the state-of-the-art methods
on the Labeled Face in Wild (LFW) benchmark (we achieved
84.45% recognition rate), while maintaining excellent
compactness, simplicity, and generalization ability across
different datasets.
摘要




我们提出了一种新颖的方法来强调人脸识别(确认)中的表示和匹配问
题。
首先,我们的方法利用一种新的基于学习的编码方法来编码图像上的
微结构。不同于以前人工设计的编码方法(如LBP和SIFT),我们利用
无监督学习的方法从训练样本中得到一个编码器。
然后,我们应用PCA得到一个紧致的人脸表示。我们发现,PCA之后
的一种简单的归一化操作可以进一步提高表示的判别能力。最终的人
脸表示是紧致的,高判别性的,且易于提取的。
为了处理实际环境中的姿态变化,我们提出了一种姿态自适应的匹配
方法,该方法利用了特定姿态的分类器来处理不同的姿态组合(例如,
正面对正面,正面对左侧)。在保持了较高的紧致性,简单性和不同
数据集上的推广性的条件下,我们的方法同LFW上最好的方法是可比
的(该方法达到了84.45%的识别率)。
提纲






作者信息
文章信息
拟解决的问题与采用的思路
本文的方法
实验
结论
本文所研究问题的提出


LBP, HOG等是手工设计(handcrafted)的特征表示。
这些方法存在两个问题:


手工设计的表示方法不能保证最优的表示。
在人脸图像上,模式的分布并不均匀,有些模式在人脸图像上很
少出现。
在1000幅人脸图像上统计得到的模式分布图
本文的主要思想

提出基于学习的编码方法,利用无监督的学习方法来编码人脸的微结构。
在1000幅人脸图像上统计得到的模式分布图


对基于学习的特征表示,进一步利用PCA得到更紧致的表示。
当一对图像是不同的姿态组合时,不同部件所起的作用是不同的。根据
这一观察,训练了特定姿态组合的分类器,进行最后的分类。
文章结构






Introduction
Overview of the framework
Learning-based descriptor extraction
Pose-adaptive matching
Experimental results
Conclusion and discussion
提纲






作者信息
文章信息
拟解决的问题与采用的思路
本文的方法
实验
结论
本文的方法
姿态自适应分类器
LE特征表示
本文的方法



图像/块级别上的LE特征表示
部件的对齐
姿态自适应的匹配
基于学习的特征表示
采样与归一化
基于学习的编码与直方图表示
PCA降维
采样与归一化


在半径为r的圆环上以等间隔采样r*8个像素,
构成一个向量。
对该向量进行模归一化操作。
采样方式
R1=1,包括中心(9个点)
R1=3 无中心(24个点)
R1=1,R2=2 包括中心(25个点)(最优)
R1=4 R2=7 无中心(88个点)
基于学习的编码

三种无监督学习的方法(向量量化)




K-means
PCA tree
随机投影树(Random-projection tree)
根据图像上采样得到的向量集合,利用无监督
学习的方法得到一个codebook.
随机投影树的构建过程
PCA树&随机投影树

二者都是构建一棵树,叶子结点作为每个
cluster的表示。

不同之处: 构建树的规则不同。
挑选规则

PCA树:

随机生成树:


选择随机的单位投影方向。
根据选择的方向对样本点进行分裂。
特征表示


通过编码,输入图像变成了”码字”图像。
将“码字”图像划分为若干个图像块,提取直方图。


图像大小:84x96 图像块数目:5x7=35
PCA降维.(256 code, 原始维数:256x35=8960维,降维
后维数:400维)
多LE表示

利用线性SVM组合不同LE表示产生的相似度。
-
S1
+
S2
+
S3
S4
-
-
+
+
-
-
-
+
-
+
SVM
本文的方法



图像/块级别上的特征表示
部件的对齐
姿态自适应的匹配
部件的对齐


利用相似变换分别对齐人脸的9个部件。
优点: 部件对得更准,而不需要考虑整幅人脸
图像.
本文的方法



图像/块级别上的特征表示
部件的对齐
姿态自适应的匹配
姿态自适应配准

动机:当不同姿态的图像匹配时,不同部件的
作用是不同的。
基本思路


将姿态划分为正面(F)、朝左(L)、朝右(R)三个
类别。
姿态的分类

从Multi PIE数据库中选择了三幅Gallery图像,对测
试图像计算它与三幅Gallery图像的相似度,将最相
似的Gallery图像的姿态作为当前测试图像的姿态类
别。
基本思路



给定人脸的姿态,一对图像的可能姿态组合有
{FF, FL(LF), FR(RF), LL, LR(RL), RR}。
对给定的姿态组合,根据给定的训练集合来训
练相应的线性SVM分类器。
给定一对测试图像时,根据姿态组合选择相应
姿态组合的分类器进行分类。
提纲






作者信息
文章信息
拟解决的问题与采用的思路
本文的方法
实验
结论
实验

LFW上测试








不同学习方法的影响
PCA特征归一化与无归一化的对比
LE与已有方法的对比
不同特征点对齐的影响
姿态自适应与无姿态自适应的对比
Single LE与 Multiple LE的对比
本文方法与已有方法的对比
Multi PIE上结果
LFW简介




13,233幅人脸图像,5749个人。其中,1680
个人有两幅或更多幅图像,剩余4069人只有一
幅图像。
图像大小是250x250个像素,JPEG格式,绝
大多数彩色图像。
一些图像包含多张人脸,只有图像中心位置的
人脸才作为定义的人脸。
对任意的训练-测试划分,每个子集的人是互
斥的。
LFW测试协议



两种视图:视图1用于调试算法参数(模型或
参数选择),视图2用于性能报告。
视图1:训练集(pairsDevTrain.txt):1100对匹
配图像与1100对未匹配图像;测试集
(pairDevTest.txt):500对匹配图像与500对未
匹配图像
视图2:性能报告。只能用一次。包括10个子
集。一旦方法或模型通过视图1确定了,该方
法或模型利用视图2的数据进行评测。10折交
叉验证。
LFW测试协议

限制的训练(restricted training)


非限制的训练(unrestricted training)


实验者不能利用人的名字来推断非训练集给出的两幅图像的等价性: 例如,
乔治.布什的图像对(10,12)与(42,50)来自同一类,实验者不能利用(10,42)
作为同一类放入训练集中;实验者可利用对的等价性来扩充训练集:例如,
(1,2)与(2,3)是同一类,那么(1,3)可以加入训练集。
实验者可以利用人的名字来构建任意的训练与测试对
(peopleDevTrain.txt&peopleDevTest.txt). 但是,报告结果时测试数据只
能用pairs.txt文件.
常见方法所属类别:

PCA, SVM, LBP等属于限制训练的方法。

LDA属于非限制训练的方法。
LFW测试协议
10


p
ˆ
SE 
10
10
ˆ 

i
View2估计的平均精度: ˆ 
10
pi表示Veiw2利用子集i测试时的分类精度.
View2上精度的标准差:
i 1
  pi  ˆ 
2
i 1
9
精度应当根据独立于测试数据选择的参数与
阈值确定。
LFW测试结果
Restricted training results
Unrestricted training results
不同学习方法的影响


测试: LFW
随机投影树要比
PCA树,KMeans更好,因
此被选作学习方
法。
PCA特征归一化与无归一化的
对比



直接利用PCA特征
性能比LE表示要差。
对PCA特征进行L1
或L2归一化后,性能
会有较大提升。
“特征L2归一化+欧
式距离”等价
于”consine相似
度”。
LE与已有方法的对比


Single LE+PCA比
LBP高一些。
Multiple LE相比
Single LE有较大提
高。
不同特征点对齐的影响


5点对齐比2点对齐有很大提升。
部件级上的对齐同5点对齐的对比并不明显。
姿态自适应与无姿态自适应的
对比


图像块的划分
姿态自适应
结果
无
76.2%±0.41%
有
78.3%±0.42%
每种姿态组合,随机采
样3000 同类/异类对,
对6种姿态组合,共有
18000个样本。
取一半作训练集,另一
半做测试集。
Single LE与 Multiple LE的对比
整幅图像
编码
直方图
部件
LE
相似度
向量(9维)
整幅图像
LE
相似度
向量(4维)
SVM
Multiple LE+Comp
部件
LE
相似度
向量(36维)
姿态
自适应分类
Multiple LE+Comp
PCA
Single LE+holistic
姿态
Single LE+Comp
自适应分类
Single LE与 Multiple LE的对比


Multiple LE+comp最
优
Single LE+comp与
Multiple LE+holistic
相当
本文方法与已有方法的对比

同类方法中,
排名第三。
Multi PIE上结果


在LFW上训练得到的LE码本。
推广性能还不错。
提纲






作者信息
文章信息
拟解决的问题与采用的思路
本文的方法
实验
结论
结论以及进一步工作



LE表示以及姿态自适应的匹配具有很好的性
能。
MultiPIE上的结果表明提出的方法具有很好的
推广性。
采样方式是人工设计的,能否自动地学习得到?
本文可以借鉴的地方




DoG处理
特征点对齐
相似度向量+SVM
多种特征组合
谢谢!
Download