ppt

Regression Shinkage for
Sparse Projection Learning
------Graduate Celebration Report
Reporter: Zhihui Lai
Supervised by Prof. Zhong Jin
2011-6
Outline
A review
 Recommendations
 Regressions
 basic sparse learning methods
 My works
 Conclusions
 Future works
 Possible hot points in the future
 Some suggestion on the younger

Sparse subspace learning
-------reported at June 2009
A review

Fast algorithm
Jieping Ye 2010
Cairong Zhao and I

Sparse visual attention system

Sparseness for one class problem

Sparse representation and explanation for gene data
Chunhou Zheng,
Lei Zhang
Lei Zhang,

Super-solution images and dictionary learning

Feature extraction and classification
Lili Wang and
Guangwei Gao
Jian Yang,
Zhenghong GU,
and I
10 Recommended References (1)

P.N. Belhumeur, J.P. Hespanha, D.J. Kriengman, Eigenfaces vs.
Fisherfaces: recognition using class specific linear projection,IEEE Trans.
Pattern Anal. Mach. Intelligence 19 (7) (1997)711–720.

X.F. He, S. Yan, Y. Hu, P. Niyogi, H.J. Zhang, Face recognition using
laplacianfaces, IEEE Trans. Pattern Anal. Mach. Intelligence 27 (3) (2005)
328–340. +++++and its related papers

2DPCA,UDP(T-PAMI)

ULDA OLDA (PR), NLDA

Graph embedding (T-PAMI)
10 Recommended References (2)


J. Wright, A.Y. Yang,..,Yi Ma,”Robust face recgontition via sparse
represetation, T-PAMI 2009. ++++++and its 20 related references!
B. Efron, T. Hastie, I. Johnstone, and R. Tibshirani, “Least angle
regression,” Annals of Statistics, vol. 32, 2004, pp. 407-499

.
R. Tibshirani, “Regression shrinkage and selection via the lasso,” Journal
of the Royal Statistical Society: Series B (Statistical Methodology), vol. 58,
1996, pp. 267-288.


Zou, H. (Standford), Hastie, T., & Tibshirani, R. (2004). Sparse principal
component analysis (Technical Report). Statistics Department, Stanford
University.
D. Cai, X. He, J.Han, Spectral Regression: A Unified Approach for Sparse
Subspace Learning, Proc. 2007 Int. Conf. on Data Mining (ICDM 07),
Omaha, NE, Oct. 2007.
Background---sparseness is needed
One key drawback of PCA is its lack of
sparseness.
 Sparse representations are generally desirable.
 Reduce computational cost and promote better
generalization in learning algorithms.
 In many applications, the coordinate axis
involved in the factors have a direct physical
interpretation.
 In financial or biological applications, each
axis might correspond to a specific asset or
gene.

The methods for sparse solutions
CVX,
L1-magic,L1_eq
SDP,QCQP,
GPRS,SLEP,
Lasso,Glasso,
Elastic net
regressions
 Gaussian

ProcessRegression,
Support Vector Regression,
 Regression
 and
Trees,
Nearest Neighbor Regression
UNSOLVED!!
 OMP---Orthogonal
OMP
Why L1 norm learning?
some useful journals
 Comm.
Pure and Applied Math.
 SIAM Rev.
 J. Am. Statistical Assoc.
 Comm. Pure and Applied Math.
 IEEE Trans. Information Theory
 Theoretical Computer Science
 Foundations of Computational Math
基本投影理论与算法 ----PCA
思
想:最小化重构误差,保留最大方差
min  i xi   xi
T
2
J ( )   St
T
1 M
T
nn
St   ( xi  x )( xi  x )  R
m i 1
 PCA  arg max J ()  [1 , 2 ,

, d ]
几何意义:使投影后所得特征的总体散度最大
基本投影理论与算法 ----SPCA(1)
思
想:在旋转不变性的原则下最小化子
空间之间的投影误差
SVD分解
m

*
*
T
( A , B )  arg min   xi
A, B
 i 1
X  UDV
 AB x   B(:, j )
T T 2
i
T
d
j 1
2



s.t. AA  I d
T
则有 B (:, i)  V (:, i)
*
几何意义:在子空间之间使同一模式点的像与原
像之差达到最小化
基本投影理论与算法----SPCA(2)
思
想:在旋转不变性的原则下最小化稀疏
子空间之间的投影误差
m
d
d


2
2
*
*
T
T T
( A , B )  arg min   xi  AB xi   B(:, j )   1, j B(:, j ) 
A, B
j 1
j 1
 i 1

s.t. AA  I d
T
几何意义:寻找一个稀疏线性变换,使得模式
点在稀疏子空
间的像及其在原子空间的像
之差达到最小化
基本投影理论与算法 ----SDA(1)

思
式
想:把类属变量看成量化变量来处理,并写成回归的形
Y是只含0-1值的
代表各类属性的
m*c阶变量矩阵
Optimal scoring
(ˆ, ˆ )  arg min m1 Y  X 
 ,
惩罚矩阵
2
2
s.t. m
2
1
ˆ
( , ˆ )  arg min m Y  X  2  2 1/2
 ,
1
Y
2
2
I
2
2
Panelized discriminant
analysis
几何意义:在低维子空间中逼近与类相关的量化变量
基本投影理论与算法 ----SDA(2)
思
想:把类属变量看成量化变量来处理,并写成含L1范数回归的形式
2
2
1
1/2
ˆ
( , ˆ )  arg min m Y  X  2  2    1 
 ,
s.t. m
2
1
Y
2
2
I
最优的稀疏投影通过迭代Elastic Net和SVD分解得到
几何意义:在低维子空间中逼近与类相关的量化变量
1
基于图的稀疏投影学习模型
max  XWX T 
现有的稀疏学习
模型(USSL):
s.t.  T XDX T   1
Card ( )  K
本文提出的稀疏鉴别投
影(SLDP)学习模型:
 XWX T    XDX T 

Card ( )  K
T
b
b
T

max
J
(

)


X
(
D

W
)
X


b

T
w
w
T
min
J
(

)


X
(
D

W
)
X


w

s.t.  T XX T   1
Card ( )  K
稀疏投影向量的比较及其语义解释
实验与分析(AR人脸数据集)
AR人脸数据
集中的一张
人脸图像
由SLDP (左)和USSL(右)算法得到的稀
疏人脸子空间的二值图像,此时K=400,
白点表示非0元,黑色区域为0元素
基于向量的稀疏投影学习小结

优点:稀疏特征提取方法还能给出特征层面上的语义解释,它可以发现
最有效的鉴别特征用于分类,使我们知道到底哪些特征对分类起到了关
键作用。

缺点:

计算复杂度高,并且当非零元素较多时,这些算法往往比较耗时。
需要大量的投影才能有效地分开各个类,进一步增加了计算负担。
些方法用于人脸(图像)识别时,所得的投影轴仍然难于给出较为直观
的、合理的人脸语义上的解释 ,投影向量基本不再含有图像对像的属性



稀疏鉴别投影方法与紧致鉴别投影理论上的联系仍然没有得到论证
基于流形学习的稀疏二维特征提取算法框架
2 DLPP :
X T ( L  I n1 ) X    X T ( D  I n1 ) X 
2 DLGEDA : X T ( Lb  I n1 ) X    X T ( Lw  I n1 ) X 
基于图像矩阵的二维
紧致投影 学习方法:
本文所提出的稀疏
投影学习算法框架:
X T (Lb  In1 ) X   X T ( Lw  In1 ) X
T
T

X
(
L

I
)
X



X
( Lw  I n1 ) X 

b
n1


 subject to Card ( )  K
快速图谱特征分解
这两个定理为快速的稀疏回归提供了思路!
基于图像矩阵的二维回归拓展
基于图像矩阵的二维脊回归、二维Lasso回归、二维Elastic Net回归
分别如下:
n1
m
n2
  arg min( ( X i (h,:)    yi )2    j2 )

i 1 h 1
j 1
n1
m
n2
  arg min( ( X i (h,:)    yi )2     j )

i 1 h 1
m
n1
j 1
n2
n2
j 1
j 1
  arg min( ( X i (h,:)    yi )2    j2     j )

i 1 h 1
Sparsefaces:无监督S2DLPP算法
S2DLPP的目标函数:
T
T

X
(
W

I
)
X



X
( D  I n1 ) X 

n1

Card ( )  K

 subject to
S2DLPP的
算法过程:
算法时间复杂度与空间复杂度的比较
图像大小:n1  n2  n;训练样本数:m;
时
间
复
杂
性
空
间
复
杂
性
Sparsefaces:O (n 2 m 2  m 2 log m  d (n 3  n 3m))
并可降到
O (n m  m log m  d ( K  K nm))
USSL:
O(n 2 m 2  m 2 log m  d (n 6  n 4 m))
并可降到
O (n 2 m 2  m 2 log m  d ( K 3  K 2 m))
2DLPP:
O( n 2 m 2  m 2 log m  n3  n 2 m 2 )
2
2
2
3
Sparsefaces:max(O (m 2 ), O (n 2 ))
USSL :
max(O(m 2 ), O(n 4 ))
2 DLPP :
O(n 2 )
2
节省
空间
极大提
高学习
速度
Sparsefaces方法的变换矩阵
在Yale人脸数据集上的实验与分析
从左到右: 2DPCA“脸”、
S2DLPP所学习得到的稀疏
“脸”图像,其中 K=2:2:
10
2DLDA“脸”、
2DLPP“脸”、
USSL“脸”
稀疏脸的二值“脸”图像,白色
点代表0元素,黑色部分为非0元
素
无监督S2DLPP算法的特性
快速!
节省20%
的时间
S2DLPP算法对时间光照表情变化的有效性
本文提出的
S2DLPP算法效果
在AR人脸数据集上的实验比较
第一次采集的前10幅图像用
于训练,第二次采集的前10
幅图像用于测试
S2DLPP对光照、表情及
时间变化的鲁棒性
快速!
S2DLPP在FERET数据库上的实验
200个人的1400张
人脸图像,前5张图
像用于训练,后两
张图像用于测试,
图像大小为40*40
比基于向量的稀疏学习方法
快近100倍!
监督的S2DLDP算法
 S2DLDP的目标函数:
 X T ( Lb  I n1 ) X    X T ( Lw  I n1 ) X 

Card ( )  K
 subject to
S2DLDP
算法过程:
S2DLDP的变换矩阵特性
在Yale人脸数据集上的实验
从左到右:2DPCA“脸”、
2DLGEDA“脸”
2DLDA“脸”、
S2DLDP所学习得到的稀疏“脸” ,
K=2:2:10
2DLPP“脸”、
S2DLDP的二值“脸”,白色点代
表非0元素,黑色部分为0元素
S2DLDP的橹棒性
含光照表情的变化
S2DLDP在Yale人脸数据库上识别
率与非0元个数及维数的情况
含光照、表情
与时间的变化
在AR人脸数据库上各方法
的识别率与维数的变化情况
互相垂直的稀疏投影学习模型
max  XWX T 
现有的稀疏学习
模型(USSL):
s.t.  XDX   1
T
T
Card ( )  K
max  XWX T 
s.t.  T XDX T   1
Card ( )  K
互相垂直的限制!
花了我大半
年才发现它
的解!
 Tj i  0 for  i, j
multilinear sparse regression:MSPCA
Xi  R
m1 m2 mn
Yi  Xi 1 U1T 2 U 2T n U nT
(i  1, 2,..., N )
{Ui  Rmi di , di  mi , i  1, 2,..., n}
J (U1 ,U 2 , ,U n )   i Xi  Xi 1 B U 2 B U n B U
1
1
  j j U j
2
F
T
1
2
2
T
2
n
n
  j  h  jh u hj
(U j |nj 1 )*  arg min J (U1 ,U 2 , ,U n )
subject to B1T B1  I1
...
BnT Bn  I n
T 2
n F
MSPCA algorithm
multilinear sparse regression on manifolds
Xi  R
m1 m2 mn
Yi  Xi 1 U1T 2 U 2T n U nT
(i  1, 2,..., N )
{Ui  Rmi di , di  mi , i  1, 2,..., n}
J (U1 ,U 2 , ,U n )   i , j ( Xi  X j ) 1 B U 2 B U n B U
1
1
  j j U j
2
F
T
1
2
2
T
2
n
n
T 2
n F
Wij
  j  h  jh u hj
(U j |nj 1 )*  arg min J (U1 ,U 2 , ,U n )
subject to B1T B1  I1
...
BnT Bn  I n
Graph on
manifolds
Conclusions
 Sparseness
might be necessary!
 Sparseness can be more efficient!
 Less atoms (loadings), higher accuracy!
Possible hot points in the future!
 Effective
dictionary learning for
classification
 Classifier (classification) based optimal
dimensionality reduction
 Information theory (entropy) based
discriminant analysis (such as AIDA)
 Game theory based discriminant analysis
 (Multilinear) sparse projections and its
applications for biometrics and
interpretations (such as on gene)
Some suggestion on the younger

Elements: step by step, smaller to bigger

Writings: faster is more harmful! Careful
Rewritings! Details decide the success or failure!
3~4 paper per year!

Submitions: comment on it and just do it!

Paper (40%)+writings(30%)+reviewers(30%)=1

Ours visual angle decides ours height!
Thinks!