PPT

advertisement
Protein Tertiary Structure Prediction
Jingfen Zhang
Digital Biology Laboratory
Computer Science Department
University of Missouri
2012-11- 15
Outline

基本概念与基础知识

方法论,主要问题

问题的描述及研究里程碑

CASP
基本概念与基础知识
1D sequence
Cα
主链Backbone
侧链Sidechain
3D structure
2D structure
三维非线性局部结构
稳定的氢键和van der
Waals相互作用
三维结构的表示法
2
3.8 3.8
3.8
4
5.9
6.0
8.1
3.8
3
1
欧式空间
o 原子坐标 Coordinates (x, y, z)
•
Cα 坐标确定后backbone的自由度很小
•
侧链排放有一定的自由度
o 距离矩阵
•
坐标距离矩阵, 距离矩阵坐标
•
镜像问题,丢失了手性
•
相邻的Cα 距离为3.8 A 左右(特例:cis-proline 2.8A)
•
k*L个Cα-Cα距离便可恢复出L个Cα的坐标
2) 角空间
o 扭转角(Torsion angle)
o phi-angle (φ): N-Cα bond
o psi-angle (ψ): Cα-C bond
o 键长
欧式空间的表示法可以与角空间的表示法互相转换
1)
1
2
3
4
1
0
3.8
6.0
8.1
2
3.8
0
3.8
5.9
3
6.0
3.8
0
3.8
4
8.1
5.9
3.8
0
蛋白质折叠过程
•
朝自由能E最低的构造(conformation)折叠,形成稳定的氢键,静电以
及范德华相互作用,产生二级结构
螺旋
平行/反平行
蛋白质结构预测问题

问题:寻找从氨基酸序列到蛋白质所有原子三维坐标的一种映射

必要性
 结构与功能关系密切,应用面广
 但受实验手段限制,实测的蛋白质序列数目>>结构数目

可行性
 thermodynamic hypothesis(Anfinsen‘s dogma, Christian Boehmer
Anfinsen, 1972年诺贝尔化学奖):蛋白质链会以自由能最低的方式形成
三维结构,至少对于小的球蛋白,其三维结构由其氨基酸序列决定的
 结构保守性>>序列保守性

难度
 蛋白质折叠的机理不明确
 对某些序列,可能的序列到结构的映射数是天文数字
方法论共同问题
Template-based
同源建模
Homology Modeling
序列足够相似,属同源蛋白
,则整体结构会很相似
串线法
Threading
识别与目标序列有关的结构片段
组合片段,搜索自由能最低
Template-free
从头计算
Ab Initio,Denovo
在Ramachandran plot 指导
下旋转, ,搜索自由能最低
方法论共同问题
Template-based

序列、结构数据的组织
 数据(库)
 度量衡
 分类知识

比对 (alignment)
 建立数据间的联系

建模 (modeling)
 数据间的联系结构

质量评估 (QA)
 能量函数
 统计规律
 几何关系
同源建模
Homology Modeling
序列足够相似,属同源蛋白
,则整体结构会很相似
串线法
Threading
识别与目标序列有关的结构片段
组合片段,搜索自由能最低
Template-free
从头计算
Ab Initio,Denovo
在Ramachandran plot 指导
下旋转, ,搜索自由能最低
数据库
Sequence DB:
NR
Uniprot
分类
序列相似性 Sequence alignment
pFam
数据库
Sequence DB:
Structure DB
PDB Protein Data Bank
NR
分类
结构相似性 structure alignment
Uniprot
分类
序列相似性 Sequence alignment
CATH
FSSP
人工
人工+自动
全自动
进化信息
几何信息
层次聚类
Scop
2/3的结构分类是重合的
pFam
数据库
Structure prediction
Sequence DB:
Seq-Stru
NR
Structure DB
PDB Protein Data Bank
alignment
分类
结构相似性 structure alignment
Uniprot
分类
序列相似性 Sequence alignment
CATH
FSSP
人工
人工+自动
全自动
进化信息
几何信息
层次聚类
Scop
2/3的结构分类是重合的
pFam
PDB/Class/Fold/Architecture/Do
main/Motif/Superfamily/Family
分类:
Protein Data Bank (PDB, 1971)
•Class: 二级结构分类(all , all
, +, /, etc)
•Fold (architecture) : 二级结
构的形状走向(barrel,
All α
All β
α+β
α/β
•Superfamily:在family基础
上,还考虑进化关系
–
NMR, X-ray
40000
Folds
38,221
Superfamilies
Families
30000
• domain: 结构中有功能的部分
比如 binding, cleaving,
spanning sites
•Family:考虑拓扑结构+实
验的或者生物特性
试验方法得到的结构
35000
sandwich, etc)
• motif : 小的或者特定的二级结
构比如一个 -- loop
–
PDB entries
25000
Sandwich TIM barrel
20000
15000
PDB ID: 2FOX
CLASS: /
FOLD: Flavodoxin-like sandwich
Superfamily: Flavoproteins
FAMILY: Flavodoxin-related
10000
5000
3,902
1,962
1195
0
1997 1999 2001 2003 2005 2007 2009
结构比对-度量衡

如何衡量结构的关系:差距及相似性
P
 意义直观
 好的数学性质
 一个score可能不能满足所有需求
Q
广泛应用的度量衡
 RMSD (root mean square deviation)
 GDT_TS
The largest set of ‘equivalent’ residues under some cutoff distances
GDT_TS = (GDT_P1Å + GDT_P2Å + GDT_P4 Å+ GDT_P8Å)/4
 TM-score
1
TMscore  m ax[
LN
 DALI-score
LT
1
]
di 2
i 1
1 ( )
d0

L
L
d 0  1.24 * 3 LN  15  1.8
Score    ( i , j )   R  | d ijA  d ijB |
i 1 j 1
广泛应用的度量衡
 RMSD (root mean square deviation)
 GDT_TS
The largest set of ‘equivalent’ residues under some cutoff distances
GDT_TS = (GDT_P1Å + GDT_P2Å + GDT_P4 Å+ GDT_P8Å)/4
 TM-score
1
TMscore  m ax[
LN
 DALI-score
LT
1
]
di 2
i 1
1 ( )
d0

L
d 0  1.24 * 3 LN  15  1.8
L
Score    ( i , j )   R  | d ijA  d ijB |
i 1 j 1
 Dscores
 (D , D )
Dscore1  si n (
1
2
2
1  dot(
)  sqrt(
D1
D2
,
)
|| D1 || || D 2 ||
)
2
Dscore2( D1 , D 2 ) 
1
*( 
L2 1 i , j  L
1 (
1
d  d ij2
1
ij
d1
)
)
2
1
*( 
L2 1 i , j  L
1 (
1
d ij
d1
)
)
2
广泛应用的度量衡
 RMSD (root mean square deviation)
 GDT_TS
The largest set of ‘equivalent’ residues under some cutoff distances
GDT_TS = (GDT_P1Å + GDT_P2Å + GDT_P4 Å+ GDT_P8Å)/4
 TM-score
1
TMscore  m ax[
LN
 DALI-score
LT
1
]
di 2
i 1
1 ( )
d0

L
d 0  1.24 * 3 LN  15  1.8
L
Score    ( i , j )   R  | d ijA  d ijB |
i 1 j 1
 Dscores
 ( D1 , D 2 )
Dscore1  si n (
2
1  dot(
)  sqrt(
D1
D2
,
)
|| D1 || || D 2 ||
)
2
Dscore2( D1 , D 2 ) 
1
*( 
L2 1 i , j  L
1 (
RMSD最小化差异性 TM-score, GDT_TS最大化相似性
RMSD, TM-score, GDT_TS: 涉及L*3的坐标转换,优化过程
DALI-score, Dscores直接比较L*L的距离矩阵
DALI-score, Dscore2描述相似性, Dscore1描述差异性
1
d  d ij2
1
ij
d1
)
)
2
1
*( 
L2 1 i , j  L
1 (
1
d ij
d1
)
)
2
结构比对 - 方法

多目标优化: 尽可能多地匹配residues, 同时还优化比对
的距离/相似性
 CE (combinatorial extension structure alignment),优化RMSD
 LGA (Local-Global Alignment)优化 GDT_TS

LCS (longest continuous segments) + GDT (global distance test)
 TMAlign - 优化TM-score

二级结构比对+ 最好的gapless比对+ 考虑gap-opening罚分的比对

启发式的迭代扩展比对,记录最好的比对
 DALI - 优化DALI-score

比较6-肽子结构,记录所有相似的片断

Monte Carlo 拼接上述相似的子结构扩展成更长的比对
序列比对: Sequence – Sequence
seq1
target
...NCGE…
...SCGD…
1)独立性假设: 一个sequence里的residue之间是独立的
2)score = ∑sa,b, sa,b single score for residues a, b:
sa,b = log P(a | b)
f(a)
从b的同源性导出
a 随机出现的频率
3)P(a|b): 固定进化距离可以统计得到20x20的score matrix(也称为替代
矩阵),比如BLOSUM, PAM等;给定已知的数据库则可以估计f(a)
4)gap open cost α,gap extend cost β
Smith–Waterman algorithm: DP optimal
BLAST: (Basic Local Alignment Search Tool)
seeding + heuristic extension
FASTA: (FAST-All),
seeding + banded Smith-Waterman
序列比对: Sequence – Sequence
seq1
target
...NCGE…
...SCGD…
1)独立性假设: 一个sequence里的residue之间是独立的
2)score = ∑sa,b, sa,b single score for residues a, b:
sa,b = log P(a | b)
f(a)
从b的同源性导出
a 随机出现的频率
3)P(a|b): 固定进化距离可以统计得到20x20的score matrix(也称为替代
矩阵),比如BLOSUM, PAM等;给定已知的数据库则可以估计f(a)
4)gap open cost α,gap extend cost β
Smith–Waterman algorithm: DP optimal
BLAST: (Basic Local Alignment Search Tool)
seeding + heuristic extension
FASTA: (FAST-All),
seeding + banded Smith-Waterman
Comments:
1)序列的比较实际上是对residues匹
配与失配进行评分
2)序列相似度足够高时性能最好
序列比对: Profile1
- Position Specific Score Matrix(PSSM)
MSA:
Temp1
target
...NCGFD…
...SCGYD…
P(a | column k) 从第k列的同源性导出
sk(a) = log
a 随机出现的频率
f(a)
独立性假设:
1) column 是独立的 (每次对一个residue进行评分)
2) 序列是独立的(不考虑进化关系)
用MSA所决定的M x20的profile (PSSM)来表示一条长为M的序列,两个序列的比较仍然是对
匹配与失配进行评分,不过,是比较一个20维的vector与一个字母
PsiBlast:
1)用seq-seq的方法获取MSA
2)MSA PSSM profile
3)比较profile与序列
4)通过迭代的方式改善PSSM
序列比对: Profile1
- Position Specific Score Matrix(PSSM)
MSA:
Temp1
target
...NCGFD…
...SCGYD…
P(a | column k) 从第k列的同源性导出
sk(a) = log
a 随机出现的频率
f(a)
独立性假设:
1) column 是独立的 (每次对一个residue进行评分)
2) 序列是独立的(不考虑进化关系)
用MSA所决定的M x20的profile (PSSM)来表示一条长为M的序列,两个序列的比较仍然是对
匹配与失配进行评分,不过,是比较一个20维的vector与一个字母
PsiBlast
1)用seq-seq的方法获取MSA
2)MSA PSSM profile
3)比较profile与序列
4)通过迭代的方式改善PSSM
Comments:
1)考虑位置信息
2)profile的表达能力 > residue的进化关系
3)适用于序列相似度 > 30%
序列比对: Profile2
- Hidden Markov Model
MSA:
独立性假设:
1)序列是独立的(不考虑进化关系)
2)仅相邻的两个位置间有关联
用MSAHMM,包括状态转移概率以及每个状态下的发射不同字母的概率来表示一条序列
HAMMER: seq–profile / profile-seq
HHSearch: Profile - Profile
序列比对: Profile2
- Hidden Markov Model
MSA:
独立性假设:
1)序列是独立的(不考虑进化关系)
2)仅相邻的两个位置间有关联
用MSAHMM,包括状态转移概率以及每个状态下的发射不同字母的概率来表示一条序列
HAMMER: seq–profile / profile-seq
HHSearch: Profile - Profile
Comments:
路径序列
1) Viterbi最佳路径
2) Forward所有路径(更稳定)
3)后验概率 confidence estimates
可以探测到序列相似度 > 10%的远同源关系
序列比对:CRF, CNF model
独立性假设:
1)序列是独立的(不考虑进化关系)
2)任意两个位置间都有关联随机场有向无环图
序列s 与模板t之间的一个比对 a  {a1 , a2 ,...,aL }, ai  { M , I s , I t }
条件概率
p(a | s , t )  exp( i  j F (a i  a j | s , t )) / Z ( s , t )
RaptorX
Z(s,t): 归一化因子
F: 描述状态转移的可能性
o
o
o
综合考虑序列与结构的features
处理feature之间的关系
不同的区域( disorder, loop, SS) 采用
不同的features
序列比对:CRF, CNF model
独立性假设:
1)序列是独立的(不考虑进化关系)
2)任意两个位置间都有关联随机场有向无环图
序列s 与模板t之间的一个比对 a  {a1 , a2 ,...,aL }, ai  { M , I s , I t }
条件概率
p(a | s , t )  exp( i  j F (a i  a j | s , t )) / Z ( s , t )
RaptorX
Z(s,t): 归一化因子
F: 描述状态转移的可能性
o
o
o
综合考虑序列与结构的features
处理feature之间的关系
不同的区域( disorder, loop, SS) 采用
不同的features
Comments:
1)独立性假设更接近实际
2)可以引入更多features,更灵活
可以探测到更远的远同源关系
参数多,模型复杂
性能比较
性能比较
性能比较
Potential future work

松弛独立性假设序列不独立



New Model


研究进化关系
 比较sequenceDB规范的进化关系与structureDB规范的进化关系
 新的组织结构统一序列结构的进化
建立含进化关系的Profile
HMM, CRF, CNF, … ?
New search Method


Sensitivity,尤其是local alignment
Accuracy: 假定fold或者template正确了,如何提高比对的正确性
建模 Modeling

Template-based modeling
 普遍认为模板库已经趋于完整
 关键:选择正确模板,提高比对准确度


Homology Modeling,序列足够相似,充分使用整个模板的信息
Threading,组合片段,搜索自由能最低
 难点:远同源关系

Template-free modeling
 当前算法找不到合适的模板
 与数据库中匹配的片段不足以确定拓扑结构
 适合小蛋白,loop modeling等
 难点:beta proteins
Template-based modeling: global
S:GKITFYERG---RCYESDCPNLQP…
T:GKITFYERGFQGHCYESDC-NLQP…
Template-based modeling: global
S:GKITFYERG---RCYESDCPNLQP…
T:GKITFYERGFQGHCYESDC-NLQP…
Modeller
F(R) = P pi (fi /I)
Template-based modeling: global
S:GKITFYERG---RCYESDCPNLQP…
T:GKITFYERGFQGHCYESDC-NLQP…
Modeller
F(R) = P pi (fi /I)
Comments:
1)Key: pdf 的估计
2)MSA帮助最大
3)能量函数粗糙
Template-based modeling: global
S:GKITFYERG---RCYESDCPNLQP…
T:GKITFYERGFQGHCYESDC-NLQP…
MUFOLD
Modeller
Contact Map
Conserved
restraints
Sampling
Unconserved
restraints
F(R) = P pi (fi /I)
Comments:
1)Key: pdf 的估计
2)MSA帮助最大
3)能量函数粗糙
min

x1 ,...x n  R 3 ( i , j ) N
w ij

x i  x j  d ij

2
Template-based modeling: global
S:GKITFYERG---RCYESDCPNLQP…
T:GKITFYERGFQGHCYESDC-NLQP…
MUFOLD
Modeller
Contact Map
Conserved
restraints
Sampling
Unconserved
restraints
F(R) = P pi (fi /I)
Comments:
1)Key: pdf 的估计
2)MSA帮助最大
3)能量函数粗糙
min

x1 ,...x n  R 3 ( i , j ) N
w ij

x i  x j  d ij

2
Comments:
1)Key: sampling
2)deep and narrow search
3)无能量函数
4)global error危害很大
Template-free modeling
Seqence
Predicted SS
3,9-mer DB search
1)每列寻找200个片段
2)统计局部的二面角的分布
3)sampling,能量最低
Template-free modeling
Seqence
Predicted SS
3,9-mer DB search
Rosetta
相邻的k-mer的二面
角之间是独立的
1)每列寻找200个片段
2)统计局部的二面角的分布
3)sampling,能量最低
Template-free modeling
Seqence
Predicted SS
3,9-mer DB search
Rosetta
相邻的k-mer的二面
角之间是独立的
1)每列寻找200个片段
2)统计局部的二面角的分布
3)sampling,能量最低
FALCON
相邻的k-mer的二面角有关联
两面角的HMM
迭代改进HMM
Template-free modeling
Seqence
Predicted SS
3,9-mer DB search
Rosetta
相邻的k-mer的二面
角之间是独立的
1)每列寻找200个片段
2)统计局部的二面角的分布
3)sampling,能量最低
FALCON
相邻的k-mer的二面角有关联
两面角的HMM
迭代改进HMM
RaptorX
CRF模型
Template-free modeling
Seqence
Predicted SS
3,9-mer DB search
Rosetta
1)每列寻找200个片段
2)统计局部的二面角的分布
3)sampling,能量最低
FALCON
相邻的k-mer的二面
角之间是独立的
相邻的k-mer的二面角有关联
两面角的HMM
RaptorX
CRF模型
迭代改进HMM
Comments:
1)K-mer离散化的表达不能cover所有情况
2)二面角的微小变化可能导致完全不同的fold
3) key:k-mer之间的关系 + 能量函数
Template-based modeling:
assembly

TASSER
Structure assembly
1)固定部分 + denovo 部分
2)初始解: random walk方式连接所有的片段
3) Monte Carlo sampling:平移旋转片段+自由能下降
Quality Assessment

Single-model QA:评估单个model,不需要辅助信息

Force field (计算量太大)

Energy function

static function (能够区分near-native和非native,都是非native区分不开)





DFIRE: Distance-scaled, finite ideal-gas reference state
DOPE: residue-specific distance-dependent pairwise statistical potential
KMBhbond: Baker’s hydrogen bonding energy for beta-sheet forming …
Molecular Dynamics

Hypothesis: during simulated heating, near native structures are more stable
than poor-quality structures
Machine learning
black – 2.7 Å
red – 3.9 Å
blue – 12.3 Å
orange – 12.6 Å
magenta – 12.9Å
black – 3.1 Å
red – 3.2 Å
blue – 3.3 Å
orange – 9.9 Å
magenta – 9.9Å
black – 3.3 Å
red – 4.5 Å
blue – 5.4 Å
orange – 6.3 Å
magenta – 6.7 Å

Features: Environmental Fitness, Contact Capacity, SS and SA Similarity…

Models: SVM, NN,…
Quality Assessment

Consensus QA :根据model与其它model之间的关系来评估其质量

每一个model都有某些部分是正确的, model与其他model的平均相似度越高越好

Near-native structures are often located in a large free-energy basin in the free
energy landscape


Clustering + Representative,cluster越大,其Representative质量可能会越好
The consensus QA consistently outperformed single-model QA in CASPs
Method
Transformation
Structural comparison
(per calculation)
Number of
distance
Spicker
O(L3 )
O(N2 )
Difference (RMSD)
SCUD
O(L3 )
O(N)
Difference (RMSD)
Calibur
Maxsub
O(L3)
>>O(L3 )
O(N2)
O(N2)
Difference (RMSD)
Difference (RMSD) / Similarity (Maxsub)
MUFOLD-CL
O(L)
O(N)
Difference (Dscore1) / Similarity (Dscore2)
N: number of decoys
L: number of amino acids
CASP: Critical Assessment of Structure
Prediction
1. 1994-至今,每两年一次
2. 由structure prediction community组织,第三方评估
3. Blind: 待预测的结构在赛季不公开
Targets
Server QA
Predicted
Ranking
Human
Prediction
Server Prediction
Predicted models
Best of the pool
Refinement
Our CASP History
CASP8: invited to give a talk at the meeting
Server Prediction:
#1 in Free modeling category
QA: No significant result
CASP9: invited to give a talk at the meeting and publish a paper in the
special issue
Server Prediction :
#10 in Template-based modeling category (#1 in trivial cases)
#7 in Free modeling category
Human Prediction: (We did by our server not by human in fact)
#1 in Human prediction
QA:
#1 in correlation
#2 in top-1 selection
CASP10:
Should have better performance than CASP9
Acknowledgements

Team (MUFOLD development)
 Dong Xu (Computer Science)

Jingfen Zhang

Zhiquan He
 Yi Shang (Computer Science)

Qingguo Wang
 Ioan Kosztin (Physics)


Jiong Zhang
Funding Sources
 University of Missouri Research Board Grant
 NIH: R21/R33 GM078601
Thanks for your patience!
Download