Protein Tertiary Structure Prediction Jingfen Zhang Digital Biology Laboratory Computer Science Department University of Missouri 2012-11- 15 Outline 基本概念与基础知识 方法论,主要问题 问题的描述及研究里程碑 CASP 基本概念与基础知识 1D sequence Cα 主链Backbone 侧链Sidechain 3D structure 2D structure 三维非线性局部结构 稳定的氢键和van der Waals相互作用 三维结构的表示法 2 3.8 3.8 3.8 4 5.9 6.0 8.1 3.8 3 1 欧式空间 o 原子坐标 Coordinates (x, y, z) • Cα 坐标确定后backbone的自由度很小 • 侧链排放有一定的自由度 o 距离矩阵 • 坐标距离矩阵, 距离矩阵坐标 • 镜像问题,丢失了手性 • 相邻的Cα 距离为3.8 A 左右(特例:cis-proline 2.8A) • k*L个Cα-Cα距离便可恢复出L个Cα的坐标 2) 角空间 o 扭转角(Torsion angle) o phi-angle (φ): N-Cα bond o psi-angle (ψ): Cα-C bond o 键长 欧式空间的表示法可以与角空间的表示法互相转换 1) 1 2 3 4 1 0 3.8 6.0 8.1 2 3.8 0 3.8 5.9 3 6.0 3.8 0 3.8 4 8.1 5.9 3.8 0 蛋白质折叠过程 • 朝自由能E最低的构造(conformation)折叠,形成稳定的氢键,静电以 及范德华相互作用,产生二级结构 螺旋 平行/反平行 蛋白质结构预测问题 问题:寻找从氨基酸序列到蛋白质所有原子三维坐标的一种映射 必要性 结构与功能关系密切,应用面广 但受实验手段限制,实测的蛋白质序列数目>>结构数目 可行性 thermodynamic hypothesis(Anfinsen‘s dogma, Christian Boehmer Anfinsen, 1972年诺贝尔化学奖):蛋白质链会以自由能最低的方式形成 三维结构,至少对于小的球蛋白,其三维结构由其氨基酸序列决定的 结构保守性>>序列保守性 难度 蛋白质折叠的机理不明确 对某些序列,可能的序列到结构的映射数是天文数字 方法论共同问题 Template-based 同源建模 Homology Modeling 序列足够相似,属同源蛋白 ,则整体结构会很相似 串线法 Threading 识别与目标序列有关的结构片段 组合片段,搜索自由能最低 Template-free 从头计算 Ab Initio,Denovo 在Ramachandran plot 指导 下旋转, ,搜索自由能最低 方法论共同问题 Template-based 序列、结构数据的组织 数据(库) 度量衡 分类知识 比对 (alignment) 建立数据间的联系 建模 (modeling) 数据间的联系结构 质量评估 (QA) 能量函数 统计规律 几何关系 同源建模 Homology Modeling 序列足够相似,属同源蛋白 ,则整体结构会很相似 串线法 Threading 识别与目标序列有关的结构片段 组合片段,搜索自由能最低 Template-free 从头计算 Ab Initio,Denovo 在Ramachandran plot 指导 下旋转, ,搜索自由能最低 数据库 Sequence DB: NR Uniprot 分类 序列相似性 Sequence alignment pFam 数据库 Sequence DB: Structure DB PDB Protein Data Bank NR 分类 结构相似性 structure alignment Uniprot 分类 序列相似性 Sequence alignment CATH FSSP 人工 人工+自动 全自动 进化信息 几何信息 层次聚类 Scop 2/3的结构分类是重合的 pFam 数据库 Structure prediction Sequence DB: Seq-Stru NR Structure DB PDB Protein Data Bank alignment 分类 结构相似性 structure alignment Uniprot 分类 序列相似性 Sequence alignment CATH FSSP 人工 人工+自动 全自动 进化信息 几何信息 层次聚类 Scop 2/3的结构分类是重合的 pFam PDB/Class/Fold/Architecture/Do main/Motif/Superfamily/Family 分类: Protein Data Bank (PDB, 1971) •Class: 二级结构分类(all , all , +, /, etc) •Fold (architecture) : 二级结 构的形状走向(barrel, All α All β α+β α/β •Superfamily:在family基础 上,还考虑进化关系 – NMR, X-ray 40000 Folds 38,221 Superfamilies Families 30000 • domain: 结构中有功能的部分 比如 binding, cleaving, spanning sites •Family:考虑拓扑结构+实 验的或者生物特性 试验方法得到的结构 35000 sandwich, etc) • motif : 小的或者特定的二级结 构比如一个 -- loop – PDB entries 25000 Sandwich TIM barrel 20000 15000 PDB ID: 2FOX CLASS: / FOLD: Flavodoxin-like sandwich Superfamily: Flavoproteins FAMILY: Flavodoxin-related 10000 5000 3,902 1,962 1195 0 1997 1999 2001 2003 2005 2007 2009 结构比对-度量衡 如何衡量结构的关系:差距及相似性 P 意义直观 好的数学性质 一个score可能不能满足所有需求 Q 广泛应用的度量衡 RMSD (root mean square deviation) GDT_TS The largest set of ‘equivalent’ residues under some cutoff distances GDT_TS = (GDT_P1Å + GDT_P2Å + GDT_P4 Å+ GDT_P8Å)/4 TM-score 1 TMscore m ax[ LN DALI-score LT 1 ] di 2 i 1 1 ( ) d0 L L d 0 1.24 * 3 LN 15 1.8 Score ( i , j ) R | d ijA d ijB | i 1 j 1 广泛应用的度量衡 RMSD (root mean square deviation) GDT_TS The largest set of ‘equivalent’ residues under some cutoff distances GDT_TS = (GDT_P1Å + GDT_P2Å + GDT_P4 Å+ GDT_P8Å)/4 TM-score 1 TMscore m ax[ LN DALI-score LT 1 ] di 2 i 1 1 ( ) d0 L d 0 1.24 * 3 LN 15 1.8 L Score ( i , j ) R | d ijA d ijB | i 1 j 1 Dscores (D , D ) Dscore1 si n ( 1 2 2 1 dot( ) sqrt( D1 D2 , ) || D1 || || D 2 || ) 2 Dscore2( D1 , D 2 ) 1 *( L2 1 i , j L 1 ( 1 d d ij2 1 ij d1 ) ) 2 1 *( L2 1 i , j L 1 ( 1 d ij d1 ) ) 2 广泛应用的度量衡 RMSD (root mean square deviation) GDT_TS The largest set of ‘equivalent’ residues under some cutoff distances GDT_TS = (GDT_P1Å + GDT_P2Å + GDT_P4 Å+ GDT_P8Å)/4 TM-score 1 TMscore m ax[ LN DALI-score LT 1 ] di 2 i 1 1 ( ) d0 L d 0 1.24 * 3 LN 15 1.8 L Score ( i , j ) R | d ijA d ijB | i 1 j 1 Dscores ( D1 , D 2 ) Dscore1 si n ( 2 1 dot( ) sqrt( D1 D2 , ) || D1 || || D 2 || ) 2 Dscore2( D1 , D 2 ) 1 *( L2 1 i , j L 1 ( RMSD最小化差异性 TM-score, GDT_TS最大化相似性 RMSD, TM-score, GDT_TS: 涉及L*3的坐标转换,优化过程 DALI-score, Dscores直接比较L*L的距离矩阵 DALI-score, Dscore2描述相似性, Dscore1描述差异性 1 d d ij2 1 ij d1 ) ) 2 1 *( L2 1 i , j L 1 ( 1 d ij d1 ) ) 2 结构比对 - 方法 多目标优化: 尽可能多地匹配residues, 同时还优化比对 的距离/相似性 CE (combinatorial extension structure alignment),优化RMSD LGA (Local-Global Alignment)优化 GDT_TS LCS (longest continuous segments) + GDT (global distance test) TMAlign - 优化TM-score 二级结构比对+ 最好的gapless比对+ 考虑gap-opening罚分的比对 启发式的迭代扩展比对,记录最好的比对 DALI - 优化DALI-score 比较6-肽子结构,记录所有相似的片断 Monte Carlo 拼接上述相似的子结构扩展成更长的比对 序列比对: Sequence – Sequence seq1 target ...NCGE… ...SCGD… 1)独立性假设: 一个sequence里的residue之间是独立的 2)score = ∑sa,b, sa,b single score for residues a, b: sa,b = log P(a | b) f(a) 从b的同源性导出 a 随机出现的频率 3)P(a|b): 固定进化距离可以统计得到20x20的score matrix(也称为替代 矩阵),比如BLOSUM, PAM等;给定已知的数据库则可以估计f(a) 4)gap open cost α,gap extend cost β Smith–Waterman algorithm: DP optimal BLAST: (Basic Local Alignment Search Tool) seeding + heuristic extension FASTA: (FAST-All), seeding + banded Smith-Waterman 序列比对: Sequence – Sequence seq1 target ...NCGE… ...SCGD… 1)独立性假设: 一个sequence里的residue之间是独立的 2)score = ∑sa,b, sa,b single score for residues a, b: sa,b = log P(a | b) f(a) 从b的同源性导出 a 随机出现的频率 3)P(a|b): 固定进化距离可以统计得到20x20的score matrix(也称为替代 矩阵),比如BLOSUM, PAM等;给定已知的数据库则可以估计f(a) 4)gap open cost α,gap extend cost β Smith–Waterman algorithm: DP optimal BLAST: (Basic Local Alignment Search Tool) seeding + heuristic extension FASTA: (FAST-All), seeding + banded Smith-Waterman Comments: 1)序列的比较实际上是对residues匹 配与失配进行评分 2)序列相似度足够高时性能最好 序列比对: Profile1 - Position Specific Score Matrix(PSSM) MSA: Temp1 target ...NCGFD… ...SCGYD… P(a | column k) 从第k列的同源性导出 sk(a) = log a 随机出现的频率 f(a) 独立性假设: 1) column 是独立的 (每次对一个residue进行评分) 2) 序列是独立的(不考虑进化关系) 用MSA所决定的M x20的profile (PSSM)来表示一条长为M的序列,两个序列的比较仍然是对 匹配与失配进行评分,不过,是比较一个20维的vector与一个字母 PsiBlast: 1)用seq-seq的方法获取MSA 2)MSA PSSM profile 3)比较profile与序列 4)通过迭代的方式改善PSSM 序列比对: Profile1 - Position Specific Score Matrix(PSSM) MSA: Temp1 target ...NCGFD… ...SCGYD… P(a | column k) 从第k列的同源性导出 sk(a) = log a 随机出现的频率 f(a) 独立性假设: 1) column 是独立的 (每次对一个residue进行评分) 2) 序列是独立的(不考虑进化关系) 用MSA所决定的M x20的profile (PSSM)来表示一条长为M的序列,两个序列的比较仍然是对 匹配与失配进行评分,不过,是比较一个20维的vector与一个字母 PsiBlast 1)用seq-seq的方法获取MSA 2)MSA PSSM profile 3)比较profile与序列 4)通过迭代的方式改善PSSM Comments: 1)考虑位置信息 2)profile的表达能力 > residue的进化关系 3)适用于序列相似度 > 30% 序列比对: Profile2 - Hidden Markov Model MSA: 独立性假设: 1)序列是独立的(不考虑进化关系) 2)仅相邻的两个位置间有关联 用MSAHMM,包括状态转移概率以及每个状态下的发射不同字母的概率来表示一条序列 HAMMER: seq–profile / profile-seq HHSearch: Profile - Profile 序列比对: Profile2 - Hidden Markov Model MSA: 独立性假设: 1)序列是独立的(不考虑进化关系) 2)仅相邻的两个位置间有关联 用MSAHMM,包括状态转移概率以及每个状态下的发射不同字母的概率来表示一条序列 HAMMER: seq–profile / profile-seq HHSearch: Profile - Profile Comments: 路径序列 1) Viterbi最佳路径 2) Forward所有路径(更稳定) 3)后验概率 confidence estimates 可以探测到序列相似度 > 10%的远同源关系 序列比对:CRF, CNF model 独立性假设: 1)序列是独立的(不考虑进化关系) 2)任意两个位置间都有关联随机场有向无环图 序列s 与模板t之间的一个比对 a {a1 , a2 ,...,aL }, ai { M , I s , I t } 条件概率 p(a | s , t ) exp( i j F (a i a j | s , t )) / Z ( s , t ) RaptorX Z(s,t): 归一化因子 F: 描述状态转移的可能性 o o o 综合考虑序列与结构的features 处理feature之间的关系 不同的区域( disorder, loop, SS) 采用 不同的features 序列比对:CRF, CNF model 独立性假设: 1)序列是独立的(不考虑进化关系) 2)任意两个位置间都有关联随机场有向无环图 序列s 与模板t之间的一个比对 a {a1 , a2 ,...,aL }, ai { M , I s , I t } 条件概率 p(a | s , t ) exp( i j F (a i a j | s , t )) / Z ( s , t ) RaptorX Z(s,t): 归一化因子 F: 描述状态转移的可能性 o o o 综合考虑序列与结构的features 处理feature之间的关系 不同的区域( disorder, loop, SS) 采用 不同的features Comments: 1)独立性假设更接近实际 2)可以引入更多features,更灵活 可以探测到更远的远同源关系 参数多,模型复杂 性能比较 性能比较 性能比较 Potential future work 松弛独立性假设序列不独立 New Model 研究进化关系 比较sequenceDB规范的进化关系与structureDB规范的进化关系 新的组织结构统一序列结构的进化 建立含进化关系的Profile HMM, CRF, CNF, … ? New search Method Sensitivity,尤其是local alignment Accuracy: 假定fold或者template正确了,如何提高比对的正确性 建模 Modeling Template-based modeling 普遍认为模板库已经趋于完整 关键:选择正确模板,提高比对准确度 Homology Modeling,序列足够相似,充分使用整个模板的信息 Threading,组合片段,搜索自由能最低 难点:远同源关系 Template-free modeling 当前算法找不到合适的模板 与数据库中匹配的片段不足以确定拓扑结构 适合小蛋白,loop modeling等 难点:beta proteins Template-based modeling: global S:GKITFYERG---RCYESDCPNLQP… T:GKITFYERGFQGHCYESDC-NLQP… Template-based modeling: global S:GKITFYERG---RCYESDCPNLQP… T:GKITFYERGFQGHCYESDC-NLQP… Modeller F(R) = P pi (fi /I) Template-based modeling: global S:GKITFYERG---RCYESDCPNLQP… T:GKITFYERGFQGHCYESDC-NLQP… Modeller F(R) = P pi (fi /I) Comments: 1)Key: pdf 的估计 2)MSA帮助最大 3)能量函数粗糙 Template-based modeling: global S:GKITFYERG---RCYESDCPNLQP… T:GKITFYERGFQGHCYESDC-NLQP… MUFOLD Modeller Contact Map Conserved restraints Sampling Unconserved restraints F(R) = P pi (fi /I) Comments: 1)Key: pdf 的估计 2)MSA帮助最大 3)能量函数粗糙 min x1 ,...x n R 3 ( i , j ) N w ij x i x j d ij 2 Template-based modeling: global S:GKITFYERG---RCYESDCPNLQP… T:GKITFYERGFQGHCYESDC-NLQP… MUFOLD Modeller Contact Map Conserved restraints Sampling Unconserved restraints F(R) = P pi (fi /I) Comments: 1)Key: pdf 的估计 2)MSA帮助最大 3)能量函数粗糙 min x1 ,...x n R 3 ( i , j ) N w ij x i x j d ij 2 Comments: 1)Key: sampling 2)deep and narrow search 3)无能量函数 4)global error危害很大 Template-free modeling Seqence Predicted SS 3,9-mer DB search 1)每列寻找200个片段 2)统计局部的二面角的分布 3)sampling,能量最低 Template-free modeling Seqence Predicted SS 3,9-mer DB search Rosetta 相邻的k-mer的二面 角之间是独立的 1)每列寻找200个片段 2)统计局部的二面角的分布 3)sampling,能量最低 Template-free modeling Seqence Predicted SS 3,9-mer DB search Rosetta 相邻的k-mer的二面 角之间是独立的 1)每列寻找200个片段 2)统计局部的二面角的分布 3)sampling,能量最低 FALCON 相邻的k-mer的二面角有关联 两面角的HMM 迭代改进HMM Template-free modeling Seqence Predicted SS 3,9-mer DB search Rosetta 相邻的k-mer的二面 角之间是独立的 1)每列寻找200个片段 2)统计局部的二面角的分布 3)sampling,能量最低 FALCON 相邻的k-mer的二面角有关联 两面角的HMM 迭代改进HMM RaptorX CRF模型 Template-free modeling Seqence Predicted SS 3,9-mer DB search Rosetta 1)每列寻找200个片段 2)统计局部的二面角的分布 3)sampling,能量最低 FALCON 相邻的k-mer的二面 角之间是独立的 相邻的k-mer的二面角有关联 两面角的HMM RaptorX CRF模型 迭代改进HMM Comments: 1)K-mer离散化的表达不能cover所有情况 2)二面角的微小变化可能导致完全不同的fold 3) key:k-mer之间的关系 + 能量函数 Template-based modeling: assembly TASSER Structure assembly 1)固定部分 + denovo 部分 2)初始解: random walk方式连接所有的片段 3) Monte Carlo sampling:平移旋转片段+自由能下降 Quality Assessment Single-model QA:评估单个model,不需要辅助信息 Force field (计算量太大) Energy function static function (能够区分near-native和非native,都是非native区分不开) DFIRE: Distance-scaled, finite ideal-gas reference state DOPE: residue-specific distance-dependent pairwise statistical potential KMBhbond: Baker’s hydrogen bonding energy for beta-sheet forming … Molecular Dynamics Hypothesis: during simulated heating, near native structures are more stable than poor-quality structures Machine learning black – 2.7 Å red – 3.9 Å blue – 12.3 Å orange – 12.6 Å magenta – 12.9Å black – 3.1 Å red – 3.2 Å blue – 3.3 Å orange – 9.9 Å magenta – 9.9Å black – 3.3 Å red – 4.5 Å blue – 5.4 Å orange – 6.3 Å magenta – 6.7 Å Features: Environmental Fitness, Contact Capacity, SS and SA Similarity… Models: SVM, NN,… Quality Assessment Consensus QA :根据model与其它model之间的关系来评估其质量 每一个model都有某些部分是正确的, model与其他model的平均相似度越高越好 Near-native structures are often located in a large free-energy basin in the free energy landscape Clustering + Representative,cluster越大,其Representative质量可能会越好 The consensus QA consistently outperformed single-model QA in CASPs Method Transformation Structural comparison (per calculation) Number of distance Spicker O(L3 ) O(N2 ) Difference (RMSD) SCUD O(L3 ) O(N) Difference (RMSD) Calibur Maxsub O(L3) >>O(L3 ) O(N2) O(N2) Difference (RMSD) Difference (RMSD) / Similarity (Maxsub) MUFOLD-CL O(L) O(N) Difference (Dscore1) / Similarity (Dscore2) N: number of decoys L: number of amino acids CASP: Critical Assessment of Structure Prediction 1. 1994-至今,每两年一次 2. 由structure prediction community组织,第三方评估 3. Blind: 待预测的结构在赛季不公开 Targets Server QA Predicted Ranking Human Prediction Server Prediction Predicted models Best of the pool Refinement Our CASP History CASP8: invited to give a talk at the meeting Server Prediction: #1 in Free modeling category QA: No significant result CASP9: invited to give a talk at the meeting and publish a paper in the special issue Server Prediction : #10 in Template-based modeling category (#1 in trivial cases) #7 in Free modeling category Human Prediction: (We did by our server not by human in fact) #1 in Human prediction QA: #1 in correlation #2 in top-1 selection CASP10: Should have better performance than CASP9 Acknowledgements Team (MUFOLD development) Dong Xu (Computer Science) Jingfen Zhang Zhiquan He Yi Shang (Computer Science) Qingguo Wang Ioan Kosztin (Physics) Jiong Zhang Funding Sources University of Missouri Research Board Grant NIH: R21/R33 GM078601 Thanks for your patience!