生物信息学 第五章 多序列对位排列 多序列对位排列 Multiple Sequence Alignment (MSA) chicken PLVSS---PLRGEAGVLPFQQEEYEKVKRGIVEQCCHNTCSLYQLENYCN xenopus ALVSG---PQDNELDGMQLQPQEYQKMKRGIVEQCCHSTCSLFQLESYCN human LQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN monkey PQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN dog LQVRDVELAGAPGEGGLQPLALEGALQKRGIVEQCCTSICSLYQLENYCN hamster PQVAQLELGGGPGADDLQTLALEVAQQKRGIVDQCCTSICSLYQLENYCN bovine PQVGALELAGGPGAGG-----LEGPPQKRGIVEQCCASVCSLYQLENYCN guinea pig PQVEQTELGMGLGAGGLQPLALEMALQKRGIVDQCCTGTCTRHQLQSYCN Bring the greatest number of similar characters into the same column of the alignment 为什么要做MSA? 用于描述一组序列之间的相似性关系,以便了解一个基因家族的基 本特征,寻找motif,保守区域等。用于预测新序列的二级和三级结 构,进而推测其生物学功能。 Find out which parts “do the same thing” 为什么要做MSA? 用于描述同源序列之间的亲缘关系的远近,应用到分子进化分析中。 是构建分子进化树的基础。 Gene tree a A b B c C Species tree We often assume that gene trees give us species trees 为什么要做MSA? Contig assembly 怎么做MSA? 动态规划算法(dynamic programming):MSA 改进算法(heuristic algorithm): 1. 渐进法(progressive methods):Clustal, T-Coffee, MUSCLE 2. 迭代法(iterative methods):PRRP, DIALIGN 3. 其它算法:Partial Order Algorithm、profile HMM、 meta-methods (MAFFT)… http://www.ebi.ac.uk/Tools/msa/ Current Opinion in Structural Biology 2006, 16:368–373 Clustal使用方法 Clustal:目前应用最广泛的 MSA 方法 可在线分析 http://www.clustal.org/ 可在本地计算机运行 序列输入、输出格式 Input FASTA >sequence1 ATTGCAGTTCGCA NBRF/PIR EMBL/SWISSPROT…… >sequence2 ALN ATAGCACATCGCA GCG/MSF …… GCG9/RSF >sequence3 GDE ATGCCACTCCGCC …… Output ALN NBRF/PIR GCG/MSF PHYLIP NEXUS GDE/FASTA Clustal W/X算法基础 两两比对 构建距离矩阵 构建指导树 (guide tree) 将距离最近的两条序 列用动态规划的算法 进行比对; “渐进”的加上其他 的序列 Clustal在线分析方法(ClustalW) EBI的ClustalW分析网页 http://www.ebi.ac.uk/Tools/msa/clustalw2/ 粘贴或上载序列 调整参数 多序列对位排列结果 Alignments Result Summary http://www.ebi.ac.uk/Tools/msa/clustalw/help/ Clustal离线分析方法(ClustalX) 下载安装 自带Help文件 Using ClustalX for multiple sequence alignment by Jarno Tuimala 两种工作模式: Multiple Alignment Profile Alignment 第一步:输入序列 File Load sequences 1、序列为多重fasta格式(可进行编辑,保 存为txt文件) 3、为便于识别每 条序列,可在>后 输入物种名称,并 用空格和其它描述 内容分开,如: 2、序列文件所在路径不能有空格和中文字 符(如放在系统桌面),否则ClustalX无法 载入 >Human gi|301129180|ref|NP_001180303.1| resistin [Homo sapiens] 第二步:设定比对参数 第三步:进行序列比对,得到结果 第四步:评价比对质量 打开比对结果: 1、可在ClustalX中直接输出打印 2、可用写字板打开aln文件 3、可将aln文件以图形展示,更直观 更改参数、手动编辑,使之具有生物学意义 可进一步对排列好的序列进行修饰(1) Boxshade 突出相同或相似位点 (http://www.ch.embnet.org/software/BOX_form.html) 在EBI ClustalW结果网页复制序列比对结果 在“Boxshade”网页粘贴序列,在“Input sequence format”栏目选择“ALN”,在“Output format”栏目选择 “RTF_new” 在结果网页点击“here is your output number 1” 修饰过的排列结果 可进一步对排列好的序列进行修饰(2) ESPript 多种修饰 功能,突出相同或相似位点 http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi 在EBI ClustalW结果网页下载“Alignments”(CLUSTALW format) 在ESPript分析网页“Aligned Sequences”栏上载Alignments文件 在“Output layout”和“Output file or device”栏选择 修饰后的比对结果 可进一步对排列好的序列进行修饰(3) GeneDoc http://www.nrbsc.org/gfx/genedoc File – Import 选择输入文件的格 式(如ALN) 修饰排列结果 Clustal工作界面 ClustalW ClustalX Clustal部分参数定义 Gap opening penalty:增大数值使 gap 数目减少 Gap extension penalty:增大数值使 gap 长度变短 Weight transition:A-G 转换或 C-T 转换(multiple DNA sequence alignment) Hydrophilic gap:选择“ on” 将增加形成 gap 的机会(multiple protein sequence alignment) Residue-specific gap penalties:选择“ on” 将增加在某些氨基酸残基处形成 gap 的机会,而减少在另一些氨基酸残基处形成 gap 的机会(multiple protein sequence alignment) http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi