第五章多序列对位排列

生物信息学第五章多序列对位排列多序列对位排列 Multiple Sequence Alignment (MSA) chicken PLVSS---PLRGEAGVLPFQQEEYEKVKRGIVEQCCHNTCSLYQLENYCN xenopus ALVSG---PQDNELDGMQLQPQEYQKMKRGIVEQCCHSTCSLFQLESYCN human LQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN monkey PQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN dog LQVRDVELAGAPGEGGLQPLALEGALQKRGIVEQCCTSICSLYQLENYCN hamster PQVAQLELGGGPGADDLQTLALEVAQQKRGIVDQCCTSICSLYQLENYCN bovine PQVGALELAGGPGAGG-----LEGPPQKRGIVEQCCASVCSLYQLENYCN guinea pig PQVEQTELGMGLGAGGLQPLALEMALQKRGIVDQCCTGTCTRHQLQSYCN Bring the greatest number of similar characters into the same column of the alignment 为什么要做MSA？用于描述一组序列之间的相似性关系，以便了解一个基因家族的基本特征，寻找motif，保守区域等。用于预测新序列的二级和三级结构，进而推测其生物学功能。 Find out which parts “do the same thing” 为什么要做MSA？用于描述同源序列之间的亲缘关系的远近，应用到分子进化分析中。是构建分子进化树的基础。 Gene tree a A b B c C Species tree We often assume that gene trees give us species trees 为什么要做MSA？ Contig assembly 怎么做MSA？  动态规划算法（dynamic programming）：MSA  改进算法（heuristic algorithm）： 1. 渐进法（progressive methods）：Clustal, T-Coffee, MUSCLE 2. 迭代法（iterative methods）：PRRP, DIALIGN 3. 其它算法：Partial Order Algorithm、profile HMM、 meta-methods (MAFFT)… http://www.ebi.ac.uk/Tools/msa/ Current Opinion in Structural Biology 2006, 16:368–373 Clustal使用方法  Clustal：目前应用最广泛的 MSA 方法  可在线分析 http://www.clustal.org/  可在本地计算机运行  序列输入、输出格式 Input FASTA >sequence1 ATTGCAGTTCGCA NBRF/PIR EMBL/SWISSPROT…… >sequence2 ALN ATAGCACATCGCA GCG/MSF …… GCG9/RSF >sequence3 GDE ATGCCACTCCGCC …… Output ALN NBRF/PIR GCG/MSF PHYLIP NEXUS GDE/FASTA Clustal W/X算法基础两两比对构建距离矩阵构建指导树（guide tree）将距离最近的两条序列用动态规划的算法进行比对； “渐进”的加上其他的序列  Clustal在线分析方法（ClustalW） EBI的ClustalW分析网页 http://www.ebi.ac.uk/Tools/msa/clustalw2/ 粘贴或上载序列调整参数多序列对位排列结果 Alignments Result Summary http://www.ebi.ac.uk/Tools/msa/clustalw/help/  Clustal离线分析方法（ClustalX）下载安装自带Help文件 Using ClustalX for multiple sequence alignment by Jarno Tuimala 两种工作模式:  Multiple Alignment  Profile Alignment 第一步：输入序列 File Load sequences 1、序列为多重fasta格式（可进行编辑，保存为txt文件） 3、为便于识别每条序列，可在>后输入物种名称，并用空格和其它描述内容分开，如： 2、序列文件所在路径不能有空格和中文字符（如放在系统桌面），否则ClustalX无法载入 >Human gi|301129180|ref|NP_001180303.1| resistin [Homo sapiens] 第二步：设定比对参数第三步：进行序列比对，得到结果第四步：评价比对质量打开比对结果: 1、可在ClustalX中直接输出打印 2、可用写字板打开aln文件 3、可将aln文件以图形展示，更直观更改参数、手动编辑，使之具有生物学意义  可进一步对排列好的序列进行修饰（1）  Boxshade 突出相同或相似位点（http://www.ch.embnet.org/software/BOX_form.html）在EBI ClustalW结果网页复制序列比对结果在“Boxshade”网页粘贴序列，在“Input sequence format”栏目选择“ALN”，在“Output format”栏目选择 “RTF_new” 在结果网页点击“here is your output number 1” 修饰过的排列结果  可进一步对排列好的序列进行修饰（2）  ESPript 多种修饰功能，突出相同或相似位点 http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi 在EBI ClustalW结果网页下载“Alignments”(CLUSTALW format) 在ESPript分析网页“Aligned Sequences”栏上载Alignments文件在“Output layout”和“Output file or device”栏选择修饰后的比对结果  可进一步对排列好的序列进行修饰（3）  GeneDoc http://www.nrbsc.org/gfx/genedoc File – Import 选择输入文件的格式（如ALN）修饰排列结果 Clustal工作界面 ClustalW ClustalX Clustal部分参数定义  Gap opening penalty：增大数值使 gap 数目减少  Gap extension penalty：增大数值使 gap 长度变短  Weight transition：A－G 转换或 C－T 转换（multiple DNA sequence alignment）  Hydrophilic gap：选择“ on” 将增加形成 gap 的机会（multiple protein sequence alignment）  Residue-specific gap penalties：选择“ on” 将增加在某些氨基酸残基处形成 gap 的机会，而减少在另一些氨基酸残基处形成 gap 的机会（multiple protein sequence alignment） http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi

第五章多序列对位排列

Related documents

Products

Support

第五章多序列对位排列

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib