第五章多序列对位排列

advertisement
生物信息学
第五章
多序列对位排列
多序列对位排列
Multiple Sequence Alignment (MSA)
chicken
PLVSS---PLRGEAGVLPFQQEEYEKVKRGIVEQCCHNTCSLYQLENYCN
xenopus
ALVSG---PQDNELDGMQLQPQEYQKMKRGIVEQCCHSTCSLFQLESYCN
human
LQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN
monkey
PQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN
dog
LQVRDVELAGAPGEGGLQPLALEGALQKRGIVEQCCTSICSLYQLENYCN
hamster
PQVAQLELGGGPGADDLQTLALEVAQQKRGIVDQCCTSICSLYQLENYCN
bovine
PQVGALELAGGPGAGG-----LEGPPQKRGIVEQCCASVCSLYQLENYCN
guinea pig PQVEQTELGMGLGAGGLQPLALEMALQKRGIVDQCCTGTCTRHQLQSYCN
Bring the greatest number of similar characters into the same
column of the alignment
为什么要做MSA?
用于描述一组序列之间的相似性关系,以便了解一个基因家族的基
本特征,寻找motif,保守区域等。用于预测新序列的二级和三级结
构,进而推测其生物学功能。
Find out which parts “do the same thing”
为什么要做MSA?
用于描述同源序列之间的亲缘关系的远近,应用到分子进化分析中。
是构建分子进化树的基础。
Gene tree
a
A
b
B
c
C
Species tree
We often assume that gene trees give us species trees
为什么要做MSA?
Contig assembly
怎么做MSA?
 动态规划算法(dynamic programming):MSA
 改进算法(heuristic algorithm):
1. 渐进法(progressive methods):Clustal, T-Coffee,
MUSCLE
2. 迭代法(iterative methods):PRRP, DIALIGN
3. 其它算法:Partial Order Algorithm、profile HMM、
meta-methods (MAFFT)…
http://www.ebi.ac.uk/Tools/msa/
Current Opinion in Structural Biology 2006, 16:368–373
Clustal使用方法
 Clustal:目前应用最广泛的 MSA 方法
 可在线分析
http://www.clustal.org/
 可在本地计算机运行
 序列输入、输出格式
Input
FASTA
>sequence1
ATTGCAGTTCGCA
NBRF/PIR EMBL/SWISSPROT……
>sequence2
ALN
ATAGCACATCGCA
GCG/MSF
……
GCG9/RSF
>sequence3
GDE
ATGCCACTCCGCC
……
Output
ALN
NBRF/PIR
GCG/MSF
PHYLIP
NEXUS
GDE/FASTA
Clustal W/X算法基础
两两比对
构建距离矩阵
构建指导树
(guide tree)
将距离最近的两条序
列用动态规划的算法
进行比对;
“渐进”的加上其他
的序列
 Clustal在线分析方法(ClustalW)
EBI的ClustalW分析网页
http://www.ebi.ac.uk/Tools/msa/clustalw2/
粘贴或上载序列
调整参数
多序列对位排列结果
Alignments
Result Summary
http://www.ebi.ac.uk/Tools/msa/clustalw/help/
 Clustal离线分析方法(ClustalX)
下载安装
自带Help文件
Using ClustalX for multiple sequence alignment
by Jarno Tuimala
两种工作模式:
 Multiple Alignment
 Profile Alignment
第一步:输入序列
File
Load sequences
1、序列为多重fasta格式(可进行编辑,保
存为txt文件)
3、为便于识别每
条序列,可在>后
输入物种名称,并
用空格和其它描述
内容分开,如:
2、序列文件所在路径不能有空格和中文字
符(如放在系统桌面),否则ClustalX无法
载入
>Human gi|301129180|ref|NP_001180303.1| resistin [Homo sapiens]
第二步:设定比对参数
第三步:进行序列比对,得到结果
第四步:评价比对质量
打开比对结果:
1、可在ClustalX中直接输出打印
2、可用写字板打开aln文件
3、可将aln文件以图形展示,更直观
更改参数、手动编辑,使之具有生物学意义
 可进一步对排列好的序列进行修饰(1)
 Boxshade 突出相同或相似位点
(http://www.ch.embnet.org/software/BOX_form.html)
在EBI ClustalW结果网页复制序列比对结果
在“Boxshade”网页粘贴序列,在“Input sequence
format”栏目选择“ALN”,在“Output format”栏目选择
“RTF_new”
在结果网页点击“here is your output number 1”
修饰过的排列结果
 可进一步对排列好的序列进行修饰(2)
 ESPript 多种修饰 功能,突出相同或相似位点
http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi
在EBI ClustalW结果网页下载“Alignments”(CLUSTALW format)
在ESPript分析网页“Aligned Sequences”栏上载Alignments文件
在“Output layout”和“Output file or device”栏选择
修饰后的比对结果
 可进一步对排列好的序列进行修饰(3)
 GeneDoc
http://www.nrbsc.org/gfx/genedoc
File – Import
选择输入文件的格
式(如ALN)
修饰排列结果
Clustal工作界面
ClustalW
ClustalX
Clustal部分参数定义
 Gap opening penalty:增大数值使 gap 数目减少
 Gap extension penalty:增大数值使 gap 长度变短
 Weight transition:A-G 转换或 C-T 转换(multiple DNA sequence
alignment)
 Hydrophilic gap:选择“ on” 将增加形成 gap 的机会(multiple protein
sequence alignment)
 Residue-specific gap penalties:选择“ on” 将增加在某些氨基酸残基处形成
gap 的机会,而减少在另一些氨基酸残基处形成 gap 的机会(multiple
protein sequence alignment)
http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi
Download