蛋白质和蛋白质组分析 孙明明 sunmingming@biosino.com.cn 主要内容 • 数据库与检索工具 – UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. • 蛋白质数据分析 – – – – – 基本物理化学性质分析 序列相似性比较 翻译后修饰分析 功能域分析 亚细胞定位分析 Go功能分类与富集分析 Pathway分析 相互作用与网络分析 TRANSFAC IPI Gene ontology ……………………………. Pajek GENEGO BLAST HMMER EMBOSS Interproscan ……………………………. Output BLAST2GO TOOLS cytoscape DATABASE Pfam 常见数据 GI:120407068 NP_000537.3 XP_001604088.1 AAF36358.1 P53_HUMAN P04637 Q9EX73 IPI00025087.2 ENSP00000269305 IPI - International Protein Index 主要蛋白质序列检索工具 UNIPROT Ensembl NCBI Entrez KEGG DBGET IPI 主要内容 • 数据库与检索工具 – UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. • 蛋白质数据分析 基本物理化学性质分析 序列相似性比较 翻译后修饰分析 功能域分析 亚细胞定位分析 Go功能分类与富集分析 Pathway分析 相互作用与网络分析 蛋白质基本物化性质分析 • • • • • 分子量 等电点 残基数 氨基酸组成 …… • EMBOSS – – – – ExPASy(Expert Protein Analysis System) Pepstats Pepinfo Pepwindow …… http://emboss.sourceforge.net/ ProtParam Compute pI/MW ProtScale …… http://www.expasy.ch / EMBOSS - pepstats 在线工具:http://www.ebi.ac.uk/Tools/emboss/pepinfo/ 本地下载:http://emboss.sourceforge.net/download/#Stable ExPASy - ProtParam http://us.expasy.org/tools/protparam.html 计算多种理化指标 主要内容 • 数据库与检索工具 – UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. • 蛋白质数据分析 基本物理化学性质分析 序列相似性比较 翻译后修饰分析 功能域分析 亚细胞定位分析 Go功能分类与富集分析 Pathway分析 相互作用与网络分析 序列相似性比较 • 两序列比较 – 主要工具:BLAST – 常用数据库:NCBI NR,SWISSPROT – 命令示例: • formatdb -i nr.fasta –o T –p T • blastall –i input.seq –d nr –p blastp –e 1e-3 –b 10 –o blast.out -b 5 –v 5 –a 2 • 多序列比对 – Clustalw/clustalx (http://www.clustal.org/)等 主要内容 • 数据库与检索工具 – UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. • 蛋白质数据分析 基本物理化学性质分析 序列相似性比较 翻译后修饰分析 功能域分析 亚细胞定位分析 Go功能分类与富集分析 Pathway分析 相互作用与网络分析 翻译后修饰分析 • 翻译后修饰是调节蛋白质功能的重要方 式,对蛋白质翻译后修饰的研究可以帮助 阐明和了解蛋白质功能及其功能变化,翻 译后修饰的预测和分析也日渐成为生物信 息学蛋白质序列分析中的重要的研究内 容。 • 磷酸化、糖基化、甲基化、泛素化和羟基 化等等 翻译后修饰数据库 名字 网址 描述 Swiss-Prot http://expasy.org/sprot/ 含有蛋白质翻译后修饰信息 Phospho.ELM http://phospho.elm.eu.org/ S/T/Y磷酸化位点的数据库 PROSITE http://www.expasy.ch/prosite/ 含有蛋白质翻译后修饰信息 HPRD http://www.hprd.org/ 人类蛋白质的综合信息数据 库,含有很多翻译后修 饰的信息 RESID http://www.ebi.ac.uk/RESID/ 翻译后修饰的数据库 O-GlycBase http://www.cbs.dtu.dk/databases/O GLYCBASE/ O-糖基化数据库 dbPTM http://dbptm.mbc.nctu.edu.tw/ 翻译后修饰数据库 Phosphosite http://www.phosphosite.org/Login. jsp 磷酸化位点数据库 翻译后修饰预测软件 名字 网址 描述 Scansite http://scansite.mit.edu/ 扫描翻译后修饰序列模式工具 PREDIKIN http://predikin.biosci.uq.edu.au/pkr/ 预测翻译后修饰激酶工具 NetPhos http://www.cbs.dtu.dk/services/NetPhos/ 预测磷酸化的工具 NetPhosK http://www.cbs.dtu.dk/services/NetPhosK/ 预测磷酸化和磷酸化激酶的工具 GPS http://gps.biocuckoo.org/ 预测磷酸化和磷酸化激酶的工具 Big-PI-prediction http://mendel.imp.ac.at/sat/gpi/gpi_server.html 预测GPI的工具 GlycoMod http://www.expasy.ch/tools/glycomod/ 预测糖基化的工具 NetOGlyc http://www.cbs.dtu.dk/services/NetOGlyc/ 预测O-糖基化的工具 NetNGlyc http://www.cbs.dtu.dk/services/NetNGlyc/ 预测N-糖基化的工具 DictyOGlyc http://www.cbs.dtu.dk/services/DictyOGlyc/ 预测O-糖基化工具 YinOYang http://www.cbs.dtu.dk/services/YinOYang/ 预测YinYang行为的工具 Sulfinator http://www.expasy.org/tools/sulfinator/ 预测硫基化工具 OGlyc http://www.biosino.org/Oglyc/ 预测O-糖基化位点工具 主要内容 • 数据库与检索工具 – UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. • 蛋白质数据分析 基本物理化学性质分析 序列相似性比较 翻译后修饰分析 功能域分析 亚细胞定位分析 Go功能分类与富集分析 Pathway分析 相互作用与网络分析 蛋白质功能域分析 一、蛋白质功能域数据资源 数据库名称 简短描述 网址 PANTHER 用实验和进化相关数据信息对蛋白质家族进行 分类 http://www.pantherdb.org/ Pfam 多序列比较和隐马尔科夫模式分析覆盖蛋白质 功能域和家族 http://www.sanger.ac.uk/Software/Pfam/ CDD 综合各种功能域数据库 http://www.ncbi.nlm.nih.gov/cdd PIR 蛋白质家族分类 http://pir.georgetown.edu/iproclass/ PRINTS 蛋白质家族分类查询 http://www.bioinf.manchester.ac.uk/dbbro wser/sprint/ ProDom 从Swissprot和Trembl中自动提取的关于蛋白质 家族和功能域的数据库 http://prodom.prabi.fr/prodom/current/ht ml/home.php PROSITE 蛋白质家族,功能位点,功能域 http://www.expasy.ch/prosite/ SMART 分子结构研究数据库 http://smart.embl-heidelberg.de/ TIGRFAMs 基于隐马尔科夫的蛋白质家族数据库 http://www.tigr.org/TIGRFAMs/index.shtml GENE3D 家族,结构的数据库 http://www.tigr.org/TIGRFAMs/index.shtml SUPERFAMILY 蛋白质家族数据库 http://supfam.org/SUPERFAMILY/index.html Swiss-Prot 蛋白质注释数据库 http://www.expasy.org/sprot/ 二、蛋白质功能域搜索工具 HMMER INTERPROSCAN rpi-blast HMMER • HMMER – HMMER 是用 “隐马尔可夫模型”(HMM)进行数据库搜索的一个应 用程序包。 – http://hmmer.janelia.org/#download 免费下载 HMMER 应用程序包。 – Hmmpfam • 库文件: ftp://ftp.sanger.ac.uk/pub/databases/Pfam/current_release/PfamA.hmm.gz • 命令行:hmmpfam Pfam-A.hmm sequence_file > output_file InterproScan http://www.ebi.ac.uk/Tools/InterProScan/ 本地下载安装: ftp://ftp.ebi.ac.uk/pub/databases/interpro/iprscan rpi-blast • 应用方法: rpsblast -i input_seqs.txt -d cdd -p T –o out_result • CDD库下载: ftp.ncbi.nih.gov/pub/mmdb/cdd/ • 详细信息: http://www.ncbi.nlm.nih.gov/staff/tao/URLAPI/rpsblast.html 主要内容 • 数据库与检索工具 – UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. • 蛋白质数据分析 基本物理化学性质分析 序列相似性比较 翻译后修饰分析 功能域分析 亚细胞定位分析 Go功能分类与富集分析 Pathway分析 相互作用与网络分析 亚细胞定位分析 • 大部分蛋白质都是先分布到不同亚细胞位置再行 使功能的 • 蛋白质的功能与其亚细胞定位有很强的关联 亚细胞定位数据资源 名字 网址 描述 Swiss-Prot http://expasy.org/sprot/ 含有蛋白质亚细胞定位信息 Gene Ontology http://www.geneontology.org/ cellular component ontologies含有蛋白质亚 细胞定位信息 DBSubLoc http://www.bioinfo.tsinghua.e du.cn/dbsubloc.html 蛋白质亚细胞定位数据库 SUBA http://www.plantenergy.uwa.ed u.au/applications/suba2/i ndex.php 拟南芥亚细胞定位数据库 LOCATE http://locate.imb.uq.edu.au/ 人和小鼠亚细胞定位数据库 PSORTdb http://db.psort.org/ 细菌亚细胞定位数据库 亚细胞定位预测工具 软件 网址 简短描述 SignalP http://www.cbs.dtu.dk/services/SignalP/ 预测信号肽及其剪切位点 ChloroP http://www.cbs.dtu.dk/services/ChloroP/ 预测转运到叶绿体的肽段 MitoProt http://ihg.gsf.de/ihg/mitoprot.html 预测转运到线粒体的肽段 Predotar http://urgi.versailles.inra.fr/predotar/predotar.html 预测定位到线粒体和胞浆中的肽段 PSORT http://www.psort.org/ 预测蛋白质分选信号和亚细胞定位的 位点 TargetP http://www.cbs.dtu.dk/services/TargetP/ 预测蛋白质亚细胞定位位点 DAS http://www.sbc.su.se/~miklos/DAS/ 预测原核细胞蛋白质中的跨膜区域 HMMTOP http://www.enzim.hu/hmmtop/ 预测蛋白质的跨膜螺旋和拓扑结构 LOCtree http://cubic.bioc.columbia.edu/cgibin/var/nair/loctree/query 预测蛋白质亚细胞定位 SubLoc http://www.bioinfo.tsinghua.edu.cn/SubLoc/ 支持向量机预测亚细胞定位 CELLO http://cello.life.nctu.edu.tw/ 运用多种方法进行亚细胞定位预测 PSLpred http://www.imtech.res.in/raghava/pslpred/ 支持向量机预测蛋白质亚细胞定位 pSLIP http://pslip.bii.a-star.edu.sg/ 用氨基酸的多种特性预测亚细胞定位 PSORT http://www.psort.org/ 在线工具: http://psort.hgc.jp/ 主要内容 • 数据库与检索工具 – UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. • 蛋白质数据分析 基本物理化学性质分析 序列相似性比较 特征序列分析 翻译后修饰分析 功能域分析 亚细胞定位分析 Go功能分类与富集分析 Pathway分析 相互作用与网络分析 GO(Gene Ontology)分类 • • • • • • Gene Ontology介绍 GO ontologies的描述 GO annotation的介绍 GOslim分类统计 BLAST2GO 富集与缺少分析 什么是GO? • 随着多种生物genome的相继解码,使得 annotation的工作量和复杂度大大增加。大 多数基因在不同真核生物中拥有共同的主 要生物功能,通过在某些物种中获得的基 因或者蛋白质的生物学信息,可以用以解 释其他物种中对应的基因或蛋白。 • Gene Ontology(简称GO)由上述的想法而 诞生,用来将所有的蛋白质功能进行分类 Gene OntologyTM (GO) Consortium http://www.geneontology.org/ The structure • Hierarchical • Directed Acyclic Graph – terms have one or more parents • is-a and part-of relations Three Ontologies •Molecular Function e.g. DNA binding, catalysis of a reaction •Biological Process e.g. metabolism •Cellular Component e.g. nucleus, ribosome OBO - Open Biological Ontologies http://www.geneontology.org/ontology/gene_ontology.obo GO term各字段的说明 id: GO:0006094 name: gluconeogenesis namespace: process def: The formation of glucose from noncarbohydrate precursors, such as pyruvate, amino acids and glycerol. exact_synonym: glucose biosynthesis is_a: GO:0006006 is_a: GO:0006092 unique GO ID term name ontology definition synonym parentage Ontology Structure • Terms 可能有一个以上的父Term,或者一个 以上的子Term • Terms的连接关系 – is-a – part-of Ontology Structure membrane is-a Mitochondrial membrane cell part-of nucleus nucleus part_of some cell GO Annotation • 电子注释(Electronic annotation) – 量大但质量低并且没有经过校验 • 人工注释(Manual annotation) – 来自文献 – 花费时间长但质量高 GO Annotation ISS IDA IPI TAS NAS IMP IGI IEP IC Inferred from Sequence/Structural Similarity Inferred from Direct Assay Inferred from Physical Interaction Traceable Author Statement Non-traceable Author Statement Inferred from Mutant Phenotype Inferred from Genetic Interaction Inferred from Expression Pattern Inferred by Curator IEA Inferred from electronic annotation Accessing annotations to the Gene Ontology 1. Downloads • Annotations – gene association file ( ftp://ftp.geneontology.org/pub/go/gene-associations/ ) 2. Web-based access • AmiGO (http://www.godatabase.org) Gene Association File DB DB_Object_ID DB_Object_Symbol Qualifier UniProt UniProt UniProt P06703 P06703 P06703 DB_Object_Name Calcyclin Calcyclin Calcyclin S106_HUMAN S106_HUMAN S106_HUMAN NOT DB_Object_Synonym IPI00027463 IPI00027463 IPI00027463 GOid GO:0008083 GO:0007409 GO:0005515 DB:Reference GOA:spkw PMID:12152788 PMID:12577318 DB_Object_Type protein protein protein taxon taxon:9606 taxon:9606 taxon:9606 Evidence IEA NAS IPI With Aspect F P UniProt:P50995 F Date 20040426 20030721 20030721 Assigned by UniProt UniProt UniProt GO 分类统计 • 什么是GO Slim? – GO Slim是GO ontologies的缩减版 • 如何做分类统计 – Map2slim.pl (Go-perl) – gene_ontology.obo – Slim文件,如goslim_generic.obo – GO Annotation Files Map2slim.pl • 前提条件是安装Perl-activeperl(windows) • Go-perl包可从CPAN免费获取 http://www.cpan.org/ gene_ontology.obo http://www.geneontology.org/GO.downloads.ontology.shtml Slim文件下载 http://www.geneontology.org/GO.slims.shtml GO Annotation Files 运行方法 • 根据已有的Accession列表去GO Annotation Files文件中寻找对应的GO ID. • Map2slim –t –c goslim_generic.obo gene_ontology.obo gene_associations_file > go_slim.out • http://search.cpan.org/~cmungall/go-perl/scripts/map2slim unknow n, 11.8% transporter activity, 3.2% antioxidant activity, 2.2% translation regulator activity, 1.4% transcription regulator activity, 1.5% structural molecule activity, 3.8% binding, 35.1% nutrient reservoir activity, 1.4% motor activity, 0.3% molecular transducer activity, 1.2% enzyme regulator activity, 0.7% catalytic activity, 37.4% antioxidant activity binding catalytic activity enzyme regulator activity molecular transducer activity motor activity nutrient reservoir activity structural molecule activity transcription regulator activity translation regulator activity transporter activity unknow n 找不到程序 or不会使用perl BLAST2GO • • 首先安装JRE(Java Runtime Enviroment) Blast2Go的Web启动地址:http://www.blast2go.de/ Blast2GO的工作流程 富集分析和缺失分析 主要内容 • 数据库与检索工具 – UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. • 蛋白质数据分析 基本物理化学性质分析 序列相似性比较 特征序列分析 翻译后修饰分析 功能域分析 亚细胞定位分析 Go功能分类与富集分析 Pathway分析 相互作用与网络分析 KEGG Pathway(KEGG: Kyoto Encyclopedia of Genes and Genomes) KEGG的六个大类 – Metabolism – Genetic Information Processing – Environmental Information Processing – Cellular Processes – Human Diseases – Drug Development http://www.genome.jp/kegg/pathway.html http://www.genome.jp/kegg/pathway/map/map01100.html • 代谢分类(Metabolism) • • • • • • • • 碳水化合物代谢(Carbohydrate Metabolism) 能量代谢(Energy Metabolism) 脂代谢(Lipid Metabolism) 核酸代谢(Nucleotide Metabolism) 氨基酸代谢(Amino Acid Metabolism) 其它的氨基酸代谢(Metabolism of Other Amino Acids) 多糖合成和代谢(Glycan Biosynthesis and Metabolism) 多酮类和非核糖体多肽类的生物合成(Biosynthesis of Polyketides and Nonribosomal Peptides) • 辅助因子和维生素代谢(Metabolism of Cofactors and Vitamins) • 次生代谢物的生物合成(Biosynthesis of Secondary Metabolites) • 异生素生物降解和代谢(Xenobiotics Biodegradation and Metabolism) Pathway的各元素的连接 • • • • • Pathway -> KO [KEGG ontology] Pathway -> ENZYME Pathway -> REACTION Pathway -> Compound Pathway -> GENE [eg. Has:000001] 磷酸化 去磷酸化 泛素化 糖基化 甲基化 激活 抑制 非直接影响 状态改变 绑定/关联 分裂 复合物 基本流程 序列 ID blast convert 标准ID (KO,KEGG GENE) KEGG 工具 画图 KEGG MAPPER http://www.genome.jp/kegg/tool/color_pathway.html KAAS (KEGG Automatic Annotation Server) Complete or Draft Genome - KAAS job request (BBH method) Partial Genome - KAAS job request (SBH method) ESTs - KAAS job request (BBH method) - KAAS job request (SBH method) http://www.genome.jp/tools/kaas/ KEGG API • 访问KEGG系统应用程序接口 – 检索和计算生物化学途径 API 调用 用户程序 (Perl, Java, Ruby, Python) 执行 KEGG Web Server 计算返回结果 KEGG API应用准备之Perl篇 • 必需的Perl模块 – SOAP Lite (推荐0.60版) – MIME-Base64 – LWP – URI • 确保能访问KEGG网站 http://www.genome.jp/kegg/soap/doc/keggapi_manual.html Quick Start #!/usr/bin/env perl use SOAP::Lite; # 调用库 $wsdl = ‘http://soap.genome.jp/KEGG.wsdl’; #wsdl文件路径 $serv = SOAP::Lite->service($wsdl); #建立一个服务 $offset = 1; #参数定义 $limit = 5; #参数定义 $top5 = $serv->get_best_neighbors_by_gene('eco:b0002', $offset, $limit); #调用get_best_neighbors_by_gene,获取与基因eco:b0002比对的最好的 基因,从第一个开始,取5个 foreach $hit (@{$top5}) { print "$hit->{genes_id1}\t$hit->{genes_id2}\t$hit->{sw_score}\n"; } #-----输出结果 主要内容 • 数据库与检索工具 – UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. • 蛋白质数据分析 – – – – – – 基本物理化学性质分析 序列相似性比较 特征序列分析 翻译后修饰分析 功能域分析 亚细胞定位分析 Go功能分类与富集分析 Pathway分析 相互作用与网络分析 蛋白质相互作用 • • • • • 相关概念 蛋白质相互作用数据库 蛋白质相互作用的预测方法 蛋白质相互作用的分析 相关软件介绍 生物学背景知识 • 从DNA到蛋白质: DNA CCTGAGCCAACTATTGATGAA 转录 RNA CCUGAGCCAACUAUUGAUGAA 翻译 Protein PEPTIDE 蛋白质是由多种氨基酸按特定的排列顺序通过肽键连接成有一定结构 的高分子化合物。 概念 蛋白质B 蛋白质A 蛋白质A 蛋白质B 基因 转录调控作用 结合,剪切,修饰… 蛋白质A 蛋白质B 直接的物理相互作用 反应1 反应2 代谢通路中的蛋白质相互作用 蛋白质组相互作用数据库 数据库名 说明 网址 BIND 生物分子相互作用数据库 http://bind.ca/ DIP 蛋白质相互作用数据库 http://dip.doe-mbi.ucla.edu/ IntAct 蛋白质相互作用数据库 http://www.ebi.ac.uk/intact/index.html InterDom 结构域相互作用数据库 http://interdom.lit.org.sg/ MINT 生物分子相互作用数据库 http://mint.bio.uniroma2.it/mint/ STRING 蛋白质相互作用网络数据库 http://string.embl.de/ HPRD 人类蛋白质参考数据库 http://www.hprd.org/ MPPI 脯乳动物相互作用数据库 http://mips.gsf.de/proj/ppi/ biogrid 蛋白和遗传相互作用数据,主要来自 于酵母、线虫、果蝇和人 http://www.thebiogrid.org/ PDZbase 包含PDZ结构域的蛋白质相互作用数 据库 http://icb.med.cornell.edu/services/pdz /start Reactome 生物学通路的辅助知识库 http://reactome.org/ 数据库比较之数据量 Suresh Mathivanan An evaluation of human protein-protein interaction data in the public domain. BMC Bioinformatics 2006,7 数据标准 PSI-MI • Proteomics Standards Initiative(PSI) – 定义蛋白质组的数据表示方式 – 简便数据的比较、交换和检验 – XML格式 • 参考文档: http://psidev.sourceforge.net/mi/xml/doc/user/ HPRD (Human Protein Reference Database) http://www.hprd.org/ • 来自于文献而且有实验证据 • 相关信息 – – – – – post-translational modifications, subcellular localization protein domain architecture, tissue expression Association with human diseases • 除了蛋白质之间的相互作用 – 蛋白质与核酸的相互作用 – 蛋白质与小分子的相互作用 • 数据格式PSI-MI – Proteomics Standards Initiative – Molecular Interactions DIP http://dip.doe-mbi.ucla.edu/ • • 人工从文献中获取的 两两相互作用和复杂相互作用 IntAct • • • • 有相互作用的详细说明信息,实验方法,文献来源 提供了初级和高级的数据检索界面 数据格式为PSI-MI (version 1.0 和version2.5) http://www.ebi.ac.uk/intact/main.xhtml 提纲 • 相关概念 • 蛋白质组相互作用数据库 • 蛋白质相互作用的分析 蛋白质相互作用研究技术及方法 大规模蛋白质相互作用测定技术主要有: 酵母双杂交 串联亲和纯化 质谱分析 蛋白质芯片 噬菌体显示 酵母双杂交系统 X Y Y X r e p o r t e r g e n e His, β-gal Y X X X Y X Y Y 软件列表 软件名 说明 网址 Osprey 相互作用网络的可视化系统 http://biodata.mshri.on.ca/osprey/servlet/Index PIN 相互作用网络的可视化系统(Yeast) http://www.bioinfo.org.cn/PIN/ Pajek 专业的大型网络分析软件 Cytoscape 网络数据分析和显示工具 http://www.cytoscape.org/ VGJ 网络画图软件 http://www.eng.auburn.edu/department/cse/research /graph_drawing/graph_drawing.html PIVOT 蛋白质相互作用显示工具 http://acgt.cs.tau.ac.il/pivot/ ProViz 蛋白质相互作用显示工具 http://cbi.labri.fr/eng/proviz.htm PIMRider® Hybrigenics公司出的功能蛋白质组软件平台 http://pim.hybrigenics.com/pimriderext/common/ Graphlet 用Tcl/Tk写的图形编辑和计算工具 http://www.infosun.fim.uni-passau.de/Graphlet/ http://vlado.fmf.uni-lj.si/pub/networks/pajek/ Cytoscape简介 Cytoscape是是一种开源式的互作网络分析及 可视化的软件。它主要功能是展示和检索网络, 可视化的方式整合指定数据所对应的网络。其 中在连接protein-protein, protein-DNA, and genetic interactions等大型数据库方面很强大。 软件拥有插座式结构,可以将所需要的功能以 ”插头”的形式插入软件实现功能。 Graph(网络) Nodes(分子) edges(interactions) Cytoscape