蛋白质数据分析

advertisement
蛋白质和蛋白质组分析
孙明明
[email protected]
主要内容
• 数据库与检索工具
– UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al.
• 蛋白质数据分析
–
–
–
–
–
–
基本物理化学性质分析
序列相似性比较
特征序列分析
翻译后修饰分析
功能域分析
亚细胞定位分析

Go功能分类与富集分析
Pathway分析

相互作用与网络分析

Gene
ontology
Pfam
EMBOSS
…………………………….
psort
HMMER
Interproscan
BLAST2GO
…………………………….
Output
GENEGO
TOOLS
BLAST
TRANSFAC
DATABASE
IPI
常见数据
GI:120407068
NP_000537.3
XP_001604088.1
AAF36358.1
P53_HUMAN
P04637
Q9EX73
IPI00025087.2
ENSP00000269305
IPI - International Protein Index
主要蛋白质序列检索工具
UNIPROT
Ensembl
NCBI Entrez
KEGG DBGET
IPI
主要内容
• 数据库与检索工具
– UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al.
• 蛋白质数据分析







基本物理化学性质分析
序列相似性比较
翻译后修饰分析
功能域分析
组织分布
编码基因在染色体上的分布
亚细胞定位分析

Go功能分类与富集分析
Pathway分析

相互作用与网络分析

蛋白质基本物化性质分析
•
•
•
•
•
分子量
等电点
残基数
氨基酸组成
……
•
EMBOSS
–
–
–
–
–
ExPASy(Expert Protein Analysis System)
Pepstats
Pepinfo
Pepwindow
Octanol
……
http://emboss.sourceforge.net/
ProtParam
Compute pI/MW
ProtScale
……
http://www.expasy.ch
/
EMBOSS - pepstats
在线工具:http://www.ebi.ac.uk/Tools/emboss/pepinfo/
本地下载:http://emboss.sourceforge.net/download/#Stable
ExPASy - ProtParam
http://us.expasy.org/tools/protparam.html
计算多种理化指标
序列相似性比较
• 两序列比较
– 主要工具:BLAST
– 常用数据库:NCBI NR,SWISSPROT
– 命令示例:
• blastall –i input.seq –d nr –p blastp –e 1e-3
–b 10 –o blast.out
• 多序列比对
– Clustalw/clustalx (http://www.clustal.org/)等
翻译后修饰分析
• 翻译后修饰是调节蛋白质功能的重要方式,
对蛋白质翻译后修饰的研究可以帮助阐明
和了解蛋白质功能及其功能变化,翻译后
修饰的预测和分析也日渐成为生物信息学
蛋白质序列分析中的重要的研究内容。
• 磷酸化、糖基化、甲基化、泛素化和羟基
化等等
翻译后修饰数据库
名字
网址
描述
Swiss-Prot
http://expasy.org/sprot/
含有蛋白质翻译后修饰信息
Phospho.ELM
http://phospho.elm.eu.org/
S/T/Y磷酸化位点的数据库
PROSITE
http://www.expasy.ch/prosite/
含有蛋白质翻译后修饰信息
HPRD
http://www.hprd.org/
人类蛋白质的综合信息数据
库,含有很多翻译后修
饰的信息
RESID
http://www.ebi.ac.uk/RESID/
翻译后修饰的数据库
O-GlycBase
http://www.cbs.dtu.dk/databases/O
GLYCBASE/
O-糖基化数据库
dbPTM
http://dbptm.mbc.nctu.edu.tw/
翻译后修饰数据库
Phosphosite
http://www.phosphosite.org/Login.
jsp
磷酸化位点数据库
翻译后修饰预测软件
名字
网址
描述
Scansite
http://scansite.mit.edu/
扫描翻译后修饰序列模式工具
PREDIKIN
http://predikin.biosci.uq.edu.au/pkr/
预测翻译后修饰激酶工具
NetPhos
http://www.cbs.dtu.dk/services/NetPhos/
预测磷酸化的工具
NetPhosK
http://www.cbs.dtu.dk/services/NetPhosK/
预测磷酸化和磷酸化激酶的工具
GPS
http://gps.biocuckoo.org/
预测磷酸化和磷酸化激酶的工具
Big-PI-prediction
http://mendel.imp.ac.at/sat/gpi/gpi_server.ht
ml
预测GPI的工具
GlycoMod
http://www.expasy.ch/tools/glycomod/
预测糖基化的工具
NetOGlyc
http://www.cbs.dtu.dk/services/NetOGlyc/
预测O-糖基化的工具
NetNGlyc
http://www.cbs.dtu.dk/services/NetNGlyc/
预测N-糖基化的工具
DictyOGlyc
http://www.cbs.dtu.dk/services/DictyOGlyc/
预测O-糖基化工具
YinOYang
http://www.cbs.dtu.dk/services/YinOYang/
预测YinYang行为的工具
Sulfinator
http://www.expasy.org/tools/sulfinator/
预测硫基化工具
OGlyc
http://www.biosino.org/Oglyc/
预测O-糖基化位点工具
蛋白质功能域分析
一、蛋白质功能域数据资源
数据库名称
简短描述
网址
PANTHER
用实验和进化相关数据信息对蛋白质家族进行
分类
http://www.pantherdb.org/
Pfam
多序列比较和隐马尔科夫模式分析覆盖蛋白质
功能域和家族
http://www.sanger.ac.uk/Software/Pfam/
CDD
综合各种功能域数据库
http://www.ncbi.nlm.nih.gov/cdd
PIR
蛋白质家族分类
http://pir.georgetown.edu/iproclass/
PRINTS
蛋白质家族分类查询
http://www.bioinf.manchester.ac.uk/dbbro
wser/sprint/
ProDom
从Swissprot和Trembl中自动提取的关于蛋白质
家族和功能域的数据库
http://prodom.prabi.fr/prodom/current/ht
ml/home.php
PROSITE
蛋白质家族,功能位点,功能域
http://www.expasy.ch/prosite/
SMART
分子结构研究数据库
http://smart.embl-heidelberg.de/
TIGRFAMs
基于隐马尔科夫的蛋白质家族数据库
http://www.tigr.org/TIGRFAMs/index.shtml
GENE3D
家族,结构的数据库
http://www.tigr.org/TIGRFAMs/index.shtml
SUPERFAMILY
蛋白质家族数据库
http://supfam.org/SUPERFAMILY/index.html
Swiss-Prot
蛋白质注释数据库
http://www.expasy.org/sprot/
二、蛋白质功能域搜索工具
 HMMER
 INTERPROSCAN
 rpi-blast
HMMER
• HMMER
– HMMER 是用 “隐马尔可夫模型”(HMM)进行数据库搜索的一个应
用程序包。
– http://hmmer.janelia.org/#download
免费下载 HMMER 应用程序包。
– Hmmpfam
• 库文件:
ftp://ftp.sanger.ac.uk/pub/databases/Pfam/current_release/PfamA.hmm.gz
• 命令行:hmmpfam Pfam-A.hmm sequence_file > output_file
InterproScan
http://www.ebi.ac.uk/Tools/InterProScan/
本地下载安装:
ftp://ftp.ebi.ac.uk/pub/databases/interpro/iprscan
rpi-blast
• 应用方法:
rpsblast -i input_seqs.txt -d cdd -p T –o out_result
• CDD库下载:
ftp.ncbi.nih.gov/pub/mmdb/cdd/
• 详细信息:
http://www.ncbi.nlm.nih.gov/staff/tao/URLAPI/rpsblast.html
亚细胞定位分析
• 大部分蛋白质都是先分布到不同亚细胞位置再行
使功能的
• 蛋白质的功能与其亚细胞定位有很强的关联
亚细胞定位数据资源
名字
网址
描述
Swiss-Prot
http://expasy.org/sprot/
含有蛋白质亚细胞定位信息
Gene Ontology
http://www.geneontology.org/
cellular
component
ontologies含有蛋白质亚
细胞定位信息
DBSubLoc
http://www.bioinfo.tsinghua.e
du.cn/dbsubloc.html
蛋白质亚细胞定位数据库
SUBA
http://www.plantenergy.uwa.ed
u.au/applications/suba2/i
ndex.php
拟南芥亚细胞定位数据库
LOCATE
http://locate.imb.uq.edu.au/
人和小鼠亚细胞定位数据库
PSORTdb
http://db.psort.org/
细菌亚细胞定位数据库
亚细胞定位预测工具
软件
网址
简短描述
SignalP
http://www.cbs.dtu.dk/services/SignalP/
预测信号肽及其剪切位点
ChloroP
http://www.cbs.dtu.dk/services/ChloroP/
预测转运到叶绿体的肽段
MitoProt
http://ihg.gsf.de/ihg/mitoprot.html
预测转运到线粒体的肽段
Predotar
http://urgi.versailles.inra.fr/predotar/predotar.html
预测定位到线粒体和胞浆中的肽段
PSORT
http://www.psort.org/
预测蛋白质分选信号和亚细胞定位
的位点
TargetP
http://www.cbs.dtu.dk/services/TargetP/
预测蛋白质亚细胞定位位点
DAS
http://www.sbc.su.se/~miklos/DAS/
预测原核细胞蛋白质中的跨膜区域
HMMTOP
http://www.enzim.hu/hmmtop/
预测蛋白质的跨膜螺旋和拓扑结构
LOCtree
http://cubic.bioc.columbia.edu/cgibin/var/nair/loctree/query
预测蛋白质亚细胞定位
SubLoc
http://www.bioinfo.tsinghua.edu.cn/SubLoc/
支持向量机预测亚细胞定位
CELLO
http://cello.life.nctu.edu.tw/
运用多种方法进行亚细胞定位预测
PSLpred
http://www.imtech.res.in/raghava/pslpred/
支持向量机预测蛋白质亚细胞定位
pSLIP
http://pslip.bii.a-star.edu.sg/
用氨基酸的多种特性预测亚细胞定
位
PSORT
http://www.psort.org/
在线工具: http://psort.hgc.jp/
主要内容
• 数据库与检索工具
– UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al.
• 蛋白质数据分析






基本物理化学性质分析
序列相似性比较
特征序列分析
翻译后修饰分析
功能域分析
亚细胞定位分析

Go功能分类与富集分析
Pathway分析

相互作用与网络分析

GO(Gene Ontology)分类
•
•
•
•
•
•
Gene Ontology介绍
GO ontologies的描述
GO annotation的介绍
GOslim分类统计
BLAST2GO
富集与缺少分析
什么是GO?
• 随着多种生物genome的相继解码,使得
annotation的工作量和复杂度大大增加。大
多数基因在不同真核生物中拥有共同的主
要生物功能,通过在某些物种中获得的基
因或者蛋白质的生物学信息,可以用以解
释其他物种中对应的基因或蛋白。
• Gene Ontology(简称GO)由上述的想法而
诞生,用来将所有的蛋白质功能进行分类
Gene OntologyTM (GO) Consortium
http://www.geneontology.org/
The structure
• Hierarchical
• Directed Acyclic Graph
– terms have one or more parents
• is-a and part-of relations
Three Ontologies
•Molecular Function
e.g. DNA binding, catalysis of a reaction
•Biological Process
e.g. metabolism
•Cellular Component
e.g. nucleus, ribosome
OBO - Open Biological Ontologies
http://www.geneontology.org/ontology/gene_ontology.obo
GO term各字段的说明
id: GO:0006094
name: gluconeogenesis
namespace: process
def: The formation of glucose from
noncarbohydrate precursors, such as
pyruvate, amino acids and glycerol.
exact_synonym: glucose biosynthesis
is_a: GO:0006006
is_a: GO:0006092
unique GO ID
term name
ontology
definition
synonym
parentage
Ontology Structure
• Terms 可能有一个以上的父Term,或者一个
以上的子Term
• Terms的连接关系
– is-a
– part-of 

Ontology Structure
membrane
is-a
Mitochondrial
membrane
cell
part-of
nucleus
nucleus part_of some cell
GO Annotation
• 电子注释(Electronic annotation)
– 量大但质量低并且没有经过校验
• 人工注释(Manual annotation)
– 来自文献
– 花费时间长但质量高
GO Annotation
ISS
IDA
IPI
TAS
NAS
IMP
IGI
IEP
IC
Inferred from Sequence/Structural Similarity
Inferred from Direct Assay
Inferred from Physical Interaction
Traceable Author Statement
Non-traceable Author Statement
Inferred from Mutant Phenotype
Inferred from Genetic Interaction
Inferred from Expression Pattern
Inferred by Curator
IEA
Inferred from electronic annotation
Accessing annotations to the Gene Ontology
1. Downloads
• Annotations – gene association file
( ftp://ftp.geneontology.org/pub/go/gene-associations/ )
2. Web-based access
• AmiGO
(http://www.godatabase.org)
Gene Association File
DB DB_Object_ID DB_Object_Symbol Qualifier
UniProt
UniProt
UniProt
P06703
P06703
P06703
DB_Object_Name
Calcyclin
Calcyclin
Calcyclin
S106_HUMAN
S106_HUMAN
S106_HUMAN
NOT
DB_Object_Synonym
IPI00027463
IPI00027463
IPI00027463
GOid
GO:0008083
GO:0007409
GO:0005515
DB:Reference
GOA:spkw
PMID:12152788
PMID:12577318
DB_Object_Type
protein
protein
protein
taxon
taxon:9606
taxon:9606
taxon:9606
Evidence
IEA
NAS
IPI
With Aspect
F
P
UniProt:P50995 F
Date
20040426
20030721
20030721
Assigned by
UniProt
UniProt
UniProt
GO 分类统计
• 什么是GO Slim?
– GO Slim是GO ontologies的缩减版
• 如何做分类统计
– Map2slim.pl (Go-perl)
– gene_ontology.obo
– Slim文件,如goslim_generic.obo
– GO Annotation Files
Map2slim.pl
• 前提条件是安装Perl
• Go-perl包可从CPAN免费获取
gene_ontology.obo
http://www.geneontology.org/GO.downloads.ontology.shtml
Slim文件下载
http://www.geneontology.org/GO.slims.shtml
GO Annotation Files
运行方法
• 根据已有的Accession列表去GO Annotation Files文件中寻找对应的GO
ID.
• Map2slim –t –c goslim_generic.obo gene_ontology.obo
gene_associations_file > go_slim.out
• http://search.cpan.org/~cmungall/go-perl/scripts/map2slim
unknow n, 11.8%
transporter activity, 3.2%
antioxidant activity, 2.2%
translation regulator activity,
1.4%
transcription regulator activity,
1.5%
structural molecule activity,
3.8%
binding, 35.1%
nutrient reservoir activity, 1.4%
motor activity, 0.3%
molecular transducer activity,
1.2%
enzyme regulator activity, 0.7%
catalytic activity, 37.4%
antioxidant activity
binding
catalytic activity
enzyme regulator activity
molecular transducer activity
motor activity
nutrient reservoir activity
structural molecule activity
transcription regulator activity
translation regulator activity
transporter activity
unknow n
找不到程序 or不会使用perl
BLAST2GO
•
•
首先安装JRE(Java Runtime Enviroment)
Blast2Go的Web启动地址:http://www.blast2go.de/
Blast2GO的工作流程
富集分析和缺失分析
主要内容
• 数据库与检索工具
– UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al.
• 蛋白质数据分析






基本物理化学性质分析
序列相似性比较
特征序列分析
翻译后修饰分析
功能域分析
亚细胞定位分析

Go功能分类与富集分析
Pathway分析

相互作用与网络分析

KEGG Pathway(KEGG: Kyoto Encyclopedia of Genes and Genomes)
KEGG的六个大类
– Metabolism
– Genetic Information Processing
– Environmental Information
Processing
– Cellular Processes
– Human Diseases
– Drug Development
http://www.genome.jp/kegg/pathway.html
http://www.genome.jp/kegg/pathway/map/map01100.html
•
代谢分类(Metabolism)
•
•
•
•
•
•
•
•
碳水化合物代谢(Carbohydrate Metabolism)
能量代谢(Energy Metabolism)
脂代谢(Lipid Metabolism)
核酸代谢(Nucleotide Metabolism)
氨基酸代谢(Amino Acid Metabolism)
其它的氨基酸代谢(Metabolism of Other Amino Acids)
多糖合成和代谢(Glycan Biosynthesis and Metabolism)
多酮类和非核糖体多肽类的生物合成(Biosynthesis of Polyketides and
Nonribosomal Peptides)
• 辅助因子和维生素代谢(Metabolism of Cofactors and Vitamins)
• 次生代谢物的生物合成(Biosynthesis of Secondary Metabolites)
• 异生素生物降解和代谢(Xenobiotics Biodegradation and Metabolism)
Pathway的各元素的连接
•
•
•
•
•
Pathway -> KO [KEGG ontology]
Pathway -> ENZYME
Pathway -> REACTION
Pathway -> Compound
Pathway -> GENE [eg. Has:000001]
磷酸化
去磷酸化
泛素化
糖基化
甲基化
激活
抑制
非直接影响
状态改变
绑定/关联
分裂
复合物
基本流程
序列
ID
blast
convert
标准ID
(KO,KEGG GENE)
KEGG 工具
画图
KEGG MAPPER
http://www.genome.jp/kegg/tool/color_pathway.html
KAAS
(KEGG Automatic Annotation Server)
Complete or Draft Genome
- KAAS job request (BBH method)
Partial Genome
- KAAS job request (SBH method)
ESTs
- KAAS job request (BBH method)
- KAAS job request (SBH method)
http://www.genome.jp/kegg/kaas/
KEGG API
• 访问KEGG系统应用程序接口
– 检索和计算生物化学途径
API
调用
用户程序
(Perl, Java, Ruby, Python)
执行
KEGG Web Server
计算返回结果
KEGG API应用准备之Perl篇
• 必需的Perl模块
– SOAP Lite (推荐0.60版)
– MIME-Base64
– LWP
– URI
• 确保能访问KEGG网站
http://www.genome.jp/kegg/soap/doc/keggapi_manual.html
Quick Start
#!/usr/bin/env perl
use SOAP::Lite; # 调用库
$wsdl = ‘http://soap.genome.jp/KEGG.wsdl’; #wsdl文件路径
$serv = SOAP::Lite->service($wsdl); #建立一个服务
$offset = 1; #参数定义
$limit = 5; #参数定义
$top5 = $serv->get_best_neighbors_by_gene('eco:b0002', $offset, $limit);
#调用get_best_neighbors_by_gene,获取与基因eco:b0002比对的最好的
基因,从第一个开始,取5个
foreach $hit (@{$top5})
{
print "$hit->{genes_id1}\t$hit->{genes_id2}\t$hit->{sw_score}\n";
} #-----输出结果
Pathway Mapping
主要内容
• 数据库与检索工具
– UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al.
• 蛋白质数据分析
–
–
–
–
–
–
基本物理化学性质分析
序列相似性比较
特征序列分析
翻译后修饰分析
功能域分析
亚细胞定位分析

Go功能分类与富集分析
Pathway分析

相互作用与网络分析

蛋白质相互作用
•
•
•
•
•
相关概念
蛋白质相互作用数据库
蛋白质相互作用的预测方法
蛋白质相互作用的分析
相关软件介绍
生物学背景知识
• 从DNA到蛋白质:
DNA
CCTGAGCCAACTATTGATGAA
转录
RNA
CCUGAGCCAACUAUUGAUGAA
翻译
Protein
PEPTIDE
蛋白质是由多种氨基酸按特定的排列顺序通过肽键连接成有一定结构
的高分子化合物。
概念
蛋白质B
蛋白质A
蛋白质A
蛋白质B
基因
转录调控作用
结合,剪切,修饰…
蛋白质A
蛋白质B
直接的物理相互作用
反应1
反应2
代谢通路中的蛋白质相互作用
蛋白质组相互作用数据库
数据库名
说明
网址
BIND
生物分子相互作用数据库
http://bind.ca/
DIP
蛋白质相互作用数据库
http://dip.doe-mbi.ucla.edu/
IntAct
蛋白质相互作用数据库
http://www.ebi.ac.uk/intact/index.html
InterDom
结构域相互作用数据库
http://interdom.lit.org.sg/
MINT
生物分子相互作用数据库
http://mint.bio.uniroma2.it/mint/
STRING
蛋白质相互作用网络数据库
http://string.embl.de/
HPRD
人类蛋白质参考数据库
http://www.hprd.org/
MPPI
脯乳动物相互作用数据库
http://mips.gsf.de/proj/ppi/
biogrid
蛋白和遗传相互作用数据,主要来自
于酵母、线虫、果蝇和人
http://www.thebiogrid.org/
PDZbase
包含PDZ结构域的蛋白质相互作用数
据库
http://icb.med.cornell.edu/services/pdz
/start
Reactome
生物学通路的辅助知识库
http://reactome.org/
数据库比较之数据量
Suresh Mathivanan An evaluation of human protein-protein
interaction data in the public domain. BMC Bioinformatics 2006,7
数据标准 PSI-MI
• Proteomics Standards Initiative(PSI)
– 定义蛋白质组的数据表示方式
– 简便数据的比较、交换和检验
– XML格式
• 参考文档:
http://psidev.sourceforge.net/mi/xml/doc/user/
PSI-MI的结构
参考文档
http://psidev.sourceforge
.net/mi/xml/doc/MIF.html
HPRD (Human Protein Reference Database)
http://www.hprd.org/
• 来自于文献而且有实验证据
• 相关信息
–
–
–
–
–
post-translational modifications,
subcellular localization
protein domain architecture,
tissue expression
Association with human diseases
• 除了蛋白质之间的相互作用
– 蛋白质与核酸的相互作用
– 蛋白质与小分子的相互作用
•
数据格式PSI-MI
– Proteomics Standards Initiative
– Molecular Interactions
数据检索(HPRD)
DIP
http://dip.doe-mbi.ucla.edu/
•
•
人工从文献中获取的
两两相互作用和复杂相互作用
IntAct
•
•
•
•
有相互作用的详细说明信息,实验方法,文献来源
提供了初级和高级的数据检索界面
数据格式为PSI-MI (version 1.0 和version2.5)
http://www.ebi.ac.uk/intact/main.xhtml
提纲
• 相关概念
• 蛋白质组相互作用数据库
• 蛋白质相互作用的分析
蛋白质相互作用研究技术及方法
大规模蛋白质相互作用测定技术主要有:
 酵母双杂交




串联亲和纯化
质谱分析
蛋白质芯片
噬菌体显示
酵母双杂交系统
X
Y
Y
X
r
e
p
o
r
t
e
r
g
e
n
e
His, β-gal
Y
X
X
X
Y
X
Y
Y
软件列表
软件名
说明
网址
Osprey
相互作用网络的可视化系统
http://biodata.mshri.on.ca/osprey/servlet/Index
PIN
相互作用网络的可视化系统(Yeast)
http://www.bioinfo.org.cn/PIN/
Pajek
专业的大型网络分析软件
Cytoscape
网络数据分析和显示工具
http://www.cytoscape.org/
VGJ
网络画图软件
http://www.eng.auburn.edu/department/cse/research
/graph_drawing/graph_drawing.html
PIVOT
蛋白质相互作用显示工具
http://acgt.cs.tau.ac.il/pivot/
ProViz
蛋白质相互作用显示工具
http://cbi.labri.fr/eng/proviz.htm
PIMRider®
Hybrigenics公司出的功能蛋白质组软件平台
http://pim.hybrigenics.com/pimriderext/common/
Graphlet
用Tcl/Tk写的图形编辑和计算工具
http://www.infosun.fim.uni-passau.de/Graphlet/
http://vlado.fmf.uni-lj.si/pub/networks/pajek/
Cytoscape简介
Cytoscape是是一种开源式的互作网络分析及
可视化的软件。它主要功能是展示和检索网络,
可视化的方式整合指定数据所对应的网络。其
中在连接protein-protein, protein-DNA, and
genetic interactions等大型数据库方面很强大。
软件拥有插座式结构,可以将所需要的功能以
”插头”的形式插入软件实现功能。
Graph(网络) Nodes(分子) edges(interactions)
Cytoscape
菜单栏
File:网络文件操作
I.导入网络
Import → Network (multiple file types)
Import → Network from table(Text/MS Excel)
Import → Network web services
2. Import → Network from table(Text/MS Excel)
3. Import → Network from web services
目前,Cytoscape主要支持一下四个web服务器
注:使用WEB服务器必须去manage plugins中安装服务器客户端
• IntAct: an open source database of protein interaction data, hosted
at EMBL-EBI.
• Pathway Commons: an open source portal, providing access to multiple
integrated data sets, including: Reactome, IntAct, HPRD, HumanCyc, MINT,
the MSKCC Cancer Cell Map, and the NCI/Nature Pathway Interaction
database.
• NCBI Entrez Gene: a public database of genes, including annotation,
sequence and interactions.
• Biomart: an open source biological database engine. Useful for ID/Name
mapping.
Web service1: 利用IntAct服务器检索蛋白质互作网络
Web service2: 利用NCBI Entrez EUtilities服务器检索蛋
白质互作网络
Web service3: 利用Pathway Commons服务器检索蛋白质
互作网络
Web service4: 利用WIKIPathways 服务器检索蛋白质互
作网络, http://www.wikipathways.org
II.导入网络属性
Cytoscape允许增加node、edge和network的任意信息作为它
们本身的属性,并可以在可视化的网路中用各种方法进行标记
例如,不同的颜色,形状等等
• Node属性文件的格式(.noa)
FunctionalCategory 这一行不能有空格
YAL001C = metabolism 用=连接node和它的属性
YAR002W = apoptosis
YBL007C = ribosome
• Edge属性文件格式()
InteractionStrength
YAL001C (pp) YBR043W = 0.82
YMR022W (pd) YDL112C = 0.441
YDL112C (pd) YMR022W = 0.9013
1). Import->Node Attributes….
Import->Edge Attributes….
文件格式和操作方法类似
点击导入,找到属性文件的位置,即可导入,可在data panel中
查看
2).Import->Attribute from Table (text/MS Excel)...
网络管理控制面板
面板共分为四大部分
 Network
 Vizmapper
 Editor
 Filters
Part1:Network
• 在这个栏目下可以查看、修改、删除网络,创建/
删除网络视图,查看网络的结点和边的数目,查
看/变换网络视图(面板最下面)
Part2:Vizmapper
• 在这个栏目下可以对结点,边的颜色、形
状、大小、字体等等细节进行设置
• 还可以对网络视图的背景等颜色方案进行
设定
Example3:Discrete Mapper
Part3:Editor
在Editor栏目中我们可以建立和修改网络
 增加结点:ctrl+鼠标单击即可创建一个新结点
 增加边: ctrl+鼠标单击选中一个结点,这时会出现
一条线,然后鼠标单击另一个结点即可添加一边新边
 可以对新增加的结点和边进行详细的编辑,在视图面
板我们将给予讲解
 增加一组互作:双击视图面板,会有一个提示输入互
作名字的对话框出现,输入互作名称,如:A pp B,则
在网络上建立了一对PP互作
Part4:Filters
• Filters allow you to quickly select multiple nodes
or edges of interest by comparing node and edge
attributes to properties you specify.
Download
Related flashcards

Population genetics

22 cards

Population genetics

25 cards

Nucleobases

21 cards

Epigenetics

15 cards

Genes

37 cards

Create Flashcards