生物信息学中的分类学习问题 邹 权 厦门大学计算机科学系 http://datamining.xmu.edu.cn/main/~zq 提纲 DNA/RNA层面上的分类学习问题 蛋白质层面的分类学习问题 新技术带来的分类学习问题 2/57 几个概念: 基因、基因组、DNA、染色体、细胞 3/57 4/57 5/57 6/57 DNA如何影响生物的性状? 什么叫表达? 7/57 中 心 法 则 8/57 . . A T T C A C A G T G G A . . 9/57 I H S G 是否所有的DNA都转录? 人—仅仅1% 是否所有的RNA都翻译? 10/57 真核生物的基因结构 非编码区 RNA聚合酶 结合位点 编码区 外显子 非编码区 内含子 真核细胞基因结构示意图 11/57 12/57 问题1:识别编码区(ORF) Snyder, E. E., and Stormo, G. D. (1993). Identification of coding regions in genomic DNA sequences: An application of dynamic programming and neural networks. Nucleic Acids Res. 21: 607-613. 问题2:辨别外显子、内含子 T.M. Chen, C.C. Lu, W.H. Li,(2005) Prediction of splice sites with dependency graphs and their expanded Bayesian networks, Bioinformatics, 21:471–482. 问题3:识别可变剪切 Gideon D. et al(2005) Accurate identification of alternatively spliced exons using support vector machine. Bioinformatics, 21:897-901 问题4:识别调控元件 Jiang B, Zhang MQ, Zhang X, (2007) OSCAR: one-class SVM for accurate recognition of cis-elements, Bioinformatics, 23(5): 531-537 13/57 问题1:识别ORF NN(GRAIL: a multi-agent neural network system for gene identification) HMM 决策树(A decision tree system for finding genes in DNA .JCB98) 14/57 15/57 问题2:辨别外显子、内含子 外显子内含子的分界线——剪切位点 也可以称为“识别剪切位点” 特征:三连核苷酸… 分类器:SVM,NB,HMM,BP NN 编码区 外显子 16/57 内含子 问题3:识别可变剪切 17/57 问题4:识别motif EM算法 Gibbs Sampling 参考:王峻,郭茂祖.转录因子结合位点识别算法的研究. 电子学报.2007,35(12A):83-89 18/57 是否所有的DNA都转录? 人—仅仅1% 4个与机器学习有关的问题,还有更多 是否所有的RNA都翻译? 编码RNA与非编码RNA 19/57 DNA DNA chromosome chromosome transcription ncRNA miRNA mRNA tRNA rRNA nucleolus translation Protein ribosome 20/57 cytoplasm 21/57 MicroRNA 参与调节的疾病举例 •癌 • 其它疾病 症 - 胸腺癌 - 老年性痴呆 - 肺癌 - 直肠癌 - 白血病 - 皮肤癌 - 成神经细胞瘤 - 鼻咽癌 - 卵巢癌 - 糖尿病 - 心肌肥大 - AIDS 22/57 研究1:从长的 DNA序列中找 出前体 ··· ··· DNA ··· microRNA 前体 (precursor) 细胞核 出核 细胞质 microRNA 成熟体 研究2:根据成 熟体寻找靶标 靶标 23/57 mRNA microRNA中的分类问题 挖掘---对前体的真伪辨别 同源比对 ab initio 靶标---对靶标的真伪辨别 24/57 基于同源比 对的方法 利用已知的microRNA 信息 BLAST 逐步过滤 参考: Wang,X.J. et al (2004) Prediction and identification of Arabidopsis thaliana microRNA genes and their mRNA targets. Genome Biology. 5:R65 25/57 26/57 microRNA的挖掘-- ab initio方法 Chenghai Xue, Fei Li, Tao He, Guo-Ping Liu, Yanda Li, Xuegong Zhang. Classification of real and pseudo microRNA precursors using local structure-sequence features and support vector machine. BMC Bioinformatics. 2005.6:310(他引167次,截至11.12.12) Peng Jiang, Haonan Wu, Wenkai Wang, Wei Ma, Xiao Sun, Zuhong Lu. MiPred: classification of real and pseudo microRNA precursors using random forest prediction model with combined features. Nucleic Acids Research. 2007,35:W339-W344 (他引107次,截至11.12.12) 27/57 一级序列 CUUUCUACACAGGUUGGGAUCGGUUGCAAUGCUGUGUUUCUGUAUGGUAUUGCACUUGUCCCGGCCUGUUGAGUUUGG 二级结构 ..(((...((((((((((((.(((.(((((((((((......)))))))))))))).)))))))))))).)))..... 说明:”(”和”)”意义相 G 同,均表示发生了配对。 ((. .(( ((( ((. “.”表示没有发生配对 UU C U .(( 每一位核苷酸和它及其相邻的 两个核苷酸的配对情况 32 个三元组——32 维特征向量 ( U ( ( ( , U ( ( . , U ( . ( , U ( . . , U . ( ( , U .(. , U . . (, U . . . , G ( ( ( , G ( ( . , . . .) 出现的次数 (12,4,3,1,2,0,0,0,10,1,. . .) 归一化三元组 (0.1846,0.0615,0.0462,0.0154,0.0308,0,0,0,0.1538,0.0154, …) 28/57 29/57 http://dbgroup.cs.tsinghua.edu.cn/zouquan/libid/ 30/57 microRNA中的分类问题 挖掘---对前体的真伪辨别 同源比对 ab initio 靶标---对靶标的真伪辨别 31/57 靶标预测 参考:Improving the prediction of human microRNA target genes by using ensemble algorithm. FEBS Letters 581 (2007) 1587–1593 32/57 33/57 提纲 DNA/RNA层面上的机器学习问题 蛋白质层面的机器学习问题 分类、鉴别 结构预测 相互作用预测 新技术带来的机器学习问题 34/57 35/57 参考:LY Han, J Cui, HH Lin, ZL Ji, ZW Cao, YS Li, and YZ Chen. Recent progresses in the application of machine learning approach for predicting protein functional class independent of sequence similarity. Proteomics 2006, 6(14): 40234037 36/57 The Protein Folding Problem Secondary structures α-helix Average 10 residues, or three turns Glutamine, methionine, and leucine favor -helix Valine, serine, aspartic acid, and asparagine tend to destabilize helices β-sheet Generally 5~10 residues Valine, isoleucine, and phenylalanine enhance -Sheets Proline doesn’t fit well into -Sheets Loop The sections of the sequence that connect the other two kinds of secondary structure 37/57 蛋白质二级结构预测问题 输入 IRNSSNISPASMIFRNLLILEDDLRRQAHEQKILKWQFTLFLASMAGVGAFTFYELYF 输出 -----------HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH----EEEEEEEE 参考:Fusion of classifiers for protein fold recognition. Neurocomputing 68 (2005) 315–321 38/57 39/57 40/57 相互作用预测 相互作用网络 相互作用位点预测 参考:于建涛, 郭茂祖, 蔡禄. 蛋白质相互作用及其网络预 测方法研究进展. 电子学报.2007,35(12A):1-7 Li Minghui, et al. Protein–protein interaction site prediction based on conditional random fields. BIOINFORMATICS. Vol. 23 no. 5 2007, pages 597–604 41/57 提纲 DNA/RNA层面上的机器学习问题 蛋白质层面的机器学习问题 新技术带来的机器学习问题 microArray Assembling SNP 42/57 43/57 44/57 45/57 microArray中的机器学习问题 样本分类(疾病诊断) 高维、小样本 代价敏感 正反例不平衡 属性缺失 基因聚类 层次聚类 参考:时序微阵列数据中的同步和异步共调控基因聚类. 计算机学报. 2007,30:1302-1314 对于基因表达数据的基于类别树和SVM的多类癌症分类算法.计算机研究与发 展,2004,41:436-441. Hierarchical clustering of gene expression profiles with graphics hardware acceleration. Pattern Recognition Letters. 2006,27:676-681 A comprehensive evaluation of multicategory classification methods for microarray gene expression cancer diagnosis. Bioinformatics. 2005.21:631-643 46/57 测序技术的发展(1) 已在市场上的下一代平台 GA – Illumina/Solexa SBS 通过可逆荧光终止法(FISSEQ) GS FLX – Roche/454 Life Sciences SBS 通过焦磷酸测序 SOLiD – ABI/Agencourt SBL 通过双碱基编码 47/57 三 十 年 来 测 序 的 发 展 48/57 测序技术的发展(2) 2nd Generation Performance 49/57 50/57 重复区域 51/57 52/57 图模型下的片段组装 参考: Butler, J., Maccallum, I., Kleber, M., Shlyakhter, I.A., Belmonte, M.K., Lander, E.S., Nusbaum, C., and Jaffe, D.B. ALLPATHS: De novo assembly of whole-genome shotgun microreads. Genome Res.2008, 18: 810–820. Zerbino, D. and Birney, E. Velvet: Algorithms for de novo short read assembly using de Bruijn graphs. Genome Res. 2008,18: 821–829. J.T.Simpson et al. ABySS: A parallel assembler for short read sequence data. Genome Res. 2009 53/57 SNP 什么是SNP 为什么研究它 54/57 55/57 SNP中的计算问题 疾病预测/人群分类 参考:Haplotype Pattern Mining & Classification for detecting disease associated Site.CSB2003 nsSNP 参考:Finding new structural and sequence attributes to predict possible disease association of single amino acid polymorphism (SAP).Bioinformatics. 2007,23(12):1444–1450 tagSNP 参考: Jun Wang, Mao-zu Guo, Chun-yu Wang. CGTS: a site-clustering graph based tagSNP selection algorithm in genotype data.BMC Bioinformatics. 2009 挖掘SNP 参考:Jun Wang*, Quan Zou*, Maozu Guo. Mining SNPs from EST sequences using filters and ensemble classifiers. Genetics and Molecular Research. 2010,9(2):820-834. 基因组压缩 compress a human genome from 3.2GB to 4.1MB 参考:Human genomes as email attachments. Bioinformatics 25: 274-275 (2009). 56/57 欢迎给出任何意见和建议 zouquan@xmu.edu.cn 57/57