Tin sinh học Khái niệm và bài toán cơ bản Một vài kết quả nghiên cứu Hồ Tú Bảo, Phạm Thọ Hoàn School of Knowledge Science Japan Advanced Institute of Science and Technology 1 “Sống”, Tạ Quang Bửu (1948) “…Một đêm tháng 10 năm 1910, một tế bào haploid (cùng một gamète với 24 chromosome) của cha tôi gặp một tế bào (cùng một gamète với 24 chromosome) của mẹ tôi. Hai tế bào ấy phối hợp với nhau thành một tế bào trứng với hai lần 24 chromosome. Tế bào này chẻ đôi sinh ra hai tế bào nữa, rồi hai sinh ra bốn, bốn sinh ra tám, v,v… thành một khối tế bào. Khối tế bào này là tôi. Chín tháng sau tôi ra đời với những đặc điểm này: da đen, mắt hoe, chân ngắn như ông nội tôi; mồm rộng, vai ngang, tai nhỏ như bà ngoại tôi. Ngoài ra trong thân thể có chỗ thì giống ông ngoại, có chỗ giống bà nội tôi. Còn tính lười đặc biệt của tôi thì xem gia phả đến bậc ông cố nội ngoại cũng không thấy tông tích. Có lẽ phải lên xa nữa. Ba năm sau, cũng theo một loạt biến cố như trên, em tôi ra đời. Em tôi thì mồm rộng, da trắng, mắt hoe, chân dài. Những đặc điểm của nó cũng là những đặc điểm của hai gia đình chúng tôi, nhưng phân phối lại cách khác.” 2 Outline Bioinformatics: problems and issues Some research results 3 Paradigm shift in biology The The new new paradigm, paradigm, now now emerging, emerging, isis that that all all the the ‘genes’ ‘genes’ will will be be known known (in (in the the sense sense of of being being resident resident in in databases databases available available electronically) electronically) ... ... To To use use [the] [the] flood flood of of knowledge, knowledge, which which will will pour pour across across the the computer computer networks networks of of the the world, world, biologists biologists not not only only must must become become computer computer literate, literate, but but also also change change their their approach approach to to the the problem problem of of understanding understanding life. life. (Walter (WalterGilbert. Gilbert. 1991. 1991.Towards Towardsaaparadigm paradigmshift shiftininbiology. biology. Nature, Nature,349:99.) 349:99.) 4 What is bioinformatics? Bio: Molecular Biology Informatics: Computer Science Bioinformatics: Solving problems arising from biology using methodology from computer science. Synonyms: Computational biology, Computational molecular biology, Biocomputing Various -ome and -omics A gene → genome → genomics protein → proteome → proteomics interaction → interactome → ... transcriptional product → transcriptome → ... metabolite → metabolome → ... - ome means "as a whole" 5 Basic genetics Gene học cơ sở Phần lớn của 100 tỷ tế bào (cell) trong cơ thể con người có sự sao chép của toàn bộ hệ gene (human genome), là toàn bộ thông tin di truyền cần thiết để tạo ra cơ thể sống. Hạt nhân tế bào (cell nucleus) chứa DNA gói trong các cặp nhiễm sắc thể (chromosomes). DNA chứa gene, là mã của cơ thể và điều khiển mọi khía cạnh về phát triển và kế thừa của tế bào. Protein, tạo ra từ amino acids, là các thành phần thiết yếu của mọi cơ quan (organs) và hoạt động hóa học. 6 Small molecules Tiểu phân tử Có thể có các vai trò độc lập hoặc có thể là các khối tạo dựng của các đại phân tử (macromolecules). Thí dụ như phân tử nước, đường, acids béo (fatty), amino acids và đơn phân tử (nucleotides). Có 20 loại amino acids khác nhau, là các khối tạo dựng của proteins, mỗi loại được ký hiệu bởi một chữ cái Latin. 7 DNA (Deoxyribonucleic acid) DNA là phân tử mang thông tin chủ yếu trong một tế bào. DNA có thể là xoắn đơn (single) hay xoắn kép (double) Phân tử DNA xoắn đơn là một dãy các đơn phân tử (nucleotides), còn gọi đa đơn phân tử (polynucleotide). Các cặp đơn phân tử đặc biệt có thể tạo nên các liên kết yếu (weak bonds): A liên kết với T, C liên kết với G. A-T và G-C là các cặp cơ sở (base-pairs, bp) Khi hai dãy đa đơn phân tử liên kết với nhau, chúng thường dính vào nhau, gọi là các DNA xoắn kép (double helix). T-T-G-A-C-T-A-T-C-C-A-G-A-T-C A-A-C-T-G-A-T-A-G-G-T-C-T-A-G 8 DNA This structure was first figured out in 1953 in Cambridge by Watson and Crick 9 RNA (ribonucleic acid) RNA được tạo thành từ đơn phân tử như DNA. Tuy nhiên, RNA dùng U (uracil) thay vì T (pyrimidine thymine) là thành phần không có trong DNA (chỉ có dải đơn). RNA có nhiều chức năng trong tế bào, như mRNA và tRNA là các kiếu chức năng khác nhau của RNA, cần thiết trong sự tổng hợp protein. RNA có thể liên kết với một dải đơn của một phân tử DNA, bằng cách thay T bằng U, và các phân tử kiểu này có vai trò quan trọng trong các quá trình sống và công nghệ sinh học. C-G-A-T-T-G-C-A-A-C-G-A-T-G-C DNA | | | | | | | | | | || | | G-C-U-A-A-C-G-U-U-G-C-U-A-C-G RNA 10 Proteins Protein là một đại phân tử tạo thành từ một hay nhiều dãy amono acids theo một thứ tự đặc biệt; thứ tự này được xác định bởi dãy cơ sở (bazơ) các nucleotides trong gene mã hóa cho protein. Các proteins cần thiết cho cấu trúc, chức năng và điều chỉnh tế bào, mô và tổ chức, mỗi protein có một vai trò đặc biệt. Vài thí dụ về proteins là: Protein cấu trúc (Structural proteins), có thể coi như các khối tạo dựng cơ sở của sinh vật. Enzymes, thực hiện (xúc tác) một số lớn các phản ứng sinh hóa học. Cùng với các phản ứng này và các đường chuyển hóa (pathway) chúng tạo ra sự trao đổi chất (metabolism). Protein màng (transmembrane proteins): chìa khóa của sự duy trì môi trường tế bào (cellular environment), điều hòa dung tích tế bào, etc. Hormones, antibodies, etc. 11 Protein structures Cấu trúc protein Cấu trúc bậc một (primary structure) Cấu trúc bậc hai (secondary structure): alpha-helices (xoắn α) và beta-strands (dải β). Cấu trúc bậc ba (tertiary structure) Cấu trúc bậc bốn (quaternary structure) 12 Genes và sự tổng hợp protein Genes: các đoạn đặc biệt của DNA có chức năng điều khiển cấu trúc và hoạt động của tế bào; là đơn vị chức năng của sự di truyền. Tổng hợp protein là quá trình tạo ra proteins dựa trên thông tin được mã hóa trong genes, gồm ba giai đoạn chính: (1) Transcription (phiên mã) (2) Splicing (ghép mã) (3) Translation (dịch mã). Central Dogma of Molecular Biology DNA RNA Protein Function 13 Molecular Interactions Protein-Protein − − − − − Catalytic Complex Formation Catalytic Modulation Signaling Association Protein Modification Physical Structures: filaments, pores, membranes DNA-Protein − Gene regulation − Replication NA-NA − DNA-DNA helical pairing − DNA/RNA transcription − RNA-RNA splicing/translation BP C 14 Human genome project In 2000, the draft sequence of human genome was determined Started 1990. Goal: Identify all of human DNA sequences within 15 years (very ambitious!) "the most important, most wondrous map ever produced by humankind" 2003 99% of human genome sequences were identified with accuracy of 99.99% 15 Explosion of biological data Biologists are drawing by data! 10,267,507,282 bases in 9,092,760 records. 16 How genomic data look like? A portion of the DNA sequence, consisting of 1.6 million characters, is given as follows (about 350 characters, 4570 times smaller): TACATTAGTTATTACATTGAGAAACTTTATAATTAAAAAAGATTCATGTAAATTTCTTATT TGTTTATTTAGAGGTTTTAAATTTAATTTCTAAGGGTTTGCTGGTTTCATTGTTAGAATA TTTAACTTAATCAAATTATTTGAATTTTTGAAAATTAGGATTAATTAGGTAAGTAAATAAA ATTTCTCTAACAAATAAGTTAAATTTTTAAATTTAAGGAGATAAAAATACTACTCTGTTTT ATTATGGAAAGAAAGATTTAAATACTAAAGGGTTTATATATATGAAGTAGTTACCCTTAG AAAAATATGGTATAGAAAGCTTAAATATTAAGAGTGATGAAGTATATTATGT… Biological data is usually complex and difficult to analyze 17 Problems in bioinformatics Sequence analysis Sequence alignment DNA sequence analysis Statistical sequence matching Genomics Gene finding & prediction Functional genomics Structural genomics Proteomics Functional proteomics Structural proteomics Sequence, structure, function relationship Other problems Pathway analysis Gene expression & regulation ana. Protein-protein interaction 18 Problems in bioinformatics Sequence analysis Sequence alignment DNA sequence analysis Statistical sequence matching Genomics Gene finding & prediction Functional genomics Structural genomics Proteomics Functional proteomics Structural proteomics Sequence, structure, function relationship Other problems Pathway analysis Gene regulation & expression ana. Protein-protein interaction input: a DNA sequence Gene finding program (prediction program) output: regions of genes gene gene gene exons and introns (in case of eucaryote) 19 Problems in bioinformatics Sequence analysis Sequence alignment DNA sequence analysis Statistical sequence matching Genomics Functional proteomics Structural proteomics Sequence, structure, function relationship Other problems α helix Gene finding & prediction Functional genomics Structural genomics Proteomics Protein structure prediction Solving (discovering) the protein structure is difficult and expensive (50,000200,000€ per novel structure) Pathway analysis Gene regulation & expression ana. Protein-protein interaction Quaternary structure Tertiary structure β strand Pham T.H., Satou K., Ho T.B., “Using support vector machines for prediction and analysis of β-turns” Genome Informatics 2003 Pham, T.H., Satou, K., Ho, T.B. (2005). Support vector machines for prediction and analysis of beta and gamma turns in proteins, Journal of Bioinformatics and Computational Biology (JBCB) (in press). 20 Problems in bioinformatics Sequence analysis Sequence alignment DNA sequence analysis Statistical sequence matching Genomics Gene finding & prediction Functional genomics Structural genomics Proteomics Functional proteomics Structural proteomics Sequence, structure, function relationship Other problems Pathway analysis Gene regulation & expression ana. Protein-protein interaction PPI: Given a sequence or structure - in which part it interacts? - with which protein it interacts? - how tightly it interacts? Our approaches: Inductive logic programming, Bayesian networks. 21 Problems in bioinformatics Sequence analysis Sequence alignment DNA sequence analysis Statistical sequence matching Genomics Gene finding & prediction Functional genomics Structural genomics How gene expression is switched on and off, i.e., how genes are regulated? Proteomics Functional proteomics Structural proteomics Sequence, structure, function relationship Other problems Pathway analysis Gene regulation & expression ana. Protein-protein interaction Gene expression is the process by which a gene's coded information is converted into the structures present and operating in the cell. Expressed genes include those that are transcribed into mRNA and then translated into protein and those that are transcribed into RNA but not translated into protein. 22 Data mining: find knowledge in data the automatic extraction of non-obvious, hidden knowledge (patterns/models) from large volumes of data 106-1012 bytes (or more): never see the whole data set or put it in the memory of computers Data mining algorithms? Which form of knowledge? How to evaluate and use it? 23 Data types vs. Mining methods Types of data Flat data tables Relational database Temporal & Spatial Transactional databases Multimedia data Genome databases Materials science data Textual data Web data etc. Mining tasks and methods Classification/Prediction − Decision trees − Neural network − Rule induction − Support vector machines − Hidden Markov Model − etc. Description − Association analysis − Clustering − Summarization − etc. 24 Lessons learned Understand the problem in biology View the task in terms of data mining and which kinds of models/patterns to be found. Know what factors/attributes are relevant to the problem and know how to represent them in appropriate input form to data mining programs. Decide which techniques can be used to solve the problem. In many cases, techniques may need adaptation/improvement. Interpret and evaluate findings. 25 Outline Bioinformatics: problems and issues Some research results 26 Mechanism of transcription A gene needs some special proteins binding to its promoter to be expressed These special proteins are called regulators/ transcriptional factors/ activators/ repressors Gene transcripts 27 Regulatory Network If C then NOT D B A A Protein Gene D C C If A and B then D B the special proteins make a gene expressed to produce its protein. This protein may in turn make other genes expressed Protein D gene C D E Gene C If D then B 28 Summary of our work DNA-factor interactions Association Rule Mining (ARM) Clustering genes into modules (TRM: Transcriptional Regulatory Modules) Pham T.H., Satou K., Ho T.B., “Mining yeast transcriptional regulatory modules from binding sites and gene expression data, Genome Informatics 2004. Gene expression profiles Rule Induction (IR) Discovering the relationships between the expression of target genes and that of their transcription factors Pham T.H., J.C. Clemente, Satou K., Ho T.B., “Computational discovery of transcriptional regulatory rules”, Bioinformatics 2005 (submitted). 29 Datasets Data of factor-DNA interactions Data of gene expression profiles 6272 genes x 113 transcription factors 6293 genes x 213 experiments 30 Transcriptional Regulatory Modules (TRM) A kind of motifs in regulatory network with the form: TFset: TFset TFset → GeneSet → GeneSet − bind to the promoter of each gene in GeneSet − control their expression (positive or negative regulation) TF2 TF4 TF5 Make G3 TF2 TF4 TF5 Make G8 TF2, TF4, TF5 → G3, G8 31 Basic idea Previous methods: Our method: −first cluster genes into modules based on gene expression profiles (by normal clustering methods) −then analyze the data of factor-DNA interactions in each module − first cluster genes into modules based on factorDNA interactions data (by a new clustering approach: closed itemset mining) − then analyze expression profiles of genes in each module We emphasize on the regulation mechanism 32 Φ New clustering approach TF1(5) Factor-DNA interaction TF2(6) TF1,3(2) TF1,2(3) Closed factorset lattice 2 3 1 TF1 TF2 TF3 TF4 TF5 G1 1 1 0 1 1 G2 1 1 0 0 0 G3 0 1 0 1 1 G4 0 1 0 0 1 G5 1 0 1 0 0 G6 0 0 0 1 1 G7 1 1 0 0 0 G8 0 1 0 1 1 G9 1 0 1 0 0 Database of “transactions” 3 TF5(5) TF2,5(4) TF4,5(4) TF2,4,5(3) TF1,2,4,5(1) G1,2,3,4,5,6,7,8,9 G1,2,5,7,9 G5,9 G1,2,3,4,7,8 G1,2,7 G1,3,4,6,8 G1,3,4,8 G1,3,6,8 G1,3,8 G1 33 Example of TRM Module: 30 Regs: HIR2 & HIR1 #Support: 7 Similar_ratio: 0.71 0.028 YDR225W histone H2A 0.042 YNL030W histone H4 0.046 YNL031C histone H3 0.050 YDR224C histone H2B 0.051 YBR009C histone H4 0.096 YBR010W histone H3 0.38 YPR195C hypothetical protein Pearson correlation: =1 >=0.8 >=0.5 <0.5 http://www.jaist.ac.jp/~h-pham/regulation 34 Findings and evaluation Database Database of of 2363 2363 transactions transactions 405 405 candidate candidate closed closed sup-TRMs sup-TRMs 157 157 candidate candidate closed closed inf-TRMs inf-TRMs 141 141 closed closed sup-TRMs sup-TRMs 40 40 closed closed inf-TRMs inf-TRMs 81 of 141 sup-TRMs and 29 of 40 inf-TRMs contain genes that have significant shared GO terms. Many TRMs contain genes that are similar to gene modules previously found by other studies. Some TRMs reveal complexes of factors that incorporate each other to control the expression of genes. 35 Regulatory table, regulatory rules Rule1: If RAP1= I and FHL1= I then YBR181C = I D: decreased; I: increased; N: no change RAP1 FHL1 D YBR181C I N D D 1346 212 227 I D 104 189 52 N D 301 220 103 I D 345 248 111 I I 311 1552 293 I N 399 494 236 … … Rule mining by CN2 Rule2: If RAP1= D and FHL1= D then YBR181C = D RAP1 and FHL1 also positively regulate more than 30 genes. 36 Conclusion Bioinformatics is an emerging and challenging field. The obtained results are encouraging. Bioinformatics could be a promising scientific direction in Vietnam. Darwin: It’s not the strongest, nor the most intelligent, but the species most adaptable to change has the best chance of survival. 37 Why use closed itemsets mining? The space of closed itemsets is much smaller than the space of all itemsets, but represents the same knowledge from the database. Space of all itemsets TID Items 1 ACD 2 BCE 3 ABCE 4 BE 5 ABCE Space of closed itemsets 38 Results 39 Φ New clustering approach TF1(5) Factor-DNA interaction TF2(6) TF1,3(2) TF1,2(3) Closed factorset lattice 2 3 1 TF1 TF2 TF3 TF4 TF5 G1 1 1 0 1 1 G2 1 1 0 0 0 G3 0 1 0 1 1 G4 0 1 0 0 1 G5 1 0 1 0 0 G6 0 0 0 1 1 G7 1 1 0 0 0 G8 0 1 0 1 1 G9 1 0 1 0 0 Database of “transactions” 3 TF5(5) TF2,5(4) TF4,5(4) TF2,4,5(3) TF1,2,4,5(1) G1,2,3,4,5,6,7,8,9 G1,2,5,7,9 G5,9 G1,2,3,4,7,8 G1,2,7 G1,3,4,6,8 G1,3,4,8 G1,3,6,8 G1,3,8 G1 40 “Sống”, Tạ Quang Bửu (1948) “…Một đêm tháng 10 năm 1910, một tế bào haploid (cùng một gamète với 24 chromosome) của cha tôi gặp một tế bào (cùng một gamète với 24 chromosome) của mẹ tôi. Hai tế bào ấy phối hợp với nhau thành một tế bào trứng với hai lần 24 chromosome. Tế bào này chẻ đôi sinh ra hai tế bào nữa, rồi hai sinh ra bốn, bốn sinh ra tám, v,v… thành một khối tế bào. Khối tế bào này là tôi. Chín tháng sau tôi ra đời với những đặc điểm này: da đen, mắt hoe, chân ngắn như ông nội tôi; mồm rộng, vai ngang, tai nhỏ như bà ngoại tôi. Ngoài ra trong thân thể có chỗ thì giống ông ngoại, có chỗ giống bà nội tôi. Còn tính lười đặc biệt của tôi thì xem gia phả đến bậc ông cố nội ngoại cũng không thấy tông tích. Có lẽ phải lên xa nữa. Ba năm sau, cũng theo một loạt biến cố như trên, em tôi ra đời. Em tôi thì mồm rộng, da trắng, mắt hoe, chân dài. Những đặc điểm của nó cũng là những đặc điểm của hai gia đình chúng tôi, nhưng phân phối lại cách khác.” 41 Basic genetics Gene học cơ sở Phần lớn của 100 tỷ tế bào (cell) trong cơ thể con người có sự sao chép của toàn bộ hệ gene (human genome), là toàn bộ thông tin di truyền cần thiết để tạo ra cơ thể sống. Hạt nhân tế bào (cell nucleus) chứa DNA gói trong các cặp nhiễm sắc thể (chromosomes). DNA chứa gene, là mã của cơ thể và điều khiển mọi khía cạnh về phát triển và kế thừa của tế bào. Protein, tạo ra từ amino acids, là các thành phần thiết yếu của mọi cơ quan (organs) và hoạt động hóa học. 42