Биоинформатика, или молекулярная биология in silico Михаил Гельфанд ИППИ РАН Физтех, 12.IV.2010 Расшифрован геном! 622 полных геномов бактерий (в 2010 уже больше тысячи) 186 200 180 142 160 140 120 100 80 60 40 48 3 3 6 6 7 66 81 30 25 19 20 0 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 Количество полных бактериальных геномов Расшифрован ли геном? Перехватить зашифрованное сообщение – еще не значит его понять 0.1% генома E. coli Геном бактерии: несколько миллионов нуклеотидов От 600 до 9 тысяч генов (примерно 90% генома кодирует белки) 0.0001% генома человека Геном человека: 3 000 000 000 нуклеотидов Примерно 20 тысяч генов, < 5% генома кодирует белки Рост объема данных 100000000000 10000000000 1000000000 100000000 10000000 1000000 100000 10000 1000 100 1982 1987 1992 красный – статьи (PubMed) голубой – фрагменты ДНК (GenBank) зеленый – нуклеотиды (GenBank) 1997 2002 2007 из 18 млн. статей в PubMed, ~675 тыс. имеют ключевое слово “bioinformat* OR comput*” Не только тексты Можно использовать данные, которые порождаются другими типами массовых экспериментов • Уровень экспрессии: – Концентрации мРНК – Концентрации белков – Время жизни мРНК и белков • Взаимодействия: – Белок-ДНКовые – Белок-белковые • Структура генома – Метилирование ДНК – Положение и модификация нуклеосом • Функционально-генетические – Летальность и фенотип мутаций – Синтетические летали Экспрессия (уровень работы) генов Цикл развития малярийного плазмодия Развитие цветка резухи Таля двойная кластеризация – на генах и на условиях Белок-белковые (структурные, сигнальные и др.) и белок-ДНКовые (регуляторные) взаимодействия в дрожжах Задачи • Картирование генов и составление списка белков, структурных и функциональных РНК и т.п. • Функциональная аннотация генов и белков – биологическая функция (что делает) – регуляция (в каких условиях работает) • Функциональная аннотация геномов – метаболическая реконструкция и моделирование – регуляторные сети, моделирование развития – предсказание свойств организма по геному Идентификация генов • Основные идеи придуманы (в 80-90х гг.) и реализованы (в 90-2000х). • Постепенное улучшение программ Таблица генетического кода Поиск генов если известен белок: просто … или родственный белок: тоже просто Генетический код: стоп-кодоны TTT TTC TTA TTG CTT CTC CTA CTG ATT ATC ATA ATG GTT GTC GTA GTG F F L L L L L L I I I M/ start V V V V TCT TCC TCA TCG CCT CCC CCA CCG ACT ACC ACA ACG GCT GCC GCA GCG S S S S P P P P T T T T A A A A TAT TAC TAA TAG CAT CAC CAA CAG AAT AAC AAA AAG GАT GАC GАA GАG Y Y stop stop H H Q Q N N K K D D E E TGT TGC TGA TGG CGT CGC CGA CGG AGT AGC AGA AGG GGT GGC GGA GGG C C stop W R R R R S S R R G G G G Открытые рамки считывания Ген должен располагаться внутри области от стопкодона до следующего стоп-кодона (в той же фазе) Генетический код: синонимы TTT TTC TTA TTG CTT CTC CTA CTG ATT ATC ATA ATG GTT GTC GTA GTG F F L L L L L L I I I M/ start V V V V TCT TCC TCA TCG CCT CCC CCA CCG ACT ACC ACA ACG GCT GCC GCA GCG S S S S P P P P T T T T A A A A TAT TAC TAA TAG CAT CAC CAA CAG AAT AAC AAA AAG GАT GАC GАA GАG Y Y stop stop H H Q Q N N K K D D E E TGT TGC TGA TGG CGT CGC CGA CGG AGT AGC AGA AGG GGT GGC GGA GGG C C stop W R R R R S S R R G G G G Codon usage (статистика употребления кодонов) • частоты кодонов отличаются от частот триплетов в некодирующих областях – различия в частотах аминокислот в белках – различия в частотах синонимичных кодонов • частоты синонимичных кодонов – специфичны для генома – коррелируют с концентрациями тРНК Статистические особенности Можно ввести функцию, которая измеряет частоты кодонов в кодирующих и некодирующих областях (скользящее окно, три рамки считывания) GenMark Генетический код: старт-кодоны TTT TTC TTA TTG CTT CTC CTA CTG ATT ATC ATA ATG GTT GTC GTA GTG F F L L L L L L I I I M/ start V V V V TCT TCC TCA TCG CCT CCC CCA CCG ACT ACC ACA ACG GCT GCC GCA GCG S S S S P P P P T T T T A A A A TAT TAC TAA TAG CAT CAC CAA CAG AAT AAC AAA AAG GАT GАC GАA GАG Y Y stop stop H H Q Q N N K K D D E E TGT TGC TGA TGG CGT CGC CGA CGG AGT AGC AGA AGG GGT GGC GGA GGG C C stop W R R R R S S R R G G G G Начала генов Bacillus subtilis dnaN gyrA serS bofA csfB xpaC metS gcaD spoVC ftsH pabB rplJ tufA rpsJ rpoA rplM ACATTATCCGTTAGGAGGATAAAAATG GTGATACTTCAGGGAGGTTTTTTAATG TCAATAAAAAAAGGAGTGTTTCGCATG CAAGCGAAGGAGATGAGAAGATTCATG GCTAACTGTACGGAGGTGGAGAAGATG ATAGACACAGGAGTCGATTATCTCATG ACATTCTGATTAGGAGGTTTCAAGATG AAAAGGGATATTGGAGGCCAATAAATG TATGTGACTAAGGGAGGATTCGCCATG GCTTACTGTGGGAGGAGGTAAGGAATG AAAGAAAATAGAGGAATGATACAAATG CAAGAATCTACAGGAGGTGTAACCATG AAAGCTCTTAAGGAGGATTTTAGAATG TGTAGGCGAAAAGGAGGGAAAATAATG CGTTTTGAAGGAGGGTTTTAAGTAATG AGATCATTTAGGAGGGGAAATTCAATG Участок связывания рибосом dnaN gyrA serS bofA csfB xpaC metS gcaD spoVC ftsH pabB rplJ tufA rpsJ rpoA rplM ACATTATCCGTTAGGAGGATAAAAATG GTGATACTTCAGGGAGGTTTTTTAATG TCAATAAAAAAAGGAGTGTTTCGCATG CAAGCGAAGGAGATGAGAAGATTCATG GCTAACTGTACGGAGGTGGAGAAGATG ATAGACACAGGAGTCGATTATCTCATG ACATTCTGATTAGGAGGTTTCAAGATG AAAAGGGATATTGGAGGCCAATAAATG TATGTGACTAAGGGAGGATTCGCCATG GCTTACTGTGGGAGGAGGTAAGGAATG AAAGAAAATAGAGGAATGATACAAATG CAAGAATCTACAGGAGGTGTAACCATG AAAGCTCTTAAGGAGGATTTTAGAATG TGTAGGCGAAAAGGAGGGAAAATAATG CGTTTTGAAGGAGGGTTTTAAGTAATG AGATCATTTAGGAGGGGAAATTCAATG Сравнение генов в родственных геномах Гены консервативнее, чем межгенные области (точнее, особенности эволюции другие) pdxB Периодичность нуклеотидных замен в белок-кодирующих областях Sty Stm Sen Eco Kpn Ype GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC GTAACACAAAC--GTGAAAATCCTTGTTGATGAAAATATGCCTTATGCCCGC GTACTGAACT---GTGAAAATCCTCGTTGATGAAAATATGCCCTATGCCCGT GTCGGAGAGTAAAGTGAAAATTCTGGTTGATGAAAATATGCCGTACGCTGAG * * ******** ** ***************** ** ** 123123123123123123123123123123123123123 5 синонимичных замен, 1 замена аминокислоты Размер вставок кратен 3 (иначе случится сдвиг рамки) rbsD в энтеробактериях Sty Sen Stm Eco Ype AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** ***** Sty Sen Stm Eco Ype ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** **** ** ** **** ** *********** ***** *** * rbsD в энтеробактериях: ответ Sty Sen Stm Eco Ype AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** ***** Sty Sen Stm Eco Ype ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** **** ** ** **** ** *********** ***** *** * Существующая аннотация (была) неправильна Sty Sen Stm Eco Ype AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** ***** Sty Sen Stm Eco Ype ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** **** ** ** **** ** *********** ***** *** * Мораль • Комплексный подход: использование многих разнородных соображений, каждое из которых по отдельности – слабое • Сравнительный подход: одновременный анализ множества геномов (находящихся на различных эволюционных расстояниях друг от друга) Транспортеры • Два основных класса – АТФ-зависимые • Трансмембранный белок • АТФаза • Субстрат-связывающий белок – Вторичные (симпортеры, антипортеры) • Трудно изучать экспериментально (по сравнению с ферментами) • Относительно легко идентифицировать – Сходство с известными транспортерами – Предсказание трансмембранных сегментов • Трудно предсказать специфичность H+ Субстрат-связывающие белки, семейство транспортеров «никеля и олигопептидов» Семейство транспортеров витаминов Принцип Пирсона Консервативно то, что важно • ко-локализация – рядом в одном геноме – филетические паттерны • ферменты – в одних и тех же геномах • транспортеры – в завичимости от вещества • ко-регуляция – филогенетический футпринтинг – «проверка соответствия» (consistency check) rbsD в энтеробактериях: сайт связывания RbsR Sty Sen Stm Eco Ype AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** ***** Sty Sen Stm Eco Ype ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** **** ** ** **** ** *********** ***** *** * Метод проверки соответствия Ген регулируется Ген НЕ регулируется ? Метаболический путь синтеза рибофлавина (витамин В2) PURINE BIOSYNTHESIS PATHWAY GTP ribA PENTOSE-PHOSPHATE PATHWAY ribA GTP cyclohydrolase II 2,5-diamino-6-hydroxy-4-(5`-phosphoribosylamino)pyrimidine ribG ribA Pyrimidine deaminase 5-amino-6-(5`-phosphoribosylamino)uracil ribulose-5-phosphate 3,4-DHBP synthase ribD ribB ribG 3,4-dihydroxy-2-butanone-4-phosphate ribD Pyrimidine reductase 5-amino-6-(5`-phosphoribitylamino)uracil ribH ribH Riboflavin synthase, β-chain 6,7-dimethyl-8-ribityllumazine ribB ypaA ribE Riboflavin Riboflavin synthase, α-chain Консервативная последовательность перед генами рибофлавинового пути из очень разных бактерий BS BQ BE HD Bam CA DF SA LLX PN TM DR TQ AO DU CAU FN TFU SX BU BPS REU RSO EC TY KP HI VK VC YP AB BP AC Spu PP AU PU PY PA MLO SM BME BS BQ BE CA DF EF LLX LO PN ST MN SA AMI DHA FN GLU 1 2 2’ 3 =========> ==> <== ===> TTGTATCTTCGGGG-CAGGGTGGAAATCCCGACCGGCGGT AGCATCCTTCGGGG-TCGGGTGAAATTCCCAACCGGCGGT TGCATCCTTCGGGG-CAGGGTGAAATTCCCGACCGGCGGT TTTATCCTTCGGGG-CTGGGTGGAAATCCCGACCGGCGGT TGTATCCTTCGGGG-CTGGGTGAAAATCCCGACCGGCGGT GATGTTCTTCAGGG-ATGGGTGAAATTCCCAATCGGCGGT CTTAATCTTCGGGG-TAGGGTGAAATTCCCAATCGGCGGT TAATTCTTTCGGGG-CAGGGTGAAATTCCCAACCGGCAGT ATAAATCTTCAGGG-CAGGGTGTAATTCCCTACCGGCGGT AACTATCTTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT AAACGCTCTCGGGG-CAGGGTGGAATTCCCGACCGGCGGT GACCTCTTTCGGGG-CGGGGCGAAATTCCCCACCGGCGGT CACCTCCTTCGGGG-CGGGGTGGAAGTCCCCACCGGCGGT AATAATCTTCAGGG-CAGGGTGAAATTCCCGATCGGCGGT TTTAATCTTCAGGG-CAGGGTGAAATTCCCGATCGGTGGT GAAGACCTTCGGGG-CAAGGTGAAATTCCTGATCGGCGGT TAAAGTCTTCAGGG-CAGGGTGAAATTCCCGACCGGTGGT ACGCGTGCTCCGGG-GTCGGTGAAAGTCCGAACCGGCGGT -AGCGCACTCCGGG-GTCGGTGAAAGTCCGAACCGGCGGT GTGCGTCTTCAGGG-CGGGGTGAAATTCCCCACCGGCGGT GTGCGTCTTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT TTACGTCTTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT GTACGTCTTCAGGG-CGGGGTGGAATTCCCCACCGGCGGT GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT TCGCATTCTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT GCGCATTCTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT CAATATTCTCAGGG-CGGGGCGAAATTCCCCACCGGTGGT GCTTATTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT GCGCATTCTCAGGG-CAGGGTGAAAGTCCCTACCGGTGGT GTACGTCTTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT ACATCGCTTCAGGG-CGGGGCGTAATTCCCCACCGGCGGT AACAATTCTCAGGG-CGGGGTGAAACTCCCCACCGGCGGT GTCGGTCTTCAGGG-CGGGGTGTAAGTCCCCACCGGCGGT GGTTGTTCTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT AAACGTTCTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT TAACGTTCTCAGGG-CGGGGTGCAACTCCCCACCGGCGGT TAACGTTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT TAAAGTTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT AAGCGTTCTCAGGG-CGGGGTGAAATTCCCCACCGGCGGT GCTTGTTCTCGGGG-CGGGGTGAAACTCCCCACCGGCGGT ATCAATCTTCGGGG-CAGGGTGAAATTCCCTACCGGCGGT GTCTATCTTCGGGG-CAGGGTGAAAATCCCGACCGGCGGT ATTCATCTTCGGGG-CAGGGTGAAATTCCCGACCGGCGGT AATGATCTTCAGGG-CAGGGTGAAATTCCCTACCGGCGGT GAAGATCTTCGGGG-CAGGGTGAAATTCCCTACCGGCGGT GTTCGTCTTCAGGGGCAGGGTGTAATTCCCGACCGGTGGT AAATATCTTCAGGG-CACCGTGTAATTCGGGACCGGCGGT GTTCATCTTCGGGG-CAGGGTGCAATTCCCGACCGGTGGT AAGAGTCTTCAGGG-CAGGGTGAAATTCCCGACCGGCGGT AAGTGTCTTCAGGG-CAGGGTGTGATTCCCGACCGGCGGT AAGTGTCTTCAGGG-CAGGGTGAGATTCCCGACCGGCGGT ATTCATCTTCGGGG-TCGGGTGTAATTCCCAACCGGCAGT TCACAGTTTCAGGG-CGGGGTGCAATTCCCCACTGGCGGT ACGAACCTTCGAGG-TAGGGTGAAATTCCCGACCGGCGGT AATAATCTTCGGGG-CAGGGTGAAATTCCCGACCGGTGGT ---TGTTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT Add. 3’ -><<=== 21 AGCCCGTGAC-19 AGTCCGTGAC-20 AGCCCGCGA--19 AGTCCGTGAC-23 AGCCCGTGAC-2 AGCCCGCAA--2 AGCCCGCG---6 AGCCTGCGAC-2 AGCCCGCGA--2 AGCCCACGA--3 AGCCCGCGAG-15 AGCCCGCGAA-3 AGCCCGCGAA-2 AGTCCGCGA--2 AGTCCGCGA--20 AGCCCGCGA--2 AGTCCACG---3 AGTCCGCGAC-3 AGTCCGCGAC-30 AGCCCGCGAGCG 21 AGCCCGCGAGCG 31 AGCCCGCGAGCG 21 AGCCCGCGAGCG 17 AGCCCGCGAGCG 67 AGCCCGCGAGCG 20 AGCCCGCGAGCG 2 AGCCCACGAGCG 14 AGCCCACGAGCG 13 AGCCCACGAGCG 40 AGCCCGCGAGCG 25 AGCCCACGAGCG 18 AGCCCGCGAGCG 16 AGCCCGCGAGCA 34 AGCCCGCGAGCG 13 AGCCCGCGAGCG 17 AGCCCGCGAGCG 19 AGCCCGCGAGCG 19 AGCCCGCGAGCG 19 AGCCCGCGAGCG 16 AGCCCGCGAGCG 34 AGCCCGCGAGCG 17 AGCCCGCGAGCG 18 AGCCCGCGA--27 AGCCCGCGA—-20 AGCCCGCGA--2 AGCCCGCGAG-2 AGCCCGCG---3 AGTCCACGAC-21 ACTCCGCGAT-3 AGTCCACGAT-125 AGTCCGTG---14 AGTCCGCG---104 AGTCCGCG---6 AGCCTGCGAC-14 AGCCCGCGC--20 AGCCCGCAAC-2 AGTCCACG---28 AGCCCGCGAGCG Variable 4 4’ 5 5’ 1’ -> <====> <==== ==> <== <========= 8 4 8 -----TGGATTCAGTTTAA-GCTGAAGCCGACAGTGAA-AGTCTGGAT-GGGAGAAGGATGAT 8 5 8 -----TGGATCTAGTGAAACTCTAGGGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGGATATG 3 4 3 -----AGGATCCGGTGCGATTCCGGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGGATGCC 10 4 10 ----–TGGACCTGGTGAAAATCCGGGACCGACAGTGAA-AGTCTGGAT-GGGAGAAGGAAACG 8 4 8 ----–TGGATTCAGTGAAAAGCTGAAGCCGACAGTGAA-AGTCTGGAT-GGGAGAAGGATGAG 3 4 3 ------AGATCCGGTTAAACTCCGGGGCCGACAGTTAA-AGTCTGGAT-GAAAGAAGAAATAG 7 6 7 --------ATTTGGTTAAATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GGAAGAAGATATTT 11 3 11 ----–CTGATCTAGTGAGATTCTAGAGCCGACAGTTAA-AGTCTGGAT-GGGAGAAAGAATGT 4 4 4 -----ATGATTCGGTGAAACTCCGAGGCCGACAGT-AT-AGTCTGGAT-GAAAGAAGATAATA 3 4 3 -----ATGATTTGGTGAAATTCCAAAGCCGACAGT-AT-AGTCTGGAT-GAAAGAAGATAAAA 5 4 5 ----–TTGACCCGGTGGAATTCCGGGGCCGACGGTGAA-AGTCCGGAT-GGGAGAGAGCGTGA 8 12 9 ----–CCGATGCCGCGCAACTCGGCAGCCGACGGTCAC-AGTCCGGAC-GAAAGAAGGAGGAG 5 4 5 -----CCGACCCGGTGGAATTCCGGGGCCGACGGTGAA-AGTCCGGAT-GGGAGAAGGAGGGC 7 7 7 -----AGGAACCGGTGAGATTCCGGTACCGACAGT-AT-AGTCTGGAT-GGAAGAAGATGAAA 13 4 12 -----AGGAACTAGTGAAATTCTAGTACCGACAGT-AT-AGTCTGGAT-GGAAGAAGAGCAGA 3 4 3 -----AGGACCCGGTGTGATTCCGGGGCCGACGGT-AT-AGTCCGGAT-GGGAGAAGGTCGGC 5 4 5 -------GATTTGGTGAAATTCCAAAACCGACAGT-AG-AGTCTGGAT-GGGAGAAGAATTAG 8 5 8 -----TGGAACCGGTGAAACTCCGGTACCGACGGTGAA-AGTCCGGAT-GGGAGGTAGTACGTG 8 5 8 -----TTGACCAGGTGAAATTCCTGGACCGACGGTTAA-AGTCCGGAT-GGGAGGCAGTGCGCG 137 GTCAGCAGATCTGGTGAGAAGCCAGAGCCGACGGTTAG-AGTCCGGAT-GGAAGAAGATGTGC 8 4 8 GTCAGCAGATCTGGTCCGATGCCAGAGCCGACGGTCAT-AGTCCGGAT-GAAAGAAGATGTGC 7 5 7 GTCAGCAGATCTGGTGAGAGGCCAGGGCCGACGGTTAA-AGTCCGGAT-GAAAGAAGATGGGC 11 3 11 GTCAGCAGATCCGGTGAGATGCCGGGGCCGACGGTCAG-AGTCCGGAT-GGAAGAAGATGTGC 8 4 8 GACAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAG-AGTCCGGAT-GGGAGAGAGTAACG 8 3 8 GTCAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAA-AGTCCGGAT-GGGAGAGGGTAACG 8 4 8 GTCAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAA-AGTCCGGAT-GGGAGAGAGTAACG 26 9 30 GTCAGCAGATTTGGTGAAATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GAAAGAGAATAAAA 11 9 11 GTCAGCAGATTTGGTGAGAATCCAAAGCCGACAGT-AT-AGTCTGGAT-GAAAGAGAATAAGC 5 4 5 GTCAGCAGATCTGGTGAGAAGCCAGGGCCGACGGTTAC-AGTCCGGAT-GAGAGAGAATGACA 16 6 16 GTCAGCAGACCCGGTGTAATTCCGGGGCCGACGGTTAT-AGTCCGGAT-GGGAGAGAGTAACG 16 4 27 GTCAGCAGATTTGGTGCGAATCCAAAGCCGACAGTGAC-AGTCTGGAT-GAAAGAGAATAAAA 10 4 10 GTCAGCAGACCTGGTGAGATGCCAGGGCCGACGGTCAT-AGTCCGGAT-GAGAGAAGATGTGC 10 3 11 ---CGCAGATCTGGTGTAAATCCAGAGCCGACGGT-AT-AGTCCGGAT-GAAAGAAGACGACG 6 6 6 GTCAGCAGATCTGGTG 52 TCCAGAGCCGACGGT 31 AGTCCGGAT-GGAAGAGAATGTAA 7 3 7 GTCAGCAGATCTGGTGCAACTCCAGAGCCGACGGTCAT-AGTCCGGAT-GAAAGAAGGCGTCA 7 9 7 GTCAGCAGATCCGGTGAGAGGCCGGAGCCGACGGT-AT-AGTCCGGAT-GGAAGAGGACAAGG 19 4 18 GTCAGCAGACCCGGTGTGATTCCGGGGCCGACGGTCAC-AGTCCGGATGAAGAGAGAACGGGA 15 4 16 GTCAGCAGACCCGGTGTGATTCCGGGGCCGACGGTCAT-AGTCCGGATGAAGAGAGAGCGGGA 14 4 13 GTCAGCAGACCCGGTGCGATTCCGGGGCCGACGGTCAT-AGTCCGGATAAAGAGAGAACGGGA 8 5 8 GTCAGCAGATCCGGTGTGATTCCGGAGCCGACGGTTAG-AGTCCGGAT-GAAAGAGGACGAAA 8 3 8 GTCAGCAGATCCGGTCGAATTCCGGAGCCGACGGTTAT-AGTCCGGAT-GGAAGAGAGCAAGC 10 15 10 GTCAGCAGATCCGGTGAGATGCCGGAGCCGACGGTTAA-AGTCCGGAT-GGAAGAGAGCGAAT 5 4 5 -----AGGATTCGGTGAGATTCCGGAGCCGACAGT-AC-AGTCTGGAT-GGGAGAAGATGGAG 3 5 3 -----AGGATTTGGTGTGATTCCAAAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGGAG 3 4 3 -----AGGATCCGGTGCGAGTCCGGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGAAG 3 4 3 ----TATGATCCGGTTTGATTCCGGAGCCGACAGT-AA-AGTCTGGAT-GAAAGAAGATATAT 6 4 6 -------GATTTGGTGAGATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GAGAGAAGATATTT 5 3 5 ----ATTGAATTGGTGTAATTCCAATACCGACAGT-AT-AGTCTGGAT—-AAAGAAGATAGGG 4 4 4 ----–TTGAAGCAGTGAGAATCTGCTAGCGACAGT-AA-AGTCTGGAT-GGAAGAAGATGAAC 3 10 3 ----TTGACTCTGGTGTAATTCCAGGACCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGTTG 3 4 3 -------GATGTGGTGAGATTCCACAACCGACAGT-AT-AGTCTGGAT-GGGAGAAGACGAAA 3 4 3 -------GATGTGGTGTAACTCCACAACCGACAGT-AT-AGTCTGGAT-GAGAGAAGACCGGG 3 4 3 -------GATGTGGTGAAATTCCACAACCGACAGT-AA-AGTCTGGAT-GGGAGAAGACTGAG 11 3 11 ----–CTGATCTAGTGAGATTCTAGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGGAG 5 5 5 ------TGATCTGGTGCAAATCCAGAGCCAACGGT-AT-AGTCCGGAT-GGAAGAAACGGAGC 11 4 11 --CGACTGACTTGGTGAGACTCCAAGGCCGACGGT-AT-AGTCCGGAT-GGGAGAAGGTACAA 4 6 4 -------GATTTGGTGAAATTCCAAAACCGACAGT-AG-AGTCTGGAT-GAGAGAAGAAAAGA 10 4 10 GTCAGCAGATCCGGTTAAATTCCGGAGCCGACGGTCAT-AGTCCGGAT-GCAAGAGAACC--- Консервативная вторичная структура RFNэлемента variable additional stemloop stem-loop Ag Y u CC N R rU G GY Y G N G 3 G C c A A N UC C c N a * GGgN N c G Y 2 x G G g rC U Y Y 1 y N N N N 5’ KN R A RG K x Y yB RYC V Rr C 4 C G A U xN CRG N AG Y C UG A x R R 5 g x u A * * * * GG A Capitals: invariant (absolutely conserved) positions. R R Lower case letters: strongly conserved positions. r N Dashes and stars: obligatory and facultative base pairs N N N: any nucleotide. X: any nucleotide or deletion N 3’ RFN: механизм регуляции • Transcription attenuation • Translation attenuation … и еще перед одним геном (ypaA) цветные стрелки – гены пути желтые стрелки – ypaA, ген с неизвестной функцией черные стрелки – регуляторный элемент additional stemloop variable stem-loop Ag Y u C N rU G CRY G N GY G 3 G C c A N A UC CcN a * GGgN N c G Y 2 x G G g rC U Y Y 1 y N N N N 5’ * * * * G A R R r N N N N KN R A x Y K B y YC VR Rr C 4 C G A U xN CRG N AG Y C UG A x R R 5 g x u GA RG 3’ YpaA/RibU: транспортёр рибофлавина • 5 предсказанных ТМ-сегментов => потенциальный транспортёр • регуляторный RFN-элемент => корегуляция с генами метаболизма рибофлавина => транспорт рибофлавина или предшественника • S. pyogenes, E. faecalis, Listeria: есть ypaA, нет генов биосинтеза рибофлавина => транспорт рибофлавина Предсказание: YpaA – рибофлавиновый транспортёр (Gelfand et al., 1999) Проверка: • генетический анализ (Кренева и др., 2000) • биохимический эксперимент (Burgess et al., 2006) Биотиновый транспортер BioY Метаболическая реконструкция пути биосинтеза тиамина (витамин В1) = thiN (confirmed) Transport of HMP Transport of HET (Gram-positive bacteria) (Gram-negative bacteria) yuaJ(=thiT) тиаминовый транспортер (возможно, H+зависимый) в фирмикутах • 6 предсказанных трансмембранных сегментов • Почти всегда регулируется THI-рибопереключателями • Встречается в геномах, в которых отсутствует тиаминовый путь (Streptococcus spp.); • В B. cereus импорт тиамина сопряжен с током протонов (Arch. Microbiol., 1977) thiX-thiY-thiZ и ykoF-ykoEykoD-ykoC: предсказанные АТФ-зависимые транспортеры HMP • Почти всегда регулируются THI-рибопереключателями • Не встречаются в геномах, в которых отсутствует тиаминовый путь • Всегда встречаются вместе с thiD и thiE • В ряде геномов (Pasteurellacee, Brucella некоторые фирмикуты) встречаются в отсутствие thiC Co и Ni • ко-локализация (хромосомные локусы) – транспортеры Ni – с генами никельзависимых ферментов – транспортеры Co – с генами синтеза кобаламина • ко-регуляция – транспортеры Ni – фактор транскрипции NikR – транспортеры Co – рибопереключатель В12 Add-I g aN t C t Gg cg N N N N P2 A A G G G a N a a c P1 r C c y G d RC N g k c tG y G h C c G C P3 h a C K G T r a P4 r A G Y C C d C G M B12 box k G C g A C BII VS P5 A g c C P6 Add-II CTG c gG GGY AG A The Bacillus/ Clostridium group γ-proteobacteria a g P0 5' BI Facultative stem-loop 3' base stem Other taxonomic groups Дмитрий Родионов ÆÆÆ Thomas Eitinger Пять семейств транспортеров Новое семейство транспортеров Co и Ni Структура локусов гены B12-элемент сайт связывания NikR Проверка: тест на транспорт ионов Co Co Ni Ni Ni Co Структура: слишком много компонентов Биотиновый транспортер BioY • АТФаза BioM ~ CbiO = NikO • Пермеаза BioN ~ CbioQ = NikQ Для транспорта достаточно компонент МN (первый пример такого АВС-транспортера) cbiMNQO cbiMNQ cbiMN cbiM контроль BioY тоже достаточно (даже в геномах, содержащих BioMN); у BioMNY более крутая кинетика Верхушка айсберга? Экспериментальные подтверждения RibU: рибофлавин ThiT: тиамин FolT: фолат (ср. BioY) Универсальный «энергетический комплекс» + компоненты, определяющие специфичность «Неприкладная» биоинформатика • Молекулярная эволюция – – – – филогения генов таксономия организмов горизонтальные переносы и т.п. положительный и отрицательный отбор • что сделало нас людьми? • лекарственная устойчивость – эволюция геномов • Системная биология – строение геномов – сети взаимодействий • белок-белковые • регуляция транскрипции • сигнальные пути «Большие задачи» реконструкция генома/свойств LUCA • был ли он клеткой? • РНКовый геном? – рибозимы, рибопереключатели – ДНК изобретено ретровирусами? • происхождение рибосом – генетический код, аппарат трансляции – «древние опероны» происхождение эукариот • митохондрии • интроны откуда оно все взялось? • Дмитрий Родионов – регуляция транскрипции – метаболическая реконструкция – идентификация транспортеров • Алексей Витрещак – рибопереключатели • А.А. Миронов – программы и обсуждения • Томас Хеббельн (Берлин) – Cо, Ni, биотин • Андрей Остерман (Сан Диего) – рибофлавин • Эндрю Хансон (Флорида) – тиамин • Дирк Слотблум (Гронинген) – фолат