Uploaded by Марина Кучерявая

20100412 Gelfand Bioinformatics-arphlgo8yp2

advertisement
Биоинформатика, или
молекулярная биология
in silico
Михаил Гельфанд
ИППИ РАН
Физтех, 12.IV.2010
Расшифрован геном!
622 полных геномов бактерий
(в 2010 уже больше тысячи)
186
200
180
142
160
140
120
100
80
60
40
48
3
3
6
6
7
66
81
30
25
19
20
0
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
Количество полных бактериальных геномов
Расшифрован ли геном?
Перехватить зашифрованное сообщение –
еще не значит его понять
0.1% генома E. coli
Геном бактерии: несколько миллионов нуклеотидов
От 600 до 9 тысяч генов (примерно 90% генома кодирует белки)
0.0001% генома человека
Геном человека: 3 000 000 000 нуклеотидов
Примерно 20 тысяч генов, < 5% генома кодирует белки
Рост объема данных
100000000000
10000000000
1000000000
100000000
10000000
1000000
100000
10000
1000
100
1982
1987
1992
красный – статьи (PubMed)
голубой – фрагменты ДНК (GenBank)
зеленый – нуклеотиды (GenBank)
1997
2002
2007
из 18 млн. статей в
PubMed, ~675 тыс. имеют
ключевое слово
“bioinformat* OR comput*”
Не только тексты
Можно использовать данные, которые
порождаются другими типами массовых
экспериментов
• Уровень экспрессии:
– Концентрации мРНК
– Концентрации белков
– Время жизни мРНК и белков
• Взаимодействия:
– Белок-ДНКовые
– Белок-белковые
• Структура генома
– Метилирование ДНК
– Положение и модификация нуклеосом
• Функционально-генетические
– Летальность и фенотип мутаций
– Синтетические летали
Экспрессия
(уровень
работы)
генов
Цикл развития
малярийного плазмодия
Развитие
цветка
резухи
Таля
двойная
кластеризация
– на генах и
на условиях
Белок-белковые (структурные, сигнальные
и др.) и белок-ДНКовые (регуляторные)
взаимодействия в дрожжах
Задачи
• Картирование генов и составление списка
белков, структурных и функциональных
РНК и т.п.
• Функциональная аннотация генов и белков
– биологическая функция (что делает)
– регуляция (в каких условиях работает)
• Функциональная аннотация геномов
– метаболическая реконструкция и моделирование
– регуляторные сети, моделирование развития
– предсказание свойств организма по геному
Идентификация генов
• Основные идеи придуманы (в 80-90х гг.) и
реализованы (в 90-2000х).
• Постепенное улучшение программ
Таблица генетического кода
Поиск генов если известен белок: просто
… или родственный белок: тоже просто
Генетический код: стоп-кодоны
TTT
TTC
TTA
TTG
CTT
CTC
CTA
CTG
ATT
ATC
ATA
ATG
GTT
GTC
GTA
GTG
F
F
L
L
L
L
L
L
I
I
I
M/ start
V
V
V
V
TCT
TCC
TCA
TCG
CCT
CCC
CCA
CCG
ACT
ACC
ACA
ACG
GCT
GCC
GCA
GCG
S
S
S
S
P
P
P
P
T
T
T
T
A
A
A
A
TAT
TAC
TAA
TAG
CAT
CAC
CAA
CAG
AAT
AAC
AAA
AAG
GАT
GАC
GАA
GАG
Y
Y
stop
stop
H
H
Q
Q
N
N
K
K
D
D
E
E
TGT
TGC
TGA
TGG
CGT
CGC
CGA
CGG
AGT
AGC
AGA
AGG
GGT
GGC
GGA
GGG
C
C
stop
W
R
R
R
R
S
S
R
R
G
G
G
G
Открытые рамки считывания
Ген должен располагаться внутри области от стопкодона до следующего стоп-кодона (в той же фазе)
Генетический код: синонимы
TTT
TTC
TTA
TTG
CTT
CTC
CTA
CTG
ATT
ATC
ATA
ATG
GTT
GTC
GTA
GTG
F
F
L
L
L
L
L
L
I
I
I
M/ start
V
V
V
V
TCT
TCC
TCA
TCG
CCT
CCC
CCA
CCG
ACT
ACC
ACA
ACG
GCT
GCC
GCA
GCG
S
S
S
S
P
P
P
P
T
T
T
T
A
A
A
A
TAT
TAC
TAA
TAG
CAT
CAC
CAA
CAG
AAT
AAC
AAA
AAG
GАT
GАC
GАA
GАG
Y
Y
stop
stop
H
H
Q
Q
N
N
K
K
D
D
E
E
TGT
TGC
TGA
TGG
CGT
CGC
CGA
CGG
AGT
AGC
AGA
AGG
GGT
GGC
GGA
GGG
C
C
stop
W
R
R
R
R
S
S
R
R
G
G
G
G
Codon usage
(статистика употребления кодонов)
• частоты кодонов отличаются от частот
триплетов в некодирующих областях
– различия в частотах аминокислот в белках
– различия в частотах синонимичных кодонов
• частоты синонимичных кодонов
– специфичны для генома
– коррелируют с концентрациями тРНК
Статистические особенности
Можно ввести функцию, которая измеряет частоты
кодонов в кодирующих и некодирующих областях
(скользящее окно, три рамки считывания)
GenMark
Генетический код: старт-кодоны
TTT
TTC
TTA
TTG
CTT
CTC
CTA
CTG
ATT
ATC
ATA
ATG
GTT
GTC
GTA
GTG
F
F
L
L
L
L
L
L
I
I
I
M/ start
V
V
V
V
TCT
TCC
TCA
TCG
CCT
CCC
CCA
CCG
ACT
ACC
ACA
ACG
GCT
GCC
GCA
GCG
S
S
S
S
P
P
P
P
T
T
T
T
A
A
A
A
TAT
TAC
TAA
TAG
CAT
CAC
CAA
CAG
AAT
AAC
AAA
AAG
GАT
GАC
GАA
GАG
Y
Y
stop
stop
H
H
Q
Q
N
N
K
K
D
D
E
E
TGT
TGC
TGA
TGG
CGT
CGC
CGA
CGG
AGT
AGC
AGA
AGG
GGT
GGC
GGA
GGG
C
C
stop
W
R
R
R
R
S
S
R
R
G
G
G
G
Начала генов Bacillus subtilis
dnaN
gyrA
serS
bofA
csfB
xpaC
metS
gcaD
spoVC
ftsH
pabB
rplJ
tufA
rpsJ
rpoA
rplM
ACATTATCCGTTAGGAGGATAAAAATG
GTGATACTTCAGGGAGGTTTTTTAATG
TCAATAAAAAAAGGAGTGTTTCGCATG
CAAGCGAAGGAGATGAGAAGATTCATG
GCTAACTGTACGGAGGTGGAGAAGATG
ATAGACACAGGAGTCGATTATCTCATG
ACATTCTGATTAGGAGGTTTCAAGATG
AAAAGGGATATTGGAGGCCAATAAATG
TATGTGACTAAGGGAGGATTCGCCATG
GCTTACTGTGGGAGGAGGTAAGGAATG
AAAGAAAATAGAGGAATGATACAAATG
CAAGAATCTACAGGAGGTGTAACCATG
AAAGCTCTTAAGGAGGATTTTAGAATG
TGTAGGCGAAAAGGAGGGAAAATAATG
CGTTTTGAAGGAGGGTTTTAAGTAATG
AGATCATTTAGGAGGGGAAATTCAATG
Участок связывания рибосом
dnaN
gyrA
serS
bofA
csfB
xpaC
metS
gcaD
spoVC
ftsH
pabB
rplJ
tufA
rpsJ
rpoA
rplM
ACATTATCCGTTAGGAGGATAAAAATG
GTGATACTTCAGGGAGGTTTTTTAATG
TCAATAAAAAAAGGAGTGTTTCGCATG
CAAGCGAAGGAGATGAGAAGATTCATG
GCTAACTGTACGGAGGTGGAGAAGATG
ATAGACACAGGAGTCGATTATCTCATG
ACATTCTGATTAGGAGGTTTCAAGATG
AAAAGGGATATTGGAGGCCAATAAATG
TATGTGACTAAGGGAGGATTCGCCATG
GCTTACTGTGGGAGGAGGTAAGGAATG
AAAGAAAATAGAGGAATGATACAAATG
CAAGAATCTACAGGAGGTGTAACCATG
AAAGCTCTTAAGGAGGATTTTAGAATG
TGTAGGCGAAAAGGAGGGAAAATAATG
CGTTTTGAAGGAGGGTTTTAAGTAATG
AGATCATTTAGGAGGGGAAATTCAATG
Сравнение генов в родственных геномах
Гены консервативнее, чем межгенные области
(точнее, особенности эволюции другие)
pdxB
Периодичность нуклеотидных замен
в белок-кодирующих областях
Sty
Stm
Sen
Eco
Kpn
Ype
GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC
GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC
GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC
GTAACACAAAC--GTGAAAATCCTTGTTGATGAAAATATGCCTTATGCCCGC
GTACTGAACT---GTGAAAATCCTCGTTGATGAAAATATGCCCTATGCCCGT
GTCGGAGAGTAAAGTGAAAATTCTGGTTGATGAAAATATGCCGTACGCTGAG
*
*
******** ** ***************** ** **
123123123123123123123123123123123123123
5 синонимичных замен, 1 замена аминокислоты
Размер вставок кратен 3 (иначе случится сдвиг рамки)
rbsD в энтеробактериях
Sty
Sen
Stm
Eco
Ype
AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC
AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC
GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC
AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC
TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT
** ***
**************** ***** * * ***** *****
Sty
Sen
Stm
Eco
Ype
ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG
ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG
ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG
ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG
GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT
* ** ** **** ** ** **** ** *********** ***** ***
*
rbsD в энтеробактериях: ответ
Sty
Sen
Stm
Eco
Ype
AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC
AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC
GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC
AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC
TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT
** ***
**************** ***** * * ***** *****
Sty
Sen
Stm
Eco
Ype
ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG
ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG
ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG
ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG
GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT
* ** ** **** ** ** **** ** *********** ***** ***
*
Существующая аннотация
(была) неправильна
Sty
Sen
Stm
Eco
Ype
AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC
AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC
GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC
AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC
TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT
** ***
**************** ***** * * ***** *****
Sty
Sen
Stm
Eco
Ype
ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG
ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG
ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG
ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG
GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT
* ** ** **** ** ** **** ** *********** ***** ***
*
Мораль
• Комплексный подход: использование
многих разнородных соображений,
каждое из которых по отдельности –
слабое
• Сравнительный подход:
одновременный анализ множества
геномов (находящихся на различных
эволюционных расстояниях друг от
друга)
Транспортеры
• Два основных класса
– АТФ-зависимые
• Трансмембранный белок
• АТФаза
• Субстрат-связывающий белок
– Вторичные (симпортеры, антипортеры)
• Трудно изучать экспериментально
(по сравнению с ферментами)
• Относительно легко
идентифицировать
– Сходство с известными транспортерами
– Предсказание трансмембранных
сегментов
• Трудно предсказать специфичность
H+
Субстрат-связывающие белки, семейство
транспортеров «никеля и олигопептидов»
Семейство транспортеров витаминов
Принцип Пирсона
Консервативно то, что важно
• ко-локализация
– рядом в одном геноме
– филетические паттерны
• ферменты – в одних и тех же геномах
• транспортеры – в завичимости от вещества
• ко-регуляция
– филогенетический футпринтинг
– «проверка соответствия» (consistency check)
rbsD в энтеробактериях:
сайт связывания RbsR
Sty
Sen
Stm
Eco
Ype
AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC
AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC
GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC
AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC
TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT
** ***
**************** ***** * * ***** *****
Sty
Sen
Stm
Eco
Ype
ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG
ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG
ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG
ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG
GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT
* ** ** **** ** ** **** ** *********** ***** ***
*
Метод проверки соответствия
Ген регулируется
Ген НЕ регулируется
?
Метаболический путь синтеза рибофлавина
(витамин В2)
PURINE BIOSYNTHESIS PATHWAY
GTP
ribA
PENTOSE-PHOSPHATE PATHWAY
ribA
GTP cyclohydrolase II
2,5-diamino-6-hydroxy-4-(5`-phosphoribosylamino)pyrimidine
ribG
ribA
Pyrimidine deaminase
5-amino-6-(5`-phosphoribosylamino)uracil
ribulose-5-phosphate
3,4-DHBP synthase
ribD
ribB
ribG
3,4-dihydroxy-2-butanone-4-phosphate
ribD
Pyrimidine reductase
5-amino-6-(5`-phosphoribitylamino)uracil
ribH
ribH
Riboflavin synthase, β-chain
6,7-dimethyl-8-ribityllumazine
ribB
ypaA
ribE
Riboflavin
Riboflavin synthase, α-chain
Консервативная последовательность перед генами
рибофлавинового пути из очень разных бактерий
BS
BQ
BE
HD
Bam
CA
DF
SA
LLX
PN
TM
DR
TQ
AO
DU
CAU
FN
TFU
SX
BU
BPS
REU
RSO
EC
TY
KP
HI
VK
VC
YP
AB
BP
AC
Spu
PP
AU
PU
PY
PA
MLO
SM
BME
BS
BQ
BE
CA
DF
EF
LLX
LO
PN
ST
MN
SA
AMI
DHA
FN
GLU
1
2
2’
3
=========>
==>
<==
===>
TTGTATCTTCGGGG-CAGGGTGGAAATCCCGACCGGCGGT
AGCATCCTTCGGGG-TCGGGTGAAATTCCCAACCGGCGGT
TGCATCCTTCGGGG-CAGGGTGAAATTCCCGACCGGCGGT
TTTATCCTTCGGGG-CTGGGTGGAAATCCCGACCGGCGGT
TGTATCCTTCGGGG-CTGGGTGAAAATCCCGACCGGCGGT
GATGTTCTTCAGGG-ATGGGTGAAATTCCCAATCGGCGGT
CTTAATCTTCGGGG-TAGGGTGAAATTCCCAATCGGCGGT
TAATTCTTTCGGGG-CAGGGTGAAATTCCCAACCGGCAGT
ATAAATCTTCAGGG-CAGGGTGTAATTCCCTACCGGCGGT
AACTATCTTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT
AAACGCTCTCGGGG-CAGGGTGGAATTCCCGACCGGCGGT
GACCTCTTTCGGGG-CGGGGCGAAATTCCCCACCGGCGGT
CACCTCCTTCGGGG-CGGGGTGGAAGTCCCCACCGGCGGT
AATAATCTTCAGGG-CAGGGTGAAATTCCCGATCGGCGGT
TTTAATCTTCAGGG-CAGGGTGAAATTCCCGATCGGTGGT
GAAGACCTTCGGGG-CAAGGTGAAATTCCTGATCGGCGGT
TAAAGTCTTCAGGG-CAGGGTGAAATTCCCGACCGGTGGT
ACGCGTGCTCCGGG-GTCGGTGAAAGTCCGAACCGGCGGT
-AGCGCACTCCGGG-GTCGGTGAAAGTCCGAACCGGCGGT
GTGCGTCTTCAGGG-CGGGGTGAAATTCCCCACCGGCGGT
GTGCGTCTTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT
TTACGTCTTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT
GTACGTCTTCAGGG-CGGGGTGGAATTCCCCACCGGCGGT
GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT
GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT
GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT
TCGCATTCTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT
GCGCATTCTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT
CAATATTCTCAGGG-CGGGGCGAAATTCCCCACCGGTGGT
GCTTATTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT
GCGCATTCTCAGGG-CAGGGTGAAAGTCCCTACCGGTGGT
GTACGTCTTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT
ACATCGCTTCAGGG-CGGGGCGTAATTCCCCACCGGCGGT
AACAATTCTCAGGG-CGGGGTGAAACTCCCCACCGGCGGT
GTCGGTCTTCAGGG-CGGGGTGTAAGTCCCCACCGGCGGT
GGTTGTTCTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT
AAACGTTCTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT
TAACGTTCTCAGGG-CGGGGTGCAACTCCCCACCGGCGGT
TAACGTTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT
TAAAGTTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT
AAGCGTTCTCAGGG-CGGGGTGAAATTCCCCACCGGCGGT
GCTTGTTCTCGGGG-CGGGGTGAAACTCCCCACCGGCGGT
ATCAATCTTCGGGG-CAGGGTGAAATTCCCTACCGGCGGT
GTCTATCTTCGGGG-CAGGGTGAAAATCCCGACCGGCGGT
ATTCATCTTCGGGG-CAGGGTGAAATTCCCGACCGGCGGT
AATGATCTTCAGGG-CAGGGTGAAATTCCCTACCGGCGGT
GAAGATCTTCGGGG-CAGGGTGAAATTCCCTACCGGCGGT
GTTCGTCTTCAGGGGCAGGGTGTAATTCCCGACCGGTGGT
AAATATCTTCAGGG-CACCGTGTAATTCGGGACCGGCGGT
GTTCATCTTCGGGG-CAGGGTGCAATTCCCGACCGGTGGT
AAGAGTCTTCAGGG-CAGGGTGAAATTCCCGACCGGCGGT
AAGTGTCTTCAGGG-CAGGGTGTGATTCCCGACCGGCGGT
AAGTGTCTTCAGGG-CAGGGTGAGATTCCCGACCGGCGGT
ATTCATCTTCGGGG-TCGGGTGTAATTCCCAACCGGCAGT
TCACAGTTTCAGGG-CGGGGTGCAATTCCCCACTGGCGGT
ACGAACCTTCGAGG-TAGGGTGAAATTCCCGACCGGCGGT
AATAATCTTCGGGG-CAGGGTGAAATTCCCGACCGGTGGT
---TGTTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT
Add.
3’
-><<===
21 AGCCCGTGAC-19 AGTCCGTGAC-20 AGCCCGCGA--19 AGTCCGTGAC-23 AGCCCGTGAC-2 AGCCCGCAA--2 AGCCCGCG---6 AGCCTGCGAC-2 AGCCCGCGA--2 AGCCCACGA--3 AGCCCGCGAG-15 AGCCCGCGAA-3 AGCCCGCGAA-2 AGTCCGCGA--2 AGTCCGCGA--20 AGCCCGCGA--2 AGTCCACG---3 AGTCCGCGAC-3 AGTCCGCGAC-30 AGCCCGCGAGCG
21 AGCCCGCGAGCG
31 AGCCCGCGAGCG
21 AGCCCGCGAGCG
17 AGCCCGCGAGCG
67 AGCCCGCGAGCG
20 AGCCCGCGAGCG
2 AGCCCACGAGCG
14 AGCCCACGAGCG
13 AGCCCACGAGCG
40 AGCCCGCGAGCG
25 AGCCCACGAGCG
18 AGCCCGCGAGCG
16 AGCCCGCGAGCA
34 AGCCCGCGAGCG
13 AGCCCGCGAGCG
17 AGCCCGCGAGCG
19 AGCCCGCGAGCG
19 AGCCCGCGAGCG
19 AGCCCGCGAGCG
16 AGCCCGCGAGCG
34 AGCCCGCGAGCG
17 AGCCCGCGAGCG
18 AGCCCGCGA--27 AGCCCGCGA—-20 AGCCCGCGA--2 AGCCCGCGAG-2 AGCCCGCG---3 AGTCCACGAC-21 ACTCCGCGAT-3 AGTCCACGAT-125 AGTCCGTG---14 AGTCCGCG---104 AGTCCGCG---6 AGCCTGCGAC-14 AGCCCGCGC--20 AGCCCGCAAC-2 AGTCCACG---28 AGCCCGCGAGCG
Variable
4
4’
5
5’
1’
->
<====>
<====
==>
<==
<=========
8
4
8 -----TGGATTCAGTTTAA-GCTGAAGCCGACAGTGAA-AGTCTGGAT-GGGAGAAGGATGAT
8
5
8 -----TGGATCTAGTGAAACTCTAGGGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGGATATG
3
4
3 -----AGGATCCGGTGCGATTCCGGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGGATGCC
10
4 10 ----–TGGACCTGGTGAAAATCCGGGACCGACAGTGAA-AGTCTGGAT-GGGAGAAGGAAACG
8
4
8 ----–TGGATTCAGTGAAAAGCTGAAGCCGACAGTGAA-AGTCTGGAT-GGGAGAAGGATGAG
3
4
3 ------AGATCCGGTTAAACTCCGGGGCCGACAGTTAA-AGTCTGGAT-GAAAGAAGAAATAG
7
6
7 --------ATTTGGTTAAATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GGAAGAAGATATTT
11
3 11 ----–CTGATCTAGTGAGATTCTAGAGCCGACAGTTAA-AGTCTGGAT-GGGAGAAAGAATGT
4
4
4 -----ATGATTCGGTGAAACTCCGAGGCCGACAGT-AT-AGTCTGGAT-GAAAGAAGATAATA
3
4
3 -----ATGATTTGGTGAAATTCCAAAGCCGACAGT-AT-AGTCTGGAT-GAAAGAAGATAAAA
5
4
5 ----–TTGACCCGGTGGAATTCCGGGGCCGACGGTGAA-AGTCCGGAT-GGGAGAGAGCGTGA
8 12
9 ----–CCGATGCCGCGCAACTCGGCAGCCGACGGTCAC-AGTCCGGAC-GAAAGAAGGAGGAG
5
4
5 -----CCGACCCGGTGGAATTCCGGGGCCGACGGTGAA-AGTCCGGAT-GGGAGAAGGAGGGC
7
7
7 -----AGGAACCGGTGAGATTCCGGTACCGACAGT-AT-AGTCTGGAT-GGAAGAAGATGAAA
13
4 12 -----AGGAACTAGTGAAATTCTAGTACCGACAGT-AT-AGTCTGGAT-GGAAGAAGAGCAGA
3
4
3 -----AGGACCCGGTGTGATTCCGGGGCCGACGGT-AT-AGTCCGGAT-GGGAGAAGGTCGGC
5
4
5 -------GATTTGGTGAAATTCCAAAACCGACAGT-AG-AGTCTGGAT-GGGAGAAGAATTAG
8
5
8 -----TGGAACCGGTGAAACTCCGGTACCGACGGTGAA-AGTCCGGAT-GGGAGGTAGTACGTG
8
5
8 -----TTGACCAGGTGAAATTCCTGGACCGACGGTTAA-AGTCCGGAT-GGGAGGCAGTGCGCG
137
GTCAGCAGATCTGGTGAGAAGCCAGAGCCGACGGTTAG-AGTCCGGAT-GGAAGAAGATGTGC
8
4
8 GTCAGCAGATCTGGTCCGATGCCAGAGCCGACGGTCAT-AGTCCGGAT-GAAAGAAGATGTGC
7
5
7 GTCAGCAGATCTGGTGAGAGGCCAGGGCCGACGGTTAA-AGTCCGGAT-GAAAGAAGATGGGC
11
3 11 GTCAGCAGATCCGGTGAGATGCCGGGGCCGACGGTCAG-AGTCCGGAT-GGAAGAAGATGTGC
8
4
8 GACAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAG-AGTCCGGAT-GGGAGAGAGTAACG
8
3
8 GTCAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAA-AGTCCGGAT-GGGAGAGGGTAACG
8
4
8 GTCAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAA-AGTCCGGAT-GGGAGAGAGTAACG
26
9 30 GTCAGCAGATTTGGTGAAATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GAAAGAGAATAAAA
11
9 11 GTCAGCAGATTTGGTGAGAATCCAAAGCCGACAGT-AT-AGTCTGGAT-GAAAGAGAATAAGC
5
4
5 GTCAGCAGATCTGGTGAGAAGCCAGGGCCGACGGTTAC-AGTCCGGAT-GAGAGAGAATGACA
16
6 16 GTCAGCAGACCCGGTGTAATTCCGGGGCCGACGGTTAT-AGTCCGGAT-GGGAGAGAGTAACG
16
4 27 GTCAGCAGATTTGGTGCGAATCCAAAGCCGACAGTGAC-AGTCTGGAT-GAAAGAGAATAAAA
10
4 10 GTCAGCAGACCTGGTGAGATGCCAGGGCCGACGGTCAT-AGTCCGGAT-GAGAGAAGATGTGC
10
3 11 ---CGCAGATCTGGTGTAAATCCAGAGCCGACGGT-AT-AGTCCGGAT-GAAAGAAGACGACG
6
6
6 GTCAGCAGATCTGGTG 52 TCCAGAGCCGACGGT 31 AGTCCGGAT-GGAAGAGAATGTAA
7
3
7 GTCAGCAGATCTGGTGCAACTCCAGAGCCGACGGTCAT-AGTCCGGAT-GAAAGAAGGCGTCA
7
9
7 GTCAGCAGATCCGGTGAGAGGCCGGAGCCGACGGT-AT-AGTCCGGAT-GGAAGAGGACAAGG
19
4 18 GTCAGCAGACCCGGTGTGATTCCGGGGCCGACGGTCAC-AGTCCGGATGAAGAGAGAACGGGA
15
4 16 GTCAGCAGACCCGGTGTGATTCCGGGGCCGACGGTCAT-AGTCCGGATGAAGAGAGAGCGGGA
14
4 13 GTCAGCAGACCCGGTGCGATTCCGGGGCCGACGGTCAT-AGTCCGGATAAAGAGAGAACGGGA
8
5
8 GTCAGCAGATCCGGTGTGATTCCGGAGCCGACGGTTAG-AGTCCGGAT-GAAAGAGGACGAAA
8
3
8 GTCAGCAGATCCGGTCGAATTCCGGAGCCGACGGTTAT-AGTCCGGAT-GGAAGAGAGCAAGC
10 15 10 GTCAGCAGATCCGGTGAGATGCCGGAGCCGACGGTTAA-AGTCCGGAT-GGAAGAGAGCGAAT
5
4
5 -----AGGATTCGGTGAGATTCCGGAGCCGACAGT-AC-AGTCTGGAT-GGGAGAAGATGGAG
3
5
3 -----AGGATTTGGTGTGATTCCAAAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGGAG
3
4
3 -----AGGATCCGGTGCGAGTCCGGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGAAG
3
4
3 ----TATGATCCGGTTTGATTCCGGAGCCGACAGT-AA-AGTCTGGAT-GAAAGAAGATATAT
6
4
6 -------GATTTGGTGAGATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GAGAGAAGATATTT
5
3
5 ----ATTGAATTGGTGTAATTCCAATACCGACAGT-AT-AGTCTGGAT—-AAAGAAGATAGGG
4
4
4 ----–TTGAAGCAGTGAGAATCTGCTAGCGACAGT-AA-AGTCTGGAT-GGAAGAAGATGAAC
3 10
3 ----TTGACTCTGGTGTAATTCCAGGACCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGTTG
3
4
3 -------GATGTGGTGAGATTCCACAACCGACAGT-AT-AGTCTGGAT-GGGAGAAGACGAAA
3
4
3 -------GATGTGGTGTAACTCCACAACCGACAGT-AT-AGTCTGGAT-GAGAGAAGACCGGG
3
4
3 -------GATGTGGTGAAATTCCACAACCGACAGT-AA-AGTCTGGAT-GGGAGAAGACTGAG
11
3 11 ----–CTGATCTAGTGAGATTCTAGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGGAG
5
5
5 ------TGATCTGGTGCAAATCCAGAGCCAACGGT-AT-AGTCCGGAT-GGAAGAAACGGAGC
11
4 11 --CGACTGACTTGGTGAGACTCCAAGGCCGACGGT-AT-AGTCCGGAT-GGGAGAAGGTACAA
4
6
4 -------GATTTGGTGAAATTCCAAAACCGACAGT-AG-AGTCTGGAT-GAGAGAAGAAAAGA
10
4 10 GTCAGCAGATCCGGTTAAATTCCGGAGCCGACGGTCAT-AGTCCGGAT-GCAAGAGAACC---
Консервативная вторичная структура RFNэлемента
variable
additional
stemloop
stem-loop
Ag
Y
u
CC
N
R
rU G
GY Y G N
G
3 G
C
c
A
A N UC C c N
a
*
GGgN
N
c
G Y
2 x
G
G
g
rC
U
Y
Y
1 y
N
N
N
N
5’
KN
R
A
RG K x
Y
yB RYC
V
Rr
C 4
C
G
A
U xN
CRG
N
AG Y C
UG A x
R
R 5
g
x
u
A
*
*
*
*
GG
A
Capitals: invariant (absolutely conserved) positions.
R
R
Lower case letters: strongly conserved positions.
r
N
Dashes and stars: obligatory and facultative base pairs
N
N
N: any nucleotide. X: any nucleotide or deletion
N
3’
RFN: механизм регуляции
• Transcription attenuation
• Translation attenuation
… и еще перед одним геном (ypaA)
цветные стрелки
– гены пути
желтые стрелки –
ypaA, ген с
неизвестной
функцией
черные стрелки –
регуляторный
элемент
additional
stemloop
variable
stem-loop
Ag
Y
u
C
N
rU G CRY G N
GY
G
3 G
C
c
A
N
A UC
CcN
a
*
GGgN
N
c
G Y
2 x
G
G
g
rC
U
Y
Y
1 y
N
N
N
N
5’
*
*
*
*
G
A
R
R
r
N
N
N
N
KN
R
A
x
Y
K
B
y
YC
VR
Rr
C 4
C
G
A
U xN
CRG
N
AG Y C
UG A x
R
R 5
g
x
u
GA
RG
3’
YpaA/RibU: транспортёр рибофлавина
• 5 предсказанных ТМ-сегментов =>
потенциальный транспортёр
• регуляторный RFN-элемент => корегуляция с генами метаболизма
рибофлавина => транспорт
рибофлавина или предшественника
• S. pyogenes, E. faecalis, Listeria: есть
ypaA, нет генов биосинтеза
рибофлавина => транспорт
рибофлавина
Предсказание:
YpaA – рибофлавиновый транспортёр
(Gelfand et al., 1999)
Проверка:
• генетический анализ
(Кренева и др., 2000)
• биохимический эксперимент
(Burgess et al., 2006)
Биотиновый
транспортер
BioY
Метаболическая реконструкция пути
биосинтеза тиамина (витамин В1)
= thiN (confirmed)
Transport of HMP
Transport of HET
(Gram-positive bacteria)
(Gram-negative bacteria)
yuaJ(=thiT)
тиаминовый
транспортер
(возможно, H+зависимый) в
фирмикутах
• 6 предсказанных трансмембранных сегментов
• Почти всегда регулируется THI-рибопереключателями
• Встречается в геномах, в которых отсутствует
тиаминовый путь (Streptococcus spp.);
• В B. cereus импорт тиамина сопряжен с током протонов
(Arch. Microbiol., 1977)
thiX-thiY-thiZ и
ykoF-ykoEykoD-ykoC:
предсказанные
АТФ-зависимые
транспортеры
HMP
• Почти всегда регулируются THI-рибопереключателями
• Не встречаются в геномах, в которых отсутствует
тиаминовый путь
• Всегда встречаются вместе с thiD и thiE
• В ряде геномов (Pasteurellacee, Brucella некоторые
фирмикуты) встречаются в отсутствие thiC
Co и Ni
• ко-локализация
(хромосомные
локусы)
– транспортеры Ni –
с генами никельзависимых ферментов
– транспортеры Co –
с генами синтеза
кобаламина
• ко-регуляция
– транспортеры Ni –
фактор транскрипции
NikR
– транспортеры Co –
рибопереключатель
В12
Add-I
g
aN
t
C
t Gg
cg
N
N
N
N
P2
A
A
G
G
G
a
N
a
a
c
P1 r
C
c
y
G
d
RC
N
g k
c tG
y
G
h
C
c
G
C P3
h a
C
K
G
T
r
a
P4
r
A
G
Y
C
C
d
C
G M B12 box
k G
C g
A
C
BII
VS
P5 A
g c C
P6
Add-II
CTG
c gG
GGY
AG
A
The Bacillus/
Clostridium group
γ-proteobacteria
a g
P0
5'
BI
Facultative
stem-loop
3'
base stem
Other taxonomic groups
Дмитрий Родионов ÆÆÆ Thomas Eitinger
Пять семейств транспортеров
Новое семейство транспортеров Co и Ni
Структура локусов
гены
B12-элемент
сайт связывания NikR
Проверка: тест на транспорт ионов
Co
Co
Ni
Ni
Ni
Co
Структура: слишком много компонентов
Биотиновый
транспортер
BioY
• АТФаза
BioM
~ CbiO
= NikO
• Пермеаза
BioN
~ CbioQ
= NikQ
Для транспорта достаточно компонент МN
(первый пример такого АВС-транспортера)
cbiMNQO
cbiMNQ
cbiMN
cbiM
контроль
BioY тоже достаточно
(даже в геномах, содержащих BioMN);
у BioMNY более крутая кинетика
Верхушка айсберга?
Экспериментальные подтверждения
RibU: рибофлавин
ThiT: тиамин
FolT: фолат
(ср. BioY)
Универсальный
«энергетический
комплекс» +
компоненты,
определяющие
специфичность
«Неприкладная» биоинформатика
• Молекулярная эволюция
–
–
–
–
филогения генов
таксономия организмов
горизонтальные переносы и т.п.
положительный и отрицательный отбор
• что сделало нас людьми?
• лекарственная устойчивость
– эволюция геномов
• Системная биология
– строение геномов
– сети взаимодействий
• белок-белковые
• регуляция транскрипции
• сигнальные пути
«Большие задачи»
реконструкция генома/свойств LUCA
• был ли он клеткой?
• РНКовый геном?
– рибозимы, рибопереключатели
– ДНК изобретено ретровирусами?
• происхождение рибосом
– генетический код, аппарат трансляции
– «древние опероны»
происхождение эукариот
• митохондрии
• интроны
откуда оно все взялось?
• Дмитрий Родионов
– регуляция транскрипции
– метаболическая реконструкция
– идентификация транспортеров
• Алексей Витрещак
– рибопереключатели
• А.А. Миронов
– программы и обсуждения
• Томас Хеббельн (Берлин) –
Cо, Ni, биотин
• Андрей Остерман (Сан Диего) –
рибофлавин
• Эндрю Хансон (Флорида) – тиамин
• Дирк Слотблум (Гронинген) – фолат
Download