Uploaded by Adenium Obesum

bases de données bioinformatique

advertisement
Les principales bases de
données en bioinformatique
142
Bases de données en
bioinformatique
●
●
●
●
Nombreuses bases de données en bioinformatique
●
Données issues d'expériences, de publications, d'analyses
faites à la main par des chercheurs
●
Données issues d'extractions ou de raisonnements
automatiques
La plupart de ces bases sont accessibles librement sur Internet
Banque de données : base de données orientée vers la
consultation et le recueil des données
Chaque base propose un accès simplifié via un site oueb
spécifique qui propose des fonctions de :
●
Recherche
●
Visualisation des données
●
Lien vers d'autres bases
–
●
=> Les différentes bases sont inter-connectées entre elles
Beaucoup de redondance d'une base à l'autre
143
Techniques de recherche
●
Ces techniques fonctionnent dans les moteurs de
recherche généraliste sur Internet (Google,...)
●
●
Mais aussi dans la plupart des moteurs de recherche de
bases de données bioinformatiques
Guillemets : pour rechercher des mots à la suite les
un des autres
●
Ex : sodium transporting
–
–
●
Recherche sodium transporting ATPase
Et aussi sodium/potassium-transporting ATPase
Ex : "sodium transporting"
–
–
Recherche sodium transporting ATPase
Mais exclut sodium/potassium-transporting ATPase
144
Résumé des différentes bases
Espèce
Dictionnaires
Article (bibliographie)
Tree of life
grand dictionnaire terminologique
Pubmed
Transcription
Gène (ADN)
Transcript (ARNm)
EMBL (séquences)
Ensembl (séquences)
EPD (promoteurs)
Unigen (lieu d'expression)
Traduction
Cause
Agit
sur
Maladie génétique
OMIM (génétique)
Orphanet (clinique)
Soigne
Protéine
EMBL (séquences)
Uniprot (séquences)
PDB (séquences)
PDB (repliements)
PROSITE (domaines)
PFAM (domaines)
Médicament
DrugBank (cibles)
Thériaque (clinique)
145
Le grand dictionnaire
terminologique
●
●
Dictionnaire français-anglais
Avec des traductions spécifique à différents domaines
(biologie, médecine, aéronautique,...)
●
Attention : dictionnaire français québécois !
●
http://granddictionaire.com/
146
Pubmed / Medline
●
http://www.ncbi.nlm.nih.gov/pubmed
●
Medline : base de données bibliographiques en médecine / biologie
●
Pubmed : interface permettant de consulter la base
●
Lien vers le texte des articles disponibles en ligne
149
EMBL / Nucleotide / DDB
●
Séquences de nucléotides (ADN) :
●
EMBL (European Molecular Biology Laboratory DNA database)
–
●
Nucleotide (anciennement appelé GenBank)
–
●
●
●
●
http://www.ebi.ac.uk/
http://www.ncbi.nlm.nih.gov/sites/entrez?db=nucleotide
DNA Database of Japan
Contiennent toutes les séquences de nucléotides librement disponibles et
leurs traductions en protéines
●
Les séquences d'ADN proviennent de séquençages
●
Les séquences de protéines proviennent de la traduction automatique
des séquences d'ADN correspondantes
Les 3 banques sont synchronisées => même contenu
●
Cependant l'interface et les fonctions proposées par les 3 banques
sont un peu différentes
Recherche principalement par nom de gène ou de protéine, et ou nom
d'espèce
150
EMBL
Génome entier
Gène / ADN
Protéine
Type de résultats
Pour rechercher un gène codant une protéine => coding sequence
Release : dernière version publiée
Update : ajout depuis la dernière « release »
Format des séquences
●
Il existe différent format pour les séquences
●
Le format FASTA est le plus utilisé
●
●
Séquence d'ADN, d'ARN, de protéine,...
Exemple de séquence protéique au format FASTA :
Identifiant de la
base de données
(sp = SwissProt)
Identifiant de
la séquence
dans la base
Nom de la
séquence et
de l'espèce
>sp|P05231|IL6_HUMAN Interleukin-6 precursor (IL-6) - Homo sapiens (Human).
MNSFSTSAFGPVAFSLGLLLVLPAAFPAPVPPGEDSKDVAAPHRQPLTSSERIDKQIRYI
LDGISALRKETCNKSNMCESSKEALAENNLNLPKMAEKDGCFQSGFNEETCLVKIITGLL
EFEVYLEYLQNRFESSEEQARAVQMSTKVLIQFLQKKAKNLDAITTPDPTTNASLLTKLQ
AQNQWLQDMTTHLILRSFKEFLQSSLRALRQM
156
EPD
●
EPD : Eukaryotic Promoter Database :
●
●
http://www.epd.isb-sib.ch/
Base de données sur les séquences promoteurs :
séquence d'ADN déclenchant la transcription
●
Uniquement pour les eucaryotes
●
Données expérimentales
157
Liste des gènes
utilisant ce
promoteur
La transcription commence ici
Ensembl
●
Ensembl :
●
●
http://www.ensembl.org
Base de données sur la transcription des
gènes
–
–
●
ARNm (Transcripts)
Introns, exons, séquences codantes,...
Annotation manuelle en partant des
séquences de gènes dans la base EMBL,
notamment chez l'homme
160
Traduit en
protéine
Reste dans le
noyau (intron)
Quitte le noyau
mais n'est pas traduit
Gène
Intron
Exon
Séquence
non-codante
Séquence
codante
Intron
(épissage
alternatif)
Domaines protéiques
Pourquoi les 4 derniers transcripts ne sont pas traduits en protéine ?
Unigen
●
Unigen :
●
http://www.ncbi.nlm.nih.gov/UniGene
●
Base de données sur l'expression des gènes
●
●
Quels gènes sont exprimés dans quel organe, dans
quel maladie, à quel moment ?
Données issues de la recherche de marqueurs de
séquences exprimées (Expressed Sequence Tags,
EST)
–
–
EST = séquence d'ADNc (= ARNm rétro-transcrit) courte
considérée comme caractéristique d'un ou plusieurs gènes
=> données expérimentales mais assez peu fiables !
166
Uniprot
●
Uniprot
●
●
http://www.uniprot.org/
Les données proviennent de deux sources :
●
●
La base de données SwissProt, remplie manuellement
à partir de publications
La traduction automatique des séquences d'ADN issues
de la base EMBL
–
●
Il est plus facile de séquencer un gène qu'une protéine !
Recherche principalement par nom de gène ou de
protéine, et ou nom d'espèce
169
Uniprot
Uniprot
En bleu : source
automatique non
vérifiée par un
expert
=> méfiance !
En jaune : source
revu
manuellement
par un expert
PDB
●
PDB (BrookHaven Protein DataBank)
●
http://www.rcsb.org
●
Séquences et structures des protéines
●
Visualisation en 3D
●
●
Les données proviennent de cristallographie, de
RMN,...
Pour certaines protéines, plusieurs structures sont
disponibles
–
–
–
Structure de la protéine seule ou avec ligand
Structure de la protéine dans différents milieux
Structure obtenue avec des méthodes expérimentales
différentes
173
PDB :
structure
secondaires
PDB : séquence des protéines
PDB : structure
tertiaires
PDB : structure
tertiaires
PROSITE
●
PROSITE :
●
●
●
http://www.expasy.ch/prosite/
Base de données sur les domaines des protéines, les
familles protéiques et les fonctions biologiques associées
Un domaine = une région d'une protéine ayant une
fonction biologique propre, que l'on retrouve sur plusieurs
protéines
–
●
●
Ex : plusieurs enzymes ont un même domaine avec une
fonction d'hydrolyse de l'ATP
Les motifs des domaines ont été déterminés de manière
manuelle
Recherche par nom de protéine, nom de domaine,
fonction biologique,...
180
PROSITE
Identifiants :
PDOC... => domaine
P...
=> protéine
PROSITE
PROSITE
PROSITE
Permet d'accéder au motif du domaine
Recherche des « architectures »
(= suite de domaines)
dans les protéines de la base
Swiss Prot
Recherche toutes les protéines
Ayant ce domaine dans Uniprot
Motif du domaine
Qualité du motif
Liste des 22 acides aminés
Une ligne par
résidu dans
le motif
Résidu n°1
Résidu n°2
Résidu n°3
...
Acide aminé
le plus
fréquent en
position n°1
Fréquence de l'acide aminé E en position n°3
PROSITE : architecture de
protéines
●
Protéine « Légo » !
●
Ici, des transporteurs actifs
Afficher les 33 autres protéines
Distance en nombre
de résidus
Recherche du domaine dans Uniprot
Attention !
Il s'agit de rechercher toutes les protéines dont la séquence contient le motif du domaine !
Cela ne garantit pas à 100% que la protéine a la fonction biologique associée au domaine !
PFAM
●
PFAM (Protein Family) :
●
●
●
http://pfam.sanger.ac.uk/
Base de données sur les familles de protéines et les
« clans » (= super familles)
Par rapport à PROSITE :
–
Construit à partir des séquences de la base Uniprot
●
●
–
–
PFAM-A : annotation manuelle
PFAM-B : annotation automatique, à partir de recherche de
domaines dans les séquences, de similarités...
Site oueb plus joli...
Mais moteur de recherche moins bon !
190
Recherche par séquence
●
Problème : on a séquencé un gène,
● Est-il est déjà connu ?
● Sous quel nom ?
● Existe-t-il des gènes de séquences proches déjà connu ?
● => recherche par séquence
–
> 230 000 000 de séquences connues
191
Recherche par séquence
●
●
●
Problème du nombre de séquences connues
Problème des variations entre séquences
● Mutations, variations individuelles, erreurs de séquençage
=> Utilisation de moteurs de recherche spécifiques
192
BLAST
●
●
Le programme BLAST permet de faire des
recherches par séquence
Il est disponible sur Internet
●
●
http://blast.ncbi.nlm.nih.gov/Blast.cgi
Plusieurs variantes :
●
●
●
Blast n : recherche d'une séquence nucléotidique
dans une banque d'ADN
Blast p : recherche d'une séquence protéique dans
une banque de protéine
...
193
BLAST sur Internet
Séquence à rechercher
Base de données où la
recherche est effectuée
Rechercher seulement
chez certaines espèces
Lancer le BLAST !
BLAST sur Internet
Nombre maximum de
séquences affichées
Nombre d'erreur que l'on
accepte (E-value)
E-value = 10 => parmi les résultats, statistiquement en
moyenne 10 alignement de séquence seront dus au hasard
BLAST sur Internet
BLAST sur Internet
Séquence requête
14 séquences
retrouvées
par BLAST
La position des barres indique les alignements locaux
La couleur indique le score d'alignement
BLAST sur Internet
BLAST sur Internet
Gene Ontology
●
Gene Ontology (GO) :
●
●
http://www.geneontology.org/
Ontologie :
●
●
Plus qu'une base de données, une base de connaissance
Ensemble structuré des concepts et des relations entre
ces concepts dans un domaine de connaissance donné
–
Ensemble => On recherche une certaine exhaustivité
–
pour avoir toutes les connaissances d'un domaine
Structuré => des traitements automatiques sont possibles
●
●
Un cours peut contenir l'ensemble des connaissances d'un
domaine mais il n'est pas structuré (d'un point de vue
informatique) => pas de traitement automatique possible
201
Ontologie
●
Exemple de raisonnement sur une ontologie sur les
écosystèmes et les chaînes alimentaires
Animal
Polluant
est-un
est-un
Homme
habite
Ville
est-un
mange
est-un
Brochet
habite
mange
Gardon
habite
se concentre dans
PCB
présent dans
Lac
L'homme risque-t-il d'être intoxiqué par les PCB (polychlorobiphényles)
rejeté dans les eaux ?
202
Gene Ontology
●
Gene Ontology (GO) :
●
http://www.geneontology.org/
●
Attention, ce n'est pas vraiment une ontologie !
–
Seulement quelques types de relations :
●
●
●
–
Est-un
Partie-de
Régule
– Régule positivement
– Régule négativement
=> pour avoir une « vraie » ontologie, il manque des
relations : stocke, détruit,...
203
Gene Ontology
●
Gene Ontology (GO) :
Termes :
Composants de la cellule
Cellule
partie-de
Membrane
Cytoplasme
Noyau
Nucléole...
Vésicule sécrétoire
Processus biologiques
Processus métaboliques
est-un
Métabolisme des lipides
Mort cellulaire...
Gènes :
ation
t
o
n
an
Insuline (homme)
BMP2 (poisson zèbre)
... (...)
Fonctions moléculaires
Activité catabolique
Activité anti-oxydante
Régulateur de transcription...
204
Gene Ontology
Gene Ontology
Gene Ontology
Gene Ontology
Gene Ontology
partie
de
est-un
Régulation
Mapping
Gene Ontology
Liste des domaines protéiques
concernant le transport du sodium
KEGG
●
KEGG : Kyoto Encyclopedia of Genes and
Genomes :
●
http://www.genome.jp/kegg/
●
Ontologie
–
–
–
Portant principalement sur les voies métaboliques
Mais aussi sur les gènes, les protéines, les maladies, les
médicaments
Très complexe !
214
Tree of life
●
Tree of life :
●
http://tolweb.org
●
Base de données de taxonomie
–
●
Classification des êtres vivants
Avec des photos !
219
Tree of life
OMIM (MIM)
●
OMIM (Online Mendelian Inheritance in Man) :
●
●
http://www.ncbi.nlm.nih.gov/omim
Base de données sur les maladies génétiques chez
l'homme
●
Données issues d'articles, d'expériences,...
●
Recherche par nom de maladie ou nom de gène
221
OMIM : maladie
Lien vers les gènes
ou les portions de
chromosome
responsables
de la maladie
OMIM : gène
OMIM : variants allèliques
SNP
= Single Nucleotide
Polymorphisme
= Mutation
concernant un seul
nucélotide (les plus
fréquentes)
OMIM : SMP dans Ensembl
Un T remplace un C
OrphaNet
●
OrphaNet :
●
http://www.orpha.net
●
Base de données sur les maladies orphelines
–
–
Informations sur les gènes concernés (pour les maladies
génétiques), similaire à OMIM
Mais aussi des informations cliniques
●
●
Essais cliniques de nouveaux médicaments
Base française !
226
DrugBank
●
Base de données sur les médicaments
●
http://www.drugbank.ca
●
Information sur les cibles des médicaments
●
Attention : base américaine
–
=> médicaments américains !
228
DrugBank
Thériaque / Thésorimed
●
Base de données sur les médicaments
●
http://www.theriaque.org
●
Accessible gratuitement, mais il faut s'inscrire !
●
Informations cliniques :
–
●
Contre-indications, effets indésirables,...
Base française => médicaments français
231
Résumé des différentes bases
Données expérimentales
Données calculées
Mélange des deux
Espèce
Tree of life
Transcription
Gène (ADN)
Transcript (ARNm)
EMBL (séquences)
Ensembl (séquences)
EPD (promoteurs)
Unigen (lieu d'expression)
Article (bibliographie)
Pubmed
Traduction
Cause
Agit
sur
Maladie génétique
OMIM (génétique)
Orphanet (clinique)
Soigne
Protéine
EMBL (séquences)
Uniprot (séquences)
PDB (séquences)
PDB (repliements)
PROSITE (domaines)
PFAM (domaines)
Médicament
Fonction biologique
DrugBank (cibles)
Thériaque (clinique)
Gene Ontology
PROSITE (domaines)
PFAM (domaines)
233
Qualité des données
●
●
Il est très important de savoir évaluer la qualité des données
● Y compris pour les données que l'on récupère sur
Internet !
● Y compris pour les logiciels !
Quelques critères d'évaluation :
●
Transparence :
–
–
●
Auteur :
–
–
●
Les informations « de base » (auteur, date,...) sont-elles
disponibles ?
Les sources sont-elles disponibles ?
Qui est à l'origine des données ?
Quel est son statut ? A-t-il des intérêts particuliers ?
Date et péremption :
–
Les données sont-elles récentes ? Sont-elles à jour ?
234
Qualité des données
●
Les logiciels : Ne les croyez pas systématiquement !!!
●
●
●
●
Parfois des approximations : diminution de la qualité des
résultats au profit de la rapidité
Recherche d’une solution parmi un ensemble infini de possibilités
Ce n’est pas toujours la solution
la meilleure qui est trouvée !
Les banques de données : Ne les croyez pas
systématiquement !!!
●
Les données se sont pas toujours fiables ou à jour.
●
Différence entre réalité mathématique et réalité biologique
–
●
=> cf TP1
Les ordinateurs ne font pas de biologie, ils calculent vite !
235
Exemple pratique
●
Question :
●
●
Quels sont les maladies génétiques pouvant être
causées chez l'homme par une déficience des
transporteurs potassiques transmembranaires ?
Comment répondre en combinant les différentes
bases de données vues précédemment ?
236
Puis ontology
6046 gènes / protéines...
6046 gènes / protéines...
.../...
MIM = OMIM
Exemple pratique
●
●
Nous avons combiné les informations de 4 bases
entre elles
Attention aux limites des différentes bases
●
Seules les connaissances connues sont présentes dans
les bases !
–
●
Il reste beaucoup d'inconnu en biologie
Lorsqu'il y a beaucoup de gènes à rechercher :
●
Possibilité d'automatiser les recherches à l'aide de scripts
(programmation)
259
Pour l'examen
●
Exercice comme ceux vu en cours et en TP
●
Les documents sont autorisés
●
●
Pensez à les amener !
Les calculatrices, les ordinateurs, les téléphones
portables et les livres sont interdits
260
Download