Les principales bases de données en bioinformatique 142 Bases de données en bioinformatique ● ● ● ● Nombreuses bases de données en bioinformatique ● Données issues d'expériences, de publications, d'analyses faites à la main par des chercheurs ● Données issues d'extractions ou de raisonnements automatiques La plupart de ces bases sont accessibles librement sur Internet Banque de données : base de données orientée vers la consultation et le recueil des données Chaque base propose un accès simplifié via un site oueb spécifique qui propose des fonctions de : ● Recherche ● Visualisation des données ● Lien vers d'autres bases – ● => Les différentes bases sont inter-connectées entre elles Beaucoup de redondance d'une base à l'autre 143 Techniques de recherche ● Ces techniques fonctionnent dans les moteurs de recherche généraliste sur Internet (Google,...) ● ● Mais aussi dans la plupart des moteurs de recherche de bases de données bioinformatiques Guillemets : pour rechercher des mots à la suite les un des autres ● Ex : sodium transporting – – ● Recherche sodium transporting ATPase Et aussi sodium/potassium-transporting ATPase Ex : "sodium transporting" – – Recherche sodium transporting ATPase Mais exclut sodium/potassium-transporting ATPase 144 Résumé des différentes bases Espèce Dictionnaires Article (bibliographie) Tree of life grand dictionnaire terminologique Pubmed Transcription Gène (ADN) Transcript (ARNm) EMBL (séquences) Ensembl (séquences) EPD (promoteurs) Unigen (lieu d'expression) Traduction Cause Agit sur Maladie génétique OMIM (génétique) Orphanet (clinique) Soigne Protéine EMBL (séquences) Uniprot (séquences) PDB (séquences) PDB (repliements) PROSITE (domaines) PFAM (domaines) Médicament DrugBank (cibles) Thériaque (clinique) 145 Le grand dictionnaire terminologique ● ● Dictionnaire français-anglais Avec des traductions spécifique à différents domaines (biologie, médecine, aéronautique,...) ● Attention : dictionnaire français québécois ! ● http://granddictionaire.com/ 146 Pubmed / Medline ● http://www.ncbi.nlm.nih.gov/pubmed ● Medline : base de données bibliographiques en médecine / biologie ● Pubmed : interface permettant de consulter la base ● Lien vers le texte des articles disponibles en ligne 149 EMBL / Nucleotide / DDB ● Séquences de nucléotides (ADN) : ● EMBL (European Molecular Biology Laboratory DNA database) – ● Nucleotide (anciennement appelé GenBank) – ● ● ● ● http://www.ebi.ac.uk/ http://www.ncbi.nlm.nih.gov/sites/entrez?db=nucleotide DNA Database of Japan Contiennent toutes les séquences de nucléotides librement disponibles et leurs traductions en protéines ● Les séquences d'ADN proviennent de séquençages ● Les séquences de protéines proviennent de la traduction automatique des séquences d'ADN correspondantes Les 3 banques sont synchronisées => même contenu ● Cependant l'interface et les fonctions proposées par les 3 banques sont un peu différentes Recherche principalement par nom de gène ou de protéine, et ou nom d'espèce 150 EMBL Génome entier Gène / ADN Protéine Type de résultats Pour rechercher un gène codant une protéine => coding sequence Release : dernière version publiée Update : ajout depuis la dernière « release » Format des séquences ● Il existe différent format pour les séquences ● Le format FASTA est le plus utilisé ● ● Séquence d'ADN, d'ARN, de protéine,... Exemple de séquence protéique au format FASTA : Identifiant de la base de données (sp = SwissProt) Identifiant de la séquence dans la base Nom de la séquence et de l'espèce >sp|P05231|IL6_HUMAN Interleukin-6 precursor (IL-6) - Homo sapiens (Human). MNSFSTSAFGPVAFSLGLLLVLPAAFPAPVPPGEDSKDVAAPHRQPLTSSERIDKQIRYI LDGISALRKETCNKSNMCESSKEALAENNLNLPKMAEKDGCFQSGFNEETCLVKIITGLL EFEVYLEYLQNRFESSEEQARAVQMSTKVLIQFLQKKAKNLDAITTPDPTTNASLLTKLQ AQNQWLQDMTTHLILRSFKEFLQSSLRALRQM 156 EPD ● EPD : Eukaryotic Promoter Database : ● ● http://www.epd.isb-sib.ch/ Base de données sur les séquences promoteurs : séquence d'ADN déclenchant la transcription ● Uniquement pour les eucaryotes ● Données expérimentales 157 Liste des gènes utilisant ce promoteur La transcription commence ici Ensembl ● Ensembl : ● ● http://www.ensembl.org Base de données sur la transcription des gènes – – ● ARNm (Transcripts) Introns, exons, séquences codantes,... Annotation manuelle en partant des séquences de gènes dans la base EMBL, notamment chez l'homme 160 Traduit en protéine Reste dans le noyau (intron) Quitte le noyau mais n'est pas traduit Gène Intron Exon Séquence non-codante Séquence codante Intron (épissage alternatif) Domaines protéiques Pourquoi les 4 derniers transcripts ne sont pas traduits en protéine ? Unigen ● Unigen : ● http://www.ncbi.nlm.nih.gov/UniGene ● Base de données sur l'expression des gènes ● ● Quels gènes sont exprimés dans quel organe, dans quel maladie, à quel moment ? Données issues de la recherche de marqueurs de séquences exprimées (Expressed Sequence Tags, EST) – – EST = séquence d'ADNc (= ARNm rétro-transcrit) courte considérée comme caractéristique d'un ou plusieurs gènes => données expérimentales mais assez peu fiables ! 166 Uniprot ● Uniprot ● ● http://www.uniprot.org/ Les données proviennent de deux sources : ● ● La base de données SwissProt, remplie manuellement à partir de publications La traduction automatique des séquences d'ADN issues de la base EMBL – ● Il est plus facile de séquencer un gène qu'une protéine ! Recherche principalement par nom de gène ou de protéine, et ou nom d'espèce 169 Uniprot Uniprot En bleu : source automatique non vérifiée par un expert => méfiance ! En jaune : source revu manuellement par un expert PDB ● PDB (BrookHaven Protein DataBank) ● http://www.rcsb.org ● Séquences et structures des protéines ● Visualisation en 3D ● ● Les données proviennent de cristallographie, de RMN,... Pour certaines protéines, plusieurs structures sont disponibles – – – Structure de la protéine seule ou avec ligand Structure de la protéine dans différents milieux Structure obtenue avec des méthodes expérimentales différentes 173 PDB : structure secondaires PDB : séquence des protéines PDB : structure tertiaires PDB : structure tertiaires PROSITE ● PROSITE : ● ● ● http://www.expasy.ch/prosite/ Base de données sur les domaines des protéines, les familles protéiques et les fonctions biologiques associées Un domaine = une région d'une protéine ayant une fonction biologique propre, que l'on retrouve sur plusieurs protéines – ● ● Ex : plusieurs enzymes ont un même domaine avec une fonction d'hydrolyse de l'ATP Les motifs des domaines ont été déterminés de manière manuelle Recherche par nom de protéine, nom de domaine, fonction biologique,... 180 PROSITE Identifiants : PDOC... => domaine P... => protéine PROSITE PROSITE PROSITE Permet d'accéder au motif du domaine Recherche des « architectures » (= suite de domaines) dans les protéines de la base Swiss Prot Recherche toutes les protéines Ayant ce domaine dans Uniprot Motif du domaine Qualité du motif Liste des 22 acides aminés Une ligne par résidu dans le motif Résidu n°1 Résidu n°2 Résidu n°3 ... Acide aminé le plus fréquent en position n°1 Fréquence de l'acide aminé E en position n°3 PROSITE : architecture de protéines ● Protéine « Légo » ! ● Ici, des transporteurs actifs Afficher les 33 autres protéines Distance en nombre de résidus Recherche du domaine dans Uniprot Attention ! Il s'agit de rechercher toutes les protéines dont la séquence contient le motif du domaine ! Cela ne garantit pas à 100% que la protéine a la fonction biologique associée au domaine ! PFAM ● PFAM (Protein Family) : ● ● ● http://pfam.sanger.ac.uk/ Base de données sur les familles de protéines et les « clans » (= super familles) Par rapport à PROSITE : – Construit à partir des séquences de la base Uniprot ● ● – – PFAM-A : annotation manuelle PFAM-B : annotation automatique, à partir de recherche de domaines dans les séquences, de similarités... Site oueb plus joli... Mais moteur de recherche moins bon ! 190 Recherche par séquence ● Problème : on a séquencé un gène, ● Est-il est déjà connu ? ● Sous quel nom ? ● Existe-t-il des gènes de séquences proches déjà connu ? ● => recherche par séquence – > 230 000 000 de séquences connues 191 Recherche par séquence ● ● ● Problème du nombre de séquences connues Problème des variations entre séquences ● Mutations, variations individuelles, erreurs de séquençage => Utilisation de moteurs de recherche spécifiques 192 BLAST ● ● Le programme BLAST permet de faire des recherches par séquence Il est disponible sur Internet ● ● http://blast.ncbi.nlm.nih.gov/Blast.cgi Plusieurs variantes : ● ● ● Blast n : recherche d'une séquence nucléotidique dans une banque d'ADN Blast p : recherche d'une séquence protéique dans une banque de protéine ... 193 BLAST sur Internet Séquence à rechercher Base de données où la recherche est effectuée Rechercher seulement chez certaines espèces Lancer le BLAST ! BLAST sur Internet Nombre maximum de séquences affichées Nombre d'erreur que l'on accepte (E-value) E-value = 10 => parmi les résultats, statistiquement en moyenne 10 alignement de séquence seront dus au hasard BLAST sur Internet BLAST sur Internet Séquence requête 14 séquences retrouvées par BLAST La position des barres indique les alignements locaux La couleur indique le score d'alignement BLAST sur Internet BLAST sur Internet Gene Ontology ● Gene Ontology (GO) : ● ● http://www.geneontology.org/ Ontologie : ● ● Plus qu'une base de données, une base de connaissance Ensemble structuré des concepts et des relations entre ces concepts dans un domaine de connaissance donné – Ensemble => On recherche une certaine exhaustivité – pour avoir toutes les connaissances d'un domaine Structuré => des traitements automatiques sont possibles ● ● Un cours peut contenir l'ensemble des connaissances d'un domaine mais il n'est pas structuré (d'un point de vue informatique) => pas de traitement automatique possible 201 Ontologie ● Exemple de raisonnement sur une ontologie sur les écosystèmes et les chaînes alimentaires Animal Polluant est-un est-un Homme habite Ville est-un mange est-un Brochet habite mange Gardon habite se concentre dans PCB présent dans Lac L'homme risque-t-il d'être intoxiqué par les PCB (polychlorobiphényles) rejeté dans les eaux ? 202 Gene Ontology ● Gene Ontology (GO) : ● http://www.geneontology.org/ ● Attention, ce n'est pas vraiment une ontologie ! – Seulement quelques types de relations : ● ● ● – Est-un Partie-de Régule – Régule positivement – Régule négativement => pour avoir une « vraie » ontologie, il manque des relations : stocke, détruit,... 203 Gene Ontology ● Gene Ontology (GO) : Termes : Composants de la cellule Cellule partie-de Membrane Cytoplasme Noyau Nucléole... Vésicule sécrétoire Processus biologiques Processus métaboliques est-un Métabolisme des lipides Mort cellulaire... Gènes : ation t o n an Insuline (homme) BMP2 (poisson zèbre) ... (...) Fonctions moléculaires Activité catabolique Activité anti-oxydante Régulateur de transcription... 204 Gene Ontology Gene Ontology Gene Ontology Gene Ontology Gene Ontology partie de est-un Régulation Mapping Gene Ontology Liste des domaines protéiques concernant le transport du sodium KEGG ● KEGG : Kyoto Encyclopedia of Genes and Genomes : ● http://www.genome.jp/kegg/ ● Ontologie – – – Portant principalement sur les voies métaboliques Mais aussi sur les gènes, les protéines, les maladies, les médicaments Très complexe ! 214 Tree of life ● Tree of life : ● http://tolweb.org ● Base de données de taxonomie – ● Classification des êtres vivants Avec des photos ! 219 Tree of life OMIM (MIM) ● OMIM (Online Mendelian Inheritance in Man) : ● ● http://www.ncbi.nlm.nih.gov/omim Base de données sur les maladies génétiques chez l'homme ● Données issues d'articles, d'expériences,... ● Recherche par nom de maladie ou nom de gène 221 OMIM : maladie Lien vers les gènes ou les portions de chromosome responsables de la maladie OMIM : gène OMIM : variants allèliques SNP = Single Nucleotide Polymorphisme = Mutation concernant un seul nucélotide (les plus fréquentes) OMIM : SMP dans Ensembl Un T remplace un C OrphaNet ● OrphaNet : ● http://www.orpha.net ● Base de données sur les maladies orphelines – – Informations sur les gènes concernés (pour les maladies génétiques), similaire à OMIM Mais aussi des informations cliniques ● ● Essais cliniques de nouveaux médicaments Base française ! 226 DrugBank ● Base de données sur les médicaments ● http://www.drugbank.ca ● Information sur les cibles des médicaments ● Attention : base américaine – => médicaments américains ! 228 DrugBank Thériaque / Thésorimed ● Base de données sur les médicaments ● http://www.theriaque.org ● Accessible gratuitement, mais il faut s'inscrire ! ● Informations cliniques : – ● Contre-indications, effets indésirables,... Base française => médicaments français 231 Résumé des différentes bases Données expérimentales Données calculées Mélange des deux Espèce Tree of life Transcription Gène (ADN) Transcript (ARNm) EMBL (séquences) Ensembl (séquences) EPD (promoteurs) Unigen (lieu d'expression) Article (bibliographie) Pubmed Traduction Cause Agit sur Maladie génétique OMIM (génétique) Orphanet (clinique) Soigne Protéine EMBL (séquences) Uniprot (séquences) PDB (séquences) PDB (repliements) PROSITE (domaines) PFAM (domaines) Médicament Fonction biologique DrugBank (cibles) Thériaque (clinique) Gene Ontology PROSITE (domaines) PFAM (domaines) 233 Qualité des données ● ● Il est très important de savoir évaluer la qualité des données ● Y compris pour les données que l'on récupère sur Internet ! ● Y compris pour les logiciels ! Quelques critères d'évaluation : ● Transparence : – – ● Auteur : – – ● Les informations « de base » (auteur, date,...) sont-elles disponibles ? Les sources sont-elles disponibles ? Qui est à l'origine des données ? Quel est son statut ? A-t-il des intérêts particuliers ? Date et péremption : – Les données sont-elles récentes ? Sont-elles à jour ? 234 Qualité des données ● Les logiciels : Ne les croyez pas systématiquement !!! ● ● ● ● Parfois des approximations : diminution de la qualité des résultats au profit de la rapidité Recherche d’une solution parmi un ensemble infini de possibilités Ce n’est pas toujours la solution la meilleure qui est trouvée ! Les banques de données : Ne les croyez pas systématiquement !!! ● Les données se sont pas toujours fiables ou à jour. ● Différence entre réalité mathématique et réalité biologique – ● => cf TP1 Les ordinateurs ne font pas de biologie, ils calculent vite ! 235 Exemple pratique ● Question : ● ● Quels sont les maladies génétiques pouvant être causées chez l'homme par une déficience des transporteurs potassiques transmembranaires ? Comment répondre en combinant les différentes bases de données vues précédemment ? 236 Puis ontology 6046 gènes / protéines... 6046 gènes / protéines... .../... MIM = OMIM Exemple pratique ● ● Nous avons combiné les informations de 4 bases entre elles Attention aux limites des différentes bases ● Seules les connaissances connues sont présentes dans les bases ! – ● Il reste beaucoup d'inconnu en biologie Lorsqu'il y a beaucoup de gènes à rechercher : ● Possibilité d'automatiser les recherches à l'aide de scripts (programmation) 259 Pour l'examen ● Exercice comme ceux vu en cours et en TP ● Les documents sont autorisés ● ● Pensez à les amener ! Les calculatrices, les ordinateurs, les téléphones portables et les livres sont interdits 260