Protein Data Bank

La banque de données sur les protéines du Research Collaboratory for Structural Bioinformatics, plus couramment nommée Protein Data Bank ou PDB est une collection mondiale de données sur la structure tridimensionnelle de macromolécules biologiques : protéines,...

Catégories :

Bio-informatique - Protéomique - Protéine

La banque de données sur les protéines du Research Collaboratory for Structural Bioinformatics, plus couramment nommée Protein Data Bank ou PDB est une collection mondiale de données sur la structure tridimensionnelle (ou structure 3D) de macromolécules biologiques : protéines, principalement, et acides nucléiques. Ces structures sont principalement déterminées par cristallographie aux rayons X ou par spectroscopie RMN. Ces données expérimentales sont déposées dans la PDB par des biologistes et des biochimistes du monde entier et appartiennent au domaine public. Leur consultation est gratuite et peut se faire directement depuis le site web [1] de la banque. La PDB est la principale source de données de biologie structurale et permet surtout d'accéder à des structures 3D de protéines d'intérêt pharmaceutique.

Historique

Fondée en 1971 par le Laboratoire national de Brookhaven, la Banque de données des protéines a été transférée en 1998 au Research Collaboratory for Structural Bioinformatics (RCSB), qui se compose de l'Université de Rutgers, de l'Université du Wisconsin à Madison, du National Institute of Standards and Technology (NIST) et du "San Diego Supercomputer Center ".

Le financement est assuré par la National Science Foundation, le Department of Energy, la National Library of Medicine et le National Institute of General Medical Sciences. L'Institut européen de bio-informatique (European Bioinformatics Institute, EBI), au Royaume-Uni, et le Institute for Protein Research, au Japon, collectent et traitent aussi les fichiers de données structurales.

En 2003, la Worlwide Protein Data Bank (wwPDB) a été créée et comprend trois organisations membres qui sont des centres de dépôt, de traitement et de distribution des données de la PDB. Ces organisations sont RCSB (USA), PDBe (Protein Databank in Europe - EBI, Europe) et PDBj (Protein Data Bank Japan, Japon). La mission de la wwPDB est de maintenir à jour une archive PDB unique de données structurales macromoléculaires, accessible gratuitement et publiquement pour la totalité de la communauté.

Croissance de la PDB et diversification des utilisateurs

La PDB contenait à l'origine (en 1971) 7 structures. Le nombre de structures déposées a énormément augmenté à partir des années 1980. En effet, à cette époque, les techniques cristallographiques se sont perfectionnées, les structures déterminées par RMN ont été ajoutées, et la communauté scientifique a changé de vue sur le partage des données.

Au début des années 1990, la majorité des journaux demandaient un code PDB et une agence de financement, le NIST, exigeait le dépôt de l'ensemble des données structurales. La PDB est aussi devenu accessible par le réseau Internet, plutôt que sur supports physiques. De fait, les premiers utilisateurs de la PDB qui étaient limités à des experts impliqués dans la recherche structurale, sont devenus des déposants utilisant des techniques variées pour déterminer les structures : diffraction des rayons X, RMN, microscopie cryoélectronique et modélisation théorique. Les modèles théoriques (voir protein structure prediction) ne sont cependant plus acceptés et ont été supprimés en juillet 2002. Les usagers de la PDB sont actuellement particulièrement divers, comprenant des chercheurs en biologie, chimie ou bio-informatique, des enseignants et des étudiants de tous niveaux.

De nombreuses sources de financement et de journaux scientifiques demandent désormais le dépôt des structures dans la PDB. Un influx invraisemblable de données a aussi été générée par la génomique structurale. La croissance du nombre d'entrées de la PDB est actuellement exponentielle.

Contenu

La PDB contient, au 09/06/2009, 58083 structures. Les données sont depuis l'origine au format pdb, et sont depuis quelques années aussi au format mmCif, particulièrement développé pour les données structurales de la PDB. 6000 à 7000 structures sont ajoutées chaque année.

La banque contient des fichiers pour chaque modèle moléculaire. Ces fichiers décrivent la localisation exacte de chaque atome de la macromolécule étudiée, c'est-à-dire les coordonnées cartésiennes de l'atome dans un repère à trois dimensions. Si on s'intéresse plutôt à la séquence de la macromolécule (la liste des acides aminés ou nucléiques), il vaut mieux utiliser d'autres banques énormément plus grandes, comme Swiss-Prot. Les fichiers contiennent aussi des métadonnées.

Statistiques de la PDB (PDB Holdings List) au 10/08/2007 :

	Protéines	Acides nucléiques	Complexes protéines / acides nucléiques	Autres	Total
Diffractométrie de rayons X	35676	978	1663	24	38341
RMN	5552	779	133	7	6471
Microscopie électronique	105	10	38	0	153
Autres	80	4	4	2	90
Total	41413	1771	1838	33	45055

Formats des fichiers

Chaque modèle est référencé dans la banque par un identifiant unique à 4 caractères, le premier étant toujours un caractère numérique, les trois suivants étant des caractères alphanumériques. Cet identifiant est nommé «code pdb».

Plusieurs formats existent pour les fichiers de la PDB :

Le format PDB

Le format pdb est le format original de la banque. La guide de ce format a été révisé à plusieurs reprises ; la version actuelle est la version 2.2, qui existe depuis 1996. Il est fortement conseillé de lire ce guide avant d'examiner les données brutes des fichiers pdb.

Les archives contiennent les coordonnées cartésiennes des atomes, la bibliographie, les informations structurales, les facteurs de la structure cristallographique et les données expérimentales de la RMN. A l'origine, le format pdb a été dicté par l'utilisation et la largeur de cartes perforées pour ordinateur. En conséquence, chaque ligne contient précisément 80 caractères.

Un fichier au format pdb est un fichier texte où chaque colonne possède sa signification : chaque paramètre est situé de façon immuable. Ainsi, les 6 premières colonnes, c'est-à-dire les 6 premiers caractères pour une ligne donnée, déterminent le champ du fichier. On retrouve par exemple les champs «TITLE_» (c'est-à-dire le titre de la macromolécule étudiée), «KEYWDS» (les mots-clé de l'entrée), «EXPDTA» qui donne des informations sur la méthode expérimentale employée, «SEQRES» (la séquence de la protéine étudiée), «ATOM__» ou «HETATM», champs comprenant l'ensemble des informations liées à un atome spécifique. Dernier exemple, dans ces derniers champs, le nom de l'atome est décrit par les colonnes 13 à 16 (soit du treizième au seizième caractère de la ligne).

Les lignes «ATOM__» concernent les acides aminés ou les acides nucléiques, et les lignes «HETATM» sont dédiées aux autres molécules (solvant, substrat, ion, détergent…). Il y a tout autant de lignes «ATOM__» et «HETATM» que d'atomes observés par l'expérimentateur, pour une macromolécule ou un complexe donné.

La longue histoire du format pdb a abouti sur des données non uniformes. Ce format laisse aussi la place à de nombreuses erreurs, qui ne sont pas toujours éliminées lors des contrôles accompagnant le dépôt des structures. Il peut s'agir de désaccords entre la séquence et les résidus représentés, ou de problèmes liés à la nomenclature des atomes des acides aminés ou des ligands.

Limitations du format pdb. Le format en 80 colonnes des fichiers pdb est assez restrictif. Le nombre maximum d'atomes d'un fichier pdb est de 99999, vu qu'il n'y a que 5 colonnes allouées pour les numéros des atomes. De même le nombre de résidus par chaîne est au maximum de 9999 : il n'y a que 4 colonnes autorisées pour ce chiffre. Le nombre de chaînes, lui, est limité à 62 : une seule colonne est disponible, et les valeurs envisageables sont une des lettres des 26 lettres de l'alphabet, en minuscule ou en majuscule, ou un des chiffres de 0 à 9. Quant ce format a été défini, ces limitations ne semblaient pas restrictives, mais elles ont plusieurs fois été franchies lors du dépôt de structures extrêmement grandes, comme des virus, des ribosomes ou des complexes multienzymatiques.

Le format mmCIF

L'intérêt croissant pour le développement de base de données et de publications électroniques, à la fin des années 1980, a fait naître le besoin d'une représentation plus structurée, uniformisée, non limitée et de haute qualité pour les données de la PDB. En 1990, l'Union mondiale de la cristallographie (Mondial Union of Crystallography, IUCr) a étendu aux macromolécules la représentation des données utilisée pour décrire les structures cristallographiques des molécules de faible poids moléculaire. Cette représentation est nommée CIF, pour Crystallographic Information File. A partir de celle-ci, le dictionnaire mmCIF (macromolecular Crystallographic Information File) a par conséquent été développé. La première version du dictionnaire mmCIF a été publiée en 1996.

Lorsque le RCSB a pris la direction de la PDB en 1998, il a adopté le format mmCIF pour le traitement et la gestion des données. En 2001, l'ensemble des fichiers pdb ont été corrigés et convertis au format mmCIF4.

Dans le format mmCIF, chaque champ de chaque section d'un fichier pdb est représenté par une description d'une caractéristique d'un objet, qui comprend d'une part le nom de la caractéristique (par exemple _struct. entry_id), et d'autre part le contenu de la description (ici le code pdb : 1cbn). On parle de paire «nom-valeur». Il est aisé de convertir, sans perte d'informations, un fichier mmCIF au format pdb, puisque toute l'information est directement analysable. Il n'est pas envisageable, par contre, de totalement automatiser la conversion d'un fichier pdb au format mmCIF, puisque plusieurs descripteurs mmCIF sont soit absents du fichier PDB, soit présent dans un champ «REMARK» qui ne peut pas forcément être analysé. Le contenu des champs «REMARK» est en effet scindé suivant différentes entrées du dictionnaire mmCIF, pour préserver l'intégralité des informations, contenues par exemple dans la section Matériel et Méthodes (caractéristiques du cristal, méthode de raffinement…) ou dans les descriptions de la molécule biologiquement active ou des autres molécules présentes (substrat, inhibiteur…)

Le dictionnaire mmCIF comprend plus de 1700 entrées, qui ne sont bien sûres pas toutes utilisées dans un même fichier de la PDB. L'ensemble des noms des champs sont précédés du caractère «underscore» (_), pour pouvoir les différencier des valeurs elles-mêmes. Chaque nom correspond à une entrée du dictionnaire mmCIF, où les caractéristiques de l'objet sont précisément définies.

Comparaison d'un fichier pdb et d'un fichier mmCIF

Chaque champ d'un fichier pdb est représenté par un nom spécifique en mmCIF. A titre d'exemple, le champ «HEADER» du fichier pdb 1cbn :

HEADER PLANT SEED PROTEIN 11-OCT-91 1CBN

devient :

_struct.entry_id '1CBN'
_struct.title 'PLANT SEED PROTEIN'
_struct_keywords.entry_id '1CBN'
_struct_keywords.text 'plant seed protein'
_database_2.database_id 'PDB'
_database_2.database_code '1CBN'
_database_PDB_rev.rev_num 1
_database_PDB_rev.date_original '1991-10-11'

L'appariement nom-valeur est la différence majeure comparé au format pdb. Il présente l'avantage d'apporter une référence explicite pour chaque élément des données du fichier, plutôt que de librement laisser l'interprétation au programme qui lit le fichier.

Le format pdbml

Le format pdbml est l'adaptation au format XML des données au format pdb et contient les entrées décrites dans le dictionnaire «PDB Exchange Dictionnary». Ce dictionnaire contient les mêmes entrées que le dictionnaire mmCIF mais aussi d'autres, pour pouvoir prendre en compte l'ensemble des données gérées et distribuées par la PDB. Ce format sert à stocker bien plus d'informations sur les modèles que le format pdb.

Consultation des données

Les fichiers décrivant les modèles moléculaires peuvent être téléchargés à partir du site de la PDB et visualisés grâce à différents logiciels tels que rasmol, Jmol, chime, une extension VRML (plugin) d'un navigateur ou une bibliothèque mmLib pour le langage de programmation Python. Le site web de la PDB contient aussi des ressources pour l'enseignement, sur la génomique structurale et d'autres logiciels utiles.

Liens vers les données de la base de données des enzymes

[2] Le meilleur "mapping" est apporté par le groupe de Kim Henrick à l'EBI.
La PDB elle-même apporte des liens vers d'autres bases de données.
[3] Effectuer une recherche sur le portail BRENDA enzyme database.
[4] PDBSProtEC :

Références

Imprimées

Bernstein FC, Kœtzle TF, Williams GJ, Meyer Jr EF, Brice MD, Rodgers JR, Kennard O, Shimanouchi T, Tasumi M. The Protein Data Bank : a computer-based archival file for macromolecular structures. J Mol Biol 1977;112 :535-542. PMID 875032.

En ligne

Protein Data Bank - home page
The Protein Data Bank - La publication de référence sur la PDB, par Berman et al. PMID 10592235

Autres liens externes

RasMol Home Page - Un outil de visualisation moléculaire
ExPASy - Swiss-Prot et TrEMBL
DNA Sequence Collaborator's Page Mondial Nucleotide Sequence Database Collaboration

Recherche sur Google Images :

"Protein Data Bank Editor"
L'image ci-contre est extraite du site softpedia.com

Il est possible que cette image soit réduite par rapport à l'originale. Elle est peut-être protégée par des droits d'auteur.

Voir l'image en taille réelle (533 x 540 - 85 ko - jpg)

Refaire la recherche sur Google Images

Recherche sur Amazone (livres) :

Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Protein_Data_Bank.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 05/11/2009.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.