En juillet 2022 dernier, la prédiction des structures de 200 millions de protéines a été dévoilée. Un exploit réalisé en un an seulement, permis conjointement par la puissance de calcul du logiciel d’apprentissage profond AlphaFold de DeepMind et par les efforts conjugués de la communauté scientifique impliquée sur le sujet depuis plusieurs années. Grâce à ces prédictions du repliement des protéines, les scientifiques espèrent notamment réaliser des progrès dans le traitement de plusieurs maladies.
La deuxième version d’AlphaFold de DeepMind a été utilisé afin de réaliser cet exploit (pour plus d’information, Inneance a publié précédemment un article sur le fonctionnement d’AlphaFold).
Pour rappel, le programme AlphaFold permet de prédire la forme 3D d’une protéine à partir de ses seuls éléments constitutifs, à savoir les acides aminés. En partenariat avec le Laboratoire Européen de Biologie Moléculaire[1] (European Molecular Biology Laboratory, EMBL), les scientifiques ont réussis à constituer en une seule année seulement, une base de données (nommée AlphaFold Protein Structure Database) rassemblant 200 millions de protéines. Cette base de données est en libre accès et se présente sous la forme d’un moteur de recherche à partir duquel les scientifiques du monde entier peuvent accéder à la prédiction de la structure 3D de la majorité des protéines connues, qu’elles soient issues des animaux, des plantes, des bactéries ou des champignons.
1. Prédiction du repliement des protéines
Les protéines sont des acteurs essentiels du vivant, responsables d’une grande majorité de l’activité cellulaire. Celles-ci sont capables d’effectuer d’innombrables réactions chimiques complexes et peuvent même interagir entre elles : la vision, la conduction nerveuse, la fabrication de l’énergie chimique cellulaire, la photosynthèse, le déplacement et les interactions cellulaires sont des phénomènes très différents, mais tous utilisent des protéines.
Il existe ainsi une multitude de protéines, chacune possédant une fonction et un rôle spécifiques. À titre d’exemple, ce sont des protéines qui catalysent les réactions chimiques de synthèse et de dégradation nécessaires au métabolisme de la cellule, qui assurent un rôle structurel au sein du cytosquelette ou des tissus (actine, collagène). Certaines protéines peuvent être vues comme des « moteurs moléculaires » qui permettent la mobilité (myosine), d’autres sont impliquées dans le repliement de l’ADN (histones), la régulation de l’expression génétique (facteurs de transcription), le métabolisme énergétique (ATP synthase) ou encore la transmission de signaux cellulaires (récepteurs membranaires).
Les protéines sont constituées d’un assemblage complexe de molécules plus petites : les acides aminés. Dans le cadre du repliement des protéines, il y a une notion essentielle à prendre en compte, qui est que la structure détermine la fonction : le rôle d’une protéine donnée dépend entièrement de sa structure tridimensionnelle (ou conformation). Ainsi, lors du repliement d’une protéine, la séquence d’acides aminés se replie sur elle-même, adoptant une configuration particulière. Cette configuration est fonction des interactions physico-chimique existantes entre chacun des acides aminés. Au cours de ce repliement, certains acides aminés vont ainsi se rapprocher les uns des autres et pouvoir notamment former une (ou des) unité(s) fonctionnelle(s), tandis que d’autres vont se repousser et seront, par exemple, maintenus en périphérie de la molécule. L’enchaînement « linéaire » des acides aminés est donc prépondérant et détermine la forme et la fonction des protéines et l’enjeu est donc d’être capable de déterminer la structure des protéines en 3 dimensions sur la base de ce simple enchaînement linéaire d’acides aminés (1 dimension).
Il est humainement impossible de prévoir quelle forme 3D pourra prendre une protéine. La combinatoire est ici gigantesque puisque, à titre d’exemple, une chaîne d’acides aminés de 100 résidus aura environ 1095 états conformationnels possibles[2]. Ceci s’explique notamment par les multiples paramètres à prendre en compte : entre autres, l’orientation dans l’espace des atomes constitutifs du squelette de la protéine, les contraintes physiques qui pèsent sur le repliement de celui-ci, la structure de plus petits ensembles d’acides aminés, ou encore les conditions de température du milieu.
2. Intelligence Artificielle
Le programme AlphaFold permet de prédire la structure 3D d’une protéine à partir de sa seule séquence d’acides aminés. Pour ce faire, AlphaFold s’est au départ appuyé sur une base de données d’environ 200 000 structures protéiques en 3 dimensions. Ces structures ont précédemment été élucidées au cours de décennies de travaux de recherche, grâce à des approches de cristallographie aux rayons X, la RMN ou encore la cryomicroscopie électronique.
Une des forces d’AlphaFold réside notamment dans le fait que le programme est capable de prédire des structures protéiques pour lesquelles aucune protéine homologue[3] n’est connue. Cette capacité permettra, par exemple, aux scientifiques de pouvoir étudier les caractéristiques moléculaires d’organismes pour lesquels très peu de données sont accessibles actuellement. Par ailleurs, quand bien même certaines structures protéiques résolues par AlphaFold s’avèrent fausses, il est important de noter que ces structures peuvent tout de même servir de point de départ à de nouvelles expériences, qui nécessitent souvent d’avoir une première estimation de la structure 3D de la protéine.
3. Recherches à venir
La communauté scientifique fondent beaucoup d’espoir sur la base de données AlphaFold Protein Structure Database en espérant notamment que celle-ci puisse contribuer à des avancées concrètes dans plusieurs programmes de recherche telles que la lutte contre la pollution plastique, ou la compréhension des origines de la vie ou la recherche de traitements contre des maladies. À cet effet, plusieurs équipes de scientifiques sont actuellement entrain de s’appuyer sur la base de données protéique pour concevoir des enzymes permettant de recycler certains plastiques[4] à usage unique parmi les plus polluants, ou bien d’étudier les mécanismes d’antibiorésistances, ou encore d’améliorer notre compréhension de la biologie du SARS-COV-2.
Par ailleurs, les équipes de DeepMind ambitionnent également qu’AlphaFold puisse à l’avenir prédire les structures de complexes formés avec d’autres protéines (complexes protéiques) ou d’autres molécules comme l’ADN et l’ARN ; et puisse également livrer des informations sur la dynamique du processus de repliement des protéines. Qui plus est, certaines structures de protéines restent très difficiles à prédire comme, par exemple, celle du collagène, protéine la plus abondante du règne animal, , car notamment constituées de triples chaînes polypeptidiques enroulées elle-même en triple hélice.
[1] https://www.embl.org/news/science/alphafold-database-launch/
[2] Levinthal C. Are there pathways for protein folding ? J Chem Phys 1968; 65 : 44–5.
[3] En biologie moléculaire, de (ou plusieurs) protéines sont dites homologues entre elles lorsqu’elles partage une origine évolutive commune, c’est-à-dire présentant une homologie au sens de l’évolution moléculaire.
[4] https://www.inneance.fr/biodegradation-du-plastique-quand-la-microbiologie-recourt-a-lintelligence-artificielle/