AlphaFold Protein Structure Prediction

DeepMind AI Powers Major Scientific Breakthrough: AlphaFold Generates 3D View of the Protein Universe

AlphaFold prédit la structure de presque toutes les protéines cataloguées connues de la science. Crédit : Karen Arnott/EMBL-EBI

DeepMind et l’Institut européen de bioinformatique de l’EMBL (EMBL-EBI) ont fait des prédictions basées sur l’IA des structures tridimensionnelles de presque toutes les protéines cataloguées connues de la science. le catalogue est librement et ouvertement accessible à la communauté scientifique, via la base de données de structure des protéines AlphaFold.

Les deux organisations espèrent que la base de données élargie continuera d’accroître notre compréhension de la biologie, aidant de nombreux autres scientifiques dans leur travail alors qu’ils s’efforcent de relever les défis mondiaux.

Cette étape importante marque l’expansion de la base de données environ 200 fois. Il est passé de près d’un million de structures protéiques à plus de 200 millions et couvre désormais presque tous les organismes sur Terre dont le génome a été séquencé. Les structures prédites pour un large éventail d’espèces, y compris les plantes, les bactéries, les animaux et d’autres organismes, sont désormais incluses dans la base de données élargie. Cela ouvre de nouvelles voies de recherche dans les sciences de la vie qui auront un impact sur les défis mondiaux, notamment la durabilité, l’insécurité alimentaire et les maladies négligées.

Désormais, une structure prédite sera disponible pour pratiquement toutes les séquences de protéines dans la base de données de protéines UniProt. Cette version ouvrira également de nouvelles voies de recherche, notamment en soutenant la bioinformatique et les travaux informatiques en permettant aux scientifiques de repérer potentiellement des modèles et des tendances dans la base de données.

“AlphaFold offre désormais une vue 3D de l’univers des protéines”, a déclaré Edith Heard, PDG de l’EMBL. « La popularité et la croissance de la base de données AlphaFold témoignent du succès de la collaboration entre DeepMind et l’EMBL. Cela nous montre un aperçu de la puissance de la science multidisciplinaire.

« Nous avons été étonnés de la vitesse à laquelle AlphaFold est déjà devenu un outil essentiel pour des centaines de milliers de scientifiques dans des laboratoires et des universités du monde entier », a déclaré Demis Hassabis, fondateur et PDG de DeepMind. « De la lutte contre les maladies à la lutte contre la pollution plastique, AlphaFold a déjà permis un impact incroyable sur certains de nos plus grands défis mondiaux. Notre espoir est que cette base de données élargie aidera beaucoup plus de scientifiques dans leur travail important et ouvrira de toutes nouvelles voies de découverte scientifique.”

Q8W3K0

Q8W3K0 : une protéine potentiellement résistante aux maladies des plantes. Crédit : AlphaFold

Un outil indispensable pour les scientifiques.

DeepMind et EMBL-EBI ont lancé la base de données AlphaFold en juillet 2021. À cette époque, elle contenait plus de 350 000 prédictions de structure de protéines, y compris l’ensemble du protéome humain. Les mises à jour ultérieures ont vu l’ajout d’UniProtKB/SwissProt et de 27 nouveaux protéomes, dont 17 représentent des maladies tropicales négligées qui continuent de dévaster la vie de plus d’un milliard de personnes dans le monde.

Plus de 1 000 articles scientifiques ont cité la base de données et plus de 500 000 chercheurs de plus de 190 pays ont accédé à la base de données AlphaFold pour afficher plus de deux millions de structures en un peu plus d’un an.

L’équipe a également vu des chercheurs tirer parti d’AlphaFold pour créer et adapter des outils tels que Foldseek et Dali qui permettent aux utilisateurs de rechercher des entrées similaires à une protéine donnée. D’autres ont adopté les idées fondamentales d’apprentissage automatique derrière AlphaFold, formant l’épine dorsale d’une liste de nouveaux algorithmes dans cet espace, ou les appliquant à des domaines tels que la prédiction de la structure de l’ARN ou le développement de nouveaux modèles pour la conception de protéines. .

Impact et avenir d’AlphaFold et de la base de données

AlphaFold a également montré son impact dans des domaines tels que l’amélioration de notre capacité à lutter contre la pollution plastique, l’apprentissage de la maladie de Parkinson, l’amélioration de la santé des abeilles, la compréhension de la formation de la glace, la lutte contre les maladies négligées comme la maladie de Chagas et la leishmaniose, et l’exploration de l’évolution humaine.

« Nous avons lancé AlphaFold dans l’espoir que d’autres équipes pourraient apprendre et s’appuyer sur les progrès que nous avons réalisés, et c’est excitant de voir que cela se produise si rapidement. De nombreuses autres organisations de recherche en IA sont maintenant entrées sur le terrain et profitent des percées d’AlphaFold pour créer d’autres percées. Il s’agit véritablement d’une nouvelle ère en biologie structurale, et les méthodes basées sur l’IA entraîneront des progrès incroyables », a déclaré John Jumper, chercheur scientifique et responsable d’AlphaFold chez DeepMind.

“AlphaFold a envoyé des ondulations à travers la communauté de la biologie moléculaire. Au cours de la dernière année seulement, il y a eu plus d’un millier d’articles scientifiques sur un large éventail de sujets de recherche utilisant les structures AlphaFold ; Je n’avais jamais rien vu de tel », a déclaré Sameer Velankar, chef d’équipe de la banque de données sur les protéines EMBL-EBI en Europe. « Et ce n’est que l’impact d’un million de prédictions ; Imaginez l’impact d’avoir plus de 200 millions de prédictions de structure de protéines librement accessibles dans la base de données AlphaFold.

DeepMind et EMBL-EBI continueront à mettre à jour régulièrement la base de données, dans le but d’améliorer les caractéristiques et les fonctionnalités en réponse aux commentaires des utilisateurs. L’accès aux structures restera entièrement ouvert, sous une licence CC-BY 4.0, et les téléchargements groupés seront disponibles via Google Cloud Public Datasets.

Leave a Comment

Your email address will not be published.