Elle a lu 9 300 MILLIARDS de lettres d'ADN : ce qu'elle a CRÉÉ fait peur — Veille IA

En une phrase

Evo 2 est le plus grand modèle d'IA biologique jamais créé, comparable aux LLM mais entraîné sur l'ADN, capable de lire, comprendre et écrire le « langage de la vie » avec une précision stupéfiante, promettant des avancées majeures en médecine, biotechnologie et au-delà.

Points clés

Un « LLM » pour l'ADN : Comme ChatGPT, mais au lieu d'apprendre sur des textes, Evo 2 a été entraîné sur 9 300 milliards de lettres d'ADN (9 300 gigabases) provenant de 128 000 espèces, apprenant la « grammaire de la vie » (A, T, C, G).
Compréhension évoluée sans étiquetage : Il déduit seul ce qui est vital ou dangereux dans l'ADN, grâce à l'évolution comme « mécanisme d'étiquetage naturel ». Il peut prédire avec 90 % de précision si une mutation génétique (ex: gène BRCA1) causera un cancer, sans jamais avoir été formé sur des données médicales spécifiques.
Capacité de traitement massive : Il peut analyser un million de lettres d'ADN simultanément, ce qui est crucial pour comprendre les connexions lointaines dans le génome, là où les modèles précédents « perdaient le fil ».
Création d'ADN fonctionnel : Evo 2 ne fait pas que lire ; il peut écrire de l'ADN fonctionnel qui n'a jamais existé. Il a généré le génome de bactéries et même de bactériophages synthétiques capables d'infecter et de tuer des bactéries résistantes aux antibiotiques, une première pour une IA !
Applications révolutionnaires : Les implications sont immenses : diagnostic médical ultra-rapide des mutations génétiques, conception de cultures plus résistantes et nutritives, développement de nouveaux traitements contre les infections résistantes aux antibiotiques. Il est comparé à un « noyau de système d'exploitation » pour la biologie.
Risques et accès ouvert : Malgré les filtres des chercheurs (exclusion des virus pathogènes), le modèle (code et données d'entraînement inclus) est open-source sur GitHub et Hugging Face. Cela pose la question éthique et de sécurité : des acteurs malveillants pourraient le ré-entraîner avec des données virales pour créer des agents pathogènes.