Questo articolo è stato pubblicato da questo sito
Una decina di anni fa, mentre faceva un dottorato in fisica, Žiga Avsec si è ritrovato a seguire un corso accelerato di genomica grazie a un modulo universitario sull’apprendimento automatico. Ben presto, è finito a lavorare in un laboratorio che studiava le malattie rare, all’interno di un progetto finalizzato a individuare l’esatta mutazione genetica alla base di una rara malattia mitocondriale. Era il classico ago nel pagliaio, racconta Avsec. Nel codice genetico si nascondevano milioni di potenziali colpevoli, sotto forma di mutazioni del dna in grado di creare scompiglio nella biologia di un individuo. Di particolare interesse per il progetto erano le cosiddette varianti missenso: modifiche di una sola lettera del codice genetico che determinano la formazione di un amminoacido diverso all’interno di una proteina. Gli amminoacidi sono gli elementi costitutivi delle proteine, che a loro volta sono alla base di tutto l’organismo. Per questo motivo, anche piccoli cambiamenti possono avere effetti importanti ed estesi.
Nel genoma umano sono presenti 71 milioni di possibili varianti missenso e in media ogni persona ne presenta più di 9000. Anche se nella maggior parte dei casi sono innocue, alcune di queste mutazioni sono associate a malattie genetiche come l’anemia falciforme e la fibrosi cistica, ma anche a patologie più complesse come il diabete di tipo 2, che può essere causato da una combinazione di piccole modifiche genetiche. Quando Avsec ha chiesto ai suoi colleghi “come facciamo a sapere quali sono effettivamente pericolose?”, la risposta è stata “be’, in gran parte dei casi non lo sappiamo“. Dei quattro milioni di varianti missenso individuate nell’uomo, solo il 2 per cento è stato classificato come patogeno o benigno, grazie ad anni di minuziose e costose ricerche. Per studiare l’effetto di una singola mutazione missenso possono essere necessari mesi.
Che cos’è AlphaMissense
Il 19 settembre Google DeepMind, dove ora Avsec lavora come ricercatore, ha lanciato uno strumento capace di accelerare sensibilmente questo processo. AlphaMissense è un modello di apprendimento automatico in grado di analizzare le varianti missenso e di prevedere la probabilità che causino una malattia con un’accuratezza del 90 per cento, più alta degli strumenti esistenti.
Pur essendo basato su AlphaFold – l’innovativo modello di DeepMind che ha previsto la struttura di centinaia di milioni di proteine a partire dalla loro composizione aminoacidica – lo strumento funziona in modo diverso. Invece di fare previsioni sulla struttura di una proteina, AlphaMissense lavora in maniera più simile a un modello linguistico di grandi dimensioni (Llm) alla base dei sistemi di intelligenza artificiale, come ChatGPT di OpenAI.
AlphaMissense è stato addestrato utilizzando il gergo della biologia umana (e dei primati), e quindi sa come dovrebbero apparire le normali sequenze di amminoacidi nelle proteine. Quando gli viene sottoposta una sequenza sbagliata il sistema se ne accorge, come se si trattasse di una parola incongrua in una frase. “È un modello linguistico, ma addestrato sulle sequenze proteiche – spiega Jun Cheng, coautore insieme ad Avsec dell’articolo con cui viene presentato AlphaMissense, pubblicato su Science il 19 settembre –. Se sostituiamo una parola di una frase in inglese, una persona che ha familiarità con la lingua è in grado di capire immediatamente se le modifiche cambieranno o meno il significato della frase“.