Se vuoi decifrare un virus, trattalo come un linguaggio
Articolo del 09 Febbraio 2021
Molti di noi hanno a che fare quotidianamente con quelle che vengono chiamate tastiere predittive: quando scriviamo un sms o un messaggio in chat, la tastiera del nostro telefono, memorizzando i termini già utilizzati e le loro combinazioni, è in grado di pescare dal dizionario interno e fornire suggerimenti sulle parole da inserire, talvolta facendoci perdere la pazienza. Ma esistono anche servizi predittivi più avanzati, collegati ai dizionari locali di tutti gli utenti che usano la stessa applicazione: grazie all’utilizzo di algoritmi di apprendimento automatico, questi sistemi di Natural Language Processing (Nlp) sono capaci di elaborare il nostro linguaggio per fornire suggerimenti sintatticamente e semanticamente corretti e contestualizzati.
Se qualcuno vi dicesse che un sistema di Npl simile a questi è in grado di prevedere la mutazione di un virus, ci credereste? In uno studio pubblicato sulla rivista «Science» un gruppo del Massachusetts Institute of Technology si è ispirato proprio a un modello di codifica del linguaggio per studiare le varianti dei virus Sars-CoV-2, Hiv e di quello influenzale.
Uno dei motivi che spesso impedisce lo sviluppo di vaccini efficaci è legato alla capacità di certi virus, come quelli suddetti, di mutare rapidamente. Questa velocità di trasformazione, infatti, consente loro di eludere gli anticorpi generati e di sfuggire alla loro presa.
Per evitare di rincorrere il virus è però necessario anticipare le sue mosse. E da qui l’intuizione che i ricercatori hanno avuto: applicare dei modelli predittivi, usati tipicamente per elaborare il linguaggio, alle informazioni biologiche come le sequenze genetiche. L’ingegnosa idea si basa sul fatto che una sequenza genetica, ovvero la catena di molecole (i nucleotidi) che forma il Dna del virus (chiamato Rna), possa seguire regole simili a quelle necessarie per la strutturazione di una frase (sequenza di parole). Ma da dove cominciare? Inizialmente, per convalidare la validità dell’approccio, i ricercatori hanno analizzato tre proteine: l’emoagglutinina dell’influenza A (Ha), la glicoproteina dell’involucro dell’HIV-1 (Env) e la glicoproteina Spike del Sars-CoV-2. Tutte e tre si trovano sulla superficie del rispettivo virus e sono responsabili dei legami con le cellule. Le proteine Spike, per esempio, sono le spine che circondano l’involucro del Sars-CoV-2, formando una specie di corona: quando una di queste si aggancia al ricettore di una cellula, vi entra dentro e comincia a reclutare le proteine della cellula stessa, di cui necessita per avviare il processo di duplicazione dell’intero virus. Ma perché il procedimento vada a buon fine la Spike dovrà scegliere quelle proteine in un ordine ben preciso. E qui entra in gioco l’analogia tra il nostro linguaggio e quello genetico. Dal momento che non siamo in grado di vedere, tassello dopo tassello, la sequenza precisa con cui un virus si replica, l’idea dei ricercatori è stata quella di «addestrare» un modello di linguaggio per ciascun agente patogeno (influenza, Hiv e Sars-CoV-2), che anziché memorizzare sequenze di parole memorizzasse determinate sequenze genetiche.
Ma gli enzimi chiamati a copiare l’Rna del virus all’interno della cellula compiono talvolta delle modifiche, inserendo un nucleotide al posto di un altro, e danno vita a una variante del virus. Come fa un sistema di codifica del linguaggio a prevedere le mutazioni di un virus? Il modello predittivo sarebbe in grado di dedurre anticipatamente le possibili modifiche da parte degli enzimi e indicarci le potenziali varianti. «Ho mangiato le uova a…»: «colazione», «pranzo», «cena», … Ognuna di queste frasi completate è una possibile variante.
Quando un virus muta, per mantenere e spesso migliorare la sua efficacia, deve preservare la sua infettività e il suo successo riproduttivo, cioè la capacità di produrre «figli fertili», o meglio copie in grado a loro volta di replicarsi: per farlo dovrà obbedire a un complesso di regole biologiche, simili a quelle grammaticali. Ma per sopravvivere il virus mutante non deve farsi riconoscere dal sistema immunitario: questo lo obbliga a cambiare struttura e assumere un diverso «significato», purché tale «forma» sia corretta in modo da avere un senso. Esattamente come nell’analisi semantica si assegna un significato alla struttura sintattica corretta. In sintesi, mantenendo le regole grammaticali – cioè la funzionalità del virus – la forma della frase – ovvero la struttura del virus – cambia e assume un significato diverso: pertanto il virus non viene più codificato dagli anticorpi.
Così come sono in grado di memorizzare le combinazioni di parole e predire quali termini possano essere utilizzati per completare una frase in modo corretto i modelli computazionali utilizzati hanno quindi la capacità di predire le sequenze genetiche che possono verificarsi, sulla base di quelle precedentemente memorizzate.
Parliamo, inoltre, di sistemi che possono sfruttare una quantità relativamente piccola di informazioni: in questo studio i ricercatori hanno infatti utilizzato 60 mila sequenze di Hiv, 45 mila sequenze di influenza e 4 mila sequenze di Sars-CoV-2. Ciononostante, hanno dato risultati promettenti. L’analisi del modello applicato al virus, per esempio, mostra che una parte della proteina Spike – chiamata subunità S2 – ha minori probabilità di generare mutazioni, rendendosi un potenziale bersaglio per i vaccini. Questo suggerirebbe, quindi, che gli anticorpi in grado di attaccare quella determinata parte della proteina potrebbero offrire una protezione abbastanza efficace. Ma rimane ancora la domanda sulla rapidità con cui il virus è in grado di mutare, benché l’indagine indichi che questo non si modifichi velocemente come l’influenza o l’Hiv.
Data l’efficacia dei modelli computazionali utilizzati, i protagonisti di questo studio stanno ora lavorando con altri gruppi di ricerca per individuare possibili bersagli nei tumori, al fine di realizzare una sorta di vaccino che stimoli il sistema immunitario del nostro corpo a distruggere le cellule tumorali.
Fonte: La Stampa