Pare comprendere sempre meglio i dati, e in particolare il linguaggio naturale. Ma, se sottoposta a test più approfonditi, l’intelligenza artificiale cade ancora in trabocchetti che non ingannano un umano. Ed è ancora in corso la ricerca per una misura attendibile della presunta capacità di comprensione di una macchina.

Ricordate Watson di IBM, il campione di AI Jeopardy! ? Un video promozionale del 2010 proclamava: “Watson capisce il linguaggio naturale in tutta la sua ambiguità e complessità”. Tuttavia, come abbiamo visto quando Watson ha poi fallito spettacolarmente nel suo tentativo di “rivoluzionare la medicina con l’intelligenza artificiale”, una patina di capacità linguistica non è la stessa cosa che comprendere effettivamente il linguaggio umano.

La comprensione del linguaggio naturale è stata a lungo uno dei principali obiettivi della ricerca sull’intelligenza artificiale (IA). All’inizio, i ricercatori hanno cercato di programmare manualmente tutto ciò di cui una macchina avrebbe avuto bisogno per dare un senso a storie di cronaca, narrativa o qualsiasi altra cosa che gli umani potessero scrivere. Questo approccio, come ha dimostrato il caso di Watson, è del tutto improduttivo: è impossibile scrivere tutti i fatti non scritti, le regole e le ipotesi necessarie per la comprensione di un testo.

Più recentemente, è stato stabilito un nuovo paradigma: invece di costruire una conoscenza esplicita, lasciamo che le macchine imparino a capire il linguaggio da sole, semplicemente “ingerendo” grandi quantità di testo scritto e imparando a prevedere le parole. Il risultato è quello che i ricercatori chiamano un modello linguistico. Quando si basano su grandi reti neurali, come GPT-3 di OpenAI, questi modelli possono generare testi di prosa (e di poesia!) incredibilmente simili a quelli umani e, apparentemente, fare sofisticati ragionamenti linguistici.

Ma GPT-3, addestrato su testi provenienti da migliaia di siti web, libri ed enciclopedie, è riuscito ad andare oltre la “patina” di Watson? Capisce davvero il linguaggio che genera e su cui apparentemente ragiona? Questo è un argomento di forte disaccordo nella comunità dei ricercatori sull’IA. Queste discussioni una volta erano appannaggio dei filosofi, ma nell’ultimo decennio l’IA è uscita dalla sua bolla accademica per entrare nel mondo reale, e la sua mancanza di comprensione di quel mondo può avere conseguenze reali e talvolta devastanti. In uno studio, Watson di IBM ha proposto “molteplici esempi di raccomandazioni di trattamento non sicure ed errate”. Un altro studio ha mostrato che il sistema di traduzione automatica di Google faceva errori significativi quando veniva usato per tradurre le istruzioni mediche per i pazienti che non parlano inglese.

Come possiamo determinare in pratica se una macchina è in grado di capire? Nel 1950, il pioniere dell’informatica Alan Turing cercò di rispondere a questa domanda con il suo famoso “gioco di imitazione”, ora chiamato test di Turing. Una macchina e un umano, entrambi nascosti alla vista, avrebbero gareggiato per convincere un giudice umano della loro umanità usando solo la conversazione. Se il giudice non riusciva a dire quale fosse l’umano, allora, affermava Turing, dovremmo considerare la macchina come pensante e capace, di fatto, di comprendere.

Sfortunatamente, Turing ha sottovalutato la propensione degli umani a essere ingannati dalle macchine. Anche semplici chatbot, come Eliza, la psicoterapeuta surrogata di Joseph Weizenbaum negli anni sessanta, hanno ingannato le persone inducendole a credere di conversare con un essere in grado di comprendere, anche quando sapevano che il loro interlocutore era una macchina.

In un articolo del 2012, gli informatici Hector Levesque, Ernest Davis e Leora Morgenstern hanno proposto un test più obiettivo, che hanno chiamato prova dello schema di Winograd (Winograd Schema Challenge). Questo test è stato adottato dalla comunità del linguaggio IA come un modo, forse il migliore, per valutare la comprensione della macchina, anche se, come vedremo, non è perfetto. Uno schema di Winograd, dal nome del ricercatore linguistico Terry Winograd, consiste in una coppia di frasi che differiscono esattamente per una parola, ciascuna seguita da una domanda. Ecco due esempi:

Frase 1: Ho versato l’acqua dalla bottiglia nella tazza fino a riempirla.
Domanda: Cosa era pieno, la bottiglia o la tazza?
Frase 2: Ho versato l’acqua dalla bottiglia nella tazza finché non era vuota.
Domanda: Cosa era vuoto, la bottiglia o la tazza?

Frase 1: Lo zio di Joe può ancora batterlo a tennis, anche se ha 30 anni in più.
Domanda: Chi è più vecchio, Joe o lo zio di Joe?
Frase 2: Lo zio di Joe può ancora batterlo a tennis, anche se ha 30 anni di meno.
Domanda: Chi è più giovane, Joe o lo zio di Joe?

In ogni coppia di frasi, la differenza di una parola può cambiare la cosa o persona a cui si riferisce un pronome. Rispondere correttamente a queste domande sembra richiedere la comprensione del senso comune. Gli schemi di Winograd sono progettati proprio per testare questo tipo di comprensione, riducendo la vulnerabilità del test di Turing a giudici umani inaffidabili o ai trucchi dei chatbot. In particolare, gli autori hanno progettato alcune centinaia di schemi che credevano fossero “a prova di Google”: una macchina non dovrebbe essere in grado di usare una ricerca su Google (o qualcosa di simile) per rispondere correttamente alle domande.

Questi schemi sono stati oggetto di un concorso svoltosi nel 2016, ma il programma vincitore è riuscito a dare risposte corrette solo per il 58 per cento delle frasi, un risultato a stento migliore di quello che si può ottenere tentando di indovinare. Oren Etzioni, uno dei più importanti ricercatori sull’IA, ha scherzato: “Quando l’IA non può determinare a che cosa si riferisce ‘esso’ in una frase, è difficile credere che conquisterà il mondo”.

Tuttavia, la capacità dei programmi IA di risolvere gli schemi di Winograd è aumentata rapidamente grazie all’avvento di grandi modelli linguistici a rete neurale. Un articolo del 2020 su “OpenAI” ha riportato che GPT-3 dava la corretta interpretazione a quasi il 90 per cento delle frasi in un insieme di riferimento di schemi Winograd. Altri modelli linguistici hanno ottenuto risultati ancora migliori dopo un addestramento specifico su questi compiti. Al momento della stesura di questo articolo, i modelli linguistici a rete neurale hanno raggiunto circa il 97 per cento di accuratezza su un particolare insieme di schemi Winograd che fanno parte di una competizione di comprensione del linguaggio AI nota come SuperGLUE. Questa accuratezza equivale all’incirca alla prestazione umana. Ciò significa che i modelli di linguaggio delle reti neurali hanno raggiunto una comprensione simile a quella umana?

Non necessariamente. Nonostante i migliori sforzi dei creatori, quegli schemi di Winograd non erano effettivamente a prova di Google. Queste sfide, come molti altri test attuali della capacità di comprensione del linguaggio dell’IA, a volte permettono scorciatoie che consentono alle reti neurali di comportarsi bene senza comprendere. Per esempio, consideriamo le frasi “L’auto sportiva ha superato il camion della posta perché andava più veloce” e “L’auto sportiva ha superato il camion della posta perché andava più piano”. Un modello linguistico addestrato su un enorme corpus di frasi inglesi avrà assorbito la correlazione tra “macchina sportiva” e “veloce”, e tra “camion della posta” e “lento”, e quindi può rispondere correttamente basandosi solo su queste correlazioni senza attingere a qualsiasi comprensione. Si è scoperto che molti degli schemi di Winograd usati nel concorso SuperGLUE permettono questo tipo di correlazioni statistiche.

Invece di rinunciare agli schemi Winograd come test di comprensione, un gruppo di ricercatori dell’Allen Institute for Artificial Intelligence ha deciso di provare a risolvere alcuni dei problemi che li affliggono. Nel 2019 hanno creato WinoGrande, un insieme molto più ampio di schemi di Winograd. Invece di alcune centinaia di esempi, WinoGrande contiene ben 44.000 frasi. Per ottenere così tanti esempi, i ricercatori si sono rivolti ad Amazon Mechanical Turk, una popolare piattaforma per il lavoro in crowdsourcing. A ogni iscritto (umano) alla piattaforma è stato chiesto di scrivere diverse coppie di frasi, con alcuni vincoli per garantire che la collezione contenesse argomenti diversi, anche se le frasi di ogni coppia potevano differire per più di una parola.

I ricercatori hanno poi tentato di eliminare le frasi che potevano consentire scorciatoie statistiche applicando un metodo di IA relativamente poco sofisticato a ogni frase e scartando quelle che erano troppo facilmente risolvibili. Come previsto, le frasi rimanenti hanno rappresentato una sfida molto più ardua per le macchine rispetto alla raccolta originale di schemi di Winograd. Mentre gli esseri umani ottenevano ancora un punteggio molto alto, i modelli linguistici delle reti neurali che avevano eguagliato le prestazioni umane sull’insieme originale di frasi hanno ottenuto un punteggio molto più basso con le frasi di WinoGrande. Questa nuova sfida sembrava riscattare gli schemi di Winograd come test per la comprensione del senso comune, a condizione che le frasi fossero attentamente vagliate per garantire che fossero a prova di Google.

Tuttavia, era in serbo un’altra sorpresa. Nei quasi due anni trascorsi da quando è stata pubblicata la raccolta WinoGrande, i modelli linguistici delle reti neurali sono diventati sempre più grandi, e più grandi diventano, migliore appare il loro punteggio in questa nuova sfida. Al momento in cui scrivo, i migliori programmi attuali – che sono stati addestrati su terabyte di testo e poi ulteriormente addestrati su migliaia di esempi di WinoGrande – si avvicinano al 90 per cento di correttezza (gli umani raggiungono circa il 94 per cento). Questo aumento delle prestazioni è dovuto quasi interamente all’aumento delle dimensioni dei modelli linguistici delle reti neurali e dei loro dati di allenamento.

Queste reti sempre più grandi hanno finalmente raggiunto una comprensione del senso comune simile a quella umana? Di nuovo, non è probabile. I risultati di WinoGrande sono accompagnati da alcune importanti avvertenze. Per esempio, poiché le frasi si sono affidate ai lavoratori di Amazon Mechanical Turk, la qualità e la coerenza di scrittura è piuttosto disomogenea. Inoltre, il metodo di IA “non sofisticato” usato per eliminare le frasi “non a prova di Google” potrebbe essere stato troppo poco sofisticato per individuare tutte le possibili scorciatoie statistiche disponibili per un’enorme rete neurale, ed è stato applicato solo a singole frasi, quindi alcune delle frasi rimanenti hanno finito per perdere il loro “gemello”. Uno studio successivo ha mostrato che i modelli linguistici delle reti neurali testati solo su frasi gemelle – richiedendo che fossero corretti in entrambe – sono molto meno accurati degli umani, dimostrando che il precedente risultato del 90 per cento è meno significativo di quanto sembrasse.

Quindi, che cosa dire della saga di Winograd? La lezione principale è che spesso è difficile determinare se i sistemi AI capiscono veramente il linguaggio (o altri dati) che elaborano sulla base delle loro prestazioni in un certo test. Ora sappiamo che le reti neurali – invece di dimostrare effettivamente una comprensione simile a quella umana – spesso usano scorciatoie statistiche per ottenere alte prestazioni sia per gli schemi di Winograd sia per molti dei più popolari benchmark di “comprensione generale del linguaggio”.

Il nocciolo del problema, a mio parere, è che la comprensione del linguaggio richiede la comprensione del mondo, e una macchina esposta solo al linguaggio non può ottenere una comprensione di questo tipo. Consideriamo che cosa significa capire “La macchina sportiva ha superato il camion della posta perché andava più piano”. Dobbiamo sapere cosa sono le macchine sportive e i camion della posta, che le macchine possono “sorpassarsi” l’un l’altra, e, a un livello ancora più basilare, che i veicoli sono oggetti che esistono e interagiscono nel mondo, guidati da esseri umani con i loro programmi.

Tutta questa massa di conoscenze che noi umani diamo per scontata, non è incorporata nelle macchine né è probabile che sia esplicitamente scritta in un qualsiasi testo di allenamento di un modello linguistico. Alcuni scienziati cognitivisti hanno sostenuto che per imparare e comprendere il linguaggio gli esseri umani fanno leva su una conoscenza di base innata e prelinguistica dello spazio, del tempo e di molte altre proprietà essenziali del mondo. Se vogliamo che le macchine padroneggino allo stesso modo il linguaggio umano, dovremo prima dotarle dei principi primordiali con cui gli umani sono nati. E per valutare la comprensione delle macchine, dovremmo iniziare valutando la loro comprensione di questi principi, che potremmo chiamare “metafisica infantile”.

Addestrare e valutare le macchine rispetto a questo livello infantile di intelligenza può sembrare un enorme passo indietro rispetto alle prodigiose imprese di sistemi di IA come Watson e GPT-3. Ma se l’obiettivo è la comprensione vera e affidabile, questo può essere l’unico percorso verso macchine che possano genuinamente comprendere a che cosa si riferisce “esso” in una frase, e tutto ciò che la comprensione di “esso” comporta.

 

Fonte: Le Scienze

LEGGI TUTTE LE ALTRE NEWS