Gli esseri umani, grazie al linguaggio, riescono a comunicare concetti astratti e a elaborare idee complesse. Se chiedo a qualcuno di immaginarsi una scena surreale, come un avocado con gli occhiali da sole che porta a spasso un cane, non avrà problemi a farlo, pur non avendo mai visto niente di simile. Si tratta di una capacità che sta alla base di come ragioniamo e che ci distingue in quanto umani. O almeno, è così che ci piace definirla. E se invece fossero in grado di farlo anche i computer?
I grandissimi passi avanti compiuti negli ultimi anni nel campo dell’elaborazione del linguaggio naturale e in quello della visione artificiale hanno spinto diversi ricercatori a chiedersi se sia possibile insegnare questa capacità anche alle macchine. In fondo, ormai, l’intelligenza artificiale riesce a fare cose fino a poco tempo fa impensabili. Per esempio, esistono modelli in grado generare foto assolutamente realistiche (nella maggior parte dei casi) di persone che in realtà non esistono e non sono mai esistite, come si può osservare sul sito This person does not exist.
Questi modelli, tra i più popolari nel campo della visione artificiale, si chiamano reti generative avversarie (GAN in inglese), e si basano sostanzialmente su due reti neurali che vengono allenate in competizione tra loro, in una sorta di gioco. Questi modelli sono molto abili nel generare, a partire da un set di dati di grandi dimensioni, altri dati con caratteristiche molto molto simili ai dati che conoscono già. Data la ricchezza e la varietà di dati disponibili su internet per allenarle, le GAN, oltre a generare foto estremamente realistiche di volti umani inesistenti, possono generare foto inedite di vari animali, ma anche opere d’arte, interni di case, vasi, automobili, farfalle, città, molecole e molto altro. Sul sito This X does not exist si possono trovare esempi per tutti i gusti.
I tentativi di vari ricercatori di realizzare un modello che generasse un’immagine a partire da un prompt testuale negli ultimi anni si sono in gran parte avvalsi dei GAN, in quanto sono il tipo di architettura più performante per quanto riguarda la visione artificiale. Negli ultimi due anni, però, l’architettura Transformer ha avanzato lo stato dell’arte in molti ambiti dell’intelligenza artificiale, inclusi l’elaborazione del linguaggio naturale e la visione artificiale. Sfruttando questo tipo di architettura, i ricercatori di Open-AI sono riusciti a creare Dall-E, un modello molto più bravo dei suoi predecessori nel generare immagini a partire da descrizioni testuali.
Dall-E è una parola macedonia, che unisce il nome del robottino della Pixar Wall-E a quello del pittore surrealista Salvador Dalì. Si tratta di un modello in grado di generare immagini plausibili a partire da diversi tipi di frasi che possono descrivere vari oggetti e caratteristiche, come forma, colore, posizione, e molto altro, spaziando da “una teiera a forma di pavone” a “un’illustrazione di un avocado con gli occhiali da sole che porta a spasso un cane”. Sul blog di OpenAI è possibile osservare le varie immagini generate da Dall-E e giocare con i vari prompt, anche se il modello in sé non è stato reso pubblico.
Nel complesso, si tratta di esempi tutto sommato semplici, e in certi casi alcune delle immagini generate hanno poco a che fare con il prompt o sono poco plausibili. Siamo ancora in fasi preliminari della tecnologia di manipolazione di concetti visivi attraverso il linguaggio, ma gli esempi di ciò che sa fare Dall-E ci mostrano che non si tratta di obiettivi così lontani. Ovviamente, sistemi così potenti e potenzialmente pervasivi hanno implicazioni etiche importanti, e il team di Open-AI ha in programma un’analisi sull’impatto socioeconomico di modelli come Dall-E. Ma sicuramente ci vorrà ancora un po’ prima che sistemi come questo siano così affidabili da essere applicati su larga scala e avere un effetto tangibile sulla società.