Forse non tutti lo sanno, ma le frasi che siamo abituati a scrivere orizzontalmente, con una parola che segue l’altra in maniera lineare, nascondono una struttura che viene chiamata albero sintattico. Per chi non è propriamente immerso nel mondo della linguistica, la parola albero potrebbe forse trarre in inganno, facendoci pensare ai tronchi frondosi, ma l’immagine non è lontana.

Con albero sintattico intendiamo una rappresentazione grafica per cui, identificata nella frase una “radice”, generalmente il verbo della principale, se ne identificano i diversi dipendenti che, come i rami di un albero, si distribuiscono intorno a questo nucleo, legandosi l’uno all’altro. Questo significa che l’albero sintattico della frase “Gianni mangia una mela” sarà così rappresentato:

Come si vede dall’immagine, dal verbo si sviluppano due rametti: il soggetto (noun subject) e l’oggetto (direct object), il quale presenta a sua volta una dipendenza che lega l’articolo al nome (determiner). Per concludere questa carrellata di termini botanici che la linguistica ha preso in prestito, le parole da cui non si sviluppano più rametti sono dette foglie.

I software come Tint, un tool di analisi linguistica sviluppato da FBK, analizzano le frasi in modo automatico e ne restituiscono un’analisi sintattica e grammaticale. Una frase come quella dell’esempio ha una struttura molto semplice, quindi il software non avrà problemi ad analizzarla correttamente. Cosa succede però nel momento in cui si propongono a Tint frasi più lunghe e con strutture più complicate? Probabilmente ne sbaglierà l’analisi. Così come uno sportivo ha bisogno di allenarsi per raggiungere il massimo della sua forma, anche un software ha bisogno di un determinato addestramento per riuscire a fare delle analisi sintattiche sempre più precise e corrette.

Ma cosa vuol dire “allenare” un software? Significa permettergli di consultare frasi già provviste dell’albero sintattico corretto, affinché da questi esempi il programma impari. Anche noi esseri umani funzioniamo in modo simile, acquisendo informazioni tramite l’esperienza.

Seguendo questo paradigma, affinché Tint sia un sistema robusto e abituato ad analizzare tipi diversi di frasi, è necessario che gli alberi sintattici proposti a una prima analisi vengano corretti manualmente e poi re-inseriti nel software. Questa informazione sarà utilizzata per insegnare a Tint a riconoscere la struttura presa in esame e farne l’analisi corretta in futuro.

Per studiare le competenze che gli studenti maturano al termine del liceo, l’Istituto Provinciale per la Ricerca e la Sperimentazione Educativa della Provincia Autonoma di Trento (IPRASE) ha creato un’opportunità di training veramente interessante per Tint, raccogliendo e trascrivendo un corpus di tremila temi di maturità prodotti nell’arco di quindici anni (dal 2001 al 2016), dai quali è stato possibile estrarre una serie di strutture non canoniche dell’italiano, nello specifico frasi scisse e frasi con dislocazioni a destra e a sinistra.

Questo tipo di strutture vengono usate in italiano per mettere in evidenza un elemento specifico della frase, rendendolo il centro di interesse comunicativo della proposizione. La frase canonica in italiano presenta l’ordine soggetto-verbo-complemento (SVO), mentre questo tipo di proposizioni, dette marcate, presentano una struttura per cui un elemento al di fuori della sua posizione ordinaria viene messo in rilievo (o, appunto, marcato). Mentre la dislocazione crea uno spostamento (a destra o a sinistra del verbo) dell’elemento da focalizzare con l’ausilio di un pronome clitico detto “di ripresa”, la frase scissa spezza la frase semplice in due parti dove avremo da una parte l’elemento messo in evidenza preceduto dal verbo essere, e dall’altra l’elemento focalizzato ripreso dal pronome “che”, il quale introduce una proposizione relativa. Data quindi la frase semplice “Gianni mangia una mela”, la dislocazione sull’oggetto trasformerà la frase rispettivamente in “la mela, Gianni la mangia” (sinistra) e “Gianni la mangia, la mela” (destra). La frase scissa, con focus sull’oggetto, diventerà “è la mela che Gianni mangia”. Nel corpus analizzato vi sono anche alcuni esempi di strutture a tema sospeso, che si differenziano dagli altri casi poiché l’elemento focalizzato appare isolato e apparentemente sconnesso dalla sintassi del resto della frase, come nella frase di Manzoni “il coraggio, uno non se lo può dare”.

Come si può intuire dagli esempi, queste frasi hanno messo in difficoltà le doti analitiche del software, addestrato prevalentemente su testi giornalistici e codici di leggi. Questi utilizzano raramente le forme tipiche dell’italiano neo-standard appena descritte, e Tint si è trovato improvvisamente bombardato da elementi non ordinari, presentati ripetutamente e con accezioni diverse (per esempio il “che” congiunzione relativa oppure subordinata semplice) senza riuscire a distinguere efficacemente un uso dall’altro. Almeno finora: una volta “allenato” a dare la corretta rappresentazione sintattica per questo tipo di strutture, sarà infatti più semplice per il programma riconoscerle in futuro e, di conseguenza, gli errori di analisi diminuiranno sensibilmente.

Questo tipo di lavoro non è stato utile soltanto per permettere a Tint di migliorare nell’analisi di frasi scisse e dislocazioni, ma ha anche permesso di evidenziare le generalità di alcuni errori del software (a volte divertenti come “Rosso Malpelo”, voce del verbo “Malpelare”, o “porta”, participio passato di “porgere”) permettendo di apportare alcune migliorie anche nel modulo di analisi grammaticale.

Insomma, nonostante spesso si pensi che quando si parla di computer tutto sia automatico, l’iter di miglioramento di un software richiede tempo e lavoro, ma alla fine possiamo dire che anche gli alberi sintattici sono in grado di dare degli ottimi frutti!