Nel campo del Natural Language Processing un ruolo importantissimo è svolto dalle cosiddette annotazioni, cioè informazioni linguistiche (lessicali, grammaticali, semantiche, ecc.) che vengono assegnate a una porzione di testo. Il metodo tradizionale per annotare consiste nell’avvalersi di annotatori esperti oppure piattaforme di crowdsourcing specifiche, accessibili anche a utenti non esperti, come Amazon Mechanical Turk e Appen. Con questi dati è poi possibile addestrare un classificatore  che, a partire dagli esempi forniti, può essere in grado di dirci, ad esempio, se un determinato testo, come un tweet, contenga un insulto.

Un’alternativa all’annotazione canonica è l’uso dei cosiddetti human computation games (HCG) o games with a purpose (GWAP), letteralmente “giochi con uno scopo”, i quali si occupano di rispondere a un’interessante domanda: come possiamo rendere meno noioso per gli utenti (e meno costoso per i ricercatori) raccogliere annotazioni?

Alcuni dei GWAP di annotazione linguistica più famosi sono Phrase Detectives (Poesio et al., 2013), OnToGalaxy (Krause et al., 2010), Zombilingo (Fort et al., 2014), Puzzle Racer (Jurgens & Navigli, 2013). Ognuno di essi si propone di offrire agli utenti una ricompensa diversa dalla (o da aggiungersi alla) remunerazione monetaria. L’idea è cioè, attraverso il gioco, di garantire divertimento agli utenti in cambio dello svolgimento di un compito di annotazione. Questo compito è reso coerente con il mondo virtuale del gioco nei modi più fantasiosi. Per esempio, in OnToGalaxy, dove si annotano le relazioni semantiche, l’utente guida un’astronave e deve sparare alle navicelle la cui etichetta non è collegata a determinati concetti o proprietà. In questo modo è possibile ricostruire una rete di collegamenti tra i concetti rappresentati dalle etichette. Si sfrutta quindi una sorta di isomorfismo tra due meccaniche, quella di gioco e quella di annotazione: sparare a una navicella identificata da una parola equivale a depennare quella parola da una lista.

L’idea di un videogioco 3D per l’annotazione di hate speech, che è attualmente sviluppato dalla nostra unità, ci è venuta esaminando la letteratura del settore, da cui emerge che nessun videogioco tridimensionale, caratteristica estetica standard dei videogiochi più blasonati, sia ancora stato sviluppato per annotare testo (ma ne esiste uno in campo medico, ad esempio, per ripiegare le proteine in una sorta di puzzle game, l’ormai celeberrimo Foldit!). Un motivo è certamente la difficoltà di un simile compito: gestire un ambiente tridimensionale è davvero complicato. Inoltre, il budget richiesto per sviluppare videogiochi simili è di solito piuttosto alto. Nonostante ciò, il nostro progetto è ancora a costo zero ed è portato avanti da due persone utilizzando l’ambiente di sviluppo gratuito Unity3D.

Lo stile grafico è ispirato a esempi famosi come Animal Crossing, Fortnite, The Legend of Zelda: The Wind Waker: mondi virtuali dai colori cartoon, adatti un po’ a qualsiasi età. Il gioco è ambientato in una cittadina, dove l’utente è libero di esplorare e interagire con i personaggi non giocanti. Come per altri GWAP c’è uno sdoppiamento tra l’obiettivo del gioco e quello del ricercatore che crea l’applicazione: l’obiettivo del giocatore è sconfiggere i bulli che gironzolano per la città, mentre l’obiettivo scientifico dell’applicazione è fornire annotazioni di hate speech. Per fare ciò, gli utenti devono modificare delle frasi che possono contenere linguaggio offensivo. Il task in questione è svolto attraverso due compiti: modificare il contenuto di ciò che i bulli stanno per dire, attraverso un dispositivo speciale, e cancellare le scritte per terra, sui muri e sulle lavagne. In questo modo siamo in grado di capire se una frase contiene hate speech e in quali punti specifici. Il gioco è in grado di ricostruire conversazioni e espressioni a partire da file in formato .txt, .xml, .json e .csv, non annotati o parzialmente annotati.

Speriamo che questo gioco, attualmente con il nome provvisorio di Highschool Superhero, possa essere una base di partenza per applicazioni di raccolta di dati sempre più somiglianti a prodotti commerciali recenti e, perché no, possa far divertire le schiere di annotatori delle prossime generazioni.