Nell’ambito della linguistica computazionale, le conferenze sono tra i canali maggiormente utilizzati dai ricercatori per comunicare i risultati delle proprie ricerche al resto della comunità scientifica. Sono infatti moltissime le occasioni di questo tipo, che si tengono ogni anno in diverse parti del mondo, in cui centinaia di ricercatori si incontrano per presentare ad altri i propri lavori e scambiarsi idee.
La conferenza COLING 2020 (International Conference on Computational Linguistics), che si è tenuta tra l’8 e il 13 dicembre, ha ospitato il workshop SemEval-2020 (International Workshop on Semantic Evaluation). All’interno di questo workshop si sono tenuti diversi shared task, cioè delle competizioni in cui diversi gruppi di ricercatori provano a risolvere un problema comune. Normalmente i task sono presentati sotto forma di competizione, con una graduatoria finale sulla bontà dei sistemi presentati, rendendo il tutto più accattivante.
La nostra unità ha partecipato al task OffensEval, dedicato al rilevamento automatico del linguaggio offensivo online in diverse lingue: arabo, danese, greco, inglese e turco. Sono stati molti i partecipanti al task, con più di cento squadre che hanno mandato i propri risultati. Ultimamente, infatti, è aumentata notevolmente l’attenzione rivolta a questioni come linguaggio d’odio e fake news sui social media, e sono molti i ricercatori che lavorano su questi temi.
Uno dei sistemi più utilizzati fra coloro che come noi hanno partecipato a OffensEval, e in generale nell’ambito del rilevamento di hate speech e linguaggio offensivo, è BERT. Si tratta di un modello sviluppato da alcuni ricercatori presso Google che si basa su un’architettura chiamata Transformer, un tipo di modello di deep learning che può raggiungere ottimi risultati in diverse applicazioni di elaborazione del linguaggio naturale.
La versatilità di questi modelli è data dal fatto che vengono pre-allenati su enormi quantità di dati affinché si creino una rappresentazione di una determinata lingua, un po’ come leggersi tutta Wikipedia o qualche decina di migliaia di libri tutti insieme. Le loro rappresentazioni vengono salvate e poi adattate a diversi usi, come ad esempio il rilevamento del linguaggio offensivo, senza bisogno di allenare un sistema da zero, risparmiando tempo e risorse computazionali.
Il nostro lavoro, dal titolo Using Multi-channel BERT for Multilingual Offensive Language Detection, propone l’uso di un modello che sfrutta le informazioni di più lingue contemporaneamente, usando sia BERT inglese sia BERT multilingue (cioè allenato su tutta Wikipedia in 104 lingue diverse). Questo tipo di approcci sono particolarmente utili per quelle lingue definite low-resource, caratterizzate cioè da scarse risorse linguistiche rispetto a lingue come l’Inglese per cui sono disponibili molti corpora.
Ovviamente, la pandemia ha colpito anche il mondo delle conferenze scientifiche, trattandosi di eventi che radunano molte persone e che prevedono che queste ultime viaggino. Per questo motivo, la maggior parte delle conferenze quest’anno si è tenuta online, con modalità diverse a seconda della conferenza.
Un’opzione molto gettonata per le presentazioni a conferenze online è gather.town, una piattaforma che permette agli utenti di andare in giro per le sale in cui si trovano i presentatori proprio come farebbero nella vita reale. Gli avatar sono personalizzabili liberamente dagli utenti e gli organizzatori possono personalizzare gli ambienti come preferiscono. La piattaforma si presenta con una grafica in stile videogioco in 2D e offre agli utenti la possibilità di interagire con l’ambiente e tra loro tramite audio, video e chat di testo.
È proprio su gather.town che abbiamo presentato il poster relativo alla nostra partecipazione a OffensEval lo scorso 12 dicembre. L’uso di piattaforme come questa consente di preservare parte della dimensione sociale delle conferenze, che purtroppo è molto facile perdere nel passaggio da luoghi reali a luoghi virtuali.
In attesa di ritrovare i tempi in cui sarà nuovamente possibile organizzare eventi di tale portata, ci si può accontentare di presentare i risultati delle proprie ricerche vestiti da pupazzi di neve: per essere un ripiego figlio di questo periodo storico, non è nemmeno così male.