Le traduzioni in tempo reale al Parlamento europeo sono made in Italy

0
112
Questo post è stato pubblicato qui
L'assemblea del Parlamento europeo a Bruxelles vuota per l'epidemia da coronavirus (foto di Thierry Monasse/Getty Images)
L’assemblea del Parlamento europeo a Bruxelles vuota per l’epidemia da coronavirus (foto di Thierry Monasse/Getty Images)

Italiani primi in Europa in lingue? Ebbene sì, ma non per un improvviso boom di estimatori di Shakespeare e Goethe in originale, bensì grazie a efficienti tecnologie di riconoscimento vocale automatico e machine translation made in Italy. Proprio così: le aziende Cedat85 (in un primo consorzio internazionale), Translated e Pervoice (in un secondo raggruppamento tutto italiano), si sono posizionate ai primi due posti in un bando del Parlamento europeo per la fornitura di un sistema di traduzione e trascrizione istantanea di voce dal vivo in 24 lingue per l’assemblea dell’Unione, superando un colosso come Microsoft, terzo e ultimo concorrente rimasto in gara.

Erano cinque in tutto le offerte arrivate al segretariato in Lussemburgo per fornire in licenza agli emicicli di Bruxelles e Strasburgo uno strumento dotato di automatic speech recognition, machine learning, interazione uomo-macchina, interfaccia utente e servizi informatici. L’obiettivo è consentire ai parlamentari di leggere i dibattiti in forma di testo sullo schermo in tempo reale, per aiutare in particolare quelli con deficit uditivi, garantendo la possibilità di fornire feedback e correzioni, per affinare la machine translation nel tempo e con l’uso. Il bando ha stanziato al massimo 3 milioni di euro per i primi tre anni, ma il consorzio guidato da Cedat85 si è aggiudicato la prima posizione con un’offerta da 1,39 milioni di euro, seguito dal gruppo con capofila la romana Translated (1,63 milioni) e da Microsoft tramite la sua sede belga (2,24 milioni).

Le aziende italiane in gara

“Gli aspetti principali per noi sono accuratezza e latenza, si ragiona nell’ordine dei millisecondi e non basta il riconoscimento acustico dei fonemi – spiega Enrico Giannotti, direttore generale di Cedat85 -. Un conto è impartire un comando vocale a un home assistant, un altro trattare il discorso di un politico che parla a braccio per diversi minuti: i nostri algoritmi lavorano su trigrammi e quadrigrammi, analizzando le tre-quattro parole precedenti e successive in modo da riconoscere e tradurre in maniera corretta l’uso semantico di una parola”.

Le funzioni del servizio si articolano, per sommi capi, in tre fasi: riconoscimento della lingua parlata, trascrizione delle parole grazie all’automatic speech recognition (Asr), invio del testo al sistema di intelligenza artificiale che lo traduce in 24 lingue. Nel primo consorzio, l’azienda Bertin It (Francia) fornirà, a monte del processo, la tecnologia vocale per riconoscere l’idioma, mentre a valle ci sarà l’intelligenza artificiale di Sdl (Belgio) per la machine translation. L’anello centrale è “l’engine” di trascrizione di Cedat85 con l’Asr brevettato e usato in oltre 200 consigli comunali italiani, cinque consigli regionali, al dipartimento Stato-Regioni della presidenza del Consiglio e alla Camera dei deputati. L’azienda, nata nel 1985 per fornire servizi di resocontazione parlamentare e rassegna stampa, fra le altre attività indicizza i contenuti radiofonici di 250 emittenti, per il progetto “Save our record” della British Library.

Una schermata del sistema sviluppato dal consorzio Cedat85 (da ufficio stampa)
Una schermata del sistema sviluppato dal consorzio Cedat85 (da ufficio stampa)

La romana Translated è capofila del secondo consorzio. Nata nel 1999, con un network di traduttori in tutto il mondo è poi arrivata a sviluppare una tecnologia di machine translation tramite reti neurali adattive. “Oggi è esclusivista mondiale Google per le traduzioni degli annunci di AdWords, autore delle traduzioni del sito di AirBnb in 71 lingue”, spiega Simone Perone, vicepresidente product management.

“I training set per il deep learning si basano sulle traduzioni già fatte dal Parlamento europeo in passato – spiega Perone -. Quando si parla di macchine c’è sempre il timore che possano sostituire l’uomo. Non è così: questo tipo di applicazioni non sostituiranno interpreti e traduttori che, in generale, possono già beneficiare del supporto delle macchine, acquisendo più lavoro e svolgendo l’editing dei testi. Quando però si passa al real time, come in questo caso, l’automazione diventa fondamentale, gli interpreti non ci sono in tutte le riunioni delle commissioni europee e non tutti i parlamentari sanno l’inglese. Anche per questo in Translated siamo molto concentrati sulla cura di user experience e user interface”.

Accanto a Translated, nel secondo consorzio, c’è la società trentina PerVoice, controllata da AlmaWave del gruppo Almaviva, fondata nel 2007 come spin-off della Fondazione Bruno Kessler (che a sua volta costruirà un modulo per minimizzare gli errori di trascrizione). Collaborando con università europee e istituti di ricerca, PerVoice ha già partecipato a progetti come Ue Elitr, piattaforma di trascrizione e traduzione automatica del parlato in tempo reale ed Eu-Bridge, sistema di sottotitolazione Tv. Per il bando attuale si occuperà di Asr e creazione dei modelli linguistici.

Come funziona un sistema Asr

Il sistema Asr di riconoscimento vocale ibrido si sviluppa in tre fasi principali. La prima consiste nel preprocessamento che estrae features spettrali del segnale acustico in ingresso da fonte (audio, video, telefonico o dal vivo), mentre l’ultima fase è il post processamento, per normalizzare il testo output con la punteggiatura o le parole composte. Al centro c’è il decoder, che converte il segnale acustico preprocessato in testo e, per mappare l’audio e trascriverlo in una sequenza di parole, si avvale dell’informazione combinata di tre modelli: acustico, del linguaggio e del lessico.

Lo schema di funzionamento di un Automatic Speech recognition ibrido (da PerVoice)
Lo schema di funzionamento di un Automatic Speech recognition ibrido (da PerVoice)

“Quest’ultimo contiene centinaia di migliaia di termini, ogni entry contiene una parola con la sua trascrizione fonetica, ottenuta tramite l’algoritmo G2P ‘grapheme-to-phoneme’, impiegato offline per costruire il lessico del sistema Asr (quindi non funziona in run-time) – spiega l’ad di PerVoice, Paolo Paravento -. Nel nostro team infatti non ci sono solo data scientist, ma anche linguisti esperti nelle minime variazioni degli accenti. I ricercatori lavorano principalmente sul modello acustico, che modella la probabilità di un fonema dato un segmento audio, e sul modello del linguaggio, che modella la probabilità di occorrenza di una parola dato il contesto e viene addestrato su centinaia di milioni di parole (comprese le ripetizioni di molti termini)”.

Aggiunge Paravento: “L’approccio nel riconoscere le parole è di tipo probabilistico-statistico, favorito dalla capacità di calcolo moderna che ha reso possibile l’uso delle reti neurali inventate negli anni ’50. Per questo, il modello migliora con i feedback e l’accuratezza è oltre il 90%, mentre negli anni ’90 era appena del 20%, un aspetto fondamentale nei sistemi di trascrizione e traduzione, onde evitare la propagazione di errori”.

Ora, in base al contratto di un anno ottenuto dopo la prima selezione, i tre soggetti rimasti in gara (i due consorzi a guida italiana e Microsoft), dovranno consegnare entro settembre un prototipo funzionante per dieci lingue. Quello che sarà valutato migliore potrà continuare nella fornitura del servizio, adottando altre nove e poi cinque lingue ogni anno. Per gli altri due, il contratto verrà rescisso.

The post Le traduzioni in tempo reale al Parlamento europeo sono made in Italy appeared first on Wired.