Tecnologia

Reconeixement de veu en català, de lliure accés i des de l’economia social

Una cooperativa està dissenyant tecnologia en codi obert per superar la fractura digital del català pel que fa al reconeixement de veu.

Segueix-nos a Facebook per assabentar-te dels nostres darrers reportatges

Els integrants de la cooperativa de treball associat i serveis de traducció, investigació cultural, consultoria i provisió tecnològica Col·lectivat treballen a un espai de co-working situat prop del barceloní carrer de Marlet. Una ubicació amb molt de significat des que el passejant hi pot trobar la centenària làpida del segle XIII a la memòria del rabí, comerciant i escriptor Samuel ha-Sardí, patrocinador de l’hospital jueu del Call de la ciutat, sobre una (mala) traducció al castellà del primer terç del segle XIX gravada en pedra.

Els dispositius de traducció i difusió que la cooperativa utilitza han avançat exponencialment, si els comparem amb les tècniques ancestrals amb què es va immortalitzar l’esmentat benefactor, malgrat que el mateix esperit intercultural roman en la seva iniciativa, a jutjar per l’Atles Català del XIV que presideix el seu compte de Twitter. L’empresa fundada per quatre persones d’origen turc i una nascuda a Itàlia té com un dels seus principals àmbits d’actuació el desenvolupament tecnològic per facilitar la seva feina, però no només. Avui, un dels bucs insígnia de l’empresa en aquest àmbit és el desenvolupament d’un aplicatiu de reconeixement de veu en català de codi obert.

Pelin Doğan, sòcia fundadora, recorda que durant la traducció del documental d’Ivardia Produccions, El Sol del Nord, es van trobar que una eina com aquesta podria ser-los molt útil, però s’adonaren, també, que no existia cap instrument que satisfés les seves expectatives.

Els aplicatius de reconeixement de veu no són cap novetat. Fa temps que el complex Google, Amazon, Facebook i Apple —conegut com GAFA—, i també Microsoft, els desenvolupen. Tampoc no és cap novetat oferir aquest servei per als parlants d’algunes llengües minoritzades, com el català, el gallec o l’èuscar, com fa l’esmentat gegant de les cerques. I més enllà de les grans companyies de Silicon Valley, empreses com Speechmatics n’ofereixen algunes en la seva cartera de productes. El problema que hi ha a l’hora de treballar amb aquestes plataformes és que calen molts recursos, explica Baybars Külebi, dinamitzador de l’apartat tecnològic de la cooperativa. No n’hi ha prou d’escriure el codi: cal disposar d’enregistraments per entrenar les aplicacions, i coneixements de la llengua des del prisma computacional.

Això implica una gran inversió de recursos, quelcom que potencialment deixaria fora llengües amb pocs parlants: per les dificultats d’obtenir un retorn econòmic d’aquestes inversions.

A més, empreses com Google, que ja ofereixen eines de transcripció de veu pel català, han desenvolupat un model de negoci per subministrar-les a tercers. Ara per ara, si no tens coneixements informàtics és complicat utilitzar aquestes aplicacions com a particular. De manera que així estimulen la creació de tot un mercat de companyies el model de negoci de les quals es basa en crear una interfície per facilitar als usuaris les feines de transcripció, aturant, fent marxa enrera o escoltant més ràpid o més lent un audio per poder revisar la primera tanda de transcripcions dutes a terme per la màquina.

En aquests casos la transferència de dades és unidireccional, perquè les empreses que fan ús d’aquests serveis no tenen accés a les dades de Google, però Google sí té accés a la informació que les tasques de revisió d’un text generen, el que els hi permet millorar el seu propi servei. Tota una altra cosa és la manera com aquesta transferència d’informació podria col·lidir amb el recentment implementat reglament europeu de protecció de dades.

És per tot això que Col·lectivat ha impulsat una iniciativa de codi obert que pugui satisfer aquesta necessitat amb el suport d’altres grups.

Una gènesi i un ‘com es fa’

Just després de la Fira d’Economia Social i Solidària de 2017, els membres de la cooperativa van coincidir amb els impulsors de Softcatalà, amb qui van cuinar la idea de crear un sistema de reconeixement de veu de codi lliure i en la nostra llengua.

Softcatalà volia integrar com a servei al seu web un producte com aquest, a la manera com ho fan amb el corrector que ja tenen. En una primera fase, Col·lectivat va desenvolupar la tecnologia necessària, i després van introduir les normes del català per poder recollir dades d’audio i entrenar, així, aquest sistema. Van recollir hores i hores de dades de veu de la televisió catalana, les van processar amb les regles gramaticals i fonològiques del català i les van introduir al sistema generant, així, un model inicial des del qual poder treballar. Els vídeos que utilitzen són accessibles a Internet amb subtitulació, el que va facilitar enormement la seva feina.

Per tal de complementar aquest corpus informacional, Col·lectivat ha demanat una subvenció a la conselleria de cultura de Catalunya per estructurar les dades generades pels vídeos de les sessions del Parlament, i posar-les, totes elles, a disposició de qui vulgui entrenar el seu propi sistema de reconeixement de veu en català.

El que fan és, bàsicament, entrenar el sistema a partir de fonemes, que són la unitat de la parla més bàsica: l’equivalent a la lletra en el text. Els fonemes s’agrupen, al seu torn, en el que els lingüistes anomenen trifonemes, ja que al combinar aquestes unitats es produeixen sons diferents. També cal calibrar diferències d’accent en funció de la zona, el dialecte o la manera com parla la persona. El que representa un problema pel valencià, des que no existeix un repositori web de la producció audiovisual de la televisió pública subtitulat i el material generat pel parlament de la comunitat es troba sota una llicència restrictiva.

Per tal de sistematizar tota aquesta informació necessites moltes hores de gravació, explica Külebi. I els models acústics en sí no són suficients per descodificar-la: et cal un model de llenguatge en català, en què treballar en base a probabilitats de paraules, projectant quin és el mot que té més possibilitats d’aparèixer en un context determinat, per exemple. Tot això ho pots codificar en el model del llenguatge.

La cooperativa treballa amb un model genèric, però també amb adaptacions de domini, en les quals pots sol·licitar que es reconegui un accent o dialecte concret. Aquest model adaptat només implica introduir unes poques hores més d’informació a la seva versió genèrica.

La tecnologia que utilitzem es diu Sphinx, produïda per la Universitat Carnegie Mellon en codi lliure, i que utilitza els models Hidden Markov (HMM per les seves sigles en anglès). El més estès pel reconeixement de veu. Els primers models elaborats per Col·lectivat es van pujar al Github en obert per a tothom, en sintonia amb la seva filosofia de garantir un accés públic a la seva recerca.

Fractura digital

Convé no oblidar però, que l’idioma amb el qual treballen és la llengua sense estat amb més població d’Europa. I per tant, malgrat ser una llengua minoritzada té un mercat prou ampli. Hi ha molta recerca feta des de l’àmbit universitari, un lobby molt efectiu a Internet i hi ha empreses catalanes que ja estan treballant amb reconeixement de veu i n’ofereixen productes propis. Tant de mercat existeix que la tasca de Col·lectivat pot afectar els ingressos d’empreses locals, que estan venent aquests serveis d’integració de reconeixement de veu, però també les universitats que venen les dades que van recollint, com la Politècnica i la Pompeu Fabra.

Tot plegat, indicadors de com la salut del català no és comparable a la de parles en un risc de desaparició molt més real, com el txuvaix, amb una presència molt limitada a Internet en format audiovisual i subtitulat. La Unió Europea estudia legislar sobre la fractura digital en les llengües minoritzades.

Per solucionar això, existeix el projecte Common Voice de la plataforma Mozilla, que proveeix una interfície per a la donació de veu. El que fa l’aplicació és crear un corpus de text, milers de frases, i el fan circular entre milers de voluntaris dient-los que necessiten milers d’hores de gravacions per entrenar els seus models acústics. Col·lectivat i Softcatalà bregaran de valent perquè el català disposi de les donacions necessàries juntament amb la resta de llengües que encapçalen el rànquing.

I és que convé no menystenir el paper de les noves tecnologies en la preservació de les parles minoritzades.

Subscriu-te a El Temps i tindràs accés il·limitat a tots els continguts.