Políticas lingüísticas en internet

Así funciona AINA, el proyecto para que la tecnología entienda el catalán

La Generalitat destinará 13,5 millones de euros a una iniciativa de normalización lingüística que necesita la voz de los catalanes y a la que ya han contribuido 20.000 ciudadanos

Barcelona 24 FEB 2022 7:00 Actualizada 25 FEB 2022 15:38

Por qué confiar en El Periódico Por qué confiar en El Periódico

Es un consenso: el uso del catalán agoniza entre los más jóvenes y parte de ello se debe a la desigualdad que la lengua vive en internet, que favorece a las hegemónicas. La Generalitat quiere revertir esa situación y por eso el pasado martes presentó AINA, un proyecto que pretende que las máquinas puedan hablar y entender el catalán para agilizar su normalización en la era digital.

Si intentas dirigirte en catalán a Alexa, Siri o Google Assistant, sucederá que estos asistentes virtuales no te entenderán ni responderán a tu petición. Para que eso cambie primero hay que crear un corpus masivo de datos, gravar cientos de miles de palabras y frases en catalán para crear un diccionario de voces en catalán que permita a los sistemas de inteligencia artificial (IA) –desde asistentes a traductores automáticos— aprender a procesarlo y utilizarlo como hacen con otras lenguas.

La iniciativa impulsada por el Departament de Vicepresidència i Polítiques Digitals en colaboración con el Barcelona Supercomputing Center (BSC) está operativa desde el 2020 pero ahora se ha lanzado una campaña que pide a los ciudadanos “dar su voz”. En poco más de una semana la página web habilitada para recoger esas muestras de voz cuenta ya con los registros sonoros de más de 20.000 voluntarios.

Entrenar a las máquinas en catalán

Cada uno de estos registros servirá para crear una base de datos representativa del catalán que permita entrenar algortimos de Deep Learning –algo así como la red neuronal de esas máquinas— que después la industria pueda usar para desarrollar aplicaciones en catalán. "Hacemos la tarea lingüística que la empresa privada local no puede asumir por ser demasiado costosa y que las grandes compañías no hacen porque el catalán no es un mercado suficientemente atractivo para justificar esa inversión", explica a EL PERIÓDICO Marta Villegas, líder del grupo de minería de datos del BSC y responsable del proyecto AINA.

La intención de la Generalitat es normalizar todas las variantes dialectales y registros del catalán, ya sea formal o coloquial. Hasta ahora, la mayoría de voces recogidas hasta ahora es la de hombres de entre 30 y 50 años y con un registro de catalán central. Es por ello que la campaña pide que los voluntarios sean de todo tipo de edades, géneros y procedencias.

La iniciativa ha clasificado hasta 1.770 millones de metadatos asociados a palabras en 95 millones de frases, las variables que calculan necesarias para entender las peticiones más comunes de los usuarios. Los ciudadanos que quieran contribuir voluntariamente a esa normalización digital del catalán pueden acceder a la web para grabarse repitiendo esas palabras y frases. "Cuanto mayor sea la muestra de datos lingüísticos más robusto y perfeccionado será el sistema de comprensión", explica Villegas. Desde el BSC apuntan que se desarrollará "algún prototipo" para demostrar como las máquinas también pueden aprender catalán.

La actual base de datos cuenta con 1.000 horas de registros en catalán, que la iniciativa pretende duplicar. En su misión de recolectar la mayor cantidad posible de datos en catalán, AINA también usará los archivos de la Corporació Catalana de Mitjans Audiovisuals (CCMA) o del Consell de l’Audiovisual Català (CAC), así como los cedidos por organizaciones como Softcatalà, Racó Català o Enciclopèdia.cat. Los primeros datos públicos que el BSC ha usado para alimentar su base han sido las sesiones políticas del Parlament de Catalunya.

El proyecto tiene un presupuesto de 13,5 millones de euros hasta 2024, de los cuales 250.000 se destinarán a la fase inicial. "El catalán no está cubierto por ningún asistente de voz, es algo crítico", advierte Villegas. "Si nos acostumbramos a tener que hablar con las máquinas en otro idioma habremos perdido una gran oportunidad".

TEMAS

Comenta esta noticia

RRSS WhatsApp RRSS Facebook RRSS Twitter RRSS email Copiar URL

Así funciona AINA, el proyecto para que la tecnología entienda el catalán

La Generalitat destinará 13,5 millones de euros a una iniciativa de normalización lingüística que necesita la voz de los catalanes y a la que ya han contribuido 20.000 ciudadanos

Entrenar a las máquinas en catalán

TEMAS

Salud confirma la presencia de Virus del Nilo Occidental en seis municipios de Sevilla

Los neurocirujanos advierten de los graves peligros de las malas zambullidas en verano

“En Doñana estamos llegando a descensos del 90% en poblaciones de aves”

Cinco heridos, tres de ellos muy graves, en el accidente de bus en la C-32 en Pineda de Mar

Fundación Corachan beca a ocho graduadas en enfermería

Accidente de bus en la C-32 en Pineda de Mar: "Ha sido un milagro. Podría haber sido una tragedia"

Qué ha pasado con el autobús que ha provocado un accidente en el túnel de la C-32 entre Tordera y Santa Susanna

¿Por qué los mosquitos pican a unas personas y a otras no?