Políticas lingüísticas en internet
Así funciona AINA, el proyecto para que la tecnología entienda el catalán
La Generalitat destinará 13,5 millones de euros a una iniciativa de normalización lingüística que necesita la voz de los catalanes y a la que ya han contribuido 20.000 ciudadanos
![escola](https://estaticos-cdn.prensaiberica.es/clip/e9626792-0010-4bad-a151-e92ea3d97cf6_16-9-discover-aspect-ratio_default_0.jpg)
escola / manu Mitru
![Carles Planas Bou](https://estaticos-cdn.prensaiberica.es/clip/3cf5f6cc-c283-48e1-ad20-c17025600721_source-aspect-ratio_default_0.jpg)
![Carles Planas Bou](https://estaticos-cdn.prensaiberica.es/clip/3cf5f6cc-c283-48e1-ad20-c17025600721_source-aspect-ratio_default_0.jpg)
Carles Planas Bou
Periodista
Periodista tecnológico entre el mundo digital y la política internacional. Centrado en capitalismo de plataformas, IA, vigilancia y derechos digitales. Excorresponsal en Berlín durante más de cuatro años, cubrió los gobiernos de Merkel, la crisis de los refugiados y el auge de la extrema derecha. También ha trabajado en Europa Central y en Canadá. Graduado en Periodismo por la URL y máster en Relaciones Internacionales por la UAB. Ha colaborado con TV3, TVE, Deutsche Welle, Catalunya Ràdio, El Orden Mundial o El Salto.
Es un consenso: el uso del catalán agoniza entre los más jóvenes y parte de ello se debe a la desigualdad que la lengua vive en internet, que favorece a las hegemónicas. La Generalitat quiere revertir esa situación y por eso el pasado martes presentó AINA, un proyecto que pretende que las máquinas puedan hablar y entender el catalán para agilizar su normalización en la era digital.
Si intentas dirigirte en catalán a Alexa, Siri o Google Assistant, sucederá que estos asistentes virtuales no te entenderán ni responderán a tu petición. Para que eso cambie primero hay que crear un corpus masivo de datos, gravar cientos de miles de palabras y frases en catalán para crear un diccionario de voces en catalán que permita a los sistemas de inteligencia artificial (IA) –desde asistentes a traductores automáticos— aprender a procesarlo y utilizarlo como hacen con otras lenguas.
La iniciativa impulsada por el Departament de Vicepresidència i Polítiques Digitals en colaboración con el Barcelona Supercomputing Center (BSC) está operativa desde el 2020 pero ahora se ha lanzado una campaña que pide a los ciudadanos “dar su voz”. En poco más de una semana la página web habilitada para recoger esas muestras de voz cuenta ya con los registros sonoros de más de 20.000 voluntarios.
Entrenar a las máquinas en catalán
Cada uno de estos registros servirá para crear una base de datos representativa del catalán que permita entrenar algortimos de Deep Learning –algo así como la red neuronal de esas máquinas— que después la industria pueda usar para desarrollar aplicaciones en catalán. "Hacemos la tarea lingüística que la empresa privada local no puede asumir por ser demasiado costosa y que las grandes compañías no hacen porque el catalán no es un mercado suficientemente atractivo para justificar esa inversión", explica a EL PERIÓDICO Marta Villegas, líder del grupo de minería de datos del BSC y responsable del proyecto AINA.
La intención de la Generalitat es normalizar todas las variantes dialectales y registros del catalán, ya sea formal o coloquial. Hasta ahora, la mayoría de voces recogidas hasta ahora es la de hombres de entre 30 y 50 años y con un registro de catalán central. Es por ello que la campaña pide que los voluntarios sean de todo tipo de edades, géneros y procedencias.
La iniciativa ha clasificado hasta 1.770 millones de metadatos asociados a palabras en 95 millones de frases, las variables que calculan necesarias para entender las peticiones más comunes de los usuarios. Los ciudadanos que quieran contribuir voluntariamente a esa normalización digital del catalán pueden acceder a la web para grabarse repitiendo esas palabras y frases. "Cuanto mayor sea la muestra de datos lingüísticos más robusto y perfeccionado será el sistema de comprensión", explica Villegas. Desde el BSC apuntan que se desarrollará "algún prototipo" para demostrar como las máquinas también pueden aprender catalán.
La actual base de datos cuenta con 1.000 horas de registros en catalán, que la iniciativa pretende duplicar. En su misión de recolectar la mayor cantidad posible de datos en catalán, AINA también usará los archivos de la Corporació Catalana de Mitjans Audiovisuals (CCMA) o del Consell de l’Audiovisual Català (CAC), así como los cedidos por organizaciones como Softcatalà, Racó Català o Enciclopèdia.cat. Los primeros datos públicos que el BSC ha usado para alimentar su base han sido las sesiones políticas del Parlament de Catalunya.
El proyecto tiene un presupuesto de 13,5 millones de euros hasta 2024, de los cuales 250.000 se destinarán a la fase inicial. "El catalán no está cubierto por ningún asistente de voz, es algo crítico", advierte Villegas. "Si nos acostumbramos a tener que hablar con las máquinas en otro idioma habremos perdido una gran oportunidad".
- Roberto Brasero habla alto y claro sobre el pronóstico de este verano en 'El hormiguero': 'Junio iba a ser cálido...
- Meter bolas de papel aluminio en el congelador: el secreto simple pero efectivo que cada vez hace más gente
- Vecinos de Barcelona se oponen a que se edifique sobre la plaza que salvaron hace 31 años
- Esta es la carta que llegará en julio a pensionistas y jubilados
- La Policía detiene a Carlos 'el Yoyas', exconcursante de Gran Hermano, tras 19 meses huido
- Marlaska encarga a la DGT que estudie cómo prohibir que los conductores 'chivatos
- Catalunya empieza a repartir el cheque para material escolar: así funcionará este curso 24-25
- Los funcionarios de la Generalitat cobrarán la subida salarial del 2% y una paga de hasta 775 euros en julio
Por el humo se sabe dónde está el peligro
![Por el humo se sabe dónde está el peligro](https://estaticos-cdn.prensaiberica.es/clip/8bb3ff4e-db24-48a0-b3c7-7b03c86c73da_16-9-discover-aspect-ratio_320w_0.webp)
¿Qué papel tiene la nicotina en el hábito de fumar?
![¿Qué papel tiene la nicotina en el hábito de fumar?](https://estaticos-cdn.prensaiberica.es/clip/7045fbe5-9052-406c-a971-8414b2785277_16-9-discover-aspect-ratio_320w_0.webp)