Inteligencia Artificial
La mayor parte de la web es contenido basura traducido por IA, según un nuevo estudio
Sus fines son meramente comerciales y ponen en riesgo el desarrollo de grandes modelos de lenguaje para IA en los idiomas menos utilizados
![La mayor parte del texto que vemos en línea ha sido mal traducido a uno o más idiomas, generalmente mediante una máquina.](https://estaticos-cdn.prensaiberica.es/clip/61676f26-a0e3-44e7-bcd8-0f559808b875_16-9-discover-aspect-ratio_default_0.jpg)
La mayor parte del texto que vemos en línea ha sido mal traducido a uno o más idiomas, generalmente mediante una máquina. / Crédito: 27707 en Pixabay.
Los investigadores han descubierto que una cantidad considerable del contenido disponible en línea son en realidad traducciones de textos originales en los idiomas predominantes, principalmente el inglés, que se han traducido en muchos otros idiomas en forma automática a través de Inteligencia Artificial (IA). Los especialistas también identificaron que ese contenido ha sido producido principalmente para obtener ingresos publicitarios, mayormente sobre temas relacionados con consejos simples o cuestiones de desarrollo personal.
Científicos del laboratorio de Inteligencia Artificial (IA) de Amazon Web Services descubrieron que más del 50 % de las oraciones en la web se han traducido a dos o más idiomas, a menudo con una calidad cada vez peor debido a una traducción automática (TA) deficiente. Además de la generación de contenido basura con libre acceso en Internet, el problema principal es que esta práctica limita la producción de grandes modelos de lenguaje para IA en determinados idiomas.
Traducciones automáticas
En el nuevo estudio, publicado recientemente en arXiv, los investigadores generaron un corpus de 6,38 mil millones de oraciones extraídas de Internet. En esa gigantesca cantidad de información, pudieron observar patrones de paralelismo multidireccional, que indican conjuntos de oraciones que son traducciones directas en tres o más idiomas, a partir de una fuente original en alguno de los idiomas predominantes a nivel global, principalmente en inglés.
También revelaron que la mayor parte de Internet está traducida y no corresponde a textos originales en cada idioma, ya que el 57,1 % de las oraciones del corpus eran traducciones paralelas en múltiples direcciones en al menos tres idiomas.
Según un artículo publicado en Vice.com, el contenido traducido se compone mayormente de oraciones más cortas y “más predecibles”, de entre 5 y 10 palabras. Esta simpleza no solo indica el uso de traducciones automáticas, sino además que el material se realiza en mayor medida para posicionar webs y obtener ingresos publicitarios. Los fines comerciales también marcan los temas elegidos, que en líneas generales son cuestiones ligadas a los aspectos que más se buscan en la web, como consejos prácticos o definiciones básicas.
Contenido de baja calidad
En ese sentido, los especialistas indicaron que la mayor parte de las traducciones provino de artículos que se caracterizan como de baja calidad, que requerían poca o ninguna experiencia o esfuerzo previo para su creación. Al mismo tiempo, comprobaron que las traducciones en cadena, realizadas en diferentes idiomas a partir de un primer artículo original, descendían en calidad con cada nueva traducción.
Por si esto fuera poco, el sesgo idiomático es muy evidente: una gran mayoría de las traducciones se originan a partir de textos en los idiomas predominantes a nivel global, con un dominio claro del inglés. De esta forma, las estructuras idiomáticas del inglés o el francés, por ejemplo, se multiplican en las traducciones en otros idiomas, mientras que lenguas menos influyentes, como podría ser un dialecto africano, prácticamente no tienen presencia en la web.
En el mismo sentido, las traducciones automáticas y la baja calidad de los contenidos genera dudas sobre la producción de modelos de lenguaje para IA en idiomas que no sean predominantes, ya que esta clase de sistemas se desarrollan a partir del contenido que capturan en Internet. Como la mayor parte de ese contenido son traducciones de baja calidad provenientes de otros idiomas, los modelos no llegarían a representar fielmente las estructuras de cada idioma en particular.
Referencia
A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism. Brian Thompson et al. ArXiv (2024). DOI:https://doi.org/10.48550/arXiv.2401.05749
- ¿Qué pasa si tomas café sin azúcar todas las mañanas? Esto dicen los expertos
- Un accidente de bus en Pineda de Mar corta la C-32
- Qué ha pasado con el autobús que ha provocado un accidente en el túnel de la C-32 entre Tordera y Santa Susanna
- El Gobierno plantea adelantar a partir de los 62 años la jubilación parcial pero doblar los años cotizados requeridos
- El Mundo Today | Miles de personas se reúnen en la Plaza Catalunya de Barcelona para celebrar la vuelta a casa de Marta Rovira
- La iglesia del pantano de Sau vuelve a verse: hay una explicación
- Una investigación liderada desde Barcelona logra reconstruir por primera vez el cromosoma fosilizado de un mamut lanudo de 52.000 años
- Trump, evacuado tras ser herido de bala: última hora y todas las reacciones en directo