Problema de autoalimentación en la IA
Los modelos de inteligencia artificial (IA) están generando datos sin parar, lo que está llevando a una creación de contenidos cada vez más incoherente. Esta situación ha sido señalada por varios estudios científicos, destacando un problema creciente en el campo de la IA.
Las herramientas de IA generativa, como ChatGPT, que permiten crear contenidos con simples preguntas, requieren un volumen colosal de datos para su entrenamiento. Estos datos suelen provenir de internet, que cada vez contiene más imágenes y textos creados por la propia IA.
Deterioro de los modelos de IA
Esta autoalimentación conduce a un deterioro de los modelos, produciendo respuestas menos originales y pertinentes, que acaban por perder sentido. Según un artículo publicado en julio por la revista científica Nature, el uso de “datos sintéticos”, generados artificialmente, degrada la calidad de las respuestas de los modelos de IA.
Contenidos en riesgo
Investigadores de las Universidades de Rice y Stanford, en Estados Unidos, analizaron los modelos generadores de imágenes Midjourney, Dall-E y Stable Diffusion.
Sus estudios mostraron que las imágenes generadas eran cada vez menos originales e incorporaban elementos incoherentes.
Este fenómeno fue comparado con la enfermedad de las vacas locas, que surgió en el Reino Unido debido al uso de harinas animales para alimentar a los bovinos.
TE PUEDE INTERESAR: ¿TikTok, con los días contados en EE.UU.? Demandan a la plataforma
Datos sintéticos vs. Datos humanos
Las empresas del sector de la IA utilizan datos sintéticos por su fácil acceso, abundancia y bajo coste en comparación con los datos creados por humanos.
Sin embargo, estas “fuentes de datos humanos sin explotar, de alta calidad” están disminuyendo, según Jathan Sadowski, investigador especializado en nuevas tecnologías de la Universidad de Monash, Australia.
Richard Baraniuk, uno de los autores del artículo de la Universidad de Rice, advierte que la degradación de los modelos podría “envenenar la calidad y la diversidad de los datos en todo internet”. Este escenario podría amenazar el futuro del sector de la IA, similar a cómo la crisis de las vacas locas afectó a la industria cárnica en los años 90.
Perspectivas y debates
Para algunos especialistas, el problema está siendo exagerado. Empresas como Anthropic y Hugging Face afirman utilizar datos generados por la IA y consideran la perspectiva de Nature como teórica y poco realista. Anton Lozhkov, ingeniero en aprendizaje automático en Hugging Face, asegura que el entrenamiento en varias series de datos sintéticos no es una práctica común.
Lozhkov admite que internet contiene una gran cantidad de “basura” y que su empresa se esfuerza por limpiar estos datos, eliminando hasta un 90% del contenido en algunos casos.