El generador Stable Diffusion creó imágenes sexualizadas de latinas, pero una versión posterior corrigió esto. El cambio se atribuye al menor contenido pornográfico en los datos de entrenamiento, según un análisis de The Washington Post.
Un análisis sobre las herramientas de generación de imagen con base en inteligencia artificial revela un panorama complejo y preocupante en cuanto a la perpetuación de estereotipos a través de la tecnología. Los hallazgos de la investigación de la Universidad de Stanford ponen de relieve cómo estas innovaciones, a pesar de su avance tecnológico, tienden a generar clichés inquietantes que no reflejan la realidad, sino que se basan en los datos utilizados para su entrenamiento.
Uno de los principales problemas detectados radica en la tendencia de estas herramientas a reforzar estereotipos arraigados, como la hipersexualización de ciertos grupos étnicos, la representación primitiva de otros o la masculinización predominante de líderes. Estos patrones se reflejan en las imágenes producidas por herramientas como Stable Diffusion XL y DALL-E 3, que a menudo presentan una visión sesgada y simplificada del mundo.
La compañía Stability AI, fabricante de Stable Diffusion XL, ha reconocido públicamente sus esfuerzos por reducir el sesgo en su modelo más reciente. Sin embargo, pese a estas mejoras, persisten los estereotipos en las representaciones generadas por la herramienta. The Washington Post descubrió que se sigue amplificando prejuicios occidentales anticuados, trasladando a veces extraños clichés a objetos básicos como juguetes o casas.
«En cierto modo, están jugando a la ruleta y respondiendo a aquello a lo que la gente presta más atención», afirma Pratyusha Kalluri, investigadora de IA en la Universidad de Stanford, para el diario anteriormente mencionado.
La cuestión de los datos utilizados para el entrenamiento de estas herramientas también es crucial. La organización sin ánimo de lucro LAION, proveedora de datos para empresas como Stability AI, se centra principalmente en datos occidentales, lo que contribuye a la reproducción de estereotipos eurocéntricos en las imágenes generadas. Este enfoque limitado en la diversidad de datos puede sesgar aún más las representaciones virtuales, alejándolas de la realidad global.
Un aspecto destacado es cómo las solicitudes específicas de generación de imágenes revelan sesgos profundos. Por ejemplo, al pedir imágenes de diferentes países, Stable Diffusion XL le devolvió a The Washington Post estereotipos arquetípicos para cada lugar, desde casas clásicas de tejado curvo para China hasta estructuras de arcilla polvorienta para la India. Estas representaciones simplificadas no solo distorsionan la realidad, sino que también refuerzan nociones preconcebidas sobre culturas y regiones.
La investigación también evidencia cómo las herramientas de IA reflejan y amplifican desigualdades sociales y económicas. Al generar imágenes relacionadas con ocupaciones o situaciones específicas, se observa una tendencia a asociar ciertos roles con características raciales, de género o de clase. Por ejemplo, las representaciones de personas que reciben servicios sociales tienden a ser predominantemente no blancas, pese a que, en 2020, el 63% de los beneficiarios de cupones de alimentos eran blancos y el 27% negros, según los últimos datos de la Encuesta de Ingresos y Participación en Programas de la Oficina del Censo de Estados Unidos.
Cabe recordar que Stable Diffusion suscitó una atención negativa cuando las solicitudes de una «latina» produjeron imágenes de mujeres en poses sugerentes con poca o ninguna ropa. Un sistema más reciente (versión 2.1) generó imágenes más inocuas. ¿A qué se debe esta diferencia? Según un análisis del The Washington Post, los datos de entrenamiento de la primera versión contenían mucha más pornografía. De las imágenes de entrenamiento con el subtítulo «Latina», el 20% de los pies de foto o URL también incluían un término pornográfico.
Más datos, mejores imágenes
A diferencia del texto, la creación de imágenes realistas y libres de prejuicios implica consideraciones detalladas sobre una variedad de características visuales, desde el color de la piel hasta el tipo de cuerpo y la vestimenta. Estas complejidades visuales presentan desafíos significativos para la eliminación efectiva de los sesgos en las representaciones virtuales.
Además, la falta de transparencia en los conjuntos de datos utilizados para el entrenamiento de estas herramientas plantea interrogantes sobre la calidad y la imparcialidad de las imágenes generadas. Si bien algunas empresas, como Stability AI, aseguran abogar por la transparencia y el acceso abierto a los modelos, persisten preocupaciones sobre la integridad y la representatividad de los datos subyacentes.
En cuanto a las soluciones propuestas, se destaca la importancia de filtrar y depurar los conjuntos de datos utilizados para el entrenamiento de las herramientas de IA. Sin embargo, este proceso no es sin desafíos, ya que puede llevar a exclusiones injustas o a una representación aún más sesgada si no se implementa de manera cuidadosa y equitativa.