Los generadores de imágenes de IA tienden a exagerar los estereotipos
Ria Kalluri y sus colegas tenían una petición sencilla para Dall-E. Este robot utiliza inteligencia artificial, o IA, para generar imágenes. “Pedimos una imagen de una persona discapacitada dirigiendo una reunión”, dice Kalluri. “Me identifico como discapacitada. Mucha gente lo hace”. Por lo tanto, no debería ser difícil para Dall-E mostrar a alguien con esta descripción simplemente dirigiendo una reunión.
Pero el bot no pudo hacerlo.
Al menos, no cuando Kalluri y su equipo se lo pidieron el año pasado. Dall-E produjo “una persona visiblemente discapacitada que observa una reunión mientras otra persona dirige”, recuerda Kalluri. Es estudiante de doctorado en la Universidad de Stanford en California. Allí, estudia la ética de la creación y el uso de la IA. Formó parte de un equipo que informó sus hallazgos sobre los problemas de sesgo en las imágenes generadas por IA en junio de 2023. Los miembros del equipo describieron el trabajo en la Conferencia de la ACM sobre Equidad, Responsabilidad y Transparencia en Chicago, Illinois.
Suponer que una persona con discapacidad no dirigiría una reunión es un ejemplo de capacitismo. El grupo de Kalluri también encontró ejemplos de racismo, sexismo y muchos otros tipos de sesgo en imágenes creadas por bots.
Lamentablemente, todos estos sesgos son suposiciones que muchas personas también hacen. Pero la IA a menudo los amplifica, dice Kalluri. Pinta un mundo que es más más sesgados que la realidad. Otros investigadores han expresado preocupaciones similares.
Además de Dall-E, el grupo de Kalluri también probó Stable Diffusion, otro robot de creación de imágenes. Cuando se le pidió que mostrara fotos de una persona atractiva, sus resultados fueron “todos de piel clara”, dice Kalluri. Y muchos tenían ojos de un “azul brillante, más azules que los de la gente real”.
Sin embargo, cuando se les pidió que representaran el rostro de una persona pobre, Stable Diffusion generalmente representó a esa persona como de piel oscura. Los investigadores incluso intentaron pedir una “persona blanca pobre”. Eso no pareció importar. Los resultados en el momento de la prueba fueron casi todos de piel oscura. En el mundo real, por supuesto, las personas hermosas y las personas empobrecidas vienen en todos los colores de ojos y tonos de piel.
Los investigadores también utilizaron Stable Diffusion para crear imágenes de personas que desempeñaban distintos trabajos. Los resultados fueron racistas y sexistas.
Por ejemplo, el modelo de IA representó a todos los desarrolladores de software como hombres y el 99 por ciento de ellos tenían la piel clara. Sin embargo, en Estados Unidos, uno de cada cinco desarrolladores de software se identifica como mujer y solo la mitad aproximadamente se identifica como blanco.
Incluso las imágenes de objetos cotidianos, como puertas y cocinas, mostraban sesgos. Stable Diffusion tendía a representar una casa suburbana estadounidense estereotipada. Era como si Norteamérica fuera la configuración predeterminada del bot para la apariencia del mundo. En realidad, más del 90 por ciento de las personas viven fuera de Norteamérica.
Esto es un gran problema, dice Kalluri. Las imágenes tendenciosas pueden causar un daño real. Verlas tiende a reforzar los estereotipos de las personas. Por ejemplo, un estudio de febrero en Naturaleza Los participantes vieron imágenes de hombres y mujeres en roles estereotipados. Incluso tres días después, las personas que vieron estas imágenes tenían prejuicios más fuertes sobre los hombres y las mujeres que los que tenían antes. Esto no sucedió con un grupo que leyó textos tendenciosos ni con un grupo que no vio contenido tendencioso.
Los sesgos “pueden afectar las oportunidades que tienen las personas”, señala Kalluri. Y, señala, la IA “puede producir texto e imágenes a un ritmo sin precedentes”. Una avalancha de imágenes sesgadas generadas por IA podría ser extremadamente difícil de superar.
Atrapado en el pasado
Los desarrolladores entrenan a robots como Dall-E o Stable Diffusion para que creen imágenes. Para ello, les muestran muchas, muchas imágenes de ejemplo. “Han realizado escaneos masivos de datos de Internet”, explica Kalluri. Pero muchas de estas imágenes están desactualizadas y representan a las personas de forma sesgada.
Un problema adicional: muchas imágenes pertenecen a artistas y empresas que nunca dieron permiso a AI para utilizar su trabajo.
Los generadores de imágenes de IA promedian sus datos de entrenamiento para crear un mapa enorme. En este mapa, las palabras e imágenes similares se agrupan más cerca unas de otras. Los bots no pueden saber nada sobre el mundo más allá de sus datos de entrenamiento, señala Kalluri. No pueden crear ni imaginar cosas nuevas. Eso significa que las imágenes creadas por IA solo pueden reflejar cómo aparecían las personas y las cosas en las imágenes con las que se entrenaron.
En otras palabras, dice Kalluri: “Están construidos sobre el pasado”.
OpenAI ha actualizado su robot Dall-E para intentar producir imágenes más inclusivas. La empresa no ha revelado exactamente cómo funciona, pero los expertos creen que, entre bastidores, Dall-E edita las indicaciones de las personas.
Roland Meyer es un experto en medios de comunicación de la Universidad del Ruhr en Bochum, en Alemania. No participó en la investigación de Kalluri, pero ha realizado sus propias pruebas con robots generadores de imágenes. Según su experiencia, “cuando digo ‘dame una familia’, traduce la frase a otra cosa”. Puede añadir palabras como “padre negro” o “madre asiática” para que el resultado refleje diversidad, afirma.
¿Tienes alguna pregunta sobre ciencias? ¡Podemos ayudarte!
Envíe su pregunta aquí y es posible que la respondamos en un próximo número de Noticias científicas exploran
Un juego de golpear al topo
Kalluri no cree que este tipo de enfoque funcione a largo plazo. Es como el juego del topo, dice. “Cada vez que dices algo y [AI companies] “Arregla algo, hay otros problemas que encontrar”.
Por ejemplo, ninguna de las imágenes de familias generadas por IA en su investigación parecía representar a dos mamás o dos papás. Además, los intentos de agregar diversidad a las imágenes creadas por IA pueden resultar contraproducentes.
En febrero de 2024, Google agregó la generación de imágenes como una función para su bot Gemini. La gente descubrió rápidamente que el bot siempre Incluía diversidad, sin importar nada. En las redes sociales, una persona compartió su pedido de una imagen de “la tripulación del Apolo 11”. Este grupo voló a la Luna en 1969. Gemini mostró a la tripulación como un hombre blanco, un hombre negro y una mujer. Pero tres hombres blancos habían conformado la tripulación real. Gemini había arruinado la historia básica.
Google se disculpó y detuvo temporalmente la generación de imágenes de personas por parte del bot. A fecha de mayo de 2024, esta función aún no se había restablecido.
Kalluri sugiere que el verdadero problema aquí es la idea de que todo el mundo debería usar un bot para obtener imágenes o texto. Un bot simplemente no puede representar los valores e identidades de todas las culturas. “La idea de que existe una tecnología para gobernarlos a todos es una tontería”, dice.
En su mundo ideal, las comunidades locales recopilarían datos para la IA y la entrenarían para sus propios fines. Ella desea “tecnologías que apoyen a nuestras comunidades”. Así, dice, se evitan los sesgos y los daños.