Sesgo en bucle: alimentando la injusticia algorítmica

Loop the Loop, Coney Island, N.Y.

Loop the Loop, Coney Island, N.Y. Autor desconocido, 1905 | Library of Congress | Dominio público

El problema de usar algoritmos basados en el aprendizaje es que si estos sistemas automatizados son alimentados con ejemplos de justicia sesgada, acabaran perpetuando estos sesgos. Para los defensores acérrimos de la tecnología, esto se podría resolver con más algoritmos que detecten y eliminen los sesgos de forma automática. Pero es necesario, de un lado, tener en cuenta que la tecnología no es neutral, sino que es una herramienta en manos de los humanos, y, del otro, que el uso de un sistema sesgado para hacer un cálculo de probabilidades generará siempre un resultado también sesgado, que se aplicará al mundo y creará más desigualdades, dando lugar a un bucle bastante problemático. Es necesario, pues, que el debate sobre las decisiones que pueden sacarse de los datos considere los derechos y las libertades de los humanos.

El solucionismo tecnológico sostiene que la inmensa mayoría de los problemas sociales y políticos actuales son resultado de la ineficacia humana. Solo una buena inyección de tecnologías digitales puede resolverlos. ¿Hay altos niveles de pobreza en tal barriada de Mumbai? Démosles móviles, conexión a Internet y un protocolo de cadenas de bloques y, mágicamente, empezarán a salir emprendedores de debajo las piedras y la prosperidad volverá a la ciudad ¿La ciudadanía confía cada vez menos en la justicia porque ve diariamente cómo jueces toman decisiones sesgadas, ya sea por presiones políticas o por su condicionamiento ideológico? Hagamos jueces basados en algoritmos de aprendizaje automático y la injusticia desaparecerá de la Tierra.

Injusticia algorítmica

En un post anterior hablé ya de los problemas que puede acarrear utilizar algoritmos basados en aprendizaje automático. En síntesis, el problema es que esos sistemas automatizados, si son alimentados por ejemplos de justicia sesgada, acabarán reproduciendo y potenciando esos sesgos. Si en un país como Estados Unidos las personas de ascendencia africana tienen muchas más probabilidades de acabar en la prisión sin fianza, y entrenamos a una red neuronal con esos datos, el algoritmo acabará replicando ese tipo de sesgos.

Los defensores del solucionismo tecnológico refutan tales argumentos de la siguiente manera: los sesgos que resultan en injusticias, como que se discrimine a ciertas razas en un tribunal, no los ha hecho ninguna máquina; son resultado de la acción humana. Los algoritmos son como los cuchillos: no son ni buenos ni malos, justos o injustos. Justa o injusta es la persona que los aplica. En la peor de las situaciones, los algoritmos se limitarán a mantener la injusticia ya existente, resultado exclusivamente de acciones humanas. La solución a posibles algoritmos injustos son más algoritmos que detecten y eliminen desigualdades y sesgos de forma automática.

Casi unánimemente, los defensores del solucionismo tecnológico acaban sus declaraciones con la petición de que los dejen trabajar en paz: el público general no entiende cómo funciona la inteligencia artificial; la gente se deja llevar por la prensa sensacionalista. Solo los expertos deberían decidir cuándo aplicar tal algoritmo y cuando no.

No entraré en las implicaciones de suponer que cuestiones como la justicia queden en manos exclusivamente de ingenieros emprendedores. Aquí me gustaría mostrar que la respuesta de los solucionistas tecnológicos está básicamente equivocada.

The Era of Blind Faith in Big Data Must End - Cathy O’Neil | TED Talk
The Era of Blind Faith in Big Data Must End - Cathy O’Neil | TED Talk

La supuesta neutralidad tecnológica

Observemos primero que la supuesta neutralidad de las tecnologías es una simplificación. Cualquier tecnología está diseñada, es decir, se ha llevado a cabo con un fin. Y aunque algunos fines puedan ser neutros, la mayoría tienen una dimensión ética. Los cuchillos en abstracto no existen. Hay muchos tipos de cuchillos, y cada tipo se diseña con un fin concreto en mente. Un bisturí está diseñado para usarse en un quirófano. Evidentemente alguien puede utilizar ese bisturí para matar a otra persona, pero no se diseñó para eso. La guillotina de la Revolución Francesa fue diseñada con una misión muy específica: cortar cabezas humanas. Es posible imaginarse un uso «positivo» de la guillotina, quizás para cortar sandías por la mitad, pero claramente sería un ejercicio retórico para mostrar la supuesta neutralidad de algo que es cualquier cosa menos neutro.

Igualmente, las personas que programaron el software de Volkswagen para que pareciera que ciertos modelos de automóviles diesel contaminaban menos de lo que realmente hacían, estaban diseñando un algoritmo con el fin muy claro de engañar y estafar a la sociedad civil. La neutralidad brilla por su ausencia.

Algoritmos en un contexto sesgado

Pero la parte más problemática del argumento es suponer que introducir algoritmos de aprendizaje automático en un contexto sesgado es una acción sin consecuencias. Ese tipo de algoritmos no tienen ninguna comprensión o modelización conceptual del problema que analizan: se limitan a asignar probabilidades a un resultado a partir de un análisis estadístico de la situación actual. Una jueza o un juez pueden ser todo lo sesgados que quieran, pero están obligados a explicar las razones de su decisión. Otros juristas –y sí, también la ciudadanía– tienen derecho a analizar esas decisiones e indicar si les parecen correctas o no. El sistema legal de cualquier país democrático ofrece vías para apelar decisiones judiciales si se considera que se han aplicado leyes de forma sesgada o impropia.

How I'm fighting bias in algorithms - Joy Buolamwini | TED Talk
How I'm fighting bias in algorithms - Joy Buolamwini | TED Talk

Por el contrario, cuando un algoritmo nos indica qué nueva serie de televisión nos resultará más interesante, o informa a una entidad bancaria sobre si es una buena idea conceder un crédito a tal persona, o indica si tal otra persona fácilmente cometerá más crímenes y es mejor encarcelarla preventivamente hasta la hora del juicio, no indica las razones por las que propone ese resultado. Simplemente se basa en regularidades anteriores: a un tanto por ciento elevado de personas que vieron muchas de las series que he visto yo les ha encantado esa nueva serie, así que probablemente a mí también me gustará; más del 70% de las personas de una edad, estado civil, sueldo medio y barrio similares a los de quien está pidiendo el crédito acabaron no devolviéndolo, así que seguramente es mejor no dárselo, etc.

Este giro de procedimiento crea una nueva variable: si utilizamos un sistema sesgado para hacer un cálculo de probabilidades, la decisión final que se tome estará también sesgada. Esa decisión sesgada se aplicará al mundo real y creará nuevas desigualdades; las regularidades estadísticas de ese mundo un poco más desigual las utilizará el algoritmo como input para tomar nuevas decisiones, decisiones que se aplicarán en el mundo real, que será un poco más desigual que antes. Crearemos así un problemático bucle de retroalimentación en el que el sistema poco a poco se irá haciendo cada vez más injusto, como esa guitarra eléctrica que dejamos al lado del amplificador y va generando cada vez más ruido hasta que acaba reventándonos los tímpanos.

Debate sobre la automatización

Afortunadamente existen soluciones. Necesitamos abrir un debate público para decidir qué procesos son automatizables y cuáles no. En ese debate sin duda han de estar presentes expertos en inteligencia artificial, pero necesitamos incluir también las humanidades, los diferentes agentes sociales y el público general. Y el criterio para determinar si una decisión concreta es automatizable o no en realidad es sencillo. Solo nos tenemos que preguntar: ¿es una decisión que puede extraerse directamente de datos? Como por ejemplo, cuál es el peso máximo que puede soportar un puente. En ese caso, podemos dejar el tema en manos de ingenieras e ingenieros experimentados, que sabrán como optimizar algoritmos.

Por el contrario, si se trata de una cuestión en la que se van a apelar a razones como por ejemplo decidir si una red social está diseñada de forma que garantice el respeto a la diversidad o no, al final de la cadena de decisiones ha de haber un equipo de personas que, a pesar de sus posibles fallos, emociones y sesgos ideológicos, entiendan que muchas decisiones de la esfera ética, política y social solo pueden tomarse desde una comprensión holística de qué significa ser humano y de cuáles son los derechos y libertades básicas de la humanidad. Algo que no puede surgir simplemente de regularidades estadísticas.

Referencias

Mathbabe, el blog de Cathy O’Neil, autora de Weapons of Math destruction.

Automating Inequality, de Virginia Eubanks.

«Algorithms and Human Rights», estudio del Consejo de Europa.

The post Sesgo en bucle: alimentando la injusticia algorítmica appeared first on CCCB LAB.

Injusticia algorítmica

Un oficial de la RAF con los ojos vendados y una enfermera participando en una carrera.

Un oficial de la RAF con los ojos vendados y una enfermera participando en una carrera. Rang du Fliers, 1918 | Imperial War Museum | Dominio público

La inteligencia artificial permite que decisiones que hasta ahora tomábamos los humanos puedan automatizarse mediante algoritmos informáticos. Aunque buena parte de esas decisiones se hallan en el campo del entretenimiento y las redes sociales, también las encontramos en las finanzas, la educación, el mercado laboral, las aseguradoras, la medicina o la justicia. Ante este fenómeno, de implicaciones sociales profundas, aparecen varias preguntas: ¿qué pasará con los puestos de trabajo asociados a esas tomas de decisiones? ¿Cómo podemos garantizar que esos algoritmos tomen decisiones justas?

Mary Bollender es una madre soltera de Las Vegas con problemas económicos. Una mañana de 2014, al encontrarse enferma su hija de diez años, con una fiebre alta persistente, Mary decidió tomar el coche y llevarla a urgencias. Pero no pudo porque su coche no funcionaba. No es que estuviera averiado ni que no tuviera suficiente gasolina. El banco había desactivado el motor del coche remotamente al observar que Mary se había retrasado tres días en el pago del préstamo. Una vez pagara, el automóvil volvería a funcionar. Desgraciadamente, Mary no podía pagar aquella mañana.

A medida que nuestra sociedad se hace más compleja y la digitalización de datos personales se vuelve más y más masiva, nos encontraremos cada vez más casos como los de Mary Bollender: decisiones automatizadas basadas en recopilar de forma sistemática nuestros datos personales y con efectos negativos para nuestra vida. Los algoritmos que ordenan las noticias de nuestros amigos de Facebook o que nos recomiendan películas en Netflix son también los algoritmos que deciden si el banco nos dará o no un préstamo, si un detenido puede salir bajo fianza, si nos merecemos una beca posdoctoral o si estamos a la altura para que nos contrate una empresa.

Estos programas de ordenador, estos algoritmos, no son resultado de un análisis y desglose del problema por parte de programadores humanos, que dan instrucciones precisas a un ordenador. Estos programas son fruto de complejas operaciones matemáticas desarrolladas automáticamente que buscan correlaciones y patrones útiles en un océano de datos digitalizados. No son como una receta de cocina en la que se nos dice qué ingredientes necesitamos y nos desglosan paso a paso cómo utilizarlos. Se parece más bien a «abre la nevera, mira qué hay, trastea por la cocina a ver qué cacharros puedes utilizar y prepárame una comida para seis personas.» Este tipo de algoritmos, que no están diseñados de forma explícita por un programador, se conocen como «aprendizaje automatizado» (machine learning).

Los algoritmos que actualmente procesan si una persona podrá o no devolver el crédito que está pidiendo a un banco funcionan así. La programadora del algoritmo recopila una base de datos de personas que han pedido un crédito anteriormente e incluye todo tipo de datos: sexo y edad de la persona, si devolvió todo el crédito o no, si se retrasaba en los pagos y con qué frecuencia, cuál era su sueldo medio, cuánto pagaba a hacienda, en qué ciudad y barrio vivía, etc. El algoritmo aplica una serie de fórmulas estadísticas a esos datos y acaba generando unos patrones que le permiten estimar la probabilidad de que un nuevo cliente potencial acabe devolviendo el préstamo o no. Estos algoritmos se desarrollan normalmente con la fiabilidad como único criterio. ¿El programa es suficientemente bueno como para substituir a un humano? Pues adelante con él.

¿Qué es un algoritmo? | David J. Malan | Ted Ed

Establecer la fiabilidad es algo complicado. Desarrollar un algoritmo automatizado realmente fiable tiene tanto de ciencia como de arte. Inevitablemente, cuando pensamos en programas de ordenador e inteligencia artificial, tendemos a antropomorfizarlos e imaginar que siguen trenes de pensamiento parecidos a los nuestros. Pero, en realidad, no es así. Un algoritmo automatizado no analiza los ejemplos que le damos e intenta establecer algún tipo de conexión causal, razonable, entre los datos y el resultado final. El algoritmo no sabe nada de género, edad, condiciones económicas, paro, etc. Simplemente tiene una ristra de números e intenta encontrar patrones que le permitan acertar el mayor número de veces.

Y aquí es donde aparece el problema. Un programa tradicional, desarrollado por un humano, sigue una lógica, con lo que es posible entender qué está haciendo ese programa. Un algoritmo automatizado es como una caja negra. Le damos una entrada (los datos de la persona que pide el crédito) y nos da una salida (la probabilidad de que devuelva o no el crédito). Es muy complejo ─o prácticamente imposible─ saber por qué el programa ha decidido rechazar o aceptar un crédito.

En la década de los ochenta, el ejército estadounidense encargó a unos científicos que desarrollaran un sistema automático de reconocimiento de imágenes para poder detectar en tiempo real tanques camuflados. Los científicos pidieron a los militares una buena colección de fotos organizadas en pares: una de un lugar sin tanque, la otra del mismo lugar, pero con un tanque camuflado, para que así un algoritmo automatizado fuera capaz de establecer una serie de criterios para localizar un tanque. El programa funcionó especialmente bien.

Su fiabilidad era del cien por cien. De hecho reconocía tanques que estaban tan bien camuflados que un humano no sabía reconocerlos. Ello sorprendió mucho a los investigadores, y decidieron analizar qué criterios estaba siguiendo el algoritmo. Después de examinar en detalle las fotos y el algoritmo, se dieron cuenta de que, en realidad, el programa no reconocía tanques ni nada parecido. Digamos que los militares hicieron las fotos de los lugares sin tanque al mediodía. Las fotos con tanque camuflado se hicieron a las seis de la tarde. Así, el algoritmo, para decidir si había tanque o no, lo único que hacía era mirar la posición del sol.

Un coche Waymo sin conductor

Un coche Waymo sin conductor | Grendelkhan, Wikimedia Commons | CC BY-SA 4.0

Nos gusta imaginarnos que los coches autónomos guiados con algoritmos tienen algún tipo de comprensión de lo que es una carretera, un semáforo, un paso de peatones, un ciclista, otro automóvil, etc., pero lo único que hacen son versiones más sofisticadas de la historia de los tanques. Su aprendizaje es muy contextualizado y depende completamente de cómo responde el entorno en el que esos algoritmos se entrenaron. Al tratarse de cajas negras, nunca podremos saber con seguridad cómo reaccionará un coche autónomo si el contexto es suficientemente diferente del original en el que se entrenó el algoritmo.

Con suficientes entrenamientos en contextos muy variados, podemos disponer de algoritmos realmente fiables y robustos. Pero sigue habiendo un problema aún más insidioso. El de la justicia. Al no estar basados esos algoritmos en un conocimiento propiamente dicho del entorno, sino en establecer regularidades contextuales, basadas en un número finito de datos, ningún algoritmo considerará reactivar el automóvil de Mary Bollender para que pueda llevar a su hija al médico. Es un algoritmo que solo sabe quién ha pagado las cuotas y quién no. En un barrio con un alto nivel de pobreza, la tasa de morosidad es mucho más elevada. Un tanto por ciento elevado de madres solteras tienden a retrasarse en los pagos de hipotecas y préstamos. Un algoritmo automatizado sin duda denegaría un préstamo a una madre soltera de ese barrio empobrecido. La decisión sería sin duda estadísticamente correcta. Pero, ¿sería justa? ¿Queremos vivir en un mundo en el que decisiones relevantes para nuestra vida se basen en regularidades estadísticas dependientes del contexto?

Los desarrollos actuales de algoritmos automatizados de la inteligencia artificial necesitan de las humanidades. Hay que definir infraestructuras para que ingenieros y humanistas colaboren. Necesitamos establecer un lenguaje común. Que sociólogos, antropólogos, filósofos, artistas, entiendan los mecanismos básicos de cómo funciona toda esta nueva familia de programas y que los ingenieros informáticos piensen en cómo adecuar principios éticos, de convivencia, justicia y solidaridad en el desarrollo de nuevo software. Quizás algún día alcanzaremos a desarrollar esa superinteligencia artificial que tanto preocupa a Elon Musk. Ahora mismo debería preocuparnos mucho más cómo programas ya existentes pueden amplificar los sesgos racistas, xenófobos y sexistas existentes en nuestra sociedad.

The post Injusticia algorítmica appeared first on CCCB LAB.