La IA puede adivinar si eres gay o heterosexual: ¿cómo obtienen una tasa de éxito del 91 %?

Este artículo afirma que hay un software que puede decir si una persona es homosexual, basándose únicamente en sus imágenes faciales. Sin embargo, el otro artículo lo llama "pseudociencia":

los críticos dicen que estamos revisando la pseudociencia

¿Es cierto o falso? ¿Cómo midieron el 91%? Si el 7-11% de las personas son homosexuales, simplemente diciendo "heterosexual" todo el tiempo, el software tendría una tasa de éxito del 89%-93%.

No me sorprendería si, estadísticamente hablando, las personas homosexuales y heterosexuales usan diferentes tipos de fotos en los sitios web de citas. Probablemente no funcionará con fotografías policiales estandarizadas.
@JonathanReez Demostraron que, de hecho, fueron las características faciales, no el "tipo" de foto, en lo que se basó el algoritmo para la clasificación.
Pasé mi cara por su sistema: ¡su sistema es un maldito mentiroso! jk. Las redes neuronales artificiales son fascinantes. ¿Podrían usarse para detectar otros 'rasgos' ocultos, como terroristas, espías, nacionalidad, religión? Quién sabe qué pequeñas diferencias los humanos no pueden observar.
91% no es tan impresionante como parece a primera vista. Eso significa que se equivoca una vez de cada diez. Esa no es una gran tasa de fracaso.
En la línea de lo que dijo @GordonM: si hay una prevalencia del diez por ciento de la homosexualidad en la sociedad, y programo una IA para que siempre diga "heterosexual", entonces debería tener esa tasa de éxito. Las encuestas sugieren que la tasa es en realidad más baja que las estimaciones anteriores de cerca del 10% (una encuesta de Gallup lo sitúa en alrededor del 4%), por lo que la IA funciona peor que no molestarse en adivinar.
Este es un problema sobre la comprensión de las estadísticas, el documento nunca dice un 91% de precisión, por lo que desearía que los comentarios y el artículo tampoco lo hicieran. "El AUC = .91 no implica que se pueda identificar el 91 % de los hombres homosexuales en una población determinada, o que los resultados de la clasificación sean correctos el 91 % de las veces. El desempeño del clasificador depende de la compensación deseada. ."

Respuestas (2)

¿Es cierto o falso?

El trabajo de investigación en cuestión pasó la revisión por pares, lo que sugiere que otros expertos en el campo consideraron que la metodología era sólida. Es concebible que los resultados fueran falsificados (como sucede ocasionalmente en la investigación), pero esto es muy poco probable dado lo fácil que sería reproducir y verificar los hallazgos. De hecho, no hay nada que te impida reproducir su trabajo tú mismo.

Sin embargo, ¿podrían estar equivocados los resultados? Bueno, los propios autores del estudio escribieron lo siguiente:

Nuestros hallazgos podrían estar equivocados. De hecho, a pesar de la evidencia en contrario, esperamos estar equivocados. Sin embargo, los hallazgos científicos solo pueden ser desacreditados por datos científicos y réplicas, no por abogados bien intencionados y funcionarios de comunicación que carezcan de capacitación científica.

en respuesta a las críticas de HRC y GLAAS ( fuente ).

¿Cómo midieron el 91%? Si el 7-11% de las personas son homosexuales, simplemente diciendo "heterosexual" todo el tiempo, el software tendría una tasa de éxito del 89%-93%.

Como se explica en el artículo , el algoritmo se presentó con un número igual de fotos de personas heterosexuales y homosexuales. En otras palabras, la probabilidad a priori de que la persona de cada imagen sea homosexual era del 50%, no del 7-11% de la gente que te cruzas por la calle.

También podría agregar que el 91% es un ROC AUC, no sigo totalmente las estadísticas de los documentos, pero nunca me gustaron las estadísticas ... "en otras palabras, el clasificador proporcionó una mejora de casi siete veces en la precisión sobre un aleatorio dibujar (47/7 = 6,71)."
"muy improbable dado lo fácil que sería reproducir y verificar los hallazgos". Reproducir los hallazgos requeriría que alguien con experiencia en redes neuronales dedique mucho tiempo a entrenar la red y realizar un experimento. Reunir un conjunto de entrenamiento, entrenar al NN en él y evaluar los resultados llevará mucho tiempo.
@BobTheAverage Tenga en cuenta que las ANN a menudo tienen un componente estocástico (por ejemplo, inicialización de peso), por lo que los resultados pueden no ser exactamente reproducibles.
@Miguel Aún así, las conclusiones generales deberían ser reproducibles. Si alguien rehiciera su trabajo de sacar imágenes de un sitio de citas, esperaría que el componente estocástico fuera mucho más importante que los pesos iniciales.
Cabe señalar que los aspectos técnicamente más desafiantes de su trabajo (por ejemplo, el componente de reconocimiento facial y la capacitación de NN) se basaron en bibliotecas de código abierto que son bastante fáciles de usar. No necesitarías ser un experto en el campo para repetirlo.
"Como se explica en el documento, el algoritmo se presentó con la misma cantidad de fotos de personas heterosexuales y homosexuales", pero el método sigue siendo importante. Imagina que tienes un montón de imágenes y necesitas dividirlas en dos grupos A y B. Algunas definitivamente se ven como A, y otras son más enigmáticas. Digamos que encontró alrededor del 30% de los obvios y está seguro de que tienen el tipo A. Ahora sabe que solo queda el 20% de los A "no identificados". Así que dices "es B" para otro 70% y mágicamente "adivinas" todas las imágenes B con un éxito total del 70%.
El NN, una vez entrenado, es esencialmente solo una función matemática que podría informarse, como cualquier otra correlación. No sé si han elegido informar el resultado de NN, pero si es así, los estudios de replicación no tendrían que meterse con las cosas de IA.
@enkryptor: En lugar de especular que pueden haber usado un método sesgado, lea el artículo y díganos cómo lo hicieron realmente.
@nat Después de leer su discusión, parecen estar bastante preocupados por cómo se podría usar su herramienta. Creo que se negaron a compartir su código y red entrenada debido a estas preocupaciones. ¿Por qué ponérselo fácil a los fanáticos?
Además, las personas homosexuales en los EE. UU. (y muy probablemente en otros países) comúnmente se congregan en ciertas áreas "amigas de los homosexuales" como San Francisco, Rehoboth Beach, Cape Cod, etc. y tienden a preferir no vivir en pequeñas comunidades religiosamente conservadoras si puede ayudar. Por lo tanto, es probable que el porcentaje de personas que pasan por la calle que son homosexuales varíe dependiendo de dónde se encuentre.
Una cosa que nadie parece haber mencionado es que todo lo que la IA necesita decidir es si la persona A parece más gay que la persona B. Ya saben que una persona es gay, por lo que se trata de diferencias relativas. Por lo tanto, dicho sistema podría no resistir para decidir si una persona al azar es gay (lo que parece ser el principal temor entre quienes interpretan estos resultados).

Resumen: Este artículo es un artículo científico real que ha pasado la revisión por pares. El verdadero juez de si sus hallazgos son ciertos o no es si se pueden replicar. Simplemente no ha habido suficiente tiempo desde que salió el estudio para que se publique una réplica. Además, hay preguntas sobre qué significan exactamente sus resultados. Las Redes Neuronales Artificiales no le explican al usuario por qué hizo sus predicciones; son una caja negra.


Las redes neuronales artificiales (ANN) son una herramienta de aprendizaje automático que se puede entrenar para reconocer patrones en los datos y hacer predicciones basadas en esos patrones. Su estructura se inspiró en la estructura de las redes neuronales naturales, los cerebros. Como una red neuronal natural, sus procesos de toma de decisiones son una caja negra . Las ANN hacen una predicción (si el individuo es homosexual o heterosexual) en función de los datos de entrada (un conjunto de fotografías), pero no explican su razonamiento. Los investigadores especulan sobre lo que podría haber captado la ANN, pero en realidad no lo saben.

¿Qué rasgos faciales empleó el algoritmo para detectar la orientación sexual? Los rostros promedio con mayor probabilidad de pertenecer a hombres homosexuales (ver Figura 1) eran más femeninos, mientras que los rostros con mayor probabilidad de pertenecer a lesbianas eran más masculinos. Por lo general, los hombres tienen mandíbulas más grandes, narices más cortas y frentes más pequeñas. Los hombres homosexuales, sin embargo, tendían a tener mandíbulas más estrechas, narices más largas, frentes más grandes y menos vello facial. Por el contrario, las lesbianas tendían a tener rostros más masculinos (mandíbulas más grandes y frentes más pequeñas) que las mujeres heterosexuales.

La atipicidad de género de los rostros gay se extendía más allá de la morfología. Las lesbianas tendían a usar menos maquillaje en los ojos, tenían el cabello más oscuro y usaban ropa menos reveladora (nótese el escote más alto), lo que indica un estilo y una apariencia menos femeninos. Además, aunque las mujeres tienden a sonreír más en general, las lesbianas sonreían menos que sus contrapartes heterosexuales.

Además, de acuerdo con la asociación entre las gorras de béisbol y la masculinidad en la cultura estadounidense, los hombres heterosexuales y las lesbianas tendían a usar gorras de béisbol (vea la sombra en sus frentes en la Figura 1; esto también se confirmó mediante una inspección manual de imágenes individuales).

Tal vez la ANN se guió principalmente por los rasgos faciales y tal vez por otras señales como sonreír o usar gorras de béisbol. El conjunto de entrenamiento fue tomado de un sitio web de citas. Espero que los hombres gay y las lesbianas elijan fotos que sean atractivas para otros hombres gay y lesbianas. La ANN podría estar detectando esas diferencias. En respuesta a estas preguntas, los autores argumentan que:

Primero, probamos nuestro clasificador en una muestra externa de fotos de Facebook. Logró una precisión comparable a la de la muestra del sitio web de citas, lo que sugiere que las imágenes del sitio web de citas no eran más reveladoras que las imágenes de perfil de Facebook. ...

Finalmente, la red neuronal profunda utilizada aquí se entrenó específicamente para enfocarse en rasgos faciales fijos que no se pueden modificar fácilmente, como la forma de los elementos faciales. Esto ayudó a reducir el riesgo de que el clasificador descubriera algunas diferencias superficiales y no relacionadas con el rostro entre las imágenes faciales de personas homosexuales y heterosexuales utilizadas en este estudio.

Nota: aunque intentan eliminar cualquier dependencia de cosas que no sean rasgos faciales fijos, no estoy seguro de si lo lograron. No estoy muy familiarizado con los algoritmos de reconocimiento facial o las redes neuronales.

La ANN en el periódico usó un conjunto de entrenamiento con caras mitad homosexuales y mitad heterosexuales. A la ANN se le presentaba una sola cara gay y una sola cara seria, y se le preguntaba cuál era cuál. Cuando se hicieron las caras a partir de 5 fotografías, fue capaz de elegir correctamente cuál era gay el 91% de las veces. Esto es bastante diferente de cualquier aplicación de la vida real, donde aproximadamente el 10% de la población es gay.


Especulación: la predicción de mayor precisión, 91% de precisión, se logró con 5 fotos de la misma persona. Sin embargo, solo había 219 hombres gay y 223 lesbianas con 5 fotos en su conjunto de datos, en comparación con ~3500 cada uno para 1 foto. Esto podría ser una debilidad en sus métodos, pero 200 sujetos siguen siendo bastantes. Es posible que sus métodos exageren su precisión. Las predicciones basadas en 4 fotos tenían significativamente más sujetos y solo una precisión ligeramente menor. Si decidiera arbitrariamente descartar la precisión de múltiples fotografías, todavía nos quedaría una precisión del 81 % para los hombres homosexuales.


Si está leyendo esto en el futuro, este enlace de Google Scholar muestra todos los artículos que citan el artículo en cuestión. Con suerte, en un par de años, habrá una gran lista de artículos en ese enlace. Se espera que los artículos que se publicarán sean una forma de revisión más sólida que la revisión por pares. Espero que muchos de ellos repitan las conclusiones de este artículo breve y acríticamente. Los autores de estos artículos probablemente no leyeron este artículo lo suficientemente profundo como para hacer una crítica real de sus métodos. Si uno de ellos lo discute extensamente, esos autores probablemente entendieron los métodos y las conclusiones lo suficientemente bien como para ser debidamente escépticos. Si ese documento también trata un tema muy similar, o se basa en este trabajo, estaría muy interesado en la opinión de ese autor sobre el documento en cuestión.