¿Cómo pueden los humanos leer texto/caracteres codificados (p. ej., CAPTCHA)?

Question

¿Cómo pueden los humanos leer texto/caracteres codificados (p. ej., CAPTCHA)?

Trabajo
visión
percepción
Psicología cognitiva
neurociencia Cognitiva
inteligencia artificial

sarthak singhal

Así que estoy investigando sobre el desarrollo de un nuevo sistema CAPTCHA basado en texto. He ideado un esquema en el que los caracteres de un texto se rompen/dividen de forma individual y aleatoria, lo que dificulta que las máquinas OCR lo decodifiquen. (Ver figura como ejemplo) Este CAPTCHA aún está en desarrollo, pero da una idea aproximada de lo que estoy hablando aquí.

Ejemplo de CAPTCHA que dice "NaAwKgkP"

Mi objetivo principal aquí es entender cómo el cerebro lee los caracteres codificados, como se muestra en la figura. Estaba mirando hacia arriba y apareció un término llamado fenómenos de visión de "relleno". No estoy seguro si ese término es correcto en este contexto.

Quiero saber la terminología y la comprensión básica de cómo los humanos pueden leer fácilmente texto/caracteres codificados.

Christian Hummeluhr

Bienvenido a CogSci. He intentado aclarar un poco tu pregunta. Relacionado pero probablemente no duplicado: cogsci.stackexchange.com/q/9992/2868

sarthak singhal

Hola, ya lo he leído, no responde específicamente a mi pregunta de cómo el cerebro humano reconoce fácilmente un texto/letra rota. Por ejemplo, la letra N en la imagen de arriba, no se muestra en su totalidad, sino en partes (siendo dividida en el medio); Entonces, ¿cómo el cerebro lo procesa como un todo y concluye que es la letra N?

fausto

Estoy seguro de que también tiene una base neurológica, pero un buen comienzo sería estudiar la teoría de la gestalt de Wertheimer. algunas referencias útiles son smashingmagazine.com/2014/03/28/… y academicpedia.org/article/Gestalt_principles

Respuestas (2)

¿Cómo pueden los humanos leer texto/caracteres codificados (p. ej., CAPTCHA)?

Bienvenido a CogSci. He intentado aclarar un poco tu pregunta. Relacionado pero probablemente no duplicado: cogsci.stackexchange.com/q/9992/2868
Hola, ya lo he leído, no responde específicamente a mi pregunta de cómo el cerebro humano reconoce fácilmente un texto/letra rota. Por ejemplo, la letra N en la imagen de arriba, no se muestra en su totalidad, sino en partes (siendo dividida en el medio); Entonces, ¿cómo el cerebro lo procesa como un todo y concluye que es la letra N?
Estoy seguro de que también tiene una base neurológica, pero un buen comienzo sería estudiar la teoría de la gestalt de Wertheimer. algunas referencias útiles son smashingmagazine.com/2014/03/28/… y academicpedia.org/article/Gestalt_principles

marsei · Answer 1

Un cerebro humano reconoce letras por sus características constituyentes (partes de subletras). Está modelado por un modelo pandemonium donde la información impresa se extrae localmente y luego globalmente. En la literatura de reconocimiento de letras, este tipo de modelo jerárquico basado en características compite con las teorías de coincidencia de plantillas (con una ventaja para los modelos pandemónium, como las redes de aprendizaje profundo).

ingrese la descripción de la imagen aquí

Los caracteres codificados se reconocen de la misma manera, con la diferencia de que solo está disponible una parte de la información visual. Se relaciona con la teoría de los geones desarrollada por Biedermann (Reconocimiento por componentes, 1987). El escribio

si se puede recuperar una disposición de dos o tres subcomponentes de la entrada, los objetos se pueden reconocer rápidamente incluso cuando están ocluidos o degradados en gran medida.

¿Podrías identificar el siguiente objeto? La izquierda es la versión irrecuperable.

ingrese la descripción de la imagen aquí

ÁRBITRO:

Grainger y otros (2008). Percepción de letras: de los píxeles al caos. Tendencias en Ciencias Cognitivas.
Biederman, Psychological Review (1987) & http://en.wikipedia.org/wiki/Recognition-by-components_theory

¿Están relacionados la teoría del reconocimiento por componentes y el principio de la gestalt? ¿Ambos son aplicables a mi problema?
Puede ver los componentes como una extensión de la teoría de la gestalt y ambos son aplicables a su problema.

arces de sydney · Answer 2

El número acumulativo de versiones de un solo carácter que el cerebro humano puede reconocer es casi infinito, mientras que las computadoras deben programarse para reconocer cada variación. Los humanos también reconocen el "contexto" en una palabra, mientras que una computadora no reconoce el contexto porque no tiene una comprensión intuitiva del lenguaje. De wikipedia :

Por ejemplo, cuando una persona entiende que la primera letra de un CAPTCHA es una "a", esa persona también entiende dónde están los contornos de esa "a", y también dónde se fusiona con los contornos de la siguiente letra. Además, el cerebro humano es capaz de un pensamiento dinámico basado en el contexto. Es capaz de mantener vivas varias explicaciones y luego elegir la que sea la mejor explicación para toda la entrada en función de las pistas contextuales. Esto también significa que no se dejará engañar por variaciones en las letras.

Básicamente, se reduce a dos factores: uno, los humanos están preprogramados con habilidades de "reconocimiento de objetos". Dos, los humanos pueden analizar una cadena de símbolos de una manera que se ajusta a las reglas de una gramática formal.

El reconocimiento de objetos es la capacidad de encontrar, reconocer e identificar objetos humanos en una secuencia. Los humanos naturalmente tienen esta habilidad, mientras que las computadoras no. Parece ser una cualidad genética y se puede replicar en computadoras mediante algoritmos genéticos que imitan el proceso de selección natural.

Los seres humanos también construyen oraciones de manera incremental y, al hacerlo, hacen constantes predicciones inconscientes sobre lo que dirá la palabra o la oración. Esta es la explicación detrás de las oraciones del camino del jardín . Podemos usar potenciales relacionados con eventos para estudiar este fenómeno en el cerebro humano. Ciertos potenciales se activan durante situaciones específicas al analizar. De la página de wikipedia sobre oraciones de camino de jardín:

Dentro de los ERP, P600 es el componente más importante. Su activación ocurre cuando el analizador se encuentra con una violación sintáctica como El corredor persuadió a vender las acciones o cuando analiza sintetiza una desambiguación insatisfactoria en una cadena ambigua de palabras como El médico acusó al paciente de estar mintiendo. Por lo tanto, la activación de P600 marca el intento del analizador de revisar el desajuste o la ambigüedad estructural de la oración.

También parece que la presencia de una disfluencia en una oración, causada por análisis sintácticos completos y largos, no provoca el P600. En su lugar, provoca otro componente ERP, N400, que se activa cuando las personas intentan integrar una nueva palabra en el contexto de la oración anterior.

Según lo anterior, parece que el cerebro tiene potenciales relacionados con eventos específicos que se activan intuitivamente durante situaciones específicas durante el análisis. En otras palabras, un ser humano puede reconocer oraciones y palabras familiares de manera intuitiva, y cuando se encuentra con una palabra no reconocida, intenta integrarla según el contexto. Dado que las computadoras actualmente no tienen una capacidad intuitiva similar, los CAPTCHA son más difíciles de decodificar.

¿Tiene alguna referencia para la información de la página de wikipedia? Cualquiera puede escribir allí para que el trabajo publicado revisado por pares sea más confiable.
Hay algunos aspectos preocupantes sobre esta respuesta. Las computadoras naturalmente no carecen de ninguna habilidad que los humanos per se. eso es un poco sin sentido. Además, los algoritmos genéticos no tienen mucho que ver con esto, son una rutina de optimización y la capacidad humana para reconocer objetos en una secuencia no está relacionada con ninguna "cualidad genética". Si cree en estas cosas, le aconsejo que proporcione referencias, porque no estoy familiarizado con ningún argumento de este tipo en la literatura.

¿Cómo pueden los humanos leer texto/caracteres codificados (p. ej., CAPTCHA)?

sarthak singhal

Christian Hummeluhr

sarthak singhal

fausto

Respuestas (2)

marsei

sarthak singhal

marsei

arces de sydney

babosa reina

analítico

¿Cómo actúa el cerebro sobre la información obtenida a través de movimientos sacádicos oculares?

¿Cuáles son los efectos de la privación visual en la salud mental y los otros sentidos?

¿Cómo lee el cerebro el texto rotado?

¿Hay formas definidas por 3 (o más) parámetros generativos cuyo mapeo al espacio de similitud psicológica se conoce?

¿Alguna investigación sobre cómo usamos la información de categoría visual en tareas visomotoras?

¿Qué tan común es que los gemelos unidos por la cabeza compartan pensamientos y estímulos visuales?

¿Cómo perciben los humanos la altura o la caída vertical?

¿Qué estudio mostró que los humanos pueden detectar con éxito objetos dentro de las imágenes una vez que son capaces de reconocer esos objetos?

¿Hay alguna regla sobre el enmascaramiento?

¿Los primates no humanos exhiben el efecto Kiki/Bouba?