¿Cómo pueden los humanos leer texto/caracteres codificados (p. ej., CAPTCHA)?

Así que estoy investigando sobre el desarrollo de un nuevo sistema CAPTCHA basado en texto. He ideado un esquema en el que los caracteres de un texto se rompen/dividen de forma individual y aleatoria, lo que dificulta que las máquinas OCR lo decodifiquen. (Ver figura como ejemplo) Este CAPTCHA aún está en desarrollo, pero da una idea aproximada de lo que estoy hablando aquí.

Ejemplo de CAPTCHA que dice "NaAwKgkP"

Mi objetivo principal aquí es entender cómo el cerebro lee los caracteres codificados, como se muestra en la figura. Estaba mirando hacia arriba y apareció un término llamado fenómenos de visión de "relleno". No estoy seguro si ese término es correcto en este contexto.

Quiero saber la terminología y la comprensión básica de cómo los humanos pueden leer fácilmente texto/caracteres codificados.

Bienvenido a CogSci. He intentado aclarar un poco tu pregunta. Relacionado pero probablemente no duplicado: cogsci.stackexchange.com/q/9992/2868
Hola, ya lo he leído, no responde específicamente a mi pregunta de cómo el cerebro humano reconoce fácilmente un texto/letra rota. Por ejemplo, la letra N en la imagen de arriba, no se muestra en su totalidad, sino en partes (siendo dividida en el medio); Entonces, ¿cómo el cerebro lo procesa como un todo y concluye que es la letra N?
Estoy seguro de que también tiene una base neurológica, pero un buen comienzo sería estudiar la teoría de la gestalt de Wertheimer. algunas referencias útiles son smashingmagazine.com/2014/03/28/… y academicpedia.org/article/Gestalt_principles

Respuestas (2)

Un cerebro humano reconoce letras por sus características constituyentes (partes de subletras). Está modelado por un modelo pandemonium donde la información impresa se extrae localmente y luego globalmente. En la literatura de reconocimiento de letras, este tipo de modelo jerárquico basado en características compite con las teorías de coincidencia de plantillas (con una ventaja para los modelos pandemónium, como las redes de aprendizaje profundo).

ingrese la descripción de la imagen aquí

Los caracteres codificados se reconocen de la misma manera, con la diferencia de que solo está disponible una parte de la información visual. Se relaciona con la teoría de los geones desarrollada por Biedermann (Reconocimiento por componentes, 1987). El escribio

si se puede recuperar una disposición de dos o tres subcomponentes de la entrada, los objetos se pueden reconocer rápidamente incluso cuando están ocluidos o degradados en gran medida.

¿Podrías identificar el siguiente objeto? La izquierda es la versión irrecuperable.

ingrese la descripción de la imagen aquí

ÁRBITRO:

¿Están relacionados la teoría del reconocimiento por componentes y el principio de la gestalt? ¿Ambos son aplicables a mi problema?
Puede ver los componentes como una extensión de la teoría de la gestalt y ambos son aplicables a su problema.

El número acumulativo de versiones de un solo carácter que el cerebro humano puede reconocer es casi infinito, mientras que las computadoras deben programarse para reconocer cada variación. Los humanos también reconocen el "contexto" en una palabra, mientras que una computadora no reconoce el contexto porque no tiene una comprensión intuitiva del lenguaje. De wikipedia :

Por ejemplo, cuando una persona entiende que la primera letra de un CAPTCHA es una "a", esa persona también entiende dónde están los contornos de esa "a", y también dónde se fusiona con los contornos de la siguiente letra. Además, el cerebro humano es capaz de un pensamiento dinámico basado en el contexto. Es capaz de mantener vivas varias explicaciones y luego elegir la que sea la mejor explicación para toda la entrada en función de las pistas contextuales. Esto también significa que no se dejará engañar por variaciones en las letras.

Básicamente, se reduce a dos factores: uno, los humanos están preprogramados con habilidades de "reconocimiento de objetos". Dos, los humanos pueden analizar una cadena de símbolos de una manera que se ajusta a las reglas de una gramática formal.

El reconocimiento de objetos es la capacidad de encontrar, reconocer e identificar objetos humanos en una secuencia. Los humanos naturalmente tienen esta habilidad, mientras que las computadoras no. Parece ser una cualidad genética y se puede replicar en computadoras mediante algoritmos genéticos que imitan el proceso de selección natural.

Los seres humanos también construyen oraciones de manera incremental y, al hacerlo, hacen constantes predicciones inconscientes sobre lo que dirá la palabra o la oración. Esta es la explicación detrás de las oraciones del camino del jardín . Podemos usar potenciales relacionados con eventos para estudiar este fenómeno en el cerebro humano. Ciertos potenciales se activan durante situaciones específicas al analizar. De la página de wikipedia sobre oraciones de camino de jardín:

Dentro de los ERP, P600 es el componente más importante. Su activación ocurre cuando el analizador se encuentra con una violación sintáctica como El corredor persuadió a vender las acciones o cuando analiza sintetiza una desambiguación insatisfactoria en una cadena ambigua de palabras como El médico acusó al paciente de estar mintiendo. Por lo tanto, la activación de P600 marca el intento del analizador de revisar el desajuste o la ambigüedad estructural de la oración.

También parece que la presencia de una disfluencia en una oración, causada por análisis sintácticos completos y largos, no provoca el P600. En su lugar, provoca otro componente ERP, N400, que se activa cuando las personas intentan integrar una nueva palabra en el contexto de la oración anterior.

Según lo anterior, parece que el cerebro tiene potenciales relacionados con eventos específicos que se activan intuitivamente durante situaciones específicas durante el análisis. En otras palabras, un ser humano puede reconocer oraciones y palabras familiares de manera intuitiva, y cuando se encuentra con una palabra no reconocida, intenta integrarla según el contexto. Dado que las computadoras actualmente no tienen una capacidad intuitiva similar, los CAPTCHA son más difíciles de decodificar.

¿Tiene alguna referencia para la información de la página de wikipedia? Cualquiera puede escribir allí para que el trabajo publicado revisado por pares sea más confiable.
Hay algunos aspectos preocupantes sobre esta respuesta. Las computadoras naturalmente no carecen de ninguna habilidad que los humanos per se. eso es un poco sin sentido. Además, los algoritmos genéticos no tienen mucho que ver con esto, son una rutina de optimización y la capacidad humana para reconocer objetos en una secuencia no está relacionada con ninguna "cualidad genética". Si cree en estas cosas, le aconsejo que proporcione referencias, porque no estoy familiarizado con ningún argumento de este tipo en la literatura.