Leí hace años en un libro de ciencia popular que se puede demostrar que el lenguaje escrito y hablado tiene un alto nivel de redundancia. La especulación fue que esto sirvió para permitir la corrección de errores porque el lenguaje se encuentra en ambientes ruidosos y la comprensión tiene un alto valor de supervivencia. La cifra que recuerdo es que si el 35% de la información permanece, un oyente o lector atento aún puede descifrar el mensaje. Esto se ha convertido en una noción apreciada en mi visión del mundo como un indicador de que el lenguaje y el esfuerzo humano contienen una complejidad de la que no somos conscientes.
Estoy buscando una confirmación informada de la idea de que el lenguaje hablado o escrito contiene esta redundancia. Una bofetada descortés debido a un sesgo de confirmación no examinado siempre es bienvenida también.
Parece que para el inglés escrito, la cifra es del 50%.
De las páginas 27 a 28 de La creación de la ciencia cognitiva: Ensayos en honor a George A. Miller (Cambridge: Cambridge University Press, 1988)
Estimaciones de redundancia . El propio Shannon (1948, 1951) había estimado que la redundancia del inglés impreso era de alrededor del 50 por ciento. Había utilizado una técnica en la que a un sujeto se le daba un pasaje de texto y luego se le pedía que adivinara la letra siguiente hasta dar la respuesta correcta (es decir, la correspondiente al texto original). La redundancia se calculó a partir de la distribución del número de conjeturas requeridas. Garner y Carson (1960) [...] también estimaron que la redundancia del inglés impreso era de alrededor del 50 por ciento. Newman y Gerstman (1952) [...] estimaron que la redundancia era del 52 por ciento.
Usos de la redundancia . [...] Chapanis (1954) y Miller y Friedman (1957) demostraron que cuando se mutilaba el texto eliminando diferentes porcentajes de letras, los sujetos podían restaurar las letras faltantes con un alto grado de precisión. Tal restauración es posible debido a la redundancia, por lo que estos experimentos demostraron que la redundancia era útil para los humanos.
[...]
En resumen, el inglés impreso es redundante y, por lo tanto, limitado, tanto en las secuencias de letras dentro de las palabras como en las secuencias de las palabras mismas. Esta redundancia es conocida por los humanos, que pueden usarla para reconstruir texto mutilado y para reconocer y aprender palabras y secuencias de palabras que reflejan diversos grados de esta restricción. [...]
De la página 1086 de Un nuevo tipo de ciencia de Stephen Wolfram (Wolfram Media, Inc., 2002):
[...] normalmente, el texto en inglés sigue siendo inteligible hasta que se elimina aproximadamente la mitad de sus caracteres, lo que indica que tiene una redundancia de alrededor de 0,5. La mayoría de los otros idiomas tienen redundancias ligeramente más altas, lo que hace que los documentos en esos idiomas sean un poco más largos que sus contrapartes en inglés.
El hecho de que pueda saber cuándo uso "es" o "su" incorrectamente es una confirmación de redundancia. Si no hubiera un contexto que te dijera cuál debería ser, no lo sabrías; y si hay un contexto que te dice lo que debería ser, no hay necesidad de escribir el apóstrofe porque ya sabes lo que pretendía el escritor.
Eso es bastante obvio. Además, la compresión de datos puede dar otra idea de esto. La compresión de texto estándar produce una relación de compresión mucho más alta que el 50%. Si comprimo su pregunta con "gzip" (una utilidad de compresión estándar), baja de 770 bytes a 440 bytes (57% del original). Esto es bastante malo, pero esto es sin conocimiento preexistente, algo de lo que los humanos tienen mucho cuando procesan texto.
Si agrego lo que está actualmente en la página principal de Wikipedia (algún texto sobre "Suillus salmonicolor", algún hongo), comprimir su pregunta requiere 378 bytes adicionales (49% del original), probablemente porque puede reemplazar palabras como "y" con un código muy corto sin tener que predefinirlo.
Tampoco termina ahí: tratar de eliminar la redundancia (por ejemplo, escribir palabras en forma conjugada casi siempre es innecesario; al igual que palabras como "ella" en la frase "Sarah fue a la tienda cuando necesitaba algo" ("Sarah fue a la tienda cuando se necesita algo" transmite el mensaje; o al menos sería suficiente "él" o "eso" (ambos son un carácter más corto).
Muchas veces me he preguntado cuánta redundancia hay en las lenguas: tanto en su forma básica (oraciones como concepto abstracto) como en sus representaciones (caracteres escritos o sonidos hablados). He llegado a un acuerdo con él porque debe ser para la corrección de errores. Probablemente no entendería ni la mitad de lo que dice mi tía en la cena de Navidad si no fuera por eso.
Un experimento relacionado que se realizó en 2013 analizó qué parte de una oración se puede ocultar antes de que se vuelva ilegible: https://lucb1e.com/rp/js/read.html Para mí, más de la mitad se puede ocultar sin problemas en all, lo que significa que las formas de los caracteres que usamos también son >50% redundantes, al menos cuando se combinan con la redundancia en las propias palabras (porque una h cuya parte superior está oculta parece una n, pero la palabra probablemente solo tenga sentido con uno de los dos).
mandril sherrington
Tim Quinn
Tim Quinn
steven jeuris
Artem Kaznatchev
Tim Quinn
Tim Quinn
Tim Quinn
Tim Quinn
Tim Quinn