¿Hay mucha redundancia en el lenguaje escrito y hablado?

Leí hace años en un libro de ciencia popular que se puede demostrar que el lenguaje escrito y hablado tiene un alto nivel de redundancia. La especulación fue que esto sirvió para permitir la corrección de errores porque el lenguaje se encuentra en ambientes ruidosos y la comprensión tiene un alto valor de supervivencia. La cifra que recuerdo es que si el 35% de la información permanece, un oyente o lector atento aún puede descifrar el mensaje. Esto se ha convertido en una noción apreciada en mi visión del mundo como un indicador de que el lenguaje y el esfuerzo humano contienen una complejidad de la que no somos conscientes.

Estoy buscando una confirmación informada de la idea de que el lenguaje hablado o escrito contiene esta redundancia. Una bofetada descortés debido a un sesgo de confirmación no examinado siempre es bienvenida también.

Nuestras bofetadas son siempre educadas. ;) Interesante pregunta. ¿Recuerdas el nombre del texto popular?
Creo que se llamaba Reglas del juego. Se trataba de sistemas de autoorganización. Lo tengo enterrado en una caja. Amazon tiene muchos libros con ese nombre, no recuerdo el nombre del autor, no pude encontrarlo.
Era "Leyes del juego: cómo los principios de la naturaleza gobiernan el azar" de Manfred Eigen y Ruthild Winkler. Es de hace 30 años, por lo que la idea puede haber venido de algún otro libro que leí en ese momento.
@timquinn ¿Podría agregar esa información relevante adicional a su pregunta si resulta ser el libro del que está hablando, proporcionando también un enlace? Gracias.
Esto se relaciona con la ambigüedad en el lenguaje (dado que la redundancia a menudo reduce la ambigüedad). Zipf sugirió que el hablante desee un lenguaje ambiguo en el que pueda usar un sonido para significar todo y dejar la dificultad de desambiguación para el oyente. El oyente, por otro lado, desea un lenguaje totalmente inequívoco, por lo que la dificultad de elegir las palabras correctas recae en el hablante, y el oyente no necesita gastar energía en la desambiguación. Esperaría que la redundancia tuviera fuerzas impulsoras similares. Aquí está el dual de su pregunta .
No puedo comentar sobre tu otra pregunta, así que dejaré esto aquí. Nunca he leído este libro, pero Brian Eno solía hablar mucho sobre él y era bastante conocido en la era moderna. Se trata de Siete tipos de ambigüedad de 1930. Un ejercicio para intentar clasificar la metáfora. amazon.com/Seven-Types-Ambiguity-William-Empson/dp/081120037X/…
El esquema de Zipf se parece más a la configuración de un experimento mental que a una descripción de la realidad. La redundancia incrustada utilizada para la corrección de errores sería algo que surgió durante generaciones a través de la experimentación inconsciente (?) por parte de todo un continente de hablantes que trabajan para entenderse entre sí en situaciones de vida o muerte.
(No me atrevo a decirte tu campo, solo establezco mi punto) Sospecho que Zipf proviene de una generación que imaginó que el lenguaje era desarrollado por hombres grises sentados en bibliotecas. Me imagino a un cazador gritando por encima del chillido de los pájaros y el agua que cae que su compañero debe buscar ese gran oso que está justo detrás de él. No le preocupa quién es responsable de proporcionar la información o decodificarla. Solo quiere salvar la vida de sus amigos y seguirá gritando cosas hasta que lo noten.
Recordará lo que funcionó y comenzará allí la próxima vez, incluso si es solo para pedir el otro muslo. No sabrá por qué lo que hizo funcionó y no estará demasiado preocupado por eso y se convertirá en parte del lenguaje más amplio porque funciona. Esta es, aparentemente, la razón por la que los pronombres tienen género, por ejemplo. Para agregar otro punto de datos para el oyente cuando intenta descifrar una señal ruidosa. Mi curiosidad era averiguar qué pensaba el campo sobre esto y encontrar algunos nombres de autores o palabras clave para buscar. Muchas veces esa es la parte más difícil para un no iniciado.
Aquí hay algo curioso para ti, Steven Jeuris. Cuando fui y busqué el libro de Eigen en Amazon, vi la portada que recordaba e instantáneamente supe que no era ese libro, sino otro, del que había obtenido este hecho. Puedo recordar vagamente la portada del libro en cuestión, pero eso es todo. Ver la portada de Leyes del Juego que recuerdo fue suficiente para permitirme saber que era ese otro libro. Extraño. Por lo tanto, no lo agregué a la pregunta.

Respuestas (2)

Parece que para el inglés escrito, la cifra es del 50%.

De las páginas 27 a 28 de La creación de la ciencia cognitiva: Ensayos en honor a George A. Miller (Cambridge: Cambridge University Press, 1988)

Estimaciones de redundancia . El propio Shannon (1948, 1951) había estimado que la redundancia del inglés impreso era de alrededor del 50 por ciento. Había utilizado una técnica en la que a un sujeto se le daba un pasaje de texto y luego se le pedía que adivinara la letra siguiente hasta dar la respuesta correcta (es decir, la correspondiente al texto original). La redundancia se calculó a partir de la distribución del número de conjeturas requeridas. Garner y Carson (1960) [...] también estimaron que la redundancia del inglés impreso era de alrededor del 50 por ciento. Newman y Gerstman (1952) [...] estimaron que la redundancia era del 52 por ciento.

Usos de la redundancia . [...] Chapanis (1954) y Miller y Friedman (1957) demostraron que cuando se mutilaba el texto eliminando diferentes porcentajes de letras, los sujetos podían restaurar las letras faltantes con un alto grado de precisión. Tal restauración es posible debido a la redundancia, por lo que estos experimentos demostraron que la redundancia era útil para los humanos.

[...]

En resumen, el inglés impreso es redundante y, por lo tanto, limitado, tanto en las secuencias de letras dentro de las palabras como en las secuencias de las palabras mismas. Esta redundancia es conocida por los humanos, que pueden usarla para reconstruir texto mutilado y para reconocer y aprender palabras y secuencias de palabras que reflejan diversos grados de esta restricción. [...]

De la página 1086 de Un nuevo tipo de ciencia de Stephen Wolfram (Wolfram Media, Inc., 2002):

[...] normalmente, el texto en inglés sigue siendo inteligible hasta que se elimina aproximadamente la mitad de sus caracteres, lo que indica que tiene una redundancia de alrededor de 0,5. La mayoría de los otros idiomas tienen redundancias ligeramente más altas, lo que hace que los documentos en esos idiomas sean un poco más largos que sus contrapartes en inglés.

Dios mío, Shannon y Wolfram. Buen trabajo.
Leí un poco sobre este experimento de Shannon. ¿Crees que aguantaría los estándares actuales? Estoy seguro de que Wolfram se refiere a Shannon. Me pregunto si hay alguna ciencia actual sobre el tema.
También sería interesante ver si se realiza algún trabajo sobre la redundancia del inglés hablado. Probablemente refleje mejor escenarios realistas en los que la especulación tiene sentido (entornos ruidosos).
Sí, estoy de acuerdo, Steven. Sería más relevante para mi pregunta si la investigación involucrara inglés hablado. El experimento de Shannon suena más como resolver un crucigrama, un acto muy consciente.
Voy a darle a Joel el cheque verde. Estoy seguro de que ha descubierto la fuente de mi exposición inicial a esto y se lo agradezco. Que resulte ser Claude Shannon es muy interesante porque me di cuenta de que la noción se ha convertido en una especie de sabiduría recibida que ha sido repetida por muchos escritores de ciencia popular y legítimos. Sin embargo, su trabajo trataba sobre el lenguaje escrito, por lo que en realidad no respalda mi creencia de larga data en la corrección instantánea de errores. Voy a formular otra pregunta.
@timquinn Obtuviste esta respuesta parcialmente porque no formulaste tu pregunta con tanta claridad. Donde interpreté la 'especulación' de la utilidad en entornos ruidosos como un aspecto importante, otros no lo hicieron. Recuerde, mantenga sus preguntas concisas, enfocadas y claras. Para diferenciarse mejor de su pregunta recién formulada, actualice esta.
Bueno, por ahora lo hice por ti... Recuérdalo la próxima vez que hagas una pregunta. ;p Le dará respuestas más claras/restringidas.

El hecho de que pueda saber cuándo uso "es" o "su" incorrectamente es una confirmación de redundancia. Si no hubiera un contexto que te dijera cuál debería ser, no lo sabrías; y si hay un contexto que te dice lo que debería ser, no hay necesidad de escribir el apóstrofe porque ya sabes lo que pretendía el escritor.

Eso es bastante obvio. Además, la compresión de datos puede dar otra idea de esto. La compresión de texto estándar produce una relación de compresión mucho más alta que el 50%. Si comprimo su pregunta con "gzip" (una utilidad de compresión estándar), baja de 770 bytes a 440 bytes (57% del original). Esto es bastante malo, pero esto es sin conocimiento preexistente, algo de lo que los humanos tienen mucho cuando procesan texto.

Si agrego lo que está actualmente en la página principal de Wikipedia (algún texto sobre "Suillus salmonicolor", algún hongo), comprimir su pregunta requiere 378 bytes adicionales (49% del original), probablemente porque puede reemplazar palabras como "y" con un código muy corto sin tener que predefinirlo.

Tampoco termina ahí: tratar de eliminar la redundancia (por ejemplo, escribir palabras en forma conjugada casi siempre es innecesario; al igual que palabras como "ella" en la frase "Sarah fue a la tienda cuando necesitaba algo" ("Sarah fue a la tienda cuando se necesita algo" transmite el mensaje; o al menos sería suficiente "él" o "eso" (ambos son un carácter más corto).

Muchas veces me he preguntado cuánta redundancia hay en las lenguas: tanto en su forma básica (oraciones como concepto abstracto) como en sus representaciones (caracteres escritos o sonidos hablados). He llegado a un acuerdo con él porque debe ser para la corrección de errores. Probablemente no entendería ni la mitad de lo que dice mi tía en la cena de Navidad si no fuera por eso.

Un experimento relacionado que se realizó en 2013 analizó qué parte de una oración se puede ocultar antes de que se vuelva ilegible: https://lucb1e.com/rp/js/read.html Para mí, más de la mitad se puede ocultar sin problemas en all, lo que significa que las formas de los caracteres que usamos también son >50% redundantes, al menos cuando se combinan con la redundancia en las propias palabras (porque una h cuya parte superior está oculta parece una n, pero la palabra probablemente solo tenga sentido con uno de los dos).