¿Por qué podemos distinguir diferentes tonos en un acorde pero no diferentes tonos de luz?

En música, cuando dos o más tonos se tocan juntos al mismo tiempo, forman un acorde. Si cada tono tiene una frecuencia de onda correspondiente (un tono puro o fundamental), los tonos tocados juntos forman una forma de onda de superposición , que se obtiene por simple suma. Esta onda ya no es una onda sinusoidal pura.

Por ejemplo, cuando toca una nota baja y una nota alta en un piano, el sonido resultante tiene una onda que es la suma matemática de las ondas de cada nota. Lo mismo ocurre con la luz: cuando brilla una longitud de onda de 500 nm (luz verde) y una longitud de onda de 700 nm (luz roja) en el mismo punto sobre una superficie blanca, el reflejo será una forma de onda superpuesta que es la suma de verde y rojo.

Mi pregunta es sobre nuestra percepción de estas combinaciones. Cuando escuchamos un acorde en un piano, podemos discernir los tonos que componen ese acorde. Podemos "descubrir" que hay dos (o tres, etc.) notas en el acorde, y algunos de nosotros que tenemos inclinaciones musicales incluso podemos cantar cada nota e incluso nombrarla. Se podría decir que somos capaces de descomponer una Serie de Fourier de sonido.

Pero parece que no podemos hacer esto con la luz. Cuando hace brillar luz verde y roja juntas, el reflejo parece ser amarillo, un "tono puro" de 600 nm, en lugar de una superposición de rojo y verde. No podemos "seleccionar" los colores individuales que se combinaron. ¿Por qué es esto?

¿Por qué no podemos ver dos tonos de luz de la misma manera que podemos escuchar dos tonos de sonido? ¿Es esta una característica de la psicología humana? fisiología animal? ¿O se debe esto a una característica fundamental del electromagnetismo?

Preguntas estrechamente relacionadas aquí y aquí .
Hay un buen capítulo en el Vol. 1 de las conferencias Feynman sobre la mecánica de la vista . También toca la percepción del sonido al final del capítulo sobre armónicos en una sección llamada respuestas no lineales . Solo estaba releyendo algunas de estas secciones para encontrar un buen dato para compartir aquí, pero como de costumbre, su explicación es un viaje bastante completo. Simplemente salta.
Una respuesta corta sería: nuestros ojos perciben mucha más información por segundo. Escuchar sonidos es esporádico, te puedes dar el lujo de interpretarlos bien, ya que eso es útil para saber lo que viene. Sin embargo, la descomposición de píxeles cada 24 fps necesitaría tantos recursos que simplemente no vale la pena, tampoco obtendrá información realmente útil para eso.
2 haces de luces de diferentes colores no se superponen en una sola forma de onda como lo hace el sonido. Una es una onda electromagnética, la otra es solo una presión que viaja a través del aire.
Los mamíferos eran típicamente nocturnos en la época de los dinosaurios, por eso se queman fácilmente con el sol y tienen bigotes. Solo los primates tienen vista RGB, los delfines solo ven el verde y la mayoría de los mamíferos no ven el rojo. Los ojos tienen 3 fotorreceptores de sentido de longitud de onda, los oídos tienen miles de nervios de sentido de longitud de onda continuos en un tubo espiral cónico. Los fotones no se fusionan por cierto, la presión del sonido sí.
@MadHatter: se sabe que las ondas EM se superponen, causando interferencia constructiva/destructiva, como se demostró en el experimento de doble rendija
Cierto, pero no cambian la frecuencia para hacer una nueva energía. Es decir, podemos ver rojo más azul como amarillo, pero no porque la energía de la onda haya cambiado para tener su frecuencia.
No olvidemos las necesidades impuestas a nuestros órganos sensoriales por las fuerzas de la evolución. Es una habilidad de supervivencia tener una resolución direccional muy fina para al menos uno de los sentidos. La visión se convirtió en la única porque la longitud de onda baja ayuda allí. No hay espacio en el ojo para que los sensores realicen un análisis de Fourier completo con la alta resolución deseada. Oído, OTOH tiene problemas para resolver los datos direccionales (necesita estéreo para tener una idea), pero el espacio disponible de los sensores puede equiparse útilmente (al menos para la comunicación) para descomponer las frecuencias.
El oído contiene un arpa, con muchas cuerdas, cada una sensible a una frecuencia particular. El ojo contiene tres tipos de receptores: rojo, verde y azul. Cualquier color que no sea ese se "adivina" juzgando las intensidades relativas de los tres colores.
FGSUZ, esa respuesta es claramente incorrecta. El sistema auditivo es más rápido que el sistema visual en varios órdenes de magnitud. Hay hechos fisiológicos que señalar, pero será suficiente decir que las frecuencias de muestreo de video son aproximadamente de 24 a 60 por segundo, mientras que las frecuencias de muestreo de audio suelen ser de 44100 por segundo.
@ Matt74 se podría argumentar que el ojo es masivamente paralelo (cada varilla/cono es un sensor separado, y el ojo en su conjunto no tiene una "velocidad de fotogramas" ), mientras que el sistema auditivo es un par de sensores individuales más rápidos individualmente con un rango alto. Si desea comparar datos, mire los tamaños relativos de los archivos de video y audio de la misma longitud. La comparación no es particularmente simple.
Nitpick: En realidad, la luz verde + roja producirá un amarillo un poco menos saturado que la luz amarilla pura. Si bien podemos hacer coincidir cada tono con la composición de color RGB, solo podemos igualar la saturación completa de los tres colores básicos que usamos (suponiendo que esos colores básicos sean emitidos por láser). Todos los demás tonos aparecerán ligeramente atenuados debido a que son una mezcla de frecuencias.
@ Matt74 No, eso no es del todo correcto. No "muestreamos" cambios rápidos de presión... percibimos frecuencias y sus relaciones entre sí. Resulta que solo podemos hacer esto entre 40 y 60 veces por segundo también... al igual que con los cambios visuales.
@chharvey Una cosa a considerar es que con el sonido, gran parte de lo que escuchamos son armónicos que son octavas afuera. Ni siquiera tenemos una octava completa de rango con luz visible. Dejando a un lado las diferencias fisiológicas, sospecho (pero en realidad no lo sé) que esta es una de las razones por las que es diferente.
La reflexión de Brent Weeks sobre la misma pregunta generó las maravillosas novelas Lightbringer. Muy recomendable.
La declaración "Cuando escuchamos un acorde en un piano, podemos discernir los tonos que componen ese acorde". está incompleto. Cuando se toca un acorde en un piano, cada nota del acorde comienza en un tiempo diferente, y esas diferencias de tiempo le dicen al oyente que es un acorde de múltiples notas, en lugar de un solo tono complejo. (Esto es fácil de demostrar usando un piano electrónico y su control de volumen).
@Baldrickk, sí, tienes razón, la comparación no es simple. Sin embargo, no creo que el tamaño del archivo sea una buena base de comparación en este caso. Para medios electrónicos, necesitamos representar los píxeles en paralelo. Si tuviéramos que hacer eso en sonido, los archivos ciertamente tendrían que ser más grandes. Pero el sistema auditivo lo hace por nosotros, así que no hay necesidad. Y también es justo decir que el sistema auditivo también funciona en paralelo, ya que hay aproximadamente más de 3500 células ciliadas internas, cada una de las cuales envía señales de forma pseudoindependiente a las células ganglionares espirales correspondientes.
@Brad: el nervio auditivo puede seguir fielmente la estructura fina acústica hasta aproximadamente 4000 a 5000 veces por segundo (Rose et al. 1968, Mecanismos auditivos en vertebrados), que es mucho más de 40-60 veces por segundo. ¿Pero tal vez estás pensando específicamente en percibir el cambio de una frecuencia a otra? o representación en la corteza? No estoy seguro sobre el límite de velocidad de eso.
@ Matt74 ¡Sí, exactamente! Un ejemplo de esto en la práctica... el audio comprimido como MP3 funciona en el dominio de la frecuencia y tiene un tamaño de cuadro mínimo de alrededor de 2 milisegundos. Los músicos y los oyentes atentos pueden notar una diferencia entre este y el audio sin comprimir, especialmente en torno a las "manchas" de los transitorios de frecuencia más alta, pero para la mayoría de la gente el nivel de precisión es bueno siempre que los componentes de frecuencia se reproduzcan con precisión.
Voto para cerrar esta pregunta como fuera de tema porque se trata de las respuestas fisiológicas a los estímulos y no de la física.
@KyleKanos, reconsidere. No sabía eso cuando hice la pregunta, y no debería ser penalizado debido a la naturaleza de la respuesta correcta. Y dado que tiene más de 70 votos a favor, la comunidad ha acordado que es una buena pregunta.
@chharvey no es la "naturaleza de la respuesta correcta" aquí, es la naturaleza de la pregunta . Está preguntando por qué las personas no pueden hacer X, pero esa no es una pregunta de física, es biológica, por lo tanto, está fuera de tema (y las respuestas no hacen una pregunta sobre o fuera de tema, la pregunta solo lo hace ) . Mi conjetura es que esta fue una pregunta de Hot Network y es por eso que hay una cantidad ridícula de representantes acumulados para una pregunta tan inútil (en mi opinión).

Respuestas (5)

Esto se debe a las diferencias fisiológicas en el funcionamiento de la cóclea (para la audición) y la retina (para la percepción del color).

La cóclea separa un solo canal de señales de audio complejas en sus frecuencias componentes y produce una señal de salida que representa esa descomposición.

En cambio, la retina exhibe lo que se llama metamerismo, en el que solo se utilizan tres tipos de sensores (para R/G/B) para codificar una señal de salida que representa todo el espectro de colores posibles como combinaciones variables de esos niveles RGB.

Esta es la única respuesta hasta ahora que se centra correctamente en el papel de la cóclea. Esta es una mejor respuesta que la respuesta aceptada.
Estoy de acuerdo en que esta respuesta es técnicamente más correcta, pero creo que le falta el punto clave: que nuestros oídos pueden sentir formas de onda mecánicas mientras que nuestros ojos no pueden sentir formas de onda electromagnéticas. Hay espacio para mejorar, lo cual agradezco.
En resumen, la razón por la que "podría decirse que somos capaces de descomponer una Serie de Fourier de sonido" es porque eso es exactamente lo que hace la cóclea .
Exactamente. todo un dispositivo, hasta que comienza a fallar, ¡como el mío!
Creo que vale la pena mencionar que al igual que con la visión, en última instancia, no escuchamos con nuestros oídos sino con nuestro cerebro, y el sistema oído-cerebro también puede ser engañado en.wikipedia.org/wiki/Auditory_masking
@chharvey No, no puede "sentir formas de onda mecánicas" con el oído. Todo lo que sientes es un montón de frecuencias, y diferentes formas de onda tienen diferentes cantidades de armónicos en su transformada de Fourier. Sus oídos no perciben las fases de las diferentes frecuencias acústicas y, por lo tanto, siempre hay una multitud de formas de onda diferentes que suenan exactamente igual.
Además, simplemente afirmar que el oído detecta series de Fourier o una transformada de Fourier realmente no tiene ningún sentido. El oído puede distinguir cambios en el sonido en una escala de tiempo muy corta, pero tomada literalmente, una transformada de Fourier significaría que lo que escuchas no depende del tiempo.
@JiK: es una simplificación.
@whatsisname Los comentarios aquí han afirmado que esto es exactamente lo que hace la cóclea del oído, y corrigieron a alguien diciendo que no podemos distinguir fases, solo frecuencias. Una simplificación es buena siempre que no se tome literalmente, como parecen tener estos comentarios. Finalmente, el uso de la simplificación en un curso de transformada de Fourier se debe hacer con mucho cuidado, porque eso podría confundir a los estudiantes más que ayudar, ya que parece que el oído puede "encontrar la transformada de Fourier de esta grabación f(t) en t=10s "que no es una cosa.

Nuestros órganos sensoriales para la luz y el sonido funcionan de manera muy diferente a nivel fisiológico. El tímpano reacciona directamente a las ondas de presión, mientras que los fotorreceptores de la retina solo son sensibles a un rango estrecho en torno a las frecuencias asociadas con el rojo, el verde y el azul. Todas las frecuencias de luz intermedias excitan parcialmente estos receptores y surge la impresión de ver, por ejemplo, amarillo debido a que los receptores verde y rojo salen con ciertas intensidades relativas. Es por eso que puede falsificar el espectro de colores con solo 3 colores diferentes en cada píxel de la pantalla.

Ver el color en este sentido también es una ilusión más útil que la detección directa de las propiedades físicas. Mezclar colores en el medio del espectro visible retiene una buena aproximación de la frecuencia promedio de la mezcla de luz. Si se mezclan los colores de los bordes del espectro, es decir, rojo y azul, el cerebro inventa el color púrpura o rosa para dar sentido a esa información sensorial. Sin embargo, esto no corresponde al promedio de las frecuencias (lo que daría como resultado un color verdoso) ni corresponde a ninguna frecuencia física de la luz. Lo mismo ocurre con ver blanco o cualquier tono de gris, ya que estos corresponden a que todos los receptores se activan con la misma intensidad.

Los ojos de los mamíferos también evolucionaron para distinguir la intensidad en lugar del color, ya que la mayoría de los mamíferos son criaturas nocturnas. Pero no estoy seguro de si la capacidad de ver en color se estableció recientemente, esa sería una pregunta para un biólogo.

¡impresionante! Por cierto, esto podría ayudar a responder su pregunta biológica: en.wikipedia.org/wiki/Diurnality#Evolution_of_diurnality
Tenga en cuenta que en realidad no puede falsificar todos los colores usando solo tres colores primarios. La gama de colores visible para humanos no es un triángulo, por lo que algunos colores siempre estarán fuera de la gama de salida de su dispositivo de visualización.
Tal vez sea un detalle, pero no es el tímpano el que detecta el sonido. Es más un dispositivo de transmisión. El órgano sensorial real es la cóclea en.wikipedia.org/wiki/Cochlea Es un tubo en forma de espiral con pelos sensoriales a lo largo. Los sonidos de una frecuencia particular hacen vibrar los pelos en el punto de la cóclea donde resuena el sonido. Por lo tanto, la detección de sonido es efectivamente continua, mientras que la detección de color depende de la combinación de los 3 sensores de color.
Sí, debo admitir que esta parte de la respuesta fue demasiado complicada. De hecho, me sorprendió un poco que esta se convirtiera en la respuesta aceptada después de ver las dos que se publicaron antes que la mía. Se actualizará si permanece así.
En realidad, los fotorreceptores son sensibles a bandas bastante grandes (en comparación con la distancia de sus picos), incluso a las superpuestas.
@HalberdRejoyceth, sí, actualice. Elegí su respuesta porque tocó el punto subyacente: que nuestros oídos perciben formas de onda verdaderas mientras que nuestros ojos no. Encontré eso para responder suficientemente a mi pregunta, incluso si no es la verdad completa. Sin embargo, creo que sería beneficioso para la comunidad explicar con más detalle las diferencias en el funcionamiento de la cóclea y la retina.
¿Tiene alguna fuente para su afirmación de que la mayoría de los mamíferos son nocturnos? Si bien asumimos que ellos (nosotros) fueron durante la época alta de los dinosaurios, ¿sigue siendo así?
@Baldrickk sí, pero incluso para mejores gamas de monitores que sRGB, por ejemplo, Rec. 2020 todavía tenemos muchos colores fuera de gama.
@phresnel Es comúnmente conocido, ver: cuello de botella nocturno . Los mamíferos que no son propiamente nocturnos (que son alrededor del 70% de todos los mamíferos) son generalmente crepusculares o catemerales. Los humanos se encuentran entre la minoría de los mamíferos diurnos y, junto con los primates superiores, también tienen una visión del color inusualmente superior: la mayoría de los otros mamíferos tienen una visión del color deficiente y una menor agudeza, ambos sacrificados por una visión nocturna mucho mejor, algo que los humanos hacen bastante mal.
@PaŭloEbermann es por eso que podemos percibir colores que no sean RGB; si las respuestas fueran súper estrechas, los colores secundarios (por ejemplo, naranja, amarillo, cian) serían prácticamente invisibles para nosotros, o simplemente se registrarían como su color "vecino más cercano" (naranja->rojo, amarillo->verde, cian->verde o azul, etc.). Al tener un rango de sensibilidad más amplio, podemos captar otros colores solo con estos tres tipos de celdas (y eso nos da la capacidad de engañarnos para percibir esos colores secundarios en una pantalla RGB).
Pensé que la razón por la que el púrpura se percibe como una mezcla de rojo y azul es que su frecuencia es lo suficientemente cercana como para duplicar la de la luz roja que estimula los conos "rojos" (aunque en menor medida) junto con los conos "azules". . Entonces, una mezcla de azul y un poco de rojo hace lo mismo en nuestros ojos.
@J...: Gracias por la url, pero ya conozco el cuello de botella ( "Si bien asumimos que ellos (nosotros) fueron durante el apogeo de los dinosaurios" ). La pregunta real era "¿ sigue siendo este el caso?" . Sin embargo, encontré una fuente : ""La mayoría de los mamíferos de hoy en día son nocturnos y poseen adaptaciones para sobrevivir en ambientes oscuros", dijo el coautor del estudio, Roi Maor, de la Universidad de Tel Aviv".
@phresnel +1 por saberlo todo, -1 por saber menos de lo que crees. La tercera oración en el artículo wiki que vinculé dice:While some mammal groups have later evolved to fill diurnal niches, the approximately 160 million years spent as nocturnal animals has left a lasting legacy on basal anatomy and physiology, and most mammals are still nocturnal.
@MontyHarder Creo que Halberd se equivocó al escribir/etiquetó mal el color. Violeta está en el arcoíris, es un color real y actúa como usted describe. Pero se inventa Mangenta que se ve "rosa púrpura". No existe en el arcoíris y si envuelves el arcoíris está en la "sección invisible" opuesta al verde. Creo que Purple se define como Violet y también está en el "rango real" versus el "rango imaginario".
Para ser justos, en la escuela secundaria tuvimos un debate sin resolver durante una hora sobre si Magenta era principalmente púrpura, rosa, rojo, azul o blanco. Claramente, tener un color imaginario enturbia un poco las aguas de todos los colores que se ven similares: d

Esto se debe principalmente a la fisiología . Hay una diferencia fundamental en la forma en que percibimos el sonido y la luz: para el sonido podemos sentir la forma de onda real, mientras que para la luz solo podemos sentir la intensidad. Elaborar:

  • Las ondas de sonido que ingresan a su oído provocan vibraciones sincrónicas en su cóclea. Las diferentes regiones de la cóclea tienen pequeños vellos que vibran de manera selectiva en frecuencia. Las vibraciones de estos pelos se convierten en señales eléctricas que se transmiten al cerebro. Debido a la selectividad de frecuencia de los pelos, la cóclea esencialmente realiza una transformada de Fourier, por lo que podemos percibir superposiciones de ondas.
  • La luz tiene una frecuencia tan alta que casi nada puede resolver la forma de onda real (incluso la electrónica de última generación hoy en día no puede hacer esto). Todo lo que podemos medir efectivamente es la intensidad de la luz, y esto es todo lo que los ojos también pueden percibir. Conocer la intensidad de un haz de luz no es suficiente para determinar su contenido espectral. Por ejemplo, una superposición de dos ondas monocromáticas puede tener la misma intensidad que una onda monocromática pura de diferente frecuencia.

    Podemos diferenciar las superposiciones de luz de forma limitada, debido al hecho de que los ojos perciben tres canales de color separados (aproximadamente RGB). Por eso podemos distinguir intensidades iguales de luz roja y azul. Las personas con daltonismo tienen un receptor defectuoso, por lo que las combinaciones de colores que la mayoría de los humanos pueden distinguir les parecen idénticas.

    No todos los colores que percibimos corresponden a un color de una onda de luz monocromática. Famosamente, hay una " línea de púrpuras " completa que no representa ninguna onda de luz monocromática. Entonces, para las personas entrenadas en distinguir los colores púrpura, en realidad pueden diferenciar las superposiciones de ondas de luz de manera limitada.

    ingrese la descripción de la imagen aquí

"... señales eléctricas que representan la forma de onda real del sonido. El cerebro... hace una transformada de Fourier..." Desafortunadamente, esta parte de su respuesta es incorrecta. La descomposición en diferentes frecuencias de audio ocurre mecánicamente en la cóclea antes de que las vibraciones se conviertan en señales nerviosas. Entonces, la forma de onda real no se envía al cerebro.
@Emil ¿Tienes una referencia para eso? No soy un experto, así que felizmente revisaría mi respuesta con mejor información, pero tengo entendido que el tímpano pasa ondas de sonido al líquido de la cóclea, lo que hace que vibren los estereocilios en el órgano de Corti, que a su vez mecánicamente activar ciertos canales de neurotransmisores. Está descrito en la página de Wikipedia para el órgano de Corti. No veo ninguna referencia a la discriminación de frecuencia en la cóclea.
@Yly Emil tiene razón; la cóclea hace la transformada de Fourier, mecánicamente. Consulte cochlea.eu/en/cochlea/function
@zwol Gracias. He corregido la respuesta en consecuencia.
No estoy seguro de tu segundo punto. ¿Seguramente un espectrógrafo simple hace un buen trabajo al resolver las frecuencias de luz? Pero los ojos están dispuestos principalmente para la discriminación espacial, en lugar de la frecuencia, como el oído. Si quisiéramos que un órgano hiciera ambas cosas, necesitaría muchos más sensores: cada bastón/cono en un ojo necesitaría una neurona separada para cada banda de frecuencia que desea discriminar.
@jamesqf no se trata de resolver frecuencias, se trata de resolver formas de onda. Intente grabar una forma de onda de señal de ~ 550 THz, verá lo "simple" que es.
El oído no detecta la forma de onda real, solo detecta las magnitudes de las frecuencias. No se detecta la fase. Como tal, es imposible reconstruir una forma de onda a partir de lo que se envía al cerebro. Todas las formas de onda con las mismas amplitudes armónicas suenan exactamente igual.

Las neuronas de varilla (1 tipo) más cono (3 tipos) en el ojo le brindan el potencial para la sensación 4-D. Dado que la señal de la barra es casi redundante con respecto a la totalidad de las señales del cono, se trata efectivamente de una sensación tridimensional.

Las neuronas cocleares (aproximadamente 3500 "tipos" simplemente debido a las 3500 posiciones internas diferentes del cabello ) en el oído le brindan el potencial para una sensación de 3500-D, por lo que los oídos entrenados pueden reconocer potencialmente las amplitudes simuladas de miles de frecuencias.

Entonces, para responder a su pregunta, los ojos simplemente no evolucionaron para tener muchos tipos de conos. Sin embargo, se ve una mejora a través de los ojos del camarón mantis (con el potencial de la sensación 16-D). Observe el compromiso entre la resolución espacial de la imagen y la percepción del color (y que la resolución espacial del audio fue menos importante en la evolución y más difícil debido a la mayor longitud de onda).

La señal de bastón no es redundante en condiciones de visión mesópica. En estas condiciones se obtiene una visión tetracromática. Véase, por ejemplo , este documento (desafortunadamente, con muros de pago).
Finalmente una respuesta que lo expresa de manera concisa y correcta :-)

Los pelos forman una matriz 1D a lo largo del eje de frecuencia, mientras que los bastones y los conos forman una matriz espacial 2D. Además, ese arreglo 2D tiene 4 canales (varillas y 3 tipos de conos). Entonces, los 2 oídos tienen una resolución espacial pobre, mientras que los ojos tienen una resolución de frecuencia pobre.

Podrías imaginar un ojo con muchos más tipos de conos, dándote una mejor resolución de frecuencia. Sin embargo, eso significaría que los conos de un solo color estarían más separados, lo que limitaría la resolución espacial. Al final, eso es una compensación evolutiva. La física nos dice que no puedes tener ambos al mismo tiempo, pero la biología es la razón por la que terminamos con este resultado particular.