¿La plasticidad cerebral es tal que podemos entrenarnos para ver con nuestros oídos?

Estoy terminando de escribir un código que analizará una foto (eventualmente un video) y usará toda la información RGB para sintetizar una representación de audio. Me pregunto si una persona típica tiene suficiente plasticidad neuronal para aprender a escuchar este audio para comprender una imagen en un sentido general. No busco la perfección. Si la persona tiene buena visión, haría bien en dedicar tiempo a escuchar dicho audio sintetizado mientras ve simultáneamente la realidad para brindar algo de capacitación para mejorar sus habilidades interpretativas. Una vez entrenados, podían aumentar o suplantar la visión con su equivalente sónico.

¿Qué tan plástico es nuestro cerebro audiovisual? ¿Hay esperanza de que esto funcione?

PD. Una vez que funcione, actualizaré esta Q


Para aquellos que se preguntan acerca de los detalles: estoy atravesando la imagen usando una curva de Hilbert que tiende a preservar las relaciones espaciales entre los píxeles para minimizar el reentrenamiento al cambiar la resolución de píxeles. Esto aplana la foto 2D en una línea 1D salpicada de izquierda a derecha con puntos que almacenan los valores de píxeles respectivos (en una primera aproximación colapso RGB en escala de grises 0.21 R + 0.72 G + 0.07 B)

... para crear la representación de audio, visito cada posición de píxel en esta línea e introduzco un oscilador de frecuencia de audio por píxel a una frecuencia única de modo que el píxel inicial en el extremo izquierdo tenga la frecuencia más baja en nuestro rango (digamos 200 hercios) en hacia arriba hasta que la frecuencia del oscilador en el píxel más a la derecha representa la frecuencia más alta (digamos 10 khz)... el valor de la escala de grises impulsa el volumen del oscilador de ese píxel

... más detalles en: isomorfismo entre video y audio https://www.youtube.com/watch?v=DuiryHHTrjU

La belleza de este enfoque es que se presta a realizar esta transformación a la inversa (una biyección): de audio a video podemos usar un análisis de Fourier (FFT) de audio mapeado en píxeles, luego de regreso al audio, enjuague y repita...

¡Por favor envíe algunos sonidos para las imágenes mapeadas!

Respuestas (2)

Respuesta corta
Sí, podemos ver con nuestros oídos.

Antecedentes
Bach-y-Rita dijo la famosa frase " Vemos con el cerebro, no con los ojos ". Bach-y-Rita trabajó durante décadas en la sustitución sensorial . Los enfoques de sustitución sensorial en general tienen como objetivo reemplazar un sentido perdido al redirigir la información normalmente capturada por ese sentido a otro todavía funcional.

Bach-y-Rita se centró en sustituir la visión por información táctil. Su Sistema de Sustitución de Visión Táctil (TVSS) capturó imágenes de la cámara y las tradujo a imágenes táctiles proyectadas en la espalda de sujetos ciegos. Sus décadas de investigación finalmente culminaron en el dispositivo BrainPort disponible comercialmente (Stronks, 2016) .

También se han desarrollado dispositivos de sustitución de la visión por la audición, sobre todo el vOICe de Peter Meijer y el dispositivo de sustitución de prótesis de visión por audición (PSVA), entre otros. La VOZ traduce las imágenes en sonidos reasignando su eje x en el dominio del tiempo y su eje y en el dominio de la frecuencia (Meijer, 1992) . Esta técnica de "línea de barrido de imagen" se implementó posteriormente en el dispositivo EyeMusic para su uso en la sustitución sensorial (Abboud et al ., 2014). El PSVA utiliza una transformación de frecuencia acústica píxel por píxel, donde la posición vertical se codifica como tono y la posición horizontal como intensidad binaural y diferencias de fase, y el brillo en volumen (Capelle et al ., 1998) .

Peter Meijer se refiere a la VOZ como generadora de 'paisajes sonoros', muy parecido al enfoque que estás describiendo. Te animo seriamente a que lo contactes, es un tipo muy agradable y abierto al intercambio.

De todos modos, para volver a tu pregunta, ¿ podemos ver con nuestros oídos ? Si podemos. Varios estudios han indicado que los sonidos se pueden utilizar con éxito para realizar tareas visuales, incluida la localización (De Volder et al., 1999) , el reconocimiento de patrones ( Arno et al., 2001a , 2001b ) y la percepción de profundidad (Renier y DeVolder, 2010) .

Varios estudios han demostrado que el cerebro privado de la vista es capaz de desviar las sensaciones auditivas a equivalentes visuales mediante el desvío de esta información a la corteza visual desaferente en los ciegos (revisado, por ejemplo, en Poirier et al. , 2007 ) . Esto se conoce como plasticidad transmodal del cerebro.

Sin embargo, la curva de aprendizaje es bastante empinada, ya que se necesita mucha práctica para obtener información útil de la información visual codificada a través del sonido (Stronks et al , 2015) . Además, lo que probablemente sea el mayor problema al analizar paisajes sonoros es el desorden visual. Si bien el sistema visual es muy capaz de filtrar el desorden de imágenes y extraer la información útil, los paisajes sonoros inevitablemente convertirán cada objeto irrelevante en la escena en un sonido correspondiente. Es probable que las técnicas de procesamiento visual de front-end sean clave para convertir un dispositivo de sustitución visual auditiva en un dispositivo factible en la práctica para los ciegos o para los videntes.

La corteza visual es reclutada para tareas auditivas en los ciegos, pero no en los videntes. Sin embargo, me inclino a creer que es la práctica, y no la privación visual per se , lo que determina el desempeño con enfoques de sustitución sensorial en general (Stronks et al , 2015) .

Referencias
- Abboud et al ., Rest Neurol Neurosci (2014); 32 : 247–57
- Arno y col ., Neuroimage (2001a); 13 (4): 632–45
- Arno et al ., App Cog Psych (2001b); 15 (5): 509–19
- Capelle et al ., IEEE Trans Biomed Eng (1998); 45 (10): 1279 - 93
- De Volder y col ., Brain Res (1999); 826 (1): 128–34
- Meijer,IEEE Trans Biomed Eng (1992); 39 : 112-21
- Poirier y col ., Neurosci Biobehav Rev (2007); 31 (7): 1064–70
- Renier y De Volder, J Integr Neurosci (2010); 4 (4): 489
- Stronks et al ., Brain Res (2015); 1624 : 140–52
- Stronks et al ., Expert Rev Med Dev (2016); 13 (10): 919-31

Si se necesita mucha práctica para obtener información útil, entonces la curva de aprendizaje es bastante superficial, en lugar de empinada (ese aumento en el aprendizaje no ocurre hasta que se ha movido mucho a lo largo del eje x y ha puesto una gran cantidad de esfuerzo). práctica en). Pero esta es una respuesta maravillosa sobre un tema muy interesante de todos modos :)
@DeNovo sí, el significado de una curva de aprendizaje empinada se usa a menudo como se usa aquí, pero, sinceramente, siempre me he preguntado por qué se usa con frecuencia en el sentido de que "se necesita mucho aprendizaje". Pensaré en mejorar mi respuesta. Gracias

Me gustaría agregar a la gran respuesta de AliceD con mi propio experimento. Deseo agregar esto porque los resultados, aunque intelectualmente naturales, fueron intuitivamente fascinantes, y porque el tamaño de mi muestra es pequeño (léase: N=1), y me encantaría que otros salieran y repitieran el experimento.

No muestro exactamente que puedes ver con tus oídos, pero sí creo que demuestra que puedes oír con tus ojos. (O, más formalmente, fusionamos nuestros sentidos de manera notable)

La lista de materiales es desalentadora:

  • dos cucharas
  • Sujeto de prueba dispuesto

En mi caso, el sujeto era mi novia en ese momento.

Se sabe que usamos efectos espectrales para determinar el ángulo de elevación de un sonido. Se sabe que nuestros oídos y nuestros hombros dan forma al sonido, enfatizando algunas frecuencias y silenciando otras. Por supuesto, este proceso es imposible de realizar si no sabe cuál era el sonido "originalmente". Si no sabes cuál era el sonido cuando te llegó, no puedes calcular cuánto lo han coloreado los oídos.

Para este experimento, elegí dos cucharas y describí verbalmente lo que iba a hacer. Iba a hacer clic en las cucharas en varios lugares y hacer que las alcanzara. Intencionalmente no hice chocar las cucharas en esta demostración porque no quería que ella escuchara las cucharas hasta que comenzara el experimento.

Primero le pedí que cerrara los ojos. Hice clic en las cucharas en varios lugares y ella identificó de qué dirección pensaba que venía. Tenía una precisión confiable en la dirección izquierda/derecha, porque podía escuchar los retrasos de tiempo entre el sonido que golpeaba su oído izquierdo y derecho. Sin embargo, su ángulo de elevación era bastante aleatorio. No parecía haber ningún patrón en absoluto.

Luego le pedí que abriera los ojos y que hiciera una versión muy aburrida de este experimento. Con los ojos abiertos, por supuesto, pudo señalar el chasquido de las cucharas el 100 % del tiempo. (Esta fue en realidad la parte más difícil, porque le parece absurdo al sujeto de prueba. Empiezan a pensar que es un truco).

Luego, le pedí que cerrara los ojos nuevamente y repitiera el experimento. ¿Los resultados? Ella estaba muerta en todo momento. No perdí ni uno solo, tanto en azimut como en elevación.

Entonces, ¿qué digo que sucedió? Cuando comenzamos el experimento, ella no conocía los espectros de frecuencia del chasquido de las cucharas. Como tal, no pudo retroceder de manera efectiva qué transformación estaban aplicando sus orejas y hombros, y no pudo calcular los ángulos de elevación. Podía hacer algunas conjeturas, como un ser humano que ha oído cosas chocando, pero eso fue insuficiente para realizar la tarea.

En la aburrida segunda fase, ahora podía fusionar la información que obtenía de sus ojos con la de sus oídos. Ahora podía determinar de qué ángulo provenía el sonido con sus ojos, averiguar cuál debería ser la transformación de sus oídos/hombros y retroceder cuál era el sonido "verdadero" de las cucharas.

En la tercera fase, ahora conocía el sonido "verdadero" de las cucharas, por lo que cada vez que las ondas de sonido golpeaban sus oídos, podía usar ese conocimiento para averiguar qué transformación debían haber estado aplicando sus oídos/hombros y averiguar los ángulos.

Usé esto para argumentar que podemos escuchar con nuestros ojos, pero podría ser más efectivo decir que el cerebro no presta tanta atención a la división entre los 5 sentidos como cuando hablamos de nuestra experiencia sensorial. En lo que a él respecta, todo son simplemente estímulos neurales. Los fusionará en una imagen coherente, y eso es lo que realmente importa.

+1, pero el informe anecdótico, si bien es una lectura interesante, no es demasiado convincente ya que nadie puede verificar sus hallazgos y su validez. ¿Podrías agregar fuentes de algún tipo?