¿Qué retraso entre dos fuentes de audio se considera "perceptible" para la mayoría de las personas?

Estoy completando un proyecto que implica sincronizar dos fuentes de audio a través de una red, y necesito encontrar algunas cifras que representen qué tipo de retraso se consideraría "perceptible".

He intentado buscar pero no he encontrado mucho; todo lo que puedo encontrar son artículos sobre localización.

¿Alguien conoce algún estudio o documento que analice esta área? ¡Gracias!

probablemente en el orden de los microsegundos... exactamente debido a la localización de la fuente.
¡Buena pregunta! ¡Bienvenido a cogsci.SE!
No es mi área, pero imagino que alguna forma de búsqueda de "teoría de detección de señal" y "sincronía de audio" sería un buen comienzo (por ejemplo, vea esta búsqueda de Google Scholar ).
Es posible que desee buscar "detección de brecha auditiva".
Otro punto a considerar: los retrasos en el audio afectan la fase, y si tiene sonidos que llegan en diferentes momentos a cada oído, el cerebro lo interpretará espacialmente en algunos casos (es decir, como al tratar de localizar una fuente de sonido)

Respuestas (1)

Depende en gran medida de lo que quiera decir con "perceptible": qué/por qué desea sincronizar y cómo llega a los oídos de los altavoces físicos.

Tenga en cuenta que una fuente de sonido que se encuentra a 30 cm/1 pie del oído tiene aproximadamente el mismo efecto que un milisegundo de retardo (velocidad del sonido ~340 m/s); por lo tanto, sincronizar en el orden de los microsegundos generalmente no es necesario a menos que de alguna manera tienen y necesitan una precisión de localización submilimétrica. Dicho esto, los pequeños retrasos pueden causar problemas de cancelación de fase que serían notables, pero dependerían de la ubicación exacta de las fuentes de sonido.

Sin embargo, si hablamos de los límites de la mente, hay dos fenómenos bien conocidos; el primero es el límite en el que la mente percibe el sonido como simultáneo con el estímulo visual (a pesar de que en realidad están ligeramente compensados), y el segundo es donde la mente percibe dos picos de sonido cercanos pero separados como un solo evento (el más fuerte enmascara al más débil). No puedo encontrar los límites exactos ahora, pero ambos deberían estar entre 1 milisegundo y 5 milisegundos si no recuerdo mal.

Sutilezas interesantes a esta pregunta; no lo habría adivinado. ¡Bienvenido a cogsci.SE!
Dudo mucho que la percepción de que el sonido y el video sean simultáneos sea tan bajo como 5 ms o menos. Puede intentar reproducir video en (por ejemplo) VLC y cambiar el desplazamiento de audio; Verá que puede pasar bien en las decenas de ms antes de que quede claro que algo anda mal. Este documento menciona que los editores de video profesionales pueden notar +/- 20 mseg. Dudo que los "normales" puedan bajar más. telosalliance.com/images/LA%20White%20Papers/…
Por otro lado, para retrasos más cortos de alrededor de 1 ms y más cortos, es posible que no solo se pierdan los "2 eventos cercanos pero separados", sino que se conviertan en una ubicación espacial del sonido.