¿Por qué los auriculares activos no están ecualizados a una respuesta de frecuencia plana?

Algunos auriculares son "activos", con amplificadores integrados en las copas y requieren una fuente de alimentación (normalmente pilas AAA).

Luego veo a muchos audiófilos discutiendo la respuesta de frecuencia como una medida de qué tan buenos son los auriculares, y descartan categóricamente la mayoría de los auriculares "activos", como el Dre Beats Studio.

Sin embargo, con algunos amplificadores operacionales, aparentemente sería bastante fácil ecualizar la señal de entrada, preamplificada, de modo que podría corregir completamente la respuesta de frecuencia del controlador y, por lo tanto, producir una respuesta de frecuencia extremadamente plana si se desea (o no, como graves). aumentar o reducir).

¿Hay algo particularmente difícil en hacerlo?

Gráfico de respuesta de frecuencia http://graphs.headphone.com/graphCompare.php?graphType=0&graphID[]=1383&graphID[]=193&graphID[]=1263&graphID[]=853&scale=20

Por ejemplo, para el Dre Beats Studio (línea azul), quizás el circuito EQ podría proporcionar +3db@750Hz, -5dB@1100Hz, +6.5dB@1300Hz, +5dB@1550Hz, -4.5dB@8.5kHz y +14dB @15kHz, con las pendientes ajustadas para alinear mejor la respuesta de frecuencia a 0db de 500Hz a 20kHz.

Respuestas (3)

Cuando te pones algo en el oído que reproduce grabaciones estéreo estándar, no quieres una respuesta de frecuencia plana porque la función de transferencia relacionada con la cabeza que normalmente entra en juego para una fuente de sonido mucho más lejana se ve muy diferente cuando la fuente está contra tu oído. .

Déjame citarte un par de párrafos de un libro :

De todos los componentes de la cadena de transmisión electroacústica, los auriculares son los más controvertidos. La alta fidelidad en su verdadero sentido, que implica no solo el timbre sino también la localización espacial, se asocia más con la estereofonía de los altavoces debido a la conocida localización interna de los auriculares. Y, sin embargo, las grabaciones binaurales con una cabeza ficticia, que son las más prometedoras para la alta fidelidad real, están destinadas a la reproducción con auriculares. Incluso en su apogeo, no encontraron lugar en la grabación y transmisión de rutina. En ese momento las causas eran la localización frontal poco fiable, la incompatibilidad con la reproducción por altavoz, así como su tendencia a la falta de estética. Dado que el procesamiento de señales digitales (DSP) puede filtrar rutinariamente usando funciones de transferencia relacionadas con la cabeza binaural, HRTF, las cabezas ficticias ya no son necesarias.

Aún así, la aplicación más común de los auriculares es alimentarlos con señales estéreo originalmente destinadas a altavoces. Esto plantea la cuestión de la respuesta de frecuencia ideal. Para otros dispositivos en la cadena de transmisión (Fig. 14.1), como micrófonos, amplificadores y altavoces, el objetivo de diseño suele ser una respuesta plana, con desviaciones fácilmente definibles de esta respuesta en casos especiales. Se requiere un altavoz para producir una respuesta de SPL plana a una distancia típica de 1 m. El SPL de campo libre en este punto reproduce el SPL en la ubicación del micrófono en el campo de sonido de, por ejemplo, un concierto que se está grabando. Al escuchar la grabación frente a un LS, la cabeza del oyente distorsiona el SPL linealmente por difracción. Las señales de su oído ya no muestran una respuesta plana. Sin embargo, esto no tiene por qué preocupar al fabricante del altavoz, ya que esto también habría sucedido si el oyente hubiera estado presente en la presentación en vivo. Por otro lado, el fabricante de auriculares está directamente relacionado con la producción de estas señales auditivas. Los requisitos establecidos en las normas han dado lugar a los auriculares calibrados en campo libre, cuya respuesta en frecuencia replica las señales del oído para un altavoz frontal, así como la calibración en campo difuso, en la que se pretende replicar el SPL en el oído de un oyente para el sonido que incide desde todas las direcciones. Se supone que muchos altavoces tienen fuentes incoherentes, cada una con una respuesta de voltaje plana. Los requisitos establecidos en las normas han dado lugar a los auriculares calibrados en campo libre, cuya respuesta en frecuencia replica las señales del oído para un altavoz frontal, así como la calibración en campo difuso, en la que se pretende replicar el SPL en el oído de un oyente para el sonido que incide desde todas las direcciones. Se supone que muchos altavoces tienen fuentes incoherentes, cada una con una respuesta de voltaje plana. Los requisitos establecidos en las normas han dado lugar a los auriculares calibrados en campo libre, cuya respuesta en frecuencia replica las señales del oído para un altavoz frontal, así como la calibración en campo difuso, en la que se pretende replicar el SPL en el oído de un oyente para el sonido que incide desde todas las direcciones. Se supone que muchos altavoces tienen fuentes incoherentes, cada una con una respuesta de voltaje plana.

ingrese la descripción de la imagen aquí

(a) Respuesta de campo libre: A falta de una mejor referencia, los diversos estándares internacionales y otros han establecido el siguiente requisito para los auriculares de alta fidelidad: la respuesta de frecuencia y el volumen percibido para una entrada de señal mono de voltaje constante es aproximarse a eso de un altavoz de respuesta plana frente al oyente en condiciones anecoicas. La función de transferencia de campo libre (FF) de un auricular a una frecuencia dada (1000 Hz elegidos como referencia de 0 dB) es igual a la cantidad en dB por la cual se amplificará la señal del auricular para dar el mismo volumen. Se requiere promediar sobre un número mínimo de sujetos (típicamente ocho). [...] La figura 14.76 muestra un campo de tolerancia típico.

ingrese la descripción de la imagen aquí

(b) Respuesta de campo difuso: Durante la década de 1980 comenzó un movimiento para reemplazar los requisitos estándar de campo libre por otro, donde el campo difuso (DF) es la referencia. Al final resultó que, se ha abierto camino en los estándares, pero sin reemplazar el anterior. Los dos ahora están uno al lado del otro. La insatisfacción con la referencia FF surgió principalmente de la magnitud del pico de 2 kHz. Se le responsabilizó de la coloración de la imagen, ya que la localización frontal no se logra ni siquiera para una señal mono. La forma en que el mecanismo auditivo percibe la coloración se describe mediante el modelo de asociación de Theile (fig. 14.62). En la figura 14.77 se muestra una comparación de las respuestas del oído para campo difuso y campo libre. [...] Dado que la prueba de escucha subjetiva es la que cuenta, Los auriculares FF hasta ahora han sido más la excepción que la regla. Hay disponible una paleta de diferentes respuestas de frecuencia para satisfacer las preferencias individuales, y cada fabricante tiene su propia filosofía de auriculares con respuestas de frecuencia que van desde plano hasta campo libre y más allá.

ingrese la descripción de la imagen aquí

Este problema de diferencia de HRTF también es la razón por la cual los controladores en ángulo (en los auriculares) suenan mejor para suficientes personas que compañías como Sennheiser los venden. Sin embargo, los controladores en ángulo no hacen que los auriculares suenen completamente como altavoces.

En la fábrica o en un laboratorio, se utiliza un oído artificial para medir la respuesta de frecuencia. El de abajo es uno de nivel de laboratorio; los de nivel de fábrica son un poco más simples.

ingrese la descripción de la imagen aquí

También encontré la metodología utilizada por ese sitio de HeadRoom :

Cómo probamos la respuesta de frecuencia: Para realizar esta prueba, manejamos los auriculares con una serie de 200 tonos al mismo voltaje y de frecuencia cada vez mayor. Luego medimos la salida en cada frecuencia a través de los oídos del micrófono Head Acoustics altamente especializado (¡y costoso!). Después de eso, aplicamos una curva de corrección de audio que elimina la función de transferencia relacionada con la cabeza y produce con precisión los datos para su visualización.

El micrófono utilizado es probablemente este . Parece que en realidad invierten la función de transferencia de la cabeza/orejas ficticias a través del software porque dicen justo antes de eso que "Teóricamente, este gráfico debería ser una línea plana a 0dB".... pero no estoy completamente seguro de lo que hacen ... porque después de eso dicen "Un auricular de "sonido natural" debe ser un poco más alto en los graves (alrededor de 3 o 4 dB) entre 40 Hz y 500 Hz". y "Los auriculares también deben bajar en los agudos para compensar que los controladores estén tan cerca de la oreja; una línea plana con una suave pendiente de 1kHz a aproximadamente 8-10dB hacia abajo a 20kHz es lo correcto". Lo que no me cuadra del todo en relación con su declaración anterior sobre invertir/eliminar el HRTF.

Mirando algunos certificados que la gente obtuvo del fabricante (Sennheiser) para el modelo de auriculares (HD800) utilizado en ese ejemplo de HeadRoom, parece que HeadRoom muestra los datos sin ningún modelo de corrección asumido para los auriculares en sí (lo que explicaría por qué dan su sugerencias de interpretación posteriores, por lo que su sugerencia inicial "plana" es engañosa), mientras que Sennheiser usa la corrección DF (campo difuso) para que sus gráficos se vean casi planos.

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

Sin embargo, esto es solo una suposición, las diferencias en el equipo de medición (y/o entre las muestras de auriculares) bien podrían explicar esas diferencias, ya que no son tan grandes.


De todos modos, esta es un área de investigación activa y en curso (como probablemente haya adivinado por las últimas oraciones citadas anteriormente sobre DF). Hay bastante de esto hecho por algunos investigadores de HK; No tengo acceso (gratuito) a sus artículos de AES, pero se pueden leer algunos resúmenes bastante extensos en el blog de innerfidelity 2013 , 2014 , así como siguiendo los enlaces del blog del autor principal de HK, Sean Olive ; como acceso directo, aquí hay algunas diapositivas gratuitas de su presentación más reciente (noviembre de 2015) que se encuentran allí. Esto es bastante material... Solo lo miré brevemente, pero el tema parece ser que DF no es lo suficientemente bueno.

Aquí hay un par de diapositivas interesantes de una de sus presentaciones anteriores . Primero, la respuesta de frecuencia completa (no truncada a 12 KHz) de HD800 y en equipos más claramente revelados:

ingrese la descripción de la imagen aquí

Y quizás de mayor interés para el OP, el sonido bajo de los Beats no es tan atractivo, en comparación con los auriculares que cuestan de cuatro a seis veces más.

ingrese la descripción de la imagen aquí

No estoy de acuerdo con su libro donde dice "Y, sin embargo, las grabaciones binaurales con una cabeza ficticia, que son las más prometedoras para la alta fidelidad real, están destinadas a la reproducción con auriculares. Incluso en su apogeo, no encontraron lugar en la grabación de rutina y radiodifusión." Todos los eventos deportivos televisados ​​en vivo en los que he trabajado utilizan un conjunto de micrófonos de "holófono" para capturar el sonido ambiental y usarlo en la mezcla de audio de sonido envolvente. www.holophone.com
@DwayneReid: Interesante. ¿Sin embargo, el objetivo final de esa grabación son los auriculares o es un sonido envolvente 5.1 o 7.1 con altavoces? También hay tecnología para mezclar 5.1/7.1 con auriculares, pero no me he metido en eso aquí.
Bueno, el producto anunciado en su página principal dice "es el único micrófono patentado diseñado específicamente para capturar 7.1 canales discretos de sonido envolvente", por lo que la "experiencia de reproducción de audio 3-D increíblemente real en parlantes o auriculares estéreo" probablemente use un método de mezcla descendente ( de 7.1) para auriculares.
Gracias, esta respuesta ha sido muy informativa. ¿Estoy resumiendo correctamente para decir: la respuesta de frecuencia de los auriculares está tratando de emular la distorsión que se crearía a partir de una fuente de audio frontal que se difunde alrededor de su cara y en sus canales auditivos, y una respuesta de frecuencia perfectamente plana sonaría 'antinatural'?
Todavía no está claro si están aplicando la transformación inversa, entonces el objetivo sería nuevamente una línea plana de 0dB en todo el espectro de frecuencia, que en teoría podría colocarse a través de un ecualizador (idealmente, preamplificación). ¿Alguna idea sobre por qué los fabricantes activos de auriculares no están haciendo esto para tener una corrección de distorsión posterior a la cabeza de curva plana de 0dB, o tal vez vendiendo amplificadores de auriculares dedicados con ellos que aplican este ecualizador como el Sennheiser Orpheus, pero tal vez por menos de $ 30k? ? Aparentemente serían los auriculares ideales entonces...
@Ehryk: Re: "La respuesta de frecuencia de los auriculares está tratando de emular la distorsión que se crearía a partir de una fuente de audio frontal que se difunde alrededor de su cara y en sus canales auditivos". El modelo FF hace eso. El modelo DF también supone que hay una habitación. Por lo general, utilizan 8 altavoces en lugar de una cámara anecoica como "estándar". Los muchachos de HK argumentan que ninguno de estos es muy bueno y que tiene que estar en algún punto intermedio, por lo que intentan hacer coincidir lo que hacen los altavoces con ecualización plana en una habitación. Creo que todavía no tienen ningún producto basado en esta última filosofía. Sennheiser usa DF como puede ver.
Esta es una respuesta genial. Mucho en que pensar, y esa oreja artificial es un puntazo (patillas y todo).

La respuesta simple es que un sistema de respuesta de frecuencia plana construido con amplificadores operacionales para corregir la respuesta del controlador necesariamente tendrá una respuesta de fase muy poco plana en la banda de paso. Esta falta de planitud significa que las frecuencias de los componentes de los sonidos transitorios se retrasan de manera desigual, lo que da como resultado una distorsión transitoria sutil que impide el reconocimiento adecuado de los componentes del sonido, lo que significa que se pueden discernir menos sonidos distintos.

En consecuencia, suena terrible. Como si todo el sonido viniera de una bola difusa centrada exactamente entre los oídos.

El problema de HRTF en la respuesta anterior es solo una parte de esto: la otra es que un circuito de dominio analógico realizable solo puede tener una respuesta de tiempo causal, y para corregir el controlador correctamente, se necesita un filtro acausal.

Esto se puede aproximar digitalmente con un filtro de respuesta de impulso finito que coincida con el controlador, pero esto requiere un pequeño retraso de tiempo que es suficiente para hacer que las películas estén muy desincronizadas.

Y todavía suena como si viniera del interior de su cabeza, a menos que también se vuelva a agregar el HRTF.

Entonces, no es tan simple después de todo.

Para hacer un sistema "transparente", no necesita simplemente una banda de paso plana sobre el rango de audición humana, también necesita una fase lineal, una gráfica de retardo de grupo plano, y hay alguna evidencia que sugiere que esta fase lineal necesita para continuar hasta una frecuencia sorprendentemente alta para que las señales direccionales no se pierdan.

Esto es fácil de verificar mediante un experimento: abra un .wav de alguna música con la que esté familiarizado en un editor de archivos de sonido como Audacity o snd, y elimine una sola muestra de 44100 Hz de un solo canal, y realinee el otro canal para que el primero sample ahora pasa con el segundo del canal editado, y reprodúzcalo.

Escuchará una diferencia muy notable, aunque la diferencia es un retraso de tiempo de solo 1/44100 de segundo.

Considere esto: el sonido va a unos 340 mm/ms, por lo que a 20 kHz se trata de un error de tiempo de más menos un retraso de muestra, o 50 microsegundos. Eso es 17 mm de viaje de sonido, pero puede escuchar la diferencia con los 22,67 microsegundos que faltan, que son solo 7,7 mm de viaje de sonido.

Generalmente se considera que el corte absoluto de la audición humana es de alrededor de 20 kHz, entonces, ¿qué está pasando?

La respuesta es que las pruebas de audición se realizan con tonos de prueba que en su mayoría consisten en una sola frecuencia a la vez, durante un tiempo bastante largo en cada parte de la prueba. Pero nuestros oídos internos consisten en una estructura física que realiza una especie de FFT en el sonido mientras expone las neuronas a él, de modo que las neuronas en diferentes posiciones se correlacionan con diferentes frecuencias.

Las neuronas individuales solo pueden volver a disparar tan rápido, por lo que en algunos casos se usan unas pocas una tras otra para mantenerse al día... pero esto solo funciona hasta aproximadamente 4 kHz más o menos... Que es justo donde nuestro termina la percepción del tono. Sin embargo, no hay nada en el cerebro que detenga la activación de una neurona en cualquier momento en que se sienta inclinado, entonces, ¿cuál es la frecuencia más alta que importa?

El punto es que la pequeña diferencia de fase entre los oídos es perceptible, pero en lugar de cambiar la forma en que identificamos los sonidos (por su estructura espectrográfica), afecta la forma en que percibimos su dirección. (¡que la HRTF también cambia!) Aunque parece que debería "retirarse" fuera de nuestro rango de audición.

La respuesta es que el punto de -3dB o incluso -10dB sigue siendo demasiado bajo; debe llegar al punto de -80 dB para obtenerlo todo. Y si desea manejar un sonido fuerte y silencioso, entonces debe ser bueno a menos de -100 dB. Lo cual es poco probable que se vea en una prueba de escucha de un solo tono, en gran parte porque tales frecuencias solo "cuentan" cuando llegan en fase con sus otros armónicos como parte de un sonido transitorio agudo; en este caso, su energía se suma, alcanzando una concentración suficiente. para desencadenar una respuesta neuronal, aunque como componentes de frecuencia individuales en forma aislada pueden ser demasiado pequeños para contarlos.

Otro problema es que estamos constantemente bombardeados por muchas fuentes de ruido ultrasónico de todos modos, probablemente en gran parte de las neuronas rotas en nuestros propios oídos internos, dañadas por un nivel de sonido excesivo en algún momento anterior de nuestras vidas. ¡Sería difícil discernir el tono de salida aislado de una prueba de audición sobre un ruido "local" tan fuerte!

Por lo tanto, esto requiere un diseño de sistema "transparente" para usar una frecuencia de paso bajo mucho más alta para que haya espacio para que el paso bajo humano se desvanezca (con su propia modulación de fase a la que su cerebro ya está "calibrado") antes de que el sistema la modulación de fase comienza a cambiar la forma de los transitorios y los desplaza en el tiempo de manera que el cerebro ya no puede reconocer a qué sonido pertenecen.

Con los auriculares, es mucho más fácil simplemente construirlos para que tengan un solo controlador de banda ancha con suficiente ancho de banda y confiar en la respuesta de frecuencia natural muy alta del controlador 'no corregido' para evitar la distorsión temporal. Esto funciona mucho mejor con auriculares, ya que la pequeña masa del controlador se presta bien a esta condición.

La razón para necesitar linealidad de fase está profundamente arraigada en la dualidad de dominio de frecuencia de dominio de tiempo, como es la razón por la que no puede construir un filtro de retardo cero que pueda "corregir perfectamente" cualquier sistema físico real.

La razón por la que lo que importa es la "linealidad de fase" y no la "planitud de fase" es que la pendiente general de la curva de fase no importa: por dualidad, cualquier pendiente de fase es equivalente a un retraso de tiempo constante.

El oído externo de todos tiene una forma diferente y, por lo tanto, una función de transferencia diferente que ocurre en frecuencias ligeramente diferentes. Tu cerebro está acostumbrado a lo que tiene, con sus propias resonancias distintas. Si usa el incorrecto, en realidad sonará peor, ya que las correcciones a las que está acostumbrado su cerebro ya no se corresponderán con las de la función de transferencia del auricular, y tendrá algo peor que la falta de cancelación de resonancia: tendrá el doble de polos/ceros desequilibrados que abarrotarán su retardo de fase y destrozarán por completo los retardos de grupo y las relaciones de tiempo de llegada de los componentes.

Sonará muy poco claro y no podrá distinguir la imagen espacial codificada por la grabación.

Si haces una prueba de escucha ciega A/B, todos seleccionarán los auriculares no corregidos que al menos no alteran tanto los retrasos del grupo, para que sus cerebros puedan volver a sintonizarse con ellos.

Y esta es realmente la razón por la que los auriculares activos no intentan igualar. Es demasiado difícil hacerlo bien.

También es por eso que la corrección de sala digital es el nicho que es: porque su uso adecuado requiere mediciones frecuentes, que son difíciles/imposibles de hacer en vivo y que los consumidores generalmente no quieren saber.

Principalmente porque las resonancias acústicas en la habitación bajo corrección, que son en su mayoría parte de la respuesta de graves, siguen cambiando ligeramente a medida que cambian la presión del aire, la temperatura y la humedad, cambiando así ligeramente la velocidad del sonido, cambiando así las resonancias de lo que son. eran cuando se tomó la medida.

El filtrado en el dominio F causa distorsión de fase. La ecualización de fase de paso total se puede usar para compensar esto. La teoría IN digital o analógica puede tener una buena fase. Lo digital en estos días brinda una mejor flexibilidad.
Ah gracias. Esto deja claro por qué no se hace en los auriculares activos a los que se les pasa señal analógica (auriculares con cable). Esto aparentemente deja abierta la posibilidad, entonces, de que los niveles se ajusten en tiempo real sin distorsión de fase, ya sea digitalmente en la fuente (como una computadora o teléfono) o digitalmente en auriculares inalámbricos sin ningún retraso; ¿Está esto todavía abierto como factibilidad para una respuesta 'perfectamente plana' (post HRTF)?
No. Debe haber algún retraso. De lo contrario, literalmente necesita una máquina del tiempo, ya que la única forma de corregir la fase de un sistema real (causal), sin agregar ningún retraso, sería usar un filtro con la respuesta de tiempo anticausal exactamente invertida. Y esto significa que necesariamente necesita saber el "futuro" de la señal antes de que aterrice en el tiempo = 0.

Interesante artículo y debate. Tendemos a pensar que el teorema de Nyquist es una regla que se aplica en todas partes, y luego descubrimos que no es así. Mide el límite de la audición humana a 20 kHz usando ondas sinusoidales y luego muestrea a 44,1 o 48 kHz con la confianza de que ha capturado todo lo que el oído puede escuchar. Sin embargo, cambiar un canal por una muestra provoca un cambio significativo, aunque la diferencia, temporalmente, está por encima de los 20 kHz.

En las imágenes en movimiento, pensamos que el ojo integra imágenes con una velocidad de fotogramas superior a 20 fotogramas por segundo. Por lo tanto, la película se filma a 24 fps y se reproduce con un obturador de 2 aumentos para reducir el parpadeo (48 fps); La televisión tiene una frecuencia de cuadro de 50 o 60 Hz según la región. Algunos de nosotros podemos ver un parpadeo de frecuencia de cuadro de 50 Hz, especialmente si crecimos con 60 Hz. Pero aquí es donde se pone interesante. En las conferencias SMPTE y Tech Retreat de la Asociación Profesional de Hollywood en los últimos años, se demostró que un espectador promedio ve una mejora significativa en la calidad cuando el marco nativo se extiende de 60 Hz a 120 Hz. Aún más sorprendente, los mismos espectadores vieron una mejora similar al aumentar la velocidad de fotogramas de 120 a 240 Hz. Nyquist nos diría que si no podemos ver la velocidad de fotogramas a 24, solo necesitamos duplicar la velocidad de fotogramas para garantizar la captura de todo lo que el ojo puede resolver; sin embargo, aquí estamos a 10 veces la velocidad de fotogramas y seguimos observando diferencias notables.

Claramente hay más cosas aquí. En el caso de las imágenes en movimiento, el movimiento en la imagen afecta la velocidad de cuadro requerida. Y en audio, esperaría que la complejidad y la densidad del paisaje sonoro determinen la resolución de audio necesaria. Todos esos sonidos dependen mucho más de su coherencia de fase que de su respuesta de frecuencia para proporcionar la articulación necesaria para la formación de imágenes.

No puedo encontrar nada aquí que responda la pregunta. ¿Qué tiene que ver la frecuencia de muestreo y el teorema de muestreo de Nyquist con la ecualización de los auriculares?
No hay ADC en humanos. La audición/visión humana no "muestrea" nada, utiliza neuronas que son una especie de mezcla entre analógico y digital y son prácticamente continuas. La oreja tiene un corte físico. La percepción visual también está limitada por la rapidez con que el cerebro puede procesar la información.