¿Cuál es el límite físico/eléctrico de la calidad del audio?

Hace unos días estaba en una clase de electrónica en mi estudio. La primera lección fue una introducción al tema principal, bits, señales analógicas, conversión, etc. El profesor preguntó un ejemplo: ¿Cuál es la cantidad máxima factible de bits para almacenar información de audio?

Algunas de las respuestas que se dieron en la clase incluyeron "64 bits, 32 bits, 16 bits, 8 bits (sí, lo sé...)...".

entonces el profesor dijo que son unos 18,19 bits, entonces estás llegando al límite superior porque las distorsiones, el ruido, etc. comienzan a jugar un papel importante en las grabaciones de audio.

Sé que la calidad típica de DVD/Studio es audio de 24 bits.

Sin embargo, esto me llevó a pensar: ¿Cuál es el tamaño máximo de bits físico/real/electrónico en el que se puede almacenar una pieza de audio? ¿El audio de 32 bits sería excesivo/contendría demasiado ruido?

¿Alguna explicación/fuentes sobre esto?

No hay un tamaño máximo de muestra. Su muestra puede tener 2 megabytes, si así lo desea.
Creo que la pregunta del maestro es buena para la introducción. Implica varios temas importantes que sin duda se tratarán en el curso: relación señal-ruido (SNR), escalas logarítmicas (dB vs. log2), efectos de cuantificación, consideraciones prácticas ("diseño equilibrado") y la relevancia del marketing. números como "audio de 32 bits", "9600 ppp", "cámara de teléfono inteligente de 40 megapíxeles" o "MP3 de 392 kbit/s".
Tenga en cuenta que el formato de punto flotante de 32 bits es fantástico para editar audio. Tiene una excelente profundidad de muestra (al menos 24 bits) y demasiado rango dinámico, por lo que no corre el riesgo de recortar o hacer que la señal sea demasiado pequeña.

Respuestas (6)

¿Cuál es el tamaño de bits máximo físico/real/electrónico en el que se puede almacenar una pieza de audio?

Como comenta Dzarda, esta no es una pregunta sensata, y no está claro qué quiere decir con 'pieza'. Si te refieres a una muestra, puedes almacenarla en tantos bits como puedas almacenar. Los discos duros típicos contienen 1 TB y más, por lo que 8 Tera Bits estarían al alcance.

¿El audio de 32 bits será excesivo/contendrá demasiado ruido?

Es una exageración del mismo modo que no tiene sentido proteger tu bicicleta con una cadena muy pesada que se cierra con un candado de plástico blando. Será mejor que gaste menos dinero en la cadena y lo use para comprar un mejor candado.

En aras del argumento, digamos que la relación señal/ruido de las partes analógicas de su sistema de audio corresponde a 16 bits. Si reproduce sonido digital almacenado como 18 bits que agrega ~ 3% de ese nivel de ruido: aumentó el ruido en ~ 3%. (de 100 a 125, en unidades arbitrarias). 20 bits lo incrementarán en un 0,7%. 32 bits en un 0,00098 %. Es decir: suponiendo que tenga una traducción perfecta de digital a analógico.

El costo del almacenamiento aumenta linealmente con el tamaño de bit, el costo de un convertidor D/A con precisión de rango completo aumenta casi exponencialmente cuando se acerca a una cierta cantidad de bits (¿~22?). Entonces, usar más bits que la calidad equivalente en las partes analógicas cuesta más, pero la ganancia en calidad disminuye. Por lo tanto, simplemente no es económico usar más bits: si desea gastar más dinero para obtener una mejor calidad, debe gastarlo en las partes analógicas. (No soy un audiófilo, pero AFAIK, el altavoz suele ser el eslabón más débil).

Este es un tema común en la ingeniería: no se trata de hacer las piezas individuales lo mejor posible, sino de un diseño equilibrado.

Su tercer párrafo (cálculos de bits) es una masa de confusión y contradictorio consigo mismo. ¿Por qué el movimiento de 16 a 18 bits aumenta el ruido en un 25% (cálculos para respaldar eso) - cuando existe una relación bien conocida con la disminución del ruido a profundidades de bits más altas, según su argumento, si reduje la profundidad de bits a 14 bits el ruido disminuiría en un 25%? ¿Qué me impediría entonces disminuir los bits a 1 bit para una conversión ideal? - claramente eso es una tontería. ¿Otra contradicción en que a mayor profundidad de bits (32 bits) el ruido apenas aumenta? Muy confuso.
Si el ruido de las partes analógicas es equivalente al ruido de un canal digital de 16 bits (suposición), dicha combinación tiene la misma contribución de ruido de las partes analógica y digital, por lo que la parte digital agrega un 100 % de ruido al ruido analógico. Ahora, pasar de 16 a 18 bits reduce esa contribución de ruido de la parte digital del 100% al 25% (en relación con la contribución de ruido analógico): el error de cuantificación de un canal de 18 bits es 1/4 de eso si un canal de 16 bits .
Ni siquiera cerca de tener razón. Las fuentes de ruido independientes se suman como RSS (raíz de la suma de los cuadrados), por lo que dos fuentes de magnitud idéntica aumentarán el ruido total como sqrt (2). Para la medida RMS de un ADC ideal, la SNR = 6,02*N + 1,76 (dB) que se suma en cuadratura con el ruido analógico, por lo que pasar de 16 a 18 bits disminuye el ruido en 12,04 dB, pero agregado en cuadratura solo se ve una disminución en forma de ruido que sqrt (2) a sqrt (1 + 1/16) = 1.03 X, por lo que el aspecto digital solo contribuye con el 3%.
Tiene razón sobre la adición de RSS, y eso de hecho cambia un poco los números, pero no cambia el principio.
@Wouter: Hola, veo que aprobó la edición de su respuesta. Sin embargo, esa edición dejó la frase " de 100 a 125, en unidades arbitrarias " sin cambios, aunque la mención original de un aumento del 25 % se cambió a un aumento del 3 %. Por lo tanto, ¿no debería cambiarse la frase "de 100 a 125 , en unidades arbitrarias" por "de 100 a 103 , en unidades arbitrarias"? Gracias.

La tecnología podría permitirle almacenar datos (casi) infinitamente grandes (muestras/segundo) e infinitamente profundos (bits), y de hecho, muchas cosas almacenan este tipo de cosas: hay muchas cámaras que pueden grabar más rápido y con más detalles que los humanos. los ojos pueden ver, por ejemplo, 500 fotogramas por segundo. Del mismo modo, hay instrumentos científicos como los sismómetros que (simplistamente) se parecen mucho a los micrófonos pero son mucho más sensibles que el oído humano, y los datos grabados probablemente se almacenan con más detalle de lo que un humano podría interpretar directamente si se reprodujera en el mundo real. niveles Sin embargo, estos diversos dispositivos casi siempre se utilizan para capturar cosas para que podamos analizarlas de alguna otra manera: una onda en un gráfico, un video en cámara lenta, etc.

Volviendo a la grabación y reproducción de audio, nuevamente hay instrumentos científicos y de prueba que pueden muestrear, grabar, reproducir y generar señales de mucha mejor calidad (como en resolución/profundidad/precisión) que las que los humanos pueden procesar, pero no tiene mucho sentido tenerlos. en un estudio de grabación.

Ahora, en un estudio multipista realmente bueno, es posible que desee una mejor calidad de la que los humanos pueden discernir a medida que agrega muchas cosas juntas, por lo que cuanto menos error introduzca, mejor saldrá en la mezcla final. Simplistamente de nuevo; si hace todas las sumas duras usando 4 lugares decimales, es posible que su respuesta final solo deba ser de 1 lugar decimal, pero aún podría salir mejor ya que no habrá perdido tanto en los errores de redondeo.

En el caso final (consumo humano), los humanos solo pueden discernir una cantidad limitada, por lo que el equipo generalmente está hecho para ser lo suficientemente bueno para eso, porque ¿por qué haría más trabajo sin obtener ganancias?

Como ejemplo: la imagen digital ha alcanzado un máximo de 8 bits por color porque el ojo no puede distinguir más de 256 tonos de gris / la combinación total de 16,8 millones de colores y tonos. Tenemos PC de 64 bits y cámaras digitales mucho mejores en estos días, podríamos almacenar 16 bits por color, pero las personas no pueden ver 281,474,976,710,656 colores diferentes y perderíamos mucho esfuerzo capturando y almacenando esos datos.

Del mismo modo, nadie pagará por un estudio de grabación lleno de equipos que pueden escuchar, capturar, grabar y reproducir un pedo de mosca en el fondo de la sala sobre alguien golpeando una batería, ya que nadie lo escuchará, incluso si es allá.

De hecho, puede haber algunos beneficios importantes que van más allá de los 8 bits por color, y también de los 16 bits para el audio, porque tanto la visión como la audición son casi logarítmicas, pero las imágenes y los sonidos deben combinarse linealmente. No es necesario distinguir entre algo que tiene un brillo total del 99,5 % y un brillo total del 100 %, pero si lo más brillante de una escena tiene un brillo total del 5 %, la diferencia entre el brillo total del 0,2 % y el brillo total del 0,1 % puede ser gigante.
Tiene razón: es útil capturar más datos de los que necesita, especialmente si los va a procesar (por ejemplo, haga un CSI: estilo "¡mejorar!" en una imagen o grabación para resaltar detalles que de otro modo estarían ocultos o no usarían el rango dinámico completo disponible). Puede capturar una imagen completamente "negra" donde hay 100 niveles de negro, pero los datos están ahí para aumentar el contraste y mostrar los detalles. Por supuesto, cuanto mayor sea la cantidad de datos que capture, más costará todo, y muchas personas nunca se preocupan lo suficiente por el beneficio.

Divertido.. para jugar con algunos números. Supongamos 1 k ohm de impedancia de fuente. (Tienes que suponer algo). Así que eso tiene ~4nV/rtHz de ruido Johnson. Para un ancho de banda de 10kHz, eso es ~400nV de ruido. OK y suponga que ha ganado hasta 5 voltios y almacenado. Eso es alrededor de 10^7 en rango dinámico... 23 bits. (En la vida real habrá más ruido...)

Está asumiendo que el piso de ruido de banda ancha representa algún tipo de límite absoluto. No es asi. Las pruebas han demostrado que el oído humano puede captar tonos musicales que están entre 10 y 20 dB o más por debajo del nivel de ruido de banda ancha. La psicoacústica es un tema complicado.
@DaveTweed, ¡Oye, eso es absolutamente correcto! (Tenemos un instrumento con una onda sinusoidal enterrada en el ruido y lo pruebo escuchándolo). Bien, entonces agregue algunos bits más:^) Sé muy poco sobre micrófonos... ¿Tienen un límite de ruido que sea no relacionado con el ruido de Johnson? Tal vez el movimiento browniano del elemento (bobina).
Bueno, ciertamente existe el movimiento browniano del aire (el concepto solo se aplica a los fluidos), que afecta tanto al micrófono como al tímpano. Pero, de nuevo, eso es ruido de banda ancha que no representa ningún tipo de límite absoluto.
Estoy de acuerdo con el promedio de la señal, podemos seguir profundizando en el ruido y encontrando la señal. Eso hace que la pregunta sea abierta. SNR = 1 parecía un punto de referencia natural.

En el caso del audio que se transmite por teléfono, los niveles de cuantificación para el A/D, vienen determinados por el sistema de modelado de nivel de ruido. Es decir, no debemos aumentar los niveles de cuantización, porque se incluye ruido dentro de los valores convertidos. Además, el oído no responde de forma lineal, por lo que para optimizar el ancho de banda de la señal transmitida por teléfono se utiliza una conversión no lineal, que permite codificar el audio en 8 bits y recuperar una señal inteligible.

Evidentemente, la calidad de transmisión de audio para un teléfono, no es la que está pensada para un sistema de audio de alta fidelidad.

En resumen, la teoría establece que no existe un límite superior para el número de niveles de cuantificación de una señal de audio, pero en la práctica, el ruido presente en el sistema puede poner un límite superior. Para más información consulta este enlace .

El audio de 32 bits almacenado en formato de punto flotante es común en la industria profesional. Sin embargo, eso es para reducir los errores de redondeo durante el procesamiento digital, donde se procesa en gran medida a través de todo tipo de filtros y transformaciones digitales. En cuanto a la grabación o la reproducción, no creo que nadie pueda distinguir entre 24 bits a 192 kHz y un muestreo más profundo y rápido. Probablemente ni siquiera los murciélagos.

Parece que necesita comprender algunos términos básicos. Hay convertidores AD<->DA de diferentes tamaños de "bits" y diferentes frecuencias operativas. El tamaño de bit afecta la precisión de la "muestra", mientras que la frecuencia afecta la tasa de muestreo.Por lo general, tiene una señal de audio que desea digitalizar. Entonces, la primera pregunta que debe responder es, ¿qué tan precisa debe ser la muestra? Cuanto mayor sea el número de bits utilizados, mayor será la calidad del audio reproducido y mayor será el costo del convertidor. Cuanto mayor sea la frecuencia de muestreo, mayor será la calidad del audio reproducido y mayor será el costo del convertidor. Entonces, el primer límite práctico lo impone el costo del convertidor. Hay otro límite práctico impuesto por la "sensibilidad humana". Si nuestros oídos no pueden detectar una diferencia entre el audio original y el reproducido, entonces la cantidad de bits y la frecuencia de muestreo utilizada para lograrlo serán "suficientemente buenos". Con base en esta información, creo que su pregunta debería ser:
¿Cuál debería ser el número máximo, práctico, de bits (de un convertidor AD <-> DA) para poder reproducir una copia aceptable de una señal de audio?
Creo que los cálculos apropiados darían aproximadamente 18 bits con una frecuencia de muestreo de 150K Hz.

"Aceptable" es una de esas especificaciones que no significan absolutamente nada.