¿Cómo podemos explicar las características generales de este espectrograma de guitarra?

Esto está inspirado en esta pregunta de music.SE, para la que intenté ofrecer una respuesta , pero cuanto más lo pienso, todavía estoy bastante inseguro al respecto.

ingrese la descripción de la imagen aquí

Como físicos, a menudo tratamos de describir las características de los datos experimentales utilizando modelos mínimos para capturar los detalles esenciales del sistema. Espero obtener una idea de qué mecanismos físicos mínimos se pueden usar para explicar las características básicas de esta trama. El autor de esa pregunta dice que tocaron la cuerda E de la guitarra (82 Hz), y en el espectrograma vemos picos en todos los múltiplos enteros de esta frecuencia. Esto es lo que creo que puedo explicar:

  1. La línea roja muestra un ajuste heurístico para las amplitudes máximas que disminuyen a medida que F 4 , lo cual tiene sentido: como se muestra en esta respuesta de física.SE, se esperaría que las amplitudes máximas de los componentes de Fourier disminuyeran a medida que F 2 , por lo que la potencia (amplitud al cuadrado) es como F 4 . Esto se demuestra con la línea roja y da un ajuste bastante razonable a las amplitudes para el tercer armónico y superiores.

  2. El ensanchamiento de las líneas espectrales es una ocurrencia común debido a cualquier efecto dispersivo no lineal, como tener en cuenta que la tensión de la cuerda es una función de la amplitud y la frecuencia.

  3. Los picos menores que aparecen entre los picos más grandes son probablemente resonancias de las otras cuerdas de la guitarra, por ejemplo, justo después del segundo armónico, el primer pico parece ser la cuerda G (196 Hz).

Características que no entiendo

  1. ¿Deberían estos picos ser Lorentziano o Gaussiano? Al tratar de producir un gráfico de juguete similar, descubrí que necesitaba una parte tanto gaussiana como lorentziana de cada pico para obtener un gráfico de apariencia similar. ¿Qué física contribuiría a estos dos canales diferentes? Los picos parecen ser gaussianos (los lorentzianos son demasiado nítidos, mientras que estos están redondeados cerca de la parte superior), mientras que el fondo puede ser una especie de cola lorentziana, pero ahora estoy pensando que tal vez tenga una explicación diferente.

  2. ¿Cómo explicamos el "amplio continuo" a bajas frecuencias? ¿Por qué este amplio continuo parece decaer a medida que 1 / F 2 (ver la línea negra)? Mi modelo de juguete con colas lorentzianas no reproduce este comportamiento.

  3. Por último, la pregunta original de la publicación music.SE, ¿por qué se reduce la intensidad del primer y segundo armónico? En mi respuesta a esa pregunta, puedes encontrar mis especulaciones. Ahora, después de pensar por un rato, siento que estoy más convencido por la idea de que la cuerda fue arrancada fuera del centro, junto con las posibles resonancias que podrían mejorar algunos de los picos más altos, por ejemplo, el segundo y el tercero.

Como ejemplo de lo que quiero decir con lorentziano y gaussiano, esto es lo que parece:

ingrese la descripción de la imagen aquí

a la izquierda muestro los perfiles guassiano y lorentziano, mientras que a la derecha muestro su suma. Es un poco difícil de ver, pero los lorencianos tienen una cúspide pronunciada cerca del máximo, mientras que los guassianos dan un bonito pico redondo tal como lo vemos en el espectrograma. Claramente el 1 / F 2 el comportamiento del fondo de baja amplitud no es reproducido por la suma de las colas de Lorentz (línea negra).

Puntos de bonificación si alguien tiene una buena analogía de cuasipartículas.

Respuestas (1)

Todas sus interpretaciones cometen dos errores básicos. Usted asume que los datos registrados eran matemáticamente precisos y que el algoritmo FFT utilizado de alguna manera produce resultados "exactos".

Es muy probable que parte del "amplio espectro" a bajas frecuencias sea solo ruido de fondo ambiental. La relación señal/ruido en comparación con la amplitud máxima es de alrededor de 40 dB, que es lo mejor que puede obtener a menos que realice la grabación con un equipo de calidad profesional y/o en una cámara anecoica.

La conversión A/D también introducirá ruido de cuantificación. El hecho de que una señal de "calidad de CD" sea de datos de 16 bits, no significa que los 16 bits sean precisos para cada muestra.

El algoritmo FFT usará una ventana de datos de tamaño finito (probablemente con el número de puntos una potencia de 2 como 8192) y usará una "función de ventana" para eliminar la falla causada por el hecho de que las frecuencias en los datos registrados son no múltiplos exactos de la longitud de la ventana de datos. Esto difumina el ancho de los picos de FFT y llena los espacios entre los picos con datos distintos de cero, incluso si la señal en sí se sintetizó a partir de ondas sinusoidales "perfectas".

El sonido de una guitarra decae con el tiempo, pero el algoritmo FFT asume que no es así y que la muestra de longitud finita puede repetirse indefinidamente. Por lo tanto, hacer una FFT es un compromiso: si la ventana de datos es corta, la cantidad de descomposición es pequeña pero la resolución de la FFT es baja, y si la ventana de datos es larga, la resolución de la FFT es alta pero la descomposición de los datos no contiene líneas espectrales "afiladas" debido a la disminución de la amplitud de la señal.

Probablemente hay algunos factores similares más que olvidé mencionar, pero dado que no sabemos exactamente cómo se grabó el audio, no es posible ir más allá de las ideas generales y entrar en detalles específicos para explicar todo lo que se muestra en la trama.

Tiene sentido dar una explicación física de la tasa de decaimiento de 4dB/década. Si considera que la forma deformada inicial de la cuerda es un triángulo con el desplazamiento máximo en el punto de punteo, puede explicarlo considerando la FFT de la forma triangular desplazada.

La caída de 2dB/década del "ruido" es probablemente solo un artefacto del algoritmo FFT. Para una elección particular de longitud de ventana de datos y algoritmo de ventana, los artefactos a ambos lados de un pico están en un nivel constante por debajo del pico (típicamente alrededor de 40dB). El ancho de banda de los artefactos alrededor del pico es una proporción fija de la frecuencia pico, pero dado que las frecuencias pico están separadas por una diferencia de frecuencia constante , los artefactos se superponen y suman más para las frecuencias más altas que para las más bajas. El resultado final es que la "pendiente" aparente del ruido es aproximadamente la mitad de la pendiente de los picos.

Fascinante, no había considerado esto, ciertamente, un análisis adecuado requeriría un equipo de grabación de alta calidad, bajo ruido de fondo y una sustracción de fondo adecuada. ¿Alguna idea de si podemos esperar un comportamiento gaussiano/lorentziano de los picos o sobre por qué el pico fundamental parece estar significativamente reducido?
La relación de amortiguamiento es diferente para diferentes modos. (¡Si no hubiera amortiguación, no habría sonido producido por la cuerda, o más exactamente por la vibración de todo el cuerpo de la guitarra para una guitarra acústica!) Por cierto, si desea producir datos de mejor calidad para los picos de frecuencia (y la amortiguación proporciones) El análisis de Fourier es la herramienta equivocada. Los métodos basados ​​en funciones de autocorrelación no necesitan una función de ventana, pueden medir tanto la frecuencia como la amortiguación para cada modo y pueden rastrear cosas como el cambio de frecuencia modal con amplitud para un sistema vibratorio real.
Para el "comportamiento gaussiano/lorentziano de los picos", debe leer un libro sobre procesamiento práctico de señales y temas como "identificación de sistemas" en teoría de control o análisis modal experimental, que son temas muy diferentes de los "usos teóricos de las transformaciones de Fourier en física".