Bueno, soy bastante nuevo en los conceptos de sonidos vocales. Desde el punto de vista de la física, creo que un sonido tiene dos parámetros básicos, es decir, frecuencia y amplitud.
Teniendo en cuenta que la onda sonora final producida por la voz humana debe tener como parámetros la frecuencia y la amplitud. Bueno, cuando un humano puede hablar en múltiples frecuencias (múltiples tonos) y amplitudes (múltiples volúmenes), me preguntaba qué hace que cada voz humana sea única.
Incluso si dos personas producen una nota sostenida (por ejemplo, la misma nota musical), sus voces se pueden distinguir fácilmente. Entonces, ¿por qué las voces parecen diferentes?
¿Hay algún otro parámetro que lo distinga o tengo una idea equivocada?
Un "tono puro" es un sonido que tiene una sola función sinusoidal como perfil de presión. La voz humana no es un tono puro; es una superposición de muchas ondas sinusoidales diferentes con diferentes frecuencias y diferentes amplitudes. Aquí hay una imagen que ilustra cuántas ondas sinusoidales de diferentes frecuencias se pueden combinar para formar una forma de onda más complicada como la voz humana:
Por lo tanto, una voz humana tiene muchos más parámetros que una sola amplitud y frecuencia. Tiene muchas amplitudes, una para cada una de las muchas frecuencias diferentes (además de una fase para cada una). Además, estas amplitudes cambian con el tiempo a medida que la voz humana emite diferentes sonidos.
Esta imagen, por ejemplo, es un "espectrograma" de una voz humana.
(Crédito de la imagen: por Dvortygirl, Mysid - FFT'd in baudline; sonido original de Dvortygirl. Este archivo se derivó de: En-us-it's all Greek to me.ogg, CC BY-SA 3.0 )
El eje x es el tiempo, el eje y es la frecuencia y la intensidad indica la amplitud de cada componente de frecuencia en cada momento. Un tono puro se mostraría como una sola línea horizontal sólida. Puede ver que la voz humana está hecha de muchos componentes de frecuencia de varias amplitudes.
Esta es la misma razón por la que un violín, un oboe y un piano suenan diferentes incluso cuando tocan "la misma nota". La terminología musical para el equilibrio específico de diferentes componentes de frecuencia se conoce como " timbre ".
Consulte el artículo de Wikipedia para obtener más información.
Aquí hay una imagen de las formas de onda de tres personas que dicen la palabra "ramen". Los dos primeros son en realidad la misma persona en diferentes ocasiones, por lo que tienen el mismo tono de voz. La tercera es una mujer que dice la misma palabra "ramen". He modificado la duración de los clips para que todos ocupen la misma cantidad de tiempo en general.
(haga clic para ampliar).
Si miras muy de cerca, hay un segmento inicial de menos turbulencia (R) que se transforma en un segmento con mucha turbulencia (A) que se transforma en lo que es esencialmente una frecuencia pura (M) con, en el caso del hombre, un sobretono; seguido de otro parche más áspero (E), seguido de otra nota "más pura" (N), que parece ser muy similar aunque un poco más suave, más prolongada y posiblemente con un sobretono más alto en cada caso.
Una cosa que es muy notable es que la voz de la mujer sube y baja mucho más, lo que se manifiesta como un tono más alto de su voz.
Otra cosa es esta cosa de "turbulencia": esta cosa, y cualquier tipo de "ruido", son muchas frecuencias diferentes que suceden a la vez. Su oído en realidad tiene una parte llamada "cóclea" que parece tener pequeños vellos que tienen una frecuencia de resonancia ligeramente diferente debido a sus diferentes ubicaciones en el órgano, ¡así que diferentes frecuencias hacen vibrar diferentes vellos en sus oídos! Es todo el patrón de cómo estos pelos vibran juntos lo que marca la diferencia entre los sonidos "a" en papá y padre, que son sonidos de vocales muy diferentes (¡al menos en inglés americano!).
Entonces, en general, no hay dos números puros que distinguen un sonido puro (su frecuencia y amplitud), sino que hay dos funciones de frecuencia que distinguen un sonido puro. La primera función es la amplitud como función de la frecuencia: ¡cualquier sonido puro tendrá un montón de componentes diferentes en diferentes frecuencias! -- y el segundo parámetro se llama la fase de las diferentes frecuencias. Los dos números solo van a distinguir dos ondas sinusoidales que comienzan en fase, pero muy pocos de los sonidos que escuchas son ondas sinusoidales y muy pocos de los sonidos que escuchas están perfectamente en fase.
Dado que una fase se representa mejor como un ángulo con formas de onda periódicas y cuasi periódicas, la descripción natural de un sonido es en realidad en términos de una función que asigna a cada frecuencia una matriz de rotación escalada en 2D donde el ángulo de rotación es la fase y la escala . -factor es la escala; está en 2D porque solo necesitas un ángulo. Estas matrices de rotación escaladas también se conocen como números complejos y esta función se denomina transformada de Fourier del sonido , definida como:
Cada voz humana contiene un tono de referencia diferente, un acento diferente (¡asignación de palabras a sonidos reales!), un perfil de fase diferente, algunas opciones diferentes de armónicos. ¡Es un testimonio de cuán poderoso es nuestro cerebro y cuánto tiempo nos lleva aprender un idioma, que incluso podemos reconocer que dos personas diferentes de diferentes lugares están diciendo la misma palabra! Pero obviamente hay algunos patrones, como las naturalezas más simples y "más puras" de los sonidos M y N anteriores, a los que nuestro cerebro puede "aferrarse" para agrupar sonidos comunes. Así que no es imposible, es muy difícil.
Como dijeron los demás, un sonido está formado por ondas sinusoidales de diferentes frecuencias. La afinación que escuchas, está determinada por la frecuencia más baja (fundamental). Las otras frecuencias son múltiplos de esa frecuencia fundamental y se denominan sobretonos.
Resumiendo lo que se muestra a continuación: la cantidad en que están presentes los diferentes armónicos, determina el color del sonido y marca la diferencia entre tu voz y la mía, entre un piano y un saxofón.
Como ejemplo, examiné dos a (440 Hz). Uno producido por un diapasón, el otro tocado en un oboe (el habla humana es un poco más compleja, pero cualitativamente, es la misma).
A continuación, los dos sonidos grabados se muestran simultáneamente:
Realizando una transformada de Fourier (observando qué frecuencias están presentes en el sonido) en el sonido del diapasón, el resultado es el siguiente: una frecuencia es muy dominante: 440 Hz, las otras frecuencias apenas tienen influencia (observe la escala de dB y por lo tanto, escala logarítmica en el eje y).
El mismo análisis sobre el sonido del oboe revela mucho más: Varios picos a 440 Hz, 880 Hz, 1320 Hz, ... (2x, 3x, 4x, ... 440 Hz) Como puedes ver, la afinación que escuchas (440 Hz), no es la frecuencia que está más presente en el sonido (a menudo, el primer pico es el más alto, pero el patrón que ves a continuación es lo que le da al oboe su sonido particular). Tu oído está entrenado para percibir la serie de picos como un todo y reconocer la frecuencia base como el tono.
Juan Rennie
jon custer
Sanath Bharadwaj
kyle kanos
Sanath Bharadwaj
Ruslán
tmwilson26
mitchell portero
Steven
usuario10851
usuario10851
danu