¿Cómo es única una voz humana? [cerrado]

Bueno, soy bastante nuevo en los conceptos de sonidos vocales. Desde el punto de vista de la física, creo que un sonido tiene dos parámetros básicos, es decir, frecuencia y amplitud.

Teniendo en cuenta que la onda sonora final producida por la voz humana debe tener como parámetros la frecuencia y la amplitud. Bueno, cuando un humano puede hablar en múltiples frecuencias (múltiples tonos) y amplitudes (múltiples volúmenes), me preguntaba qué hace que cada voz humana sea única.

Incluso si dos personas producen una nota sostenida (por ejemplo, la misma nota musical), sus voces se pueden distinguir fácilmente. Entonces, ¿por qué las voces parecen diferentes?

¿Hay algún otro parámetro que lo distinga o tengo una idea equivocada?

no veo que tiene que ver esto con la fisica
Tiene un gran concepto erróneo: los humanos no producen frecuencias puras como un generador de onda sinusoidal.
@JohnRennie Bueno, en términos de amplitud y frecuencia, ¿qué hace que una voz humana sea única? La amplitud y las frecuencias son conceptos físicos.
El flujo de aire es un concepto de física, pero aquí no respondemos preguntas sobre cómo volar aviones.
@JonCuster ¿Es cierto incluso para una nota sostenida?
La mayoría de los sonidos, incluida la voz humana, son sumas de muchas frecuencias con diferentes amplitudes, no solo una frecuencia. Incluso una nota sostenida tiene un conjunto de frecuencias, incluso si se toca con un piano o un órgano de tubos (aunque este último puede tener muy pocas frecuencias).
Hice una búsqueda rápida en Google y encontré este documento (parece que es para un curso de laboratorio) que podría interesarle. Hace un análisis espectral de diferentes tipos de voces. ling.cam.ac.uk/li9/lab3_m08_speechandspectralanalysis.pdf
Cuerdas vocales, pulmones... Las características de tu voz vienen de tu cuerpo y de cómo la usas.
Por supuesto, esta es una pregunta de física; que las respuestas a continuación muestran claramente.
Voto para cerrar esta pregunta como fuera de tema porque se trata de distinguir los sonidos humanos en lugar de los sonidos arbitrarios.

Respuestas (3)

Un "tono puro" es un sonido que tiene una sola función sinusoidal como perfil de presión. La voz humana no es un tono puro; es una superposición de muchas ondas sinusoidales diferentes con diferentes frecuencias y diferentes amplitudes. Aquí hay una imagen que ilustra cuántas ondas sinusoidales de diferentes frecuencias se pueden combinar para formar una forma de onda más complicada como la voz humana:

Ejemplo de imagen de superposición de ondas

( crédito de la imagen )

Por lo tanto, una voz humana tiene muchos más parámetros que una sola amplitud y frecuencia. Tiene muchas amplitudes, una para cada una de las muchas frecuencias diferentes (además de una fase para cada una). Además, estas amplitudes cambian con el tiempo a medida que la voz humana emite diferentes sonidos.

Esta imagen, por ejemplo, es un "espectrograma" de una voz humana.

Imagen de espectrograma de voz humana

(Crédito de la imagen: por Dvortygirl, Mysid - FFT'd in baudline; sonido original de Dvortygirl. Este archivo se derivó de: En-us-it's all Greek to me.ogg, CC BY-SA 3.0 )

El eje x es el tiempo, el eje y es la frecuencia y la intensidad indica la amplitud de cada componente de frecuencia en cada momento. Un tono puro se mostraría como una sola línea horizontal sólida. Puede ver que la voz humana está hecha de muchos componentes de frecuencia de varias amplitudes.

Esta es la misma razón por la que un violín, un oboe y un piano suenan diferentes incluso cuando tocan "la misma nota". La terminología musical para el equilibrio específico de diferentes componentes de frecuencia se conoce como " timbre ".

Consulte el artículo de Wikipedia para obtener más información.

Aquí hay una imagen de las formas de onda de tres personas que dicen la palabra "ramen". Los dos primeros son en realidad la misma persona en diferentes ocasiones, por lo que tienen el mismo tono de voz. La tercera es una mujer que dice la misma palabra "ramen". He modificado la duración de los clips para que todos ocupen la misma cantidad de tiempo en general.

ingrese la descripción de la imagen aquí

(haga clic para ampliar).

Si miras muy de cerca, hay un segmento inicial de menos turbulencia (R) que se transforma en un segmento con mucha turbulencia (A) que se transforma en lo que es esencialmente una frecuencia pura (M) con, en el caso del hombre, un sobretono; seguido de otro parche más áspero (E), seguido de otra nota "más pura" (N), que parece ser muy similar aunque un poco más suave, más prolongada y posiblemente con un sobretono más alto en cada caso.

Una cosa que es muy notable es que la voz de la mujer sube y baja mucho más, lo que se manifiesta como un tono más alto de su voz.

Otra cosa es esta cosa de "turbulencia": esta cosa, y cualquier tipo de "ruido", son muchas frecuencias diferentes que suceden a la vez. Su oído en realidad tiene una parte llamada "cóclea" que parece tener pequeños vellos que tienen una frecuencia de resonancia ligeramente diferente debido a sus diferentes ubicaciones en el órgano, ¡así que diferentes frecuencias hacen vibrar diferentes vellos en sus oídos! Es todo el patrón de cómo estos pelos vibran juntos lo que marca la diferencia entre los sonidos "a" en papá y padre, que son sonidos de vocales muy diferentes (¡al menos en inglés americano!).

Entonces, en general, no hay dos números puros que distinguen un sonido puro (su frecuencia y amplitud), sino que hay dos funciones de frecuencia que distinguen un sonido puro. La primera función es la amplitud como función de la frecuencia: ¡cualquier sonido puro tendrá un montón de componentes diferentes en diferentes frecuencias! -- y el segundo parámetro se llama la fase de las diferentes frecuencias. Los dos números solo van a distinguir dos ondas sinusoidales que comienzan en fase, pero muy pocos de los sonidos que escuchas son ondas sinusoidales y muy pocos de los sonidos que escuchas están perfectamente en fase.

Dado que una fase se representa mejor como un ángulo con formas de onda periódicas y cuasi periódicas, la descripción natural de un sonido es en realidad en términos de una función que asigna a cada frecuencia una matriz de rotación escalada en 2D donde el ángulo de rotación es la fase y la escala . -factor es la escala; está en 2D porque solo necesitas un ángulo. Estas matrices de rotación escaladas también se conocen como números complejos y esta función se denomina transformada de Fourier del sonido , definida como:

y [ F ] = F t F   y ( t ) = d t   mi 2 π i F t y ( t ) .
Resulta que esto tiene una propiedad genial que es su "transformada inversa"
y ( t ) = F F t 1   y [ F ] = d t   mi + 2 π i F t y [ F ] .
En primer lugar, el hecho de que esto exista significa que ambas imágenes son 100% equivalentes para cualquier señal de tiempo: siempre podemos analizar cómo se ve en el dominio de la frecuencia. En segundo lugar, el hecho de que su inversa tome casi exactamente la misma forma nos permite reutilizar nuestros trucos de transformada rápida de Fourier para construir una transformada inversa de Fourier rápida, por lo que se usan todo el tiempo en el procesamiento de señales.

Cada voz humana contiene un tono de referencia diferente, un acento diferente (¡asignación de palabras a sonidos reales!), un perfil de fase diferente, algunas opciones diferentes de armónicos. ¡Es un testimonio de cuán poderoso es nuestro cerebro y cuánto tiempo nos lleva aprender un idioma, que incluso podemos reconocer que dos personas diferentes de diferentes lugares están diciendo la misma palabra! Pero obviamente hay algunos patrones, como las naturalezas más simples y "más puras" de los sonidos M y N anteriores, a los que nuestro cerebro puede "aferrarse" para agrupar sonidos comunes. Así que no es imposible, es muy difícil.

¿Es esa audacia lo que veo en esa captura de pantalla? ¡Qué maravilloso (y poderoso!) programa es ese pequeño...
¿Podrías publicar los espectrogramas? Eso sería más interesante, en mi opinión. (Haga clic en la pequeña flecha en "Pista de audio" y cambie "Forma de onda" a "Espectrograma", luego vaya a Preferencias → Espectrogramas y cambie el tamaño de la ventana a 8192 o superior).

Como dijeron los demás, un sonido está formado por ondas sinusoidales de diferentes frecuencias. La afinación que escuchas, está determinada por la frecuencia más baja (fundamental). Las otras frecuencias son múltiplos de esa frecuencia fundamental y se denominan sobretonos.

Resumiendo lo que se muestra a continuación: la cantidad en que están presentes los diferentes armónicos, determina el color del sonido y marca la diferencia entre tu voz y la mía, entre un piano y un saxofón.

Como ejemplo, examiné dos a (440 Hz). Uno producido por un diapasón, el otro tocado en un oboe (el habla humana es un poco más compleja, pero cualitativamente, es la misma).

A continuación, los dos sonidos grabados se muestran simultáneamente:Amarillo: sonido de diapasón / Blanco: sonido de oboe

Realizando una transformada de Fourier (observando qué frecuencias están presentes en el sonido) en el sonido del diapasón, el resultado es el siguiente: una frecuencia es muy dominante: 440 Hz, las otras frecuencias apenas tienen influencia (observe la escala de dB y por lo tanto, escala logarítmica en el eje y).

Diapasón de transformada de Fourier

El mismo análisis sobre el sonido del oboe revela mucho más: Varios picos a 440 Hz, 880 Hz, 1320 Hz, ... (2x, 3x, 4x, ... 440 Hz) Como puedes ver, la afinación que escuchas (440 Hz), no es la frecuencia que está más presente en el sonido (a menudo, el primer pico es el más alto, pero el patrón que ves a continuación es lo que le da al oboe su sonido particular). Tu oído está entrenado para percibir la serie de picos como un todo y reconocer la frecuencia base como el tono.

Transformada de Fourier Oboe

¡Creo que te refieres a "diapasón" y no a "horquilla"!