¿Cuál es el significado de "frecuencia de una voz humana"?

El término frecuencia para una onda periódica se puede definir como el número de veces que se repite un patrón en un período de tiempo determinado (p. ej., número de ciclos de cresta y valle por segundo para una onda EM). Pero, ¿qué significa frecuencia en el contexto de una voz humana? Estaba tratando de entender Modulación (por interés) y la voz humana se traza con el tiempo de X -eje y amplitud en y -eje. Y la amplitud/frecuencia de la portadora se modula en función de la amplitud de la señal de entrada. ¿Dónde está la dimensión de la frecuencia? ¿Alguien puede ayudarme aquí?

Realmente lamento el error tipográfico en la versión anterior de la pregunta. Tenía la intención de entender la dimensión de la frecuencia en una voz humana típica y no estaba realmente interesado en los valores exactos. Más específicamente, si la frecuencia de la voz se grafica contra el tiempo, ¿cómo se ve el gráfico? Y, en la representación gráfica general de la voz, ¿qué se grafica contra el tiempo, la frecuencia de la amplitud?

Relacionado: physics.stackexchange.com/q/10707/2451 y enlaces allí.

Respuestas (3)

Las voces humanas tienden a promediar alrededor de C medio : las voces masculinas promedian una octava por debajo de esto y las voces femeninas una octava por encima. Do central es 261,6 Hz.

Si tiene un gráfico de amplitud-tiempo, la forma de medir las frecuencias contenidas en él es mediante la transformada de Fourier . Esto le da una gráfica de amplitud contra frecuencia. Si toma una señal clara razonable, como un cantante que canta una nota constante, debería ver una frecuencia fundamental clara y armónicos. Para un poco de discurso aleatorio, lo más probable es que obtenga una amplia gama de frecuencias.

Especificar la frecuencia media de la voz humana en 4 dígitos es absurdo. Si lo hace, está mal porque está reclamando detalles que posiblemente no pueda conocer.
Olin, especificó la do media a cuatro cifras, pero afirma que "las voces tienden a promediar alrededor de la do media" . Apenas un reclamo de precisión de cuatro cifras para el tono del habla humana.

A menos que alguien esté firmando una nota sostenida, los sonidos de la voz humana no se repetirán regularmente. Eso significa que realmente no puedes declarar algo como la frecuencia fundamental con todo lo demás siendo una serie de armónicos.

En cambio, tiene más sentido pensar en la voz en el contexto del espectro continuo. Si lo hace, verá que la mayor parte de la señal está en el rango de unos pocos 100 Hz. La compañía telefónica descubrió hace mucho tiempo qué parte del espectro general necesitaban transmitir para que la voz sonara razonable en el otro extremo.

Si mantiene solo entre 50 Hz y 3 kHz, entonces la voz sonará bastante bien en el otro extremo y se podrá identificar a las personas individuales. Los sonidos fricativos, como la "s", contienen frecuencias más altas, pero somos bastante capaces de comprender la voz limitada a 3 kHz. Puede salirse con la suya haciendo que el corte del extremo inferior sea más alto, como un poco menos de 100 Hz, pero los 10 de Hz adicionales son una carga pequeña para llevar. En otras palabras, que el ancho de banda sea de 2,90 kHz o de 2,95 kHz hace poca diferencia en el costo de transmisión.

Si solo desea una voz comprensible, no necesariamente una voz de buena calidad, puede reducir aún más los agudos. La mayor parte de la información está por debajo de 1 kHz, pero el resultado no sonará "bien" si filtra todo lo que está por encima de eso. Sonará "blanda" y un poco como si alguien estuviera hablando a través de un túnel. Si hace eso, es útil usar una voz masculina ya que la mayor parte de la información se encuentra en las frecuencias más bajas.

Como señaló Olin Lathrop, para el reconocimiento de voz (y el reconocimiento de personas individuales) el rango de frecuencia necesario de la señal debe extenderse a unos 3000 Hz. Por ejemplo, la distinción entre las diversas vocales del lenguaje está en los armónicos superiores del sonido del habla.

Según el artículo de Wikipedia sobre la frecuencia de la voz :
"El habla sonora de un hombre adulto típico tendrá una frecuencia fundamental de 85 a 180 Hz, y la de una mujer adulta típica de 165 a 255 Hz". Es decir, los rangos de frecuencia (de la frecuencia fundamental) están separados por una octava aproximadamente, para hombres y mujeres.

Como afirma Olin Lathrop, en el caso del habla la frecuencia fundamental no es necesaria para un buen reconocimiento.

Durante décadas, los micrófonos utilizados en los aparatos telefónicos (micrófonos de carbón) eran de un tipo que es sensible desde aproximadamente 300 Hz y más. Es decir, esos micrófonos telefónicos nunca captaron la frecuencia fundamental, solo 300 Hz y más.

Por cierto, sin duda, el altavoz de un teléfono solo puede producir un sonido de baja frecuencia muy débil y, de nuevo, eso no afecta el reconocimiento del habla.

Para cantar, especialmente en el caso de cantantes capacitados, la apreciación completa requiere prácticamente el estándar de calidad de alta fidelidad. Para la voz cantada, un corte por encima de los 3000 Hz hará que suene entumecida y empobrecida.

En realidad, bien puede haber un error tipográfico en los números proporcionados por ese artículo de Wikipedia sobre la 'frecuencia de voz'. Un rango de 165 a 255 Hz para la típica voz femenina adulta (frecuencia fundamental) parece extraño. Muy posiblemente sea de 165 a 355 Hz. De todos modos, estos números son bastante irrelevantes, por lo que no sorprende que no haya fuentes para ellos.