¿Por qué no puedes escuchar bien la música a través de una línea telefónica?

¿Por qué no puedes escuchar bien la música a través de una línea telefónica?

Me hicieron esta pregunta en una entrevista para unas prácticas universitarias y lamentablemente no tenía ni idea.

Me dieron la pista de que la frecuencia de muestreo del teléfono es de 8000 muestras por segundo.

@user13107: No está relacionado con la audición per se. Tiene que ver con las limitaciones técnicas del teléfono y la propia red. Lo que se escucha no tiene nada que ver con coclear por ejemplo.
Danny, las piezas que agregaste en las últimas ediciones serían más adecuadas como comentarios, no como parte de la pregunta. (Bueno, realmente no hay necesidad de vincular a una respuesta a esta pregunta en un comentario sobre la pregunta en sí) Por favor, no los vuelva a poner en la pregunta.

Respuestas (7)

La pista dada por el entrevistador es una pista falsa. La limitación que está escuchando ha sido parte de la red telefónica desde mucho antes de que el muestreo digital formara parte del sistema telefónico. Y se aplica incluso en una llamada telefónica local donde la señal nunca se digitaliza.

Está relacionado con el hecho de que la conexión desde un teléfono fijo en su casa u oficina hasta la "oficina central" de la compañía telefónica es esencialmente una conexión continua a través de un par de cables. Por lo general, no hay circuitos activos como amplificadores, repetidores, digitalizadores u otros componentes electrónicos involucrados.

Dada la tecnología de hace 100 años, cuando se diseñó por primera vez la red telefónica, una conexión de esta longitud realmente solo podía transportar un ancho de banda muy limitado. Los ingenieros que diseñaron la red realizaron numerosos experimentos para determinar exactamente qué frecuencias debían transmitirse para que las personas entendieran el habla regular de los demás, y diseñaron la red solo para asegurarse de que esas frecuencias se transmitieran. No agregaron ningún componente costoso al sistema si no eran necesarios para lograr este objetivo.

Por ejemplo, podrían haber usado filtros pasivos para "enfatizar" las altas frecuencias en circuitos que eran un poco más largos (y, por lo tanto, naturalmente, tienden a cortar las altas frecuencias) que el promedio, o para cortar las altas frecuencias en circuitos que eran más cortos que el promedio. para garantizar que todos los usuarios obtengan tanto como sea posible la misma calidad de conexiones.

Más tarde, cuando comenzaron a utilizar la multiplexación para conectar múltiples circuitos de voz a través de un solo cable (para conexiones entre ciudades, por ejemplo), el ancho de banda limitado les permitió transportar más conexiones en un solo cable, y en ese momento la limitación del ancho de banda habría se ha aplicado deliberadamente filtrando para garantizar que las conversaciones no se entrecrucen entre sí.

Finalmente, cuando el muestreo digital y la transmisión digital se introdujeron en la red, entraron en juego las limitaciones del teorema de muestreo discutidas en las otras respuestas. Afortunadamente, las limitaciones de ancho de banda introducidas en los primeros días de las redes telefónicas analógicas permitieron que la digitalización se realizara a tasas de bits realmente bajas sin degradar la calidad de la señal por debajo de lo que había sido todo el tiempo, y nuevamente esto permite que se realicen más conversaciones en un cable determinado en la red

Editar

Quiero resumir con un punto clave que publiqué anteriormente en un comentario sobre otra respuesta:

La frecuencia de muestreo digital (y, posteriormente, los métodos de compresión) utilizados en la telefonía digital se eligieron para que coincidieran con las características de la red telefónica analógica, y no al revés.

+1 por transmitir que el ancho de banda de 4 kHz de la línea ya era una propiedad antes de lo digital. Esto permitió que se utilizaran las primeras aplicaciones de señales digitales en las troncales. Los restos de eso se pueden ver en las especificaciones para los servicios ISDN y T-1, donde las tasas de bits disponibles son múltiplos sospechosos de muestras de 8 bits a 8 kHz. Esos servicios se crearon originalmente para líneas troncales y, cuando se introdujeron, las llamadas de larga distancia mejoraron en calidad debido a la inmunidad al ruido de las señales digitales en comparación con todas las soluciones analógicas más antiguas.
"No agregaron ningún componente costoso al sistema si no eran necesarios para lograr este objetivo". Exactamente. Y durante mucho tiempo, el micrófono era del tipo de gránulos de carbono, por lo que también limitaba un poco la calidad de sonido alcanzable. (Ninguna de las cuales es la respuesta que se suponía que debía dar el OP, refiérase a la pista que se le dio, pero aún así...)
@peterG, Ja, ja, no vi esa parte sobre la sugerencia del entrevistador --- supongo que estaban buscando una respuesta en particular, incluso si no es realmente la respuesta "verdadera".
¿No está la misma red ahora transportando señales de Internet? Con un ancho de banda del orden de 10 Mbps, podemos transmitir fácilmente no solo audio de buena calidad, ¡sino también un video completo! No entiendo por qué la calidad del teléfono todavía tiene que ser tan mala.
@DarioP: Porque un teléfono que funcionaba en la red anterior tiene que funcionar en la nueva, y no sería posible una mejor calidad. Dado que las líneas fijas son bastante antiguas en estos días, es poco probable que veamos avances significativos, pero consulte Voice-Over-LTE para realizar llamadas de voz de alta calidad en las redes móviles modernas.
@ThePhoton Creo que estás suponiendo demasiado sobre el entrevistador. Insinuar una parte que creen que sería fácil de entender para el entrevistado, incluso si no saben mucho sobre cómo funciona POTS, no significa que rechazarían una respuesta más profunda que requiere un mayor conocimiento histórico de cómo funciona. el sistema fue diseñado originalmente.
@DarioP, en realidad, la red telefónica e Internet son muy diferentes. La red telefónica está "conmutada por circuitos", mientras que Internet está "conmutada por paquetes" y esta diferencia de arquitectura aún mantiene las dos redes separadas AFAIK. En todo caso, es posible que el tráfico telefónico esté comenzando a transmitirse por Internet, pero no conozco ninguna situación en la que el tráfico de Internet se transmita por la red telefónica. Y, por supuesto, también hay teléfonos de Internet que funcionan por diseño a través de Internet en lugar de la red telefónica heredada, por lo que las cosas están comenzando a converger.
@DanNeely, tienes razón en que es posible que el entrevistador hubiera aceptado una respuesta como la mía. Pero el hecho es que dirigió a los candidatos hacia una respuesta históricamente inexacta.
Gracias por las respuestas, no soy un experto en el campo y estaba viendo el mismo cable retorcido que entraba tanto en mi teléfono como en mi módem. Está claro que una gran parte de la infraestructura oculta es radicalmente diferente.
@DarioP, DSL es un caso especial. Utiliza el mismo cable para transmitir voz y datos, pero utilizando diferentes bandas de frecuencia. Sería un buen tema para una pregunta, pero tal vez en electronics.stackexchage.com en lugar de física.
Entonces, ¿cómo es su resumen?: "La frecuencia de muestreo digital (y más tarde, los métodos de compresión) utilizados en la telefonía digital se eligieron para que coincidieran con las características de la red telefónica analógica, no al revés". relevante para mi pregunta "¿Por qué no puede escuchar bien la música a través de una línea telefónica?" de cualquier manera...
@DannyRancher, porque la pregunta es por qué el sistema telefónico es como es. Y la razón por la cual es el resultado de la progresión histórica de la tecnología como describí en mi respuesta. Además, si llama a su vecino de al lado, es muy probable que no se utilice procesamiento digital en esa llamada, pero aún así no podrá transmitir bien la música a través de esa conexión. Estoy enfatizando que la insinuación del entrevistador es engañosa en cuanto a por qué el sistema telefónico es como es.

Según Wikipedia, el rango de frecuencia del servicio telefónico antiguo es de 300 Hz a 3,4 kHz. Por lo tanto, a cualquier música que escuche le faltarán las frecuencias bajas y las frecuencias altas. Si recuerda la última vez que escuchó música de espera en el teléfono, probablemente recordará que sonaba un poco apagado, pero debo decir que todavía es reconocible, es decir, puede identificar qué música se está reproduciendo. Me molestaría si mi Hi-Fi sonara así, pero la música no está totalmente destrozada.

En mi juventud, solía ser un entusiasta de la alta fidelidad, y las especificaciones técnicas de los fabricantes se jactaban de que sus equipos tenían un espectro de frecuencia plano de alrededor de 20 Hz a 20 kHz. El problema de reproducir esto en un sistema telefónico es que, como menciona DisplayName en su respuesta, para llevar una frecuencia F a través de una red digital requiere una frecuencia de muestreo de al menos 2 F de lo contrario obtienes alias . Proporcionar ancho de banda cuesta dinero y reduce la capacidad de llamadas (es decir, menos llamadas por fibra óptica), por lo que las redes troncales telefónicas utilizan una frecuencia de muestreo de solo 8 kHz y, por lo tanto, la frecuencia máxima permitida es de 4 kHz. El límite superior es un poco más bajo porque es difícil diseñar filtros de audio con cortes muy agudos. El límite de 3,4 kHz que mencioné anteriormente es presumiblemente para garantizar que no pase ninguna frecuencia cercana a los 4 kHz.

Es discutible si se requiere un rango de frecuencia tan grande para la reproducción de música. En un chequeo auditivo reciente, me dijeron que no podía escuchar nada por encima de 12 kHz (demasiados conciertos de Black Sabbath en mi juventud), pero la música en mi Hi-Fi todavía me suena bien.

Esta limitación se ha integrado en el sistema telefónico desde antes de que se utilizara la tecnología digital. ¿Puedes explicar porque?
Eliminé un comentario inapropiado y la siguiente discusión.
@ThePhoton: buen punto, es peligrosamente fácil olvidar que el mundo no siempre ha sido digital. Sin embargo, no actualizaré mi respuesta ya que has dado una descripción detallada. Desde un comienzo desfavorable, creo que ahora tenemos un excelente conjunto de respuestas a la pregunta.
El requisito no es en realidad que un filtro de 3400 Hz bloquee nada por encima de 4 KHz, sino que para cualquier frecuencia f superior a 4 KHz, la atenuación combinada en f y 4000- f sea adecuada; Por lo tanto, los diseñadores de filtros tienen alrededor de 1 KHz de banda de paso para jugar, en lugar de solo 500 Hz.

Echa un vistazo al teorema de Nyquist. La frecuencia de muestreo debe ser al menos el doble de la tasa de la frecuencia muestreada. Es decir, por eso el oído humano puede oír hasta ca. 20kHz y las muestras de CD a 44,1kHz.

Wikipedia Teorema de Nyquist-Shannon

¿Qué escuchamos en cambio si escuchamos (originalmente) música de 5 Hz a 20 kHz a través del teléfono? ¿Todo por encima de 8 kHz simplemente se ha ido o hay otro efecto? Por ejemplo, ¿se escucharán 14 kHz de alguna manera (pero de manera diferente) a 7 kHz?

O en otras palabras: "¿Qué está pasando con las frecuencias que están por encima del umbral de Nyquist?"

Faltan las frecuencias. Tan simple como eso. No presente. En cambio, lo que hace nuestro oído es recordar lo que debería estar allí, según la experiencia. Entonces, cuando hablas con alguien, sabes que por teléfono tu cerebro agrega lo que debe estar allí. Aún así, noté que la primera vez que hice esto, mi cerebro me dio la información real (falta de frecuencias) y solo más tarde aprendí que puede falsificar el resto, basado en el conocimiento de la voz del oponente. Consulte Wikipdedia:CELP , que utiliza un enfoque similar para la compresión de audio.

Si desea obtener más información sobre las razones de la frecuencia de muestreo de 8 kHz, puede volver a usar wikipedia: Wikipedia: PSTN , el estándar utilizado es G.711 . También Sampleing Frequency and Human Speech , que aún no he leído, explica lo que necesita como mínimo para el habla humana, incluidos gráficos y explicaciones. Finalmente, puede buscar en Wikipedia: MP3 para comprender la psicoacústica. Hint a beat enmascara las cosas que vienen después, por ejemplo. Para que esas cosas se puedan dejar caer, ya que no las escuchas y otras cosas bonitas. :D

¿Podría explicar lo que escuchamos en su lugar si escuchamos (originalmente) 5  Hz a 20  kHz música a través del teléfono? ¿Está todo arriba? 8  kHz simplemente se ha ido o hay otro efecto? Por ejemplo, voluntad 14  kHz ser audible de alguna manera (pero diferente) en 7  kHz ?
Faltan las frecuencias. Tan simple como eso. No presente. En cambio, lo que hace nuestro oído es recordar lo que debería estar allí, según la experiencia. Entonces, cuando hablas con alguien, sabes que por teléfono tu cerebro agrega lo que debe estar allí. Aún así, noté que la primera vez que hice esto, mi cerebro me dio la información real (falta de frecuencias) y solo más tarde aprendí que puede falsificar el resto, basado en el conocimiento de la voz del oponente. Consulte en.wikipedia.org/wiki/Code_Excited_Linear_Prediction CELP, que utiliza un enfoque similar para la compresión.
@DisplayName Debería agregar (editar) esa información a su respuesta, creo que es relevante.
Esta limitación se ha integrado en el sistema telefónico desde antes de que se utilizara la tecnología digital. ¿Puedes explicar porque?
Las tasas de muestreo son una pista falsa aquí. No tienen nada que ver con por qué un sistema originalmente analógico está limitado a menos de 4 kHz de ancho de banda. Es una cuestión de pares trenzados largos y no amplificados que se extienden hasta el CO, y lo que era un diseño razonable para obtener una voz humana a través de este sistema. No había ninguna razón para necesitar la fidelidad para transmitir música, por lo que no estaba integrada.
@PhilPerry bueno, ahora hay una razón para transportar música y encontramos una manera de transmitirla a través de las mismas líneas usando algunos DSP y magia que se llama DSL, VDSL, etc.
...y todavía tiene un alcance y un ancho de banda muy limitados, porque tiene que ser compatible con la red existente, en particular con los cables. No hay magia, solo algunos trucos de compresión que puedes hacer con lo digital.
@PhilPerry CI. Entonces, la verdadera razón fue el TCO y el ROI. ¿También IIRC las primeras líneas estaban cubiertas de papel o textiles y hechas de estaño? Entonces, algunas líneas son solo un estándar técnico más bajo. Cualquier otra cosa hubiera sido más cara, o aún no se hubiera inventado.
Sí, faltan las frecuencias, pero aún escuchará algo, pero estará distorsionado y lo que escuche estará por debajo de la frecuencia de Nyquist.

Esto se debe al procesamiento de la señal, no a la física. Los operadores telefónicos aplican una compresión agresiva optimizada para grabar bien solo el habla. El códec AMR , todavía en uso, data de 1999 y alcanza hasta unos 13 kbit/s. Cualquier otro códec tampoco grabaría bien la música a esa tasa de bits. Incluso MIDI consume más datos.

Esta limitación existe desde antes de que la compañía telefónica considerara aplicar compresión a las señales digitales o incluso digitalizar las señales en su red. Y se relaciona con la física, específicamente con el ancho de banda de las conexiones analógicas en la red. Los esquemas de compresión utilizados están diseñados para coincidir con las características de la red existente, no al revés.
AMR es un códec de telefonía móvil. Los operadores de telefonía de línea fija no aplican compresión. El ancho de banda de la línea fija es más económico que los costos de computación. Además, los teléfonos móviles tienen soporte para múltiples códecs. Sería más fácil admitir música en teléfonos móviles; simplemente indique que utilizará un códec de alta calidad.
desconcertante. ¿Dónde todavía se usa el analógico y qué impondría naturalmente frecuencias de corte de 300 y 3500 Hz? Eché un vistazo a Nyquist y Shannon , pero no discuten las limitaciones de ingeniería específicas de su tiempo. El estándar común para telefonía digital es μ-law G.711 PCM, de 1972. Eso filtra toda la comunicación si algunos enlaces no pueden ponerse de acuerdo sobre un estándar más alto.
@user130144, los teléfonos fijos todavía suelen tener una conexión analógica a la oficina central. El mío en casa depende de líneas que se instalaron hace 50-80 años.

Las compañías telefónicas solo construyeron el teléfono para transportar frecuencias de voz. Las frecuencias de graves y tweeters generalmente están fuera del rango para el que fueron construidos los teléfonos. Solía ​​escuchar un programa de radio en el que cuando una persona llamaba con una broma tonta, jugaban grillos y cantaban a la persona en el teléfono. Les tomó mucho tiempo y varios momentos incómodos antes de darse cuenta de que la persona que llamaba por teléfono no podía escuchar a los grillos, pero los oyentes de la radio sí. Así que hicieron una prueba en el aire y conectaron grillos al teléfono y al teléfono para transmitir. Efectivamente, los grillos fueron bloqueados casi por completo por el sistema telefónico.

De hecho, es una anécdota bastante agradable. Pero en realidad no responde a la pregunta mucho más allá de que los teléfonos no fueron creados para la música. ¿Qué sucede con esas frecuencias? ¿Están realmente completamente silenciados (como parece sugerir su anécdota)? Si es así, ¿por qué?
@GlenTheUdderboat, los filtros originales fueron diseñados para pasar frecuencias de rango de voz "normales" y nada más, maximizando así la claridad de la conversación y minimizando el ancho de banda total requerido. Incluso en aquellos días analógicos de hace mucho tiempo, el ancho de banda significaba potencia.
@CarlWitthoft Nunca me di cuenta de que había un filtro real (e intencional) (que explicaría completamente el "construido para"; como en la supresión real). ¿Tiene (quizás) alguna referencia de algún tipo?
@GlenTheUdderboat Aparecen algunos comentarios relevantes en esta página: cnx.org/content/m15683/latest/?collection=col10503/latest .
@GlenTheUdderboat: esto lo entienden comúnmente los ingenieros electrónicos. La ausencia de tales filtros causa aliasing. Muestrear una señal de 5Khz a 4Khz produce una señal que no se puede distinguir de una señal de 3Khz. Por lo tanto, todas las entradas analógicas que se van a muestrear siempre se filtran primero. En los viejos tiempos, las propias líneas actuaban como un filtro de este tipo.

Hay algunas razones diferentes. Enfrentémonos sólo al canal digital.

  1. Solo se utiliza una señal de banda limitada. G.711 utiliza una frecuencia de muestreo de 8 kHz, lo que da como resultado un ancho de banda utilizable de 4 kHz que queda para la voz. Está bien para la telefonía de voz, pero casi inutilizable para la música. Otros códecs usan diferentes anchos de banda, por ejemplo, G.722 (telefonía de banda ancha) usa una tasa de muestreo de 16 kHz, ancho de banda utilizable efectivo ~8 kHz. Esto suena mucho mejor.

  2. Caso especial tiene lugar en los códecs de teléfonos móviles. Estos son los llamados códecs híbridos. Estos códecs están altamente optimizados para la transmisión de voz (los llamados códecs híbridos). Utiliza diferentes tipos de modelos del tracto vocal que están siendo excitados por una forma de señal muy reducida de su voz. Si te gustan estas cosas, busca: Baseband-RELP, GSM Fullrate Codec, CELP. Pero cuidado: esto es algo pesado.

Usando el teorema de Nyquist, los teléfonos solo transmitirán frecuencias que son la mitad de la tasa de muestreo llamada frecuencia de Nyquist correctamente; por lo tanto, con una frecuencia de muestreo de 8000 muestras por segundo, solo transmitirá correctamente sonidos con una frecuencia inferior a 4000 Hz.

La frecuencia fundamental (el tono que escuchas) de la voz humana está en el rango de 80 a 1100 Hz. Las frecuencias armónicas (frecuencias componentes con una frecuencia de un múltiplo entero de la frecuencia fundamental) de la voz humana pueden ser mucho más altas. Por lo tanto, una tasa de muestreo de 8000 muestras por segundo es suficiente para transmitir voces humanas sin muchos problemas (los armónicos aún pueden exceder la frecuencia de Nyquist).

Cuando se transmiten frecuencias por encima de la frecuencia de Nyquist, como en el caso de la transmisión de música , se produce un aliasing. Esto provoca distorsión. Esto se detalla en el siguiente diagrama.

alias

La línea roja es la señal original. Los puntos azules representan las veces que se toman muestras de la señal original. La línea azul es la señal reconstruida por el oído a partir de la frecuencia de muestreo insuficiente. Como puede ver, se ha distorsionado de la señal roja y ahora tiene una frecuencia más baja; una frecuencia inferior a la frecuencia de Nyquist de la tasa de muestreo.

Escribí un código simple de Matlab para una experiencia de creación de alias.

ADVERTENCIA: Baje el volumen de los altavoces/auriculares justo antes de la ejecución.

% Aliasing in Matlab.
% http://physics.stackexchange.com/questions/104281/why-cant-you-hear-music-well-over-a-telephone-line

fs = 8000 % sampling rate (Hz)

nyquistfrequency = fs / 2 % Nyquist frequency (Hz)

freq = [1000;
        2000;
        3500; % ^ these frequencies will play fine

        4500; % v these frequencies will experience aliasing and distort to a frequency lower than the Nyquist frequency
        6000;
        7000 ]; % frequencies (Hz)

duration = 1; % duration of signal

numberofsamples = ceil( duration * fs ); % number of samples

sample_times = (1 : numberofsamples) / fs;

[h w] = size(freq);

for i = 1 : h,
  currentfrequency = freq(i) % current frequency
  simplesound = sin( 2 * pi * currentfrequency * sample_times ); % create sound
  wavplay( simplesound, fs ) % play sound
end;
¿Alguien puede explicar por qué esto fue votado negativo?
Estás presenciando la comunidad autoritaria de physics.stackexchange en el trabajo :)
No sabía que eras el OP. Parece ... como una mala forma marcar su propia respuesta como la aceptada si usted es el autor de la pregunta. Dicho esto, no veo por qué alguien votaría negativo a menos que haya información incorrecta, en cuyo caso también deberían dejar un comentario porque ahora la gente como yo está sentada aquí confundida.
En mi opinión, esta respuesta es 100% sobre el tema y 100% correcta (por lo tanto, la marqué así). ¡Las otras respuestas que hablan sobre la historia del intercambio telefónico son completamente irrelevantes para mi pregunta! ¿Ya ejecutaste mi código matlab?
Los circuitos de digitalización casi invariablemente usarán un filtro antes de digitalizar para evitar el aliasing (ver, por ejemplo , filtro anti-aliasing ). Entonces, en lugar de que las frecuencias altas se muestren como frecuencias bajas, se atenúan (en el caso más simple, con un filtro RC). Eso hace que gran parte de esta respuesta sea simplemente incorrecta, o más bien, no aplicable a la pregunta. ¿Puedo sugerirle que considere aceptar una respuesta más correcta o editar la suya?