¿Cómo procesa muestras de instrumentos para crear bucles de fase sostenidos convincentes para la síntesis basada en muestras?

Estoy interesado en codificar algo así como una muestra cruda (instrumento). Por lo que he leído, puede poner muestras de audio real en una muestra y cambiarlas de tono para diferentes notas.

Quiero muestras que representen una sola nota de un instrumento que estoy tratando de imitar. Estoy imaginando una muestra de nota como algo con una fase de ataque, una fase de sostenido y una fase de caída. La fase de sostenido se grabará como un ciclo que repito durante un período de tiempo arbitrario; simplemente repetir un ciclo casi siempre sonará como un tono y volumen fijos.

Tengo problemas para obtener muestras de instrumentos cuyas notas suelen tener largas fases de sostenido. Las notas pueden variar en tono y volumen durante esta fase, por lo que es difícil conseguir un ciclo. Me imagino que uno alteraría el audio de la nota para arreglar su tono y volumen para que haya aproximadamente un ciclo repetido, pero no sé cómo lo haría. ¿Alguien más que haya trabajado con samplers tenga un método para obtener una nota sostenida?

EDICIÓN 1: después de enterarme de la existencia de los formantes, la parte de corrección de tono de esta publicación parece muy dudosa en este momento. Si quiero imitar instrumentos, entonces necesito modelar sus formantes invariantes de tono. Alterar el tono en el audio probablemente no los preservará, como si estirara el audio a tiempo para cambiar el tono.

Los comentarios no son para una discusión extensa; esta conversación se ha movido a chat .

Respuestas (1)

Lo que intentabas hacer inicialmente podría no ser realmente posible con la tecnología conocida actualmente. Probablemente pueda lograr algo útil para algunos tipos de instrumentos, pero no puedo prometer qué. :) Después de la discusión en los comentarios de la pregunta, parece que estabas tratando de hacer lo siguiente:

  • Tome una grabación de audio de mezcla completa existente, o al menos una grabación que es solo una interpretación de una canción o una frase que no se reprodujo específicamente para usarla en un instrumento basado en muestras.
  • Extraiga una sola nota de un solo instrumento de la grabación.
  • A partir de ese audio de una sola nota, produzca un instrumento tocable de alta calidad que conserve el timbre y las características expresivas del instrumento original y del ejecutante (quizás el cantante) que produjo la nota original.

Hay muchos desafíos con esto. Dependiendo del tipo de ciencia espacial que esté buscando, tendrá que hacer cosas como:

  • Aísle las frecuencias que se originan en el instrumento/jugador (¿ sección de jugadores tal vez, para un instrumento de "sección de cuerdas"?) en cuestión.
  • Aísle los componentes del sonido, como cuánto del sonido es ruido de respiración, cuánto son vibraciones del instrumento. Cuando cambias de tono, la parte de ruido no cambia necesariamente, aunque es una parte elemental del sonido del instrumento.
  • Aislar/detectar el tono del sonido. ¿Qué nota se tocó?
  • Aislar/eliminar los cambios de tono resultantes del vibrato y otras expresiones de tono
  • Aísle los formantes del sonido, es decir, la forma global general del espectro del sonido del instrumento. Los formantes son producidos por la forma del cuerpo del instrumento (o del cantante) , que actúa como un resonador, amplificando y atenuando ciertas frecuencias características, que hacen que el sonido sea reconocible. Cada vocal y otro sonido en los idiomas hablados o cantados tiene una serie de frecuencias de formantes que se requieren para identificar el sonido.
  • ¿Tal vez necesite aislar los cambios de formantes , por ejemplo, en las voces cantadas?
  • Tal vez necesite detectar o aplicar ingeniería inversa automáticamente a tipos de instrumentos , como tubos de viento soplados/sostenidos, cuerdas frotadas, cuerdas pulsadas, membranófonos, ...

Desarrollo de un modelo

Hagas lo que hagas con las muestras, vas a tener dos cosas:

  • (1) algún tipo de modelo del mundo , y
  • (2) un modelo/arquitectura para el sintetizador que se supone que reproduce los fenómenos en el modelo mundial.

¿En qué componentes consiste el sonido de destino , y en qué componentes consiste su sintetizador/muestreador , y cómo están conectados?

Su idea inicial para el modelo de sintetizador era muy simple:

  • sintetizador = reproductor de muestra con un bucle

Es un modelo de sintetizador increíblemente simple, es sorprendente que cualquier sonido pueda modelarse con él. Pero es útil para modelar muchos instrumentos del mundo real, como pianos y baterías.

Pero entonces digamos que descubres formantes. ¡Se agregó una nueva característica a su modelo mundial ! Esta nueva característica necesitará algunos cambios en el modelo de sintetizador. ¿Qué es un formante? Es la forma general invariable del espectro de sonido del instrumento, independientemente del tono de la nota que se toca. ¡El modelo de reproductor de muestra original no puede reproducir esto! En un reproductor de muestra simple, el espectro general se mueve hacia arriba y hacia abajo junto con el tono de la nota. ¿Cómo puedes reproducir un formante independiente del tono?

En instrumentos de muestras múltiples, la reproducción del comportamiento de los formantes se basa en tener una muestra separada para cada rango de nota objetivo. En todas las muestras, las frecuencias de los formantes se "cuecen" en las muestras PCM a las mismas frecuencias, y el cambio de nota objetivo cambia entre muestras. Siempre que los rangos de notas de destino sean lo suficientemente estrechos, los formantes no se alejan demasiado del original, creando la ilusión de que hay un componente formante en el modelo de sintetizador.

Pero desea hacer esto comenzando con una sola muestra, por lo que el muestreo múltiple y el cambio de muestra no son una opción. Digamos que intenta reproducir la forma espectral utilizando una matriz de 5 filtros paramétricos que permanecen en las mismas frecuencias independientemente de la nota que se toque. Low-pass/band-pass/high-pass, etc. Ahora el modelo/arquitectura de sintetizador revisado se vuelve

  • sintetizador = reproductor de muestras con un bucle + un banco de filtros

Luego descubre el problema del ruido de respiración (por lo que probablemente no era un guitarrista; no le importa que los guitarristas respiren), y desea modelar el ruido como una capa separada controlada de forma independiente

  • sintetizador = reproductor de muestras 1 con un bucle + banco de filtros
  • ... + reproductor de muestras 2, para ruido de respiración, con un punto de bucle + otro banco de filtros?

Entonces digamos que descubres las voces y quieres tener palabras

  • sintetizador = reproductor de muestras 1 con un bucle + banco de filtros
  • ... + algún tipo de curvas envolventes programables que cambian los parámetros del filtro, para que puedas hacer letras
  • ... + reproductor de muestras 2, para ruido de respiración, con un punto de bucle + otro banco de filtros?

(Entonces te das cuenta de que hacer que las curvas de la envolvente sean correctas es extremadamente difícil, así que abandonas esa idea).

Etc. Usar reproductores de muestras como componentes en la arquitectura de un sintetizador para modelar todos los sonidos es una idea. Pero hay muchos, muchos otros modelos. Básicamente, todos y cada uno de los programas de producción de sonido tienen su propio modelo y arquitectura, y todos tienen diferentes características expresivas. Hay muchas categorías y perspectivas para clasificar los sintetizadores. Sintetizadores de modelado analógico, modelado físico , reproductores de muestras PCM, síntesis sustractiva, síntesis aditiva, síntesis FM, ... La idea de usar varias muestras de componentes y controlar una matriz de dichos componentes con modelos de comportamiento de instrumentos me recordó a Wallander Instruments. Algunos reproductores de muestra tienen soporte para filtros de formantes y/o respuestas de impulso, como NI Kontakt. Convolucionar un sonido con una respuesta de impulso grabada desde un instrumento (o sala) se puede usar para modelar el cuerpo de un instrumento, y debería proporcionarle al menos algunos de los formantes que busca. ¡Pero no puedes extraer una respuesta de impulso de una interpretación ! Tendrás que grabar específicamente uno (de alguna manera). Y AFAIK no puedes registrar una respuesta de impulso del cuerpo de una persona. (idea interesante aunque)

Si desea experimentar con diferentes arquitecturas de sintetizadores, incluidas las basadas en muestras, puede utilizar entornos de creación de prototipos como Pure Data, Max/MSP o NI Reaktor. O incluso muestras, pero las muestras dedicadas no le darán el tipo de libertad para la experimentación arquitectónica que probablemente necesite. De todos modos, te animo a que sigas adelante y pruebes tus alitas con él. Aprenderás muchas más cosas muy rápidamente y harás nuevos descubrimientos. Muchos de los descubrimientos ya los conocerán otras personas, pero cuanto más continúes, más probable es que descubras algo completamente nuevo. Lo más importante es seguir intentándolo. :)

Resume (y más allá) mi situación actual y direcciones de una manera muy clara. Un par de comentarios: 1) dados mis objetivos, dudo que vaya tan lejos como la síntesis de voz, tal vez en el mejor de los casos imitando una voz cantada con una sola vocal (la la la), 2) podría alejarme de la muestra única porque necesito para capturar información de formantes, pero intentaré modelar formantes para poder extrapolar a partir de notas en un rango limitado. Estoy pensando en automatizar la obtención de notas cortas y sin vibrato de solos con escalas y arpegios. 3) ¿Qué tipo de instrumentos necesitan ruido de respiración para ser precisos además de la voz humana?
@BatWannaBe Instrumentos de viento como flauta o saxofón. No he mirado lo que realmente sucede en el espectro cuando se tocan diferentes notas, pero supongo que el tono del ruido del viento es bastante independiente del tono del sonido. Incluso puedes hacer sonar ruidos vacíos sin que suenen notas. Cuando estudias el comportamiento de diferentes instrumentos, obtienes muchos componentes como ese en el "modelo mundial". En el modelado físico, intentan tener una correspondencia 1:1 entre el modelo mundial y los componentes del modelo de sintetizador, pero los resultados tienden a carecer de algunos de los detalles de textura que puede proporcionar el muestreo.