Otras emociones relativas a las emociones base de enfado/felicidad

En mi experiencia de profano, soy vagamente consciente de que hay cuatro emociones básicas: feliz, triste, asustado/sorprendido y enojado/disgustado . 1

Algunos antecedentes: estamos entrenando una IA para aprender la diferencia entre voces felices y voces enojadas. Tuvimos cierto éxito al mostrarle 200 clips de audio enojados , 200 clips de audio felices y 200 neutrales . Ahora puede decir razonablemente cuándo estamos hablando de forma agradable o confrontativa... pero la precisión podría ser mejor.

Nuestro conjunto de datos de entrenamiento total se compone de estos clips de audio: feliz, enojado, neutral, tranquilo, triste, temeroso, disgustado y sorprendido . Creo que podemos ser más precisos al incluir estas emociones.

Pero este es el problema:

Feliz/enojado/neutral abarcan los extremos opuestos de un espectro; como binario. Es fácil decir:

Happy     1
Neutral   0
Angry    -1

Esa es la forma de los datos que necesitamos para entrenar una red neuronal para reconocer 'Happy'.

Entonces, la pregunta sería, ¿hay alguna "respuesta correcta" para completar estos espacios en blanco? He dado mis mejores conjeturas a continuación, pero espero algo más científico...

Happy     1
Angry    -1
Neutral   0
Calm      X  (0.5?)
Sad       X  (-1?)
Fearful   X  (-0.5?)
Disgust   X  (-0.75?)
Surprised X  (0.75?)

1: http://www.theatlantic.com/health/archive/2014/02/new-research-says-there-are-only-four-emotions/283560/

Creo que esto es más una pregunta de StackOverflow, pero lo que podría hacer es tener 8 nodos de salida diferentes en la capa de salida que pueden ser 0 o 1. Con algunas funciones sigmoideas en la capa oculta y aprendizaje supervisado, creo que esta puede ser la mejor manera . Lo que también podría hacer es generar una probabilidad (0 a 1) para cada emoción. A continuación, puede seleccionar el que tenga el valor más alto. No recomendaría ir con su enfoque, porque probablemente a menudo confundirá la sorpresa con la felicidad, por ejemplo, dada su proximidad. No creo que puedas organizar estas emociones de manera tan lineal.
¿Cuál es la evidencia (o el razonamiento) de por qué la felicidad y la ira se encuentran en los extremos opuestos de un espectro? ¿Qué espectro?
Para aclarar aún más, las emociones que enumeró pueden diferir o superponerse en varias dimensiones, incluida la valencia, la excitación y el contenido conceptual. Lo que puede estar distinguiendo en su paradigma feliz versus neutral versus enojado no son las emociones per se, sino su valencia o excitación.
@mrt El espectro es la satisfacción del cliente, por lo que insatisfecho parece traducirse en enojado y satisfecho en feliz, si está de acuerdo. También estamos capturando el significado/sentimiento de las palabras dichas, para el contexto, pero ese es un proceso separado.
@RobinKramer Estamos usando pyAudioAnalysis para nuestra caja negra. No tengo mucha idea de cómo procesa el audio. Nuestra hipótesis no es necesariamente identificar una emoción exacta, sino poder distinguir una voz de "buen humor" frente a una de "mal humor" mediante la identificación de rasgos de emociones con carga negativa y positiva.

Respuestas (1)

Como mencioné en los comentarios, la herramienta que estamos usando es pyAudioAnalysis . El autor de la herramienta, Theodoros Giannakopoulos, también escribió un artículo anterior " Un enfoque dimensional para el reconocimiento de emociones del habla de las películas ".

Esta "Rueda de emociones" de ese artículo parece ser exactamente lo que estaba buscando:ingrese la descripción de la imagen aquí

También vale la pena mencionar, tal vez, que este último artículo parece describir todas las características específicas que analiza pyAudioAnalysis: "energía de la señal, entropía de la energía, tasa de cruce por cero, centroide espectral, flujo espectral, coeficientes cepstrales de frecuencia Mel, características basadas en croma, etc."

Por cierto, la rueda de la emoción se llama el modelo circunflejo del afecto (ver James Russell y Lisa Feldman Barrett). El afecto es solo una característica de las emociones (p. ej., la rueda no captura el contenido conceptual). De hecho, no estás realmente "reconociendo" las emociones al reconocer la valencia y la excitación. Estás reconociendo el afecto. Por ejemplo, alta excitación + valencia positiva no equivale a excitación, pero la emoción "excitación" (típicamente, pero no siempre) implica alta excitación y valencia positiva.