El presente trabajo es la integración de dos papers referido al tema de reconocimiento de emociones a travez del habla(SER), el cual uno de ellos describe de manera general el sistema SER; modelos emocionales, bases de datos, características, métodos de preprocesamiento, modalidades de apoyo y clasificadores mientras que el otro propone un método de reconocimiento de emociones de voz basado en el modelo DNN-árbol de decisión SVM.
Descripción del Problema
Siendo el habla el medio más natural de comunicarnos, es entendible las aplicaciones informáticas sobre este campo, SER(Speech Emotion Recognition) no es un campo nuevo, existe desde hace dos décadas y en este post, mencionamos las metodologías y técnicas que hacen posible SER.
A pesar que tiene muchas aplicaciones, la detección de emociones por voz es un área desafiante, porque las emociones son subjetivas. Definimos un sistema SER como una colección de metodologías que procesan y clasifican señales del habla para detectar emociones incrustadas en ellas, a continuación, se muestra un enfoque holístico del sistema SER. Las emociones están incrustadas en las bases de datos en el extremo izquierdo y se extraen en el extremo derecho de la figura.

Para implementar con éxito un sistema de reconocimiento de emociones del habla, necesitamos definir y modelar la emoción con cuidado. Sin embargo, no hay consenso sobre la definición de emoción y sigue siendo un problema abierto en psicología. Con base a esta definición, las emociones son estados psicológicos intrincados que se componen de varios componentes como la experiencia personal, reacciones fisiológicas, conductuales y comunicativas, dos modelos se han vuelto comunes en el reconocimiento de emociones del habla: el modelo emocional discreto y el modelo emocional dimensional. La primera se basa en 6 emociones básicas; tristeza, felicidad, miedo, ira, disgusto y sorpresa, mientras que la otra es un modelo alternativo que utiliza un pequeño número de dimensiones latentes para caracterizar emociones como valencia, excitación, control, poder.
Las bases de datos son una parte esencial del reconocimiento de emociones del habla ya que el proceso de clasificación se basa en los datos etiquetados. Los datos incompletos, de baja calidad o defectuosos pueden dar lugar a predicciones incorrectas, las bases de datos para el reconocimiento de emociones del habla se pueden investigar en tres partes:
• Bases de datos de emociones del habla actuadas (simuladas)
• Bases de datos de emociones del habla provocadas (inducidas)
• Bases de datos de emociones de habla natural
El pre procesamiento es el primer paso después de recopilar los datos que se utilizarán para entrenar al clasificador en un sistema SER. Algunas de estas técnicas de pre procesamiento se utilizan para la extracción de características, mientras que otras se utilizan para normalizar las características de modo que las variaciones de los hablantes y las grabaciones no afecten el proceso de reconocimiento. Algunas acciones comunes son; segmentación, ventanas, detección de pasos de voz, normalización, reducción del ruido, entre otras.
Herramientas
Conforme continuamos en nuestro proceso de reconocimiento de emociones del habla, llegamos a la clasificación, donde se utilizan clasificadores tradicionales y algoritmos de aprendizaje profundo.
Como podemos ver en el mapa inicial, uno de ellos es el Deep Neural Networks(DNN) y el Support Vector Machine(SVM) los cuales son usados en el paper de Linhui et al. cuyo título es “Speech Emotion Recognition Based on DNN-Decision Tree SVM Model”.
Básicamente lo que proponen es combinar la idea de decisión multinivel y el aprendizaje profundo para terminar reconocimiento de emociones del habla, en este método, la estructura de SVM del árbol de decisión se construye en primer lugar calculando el grado de confusión de la emoción, y luego se entrenan diferentes redes DNN para diversos grupos de emociones para extraer las características de cuello de botella que se utilizan para entrenar cada SVM en el árbol de decisión, tal como lo muestran en el diagrama.

En la etapa de entrenamiento, la señal de voz es preprocesada por pre-énfasis y encuadre para extraer el coeficiente de Fourier de la señal de voz, a diferencia de trabajos anteriores, en este artículo se utiliza el coeficiente de Fourier como parámetro característico del entrenamiento de DNN. El pre procesamiento incluye principalmente detección de puntos finales, marcos, ventanas, etc. A continuación se muestra el diagrama de flujo del proceso de extracción del coeficiente de Fourier.
Entrada de señal de voz => Pre procesamiento => Transformación rápida de Fourier => Módulo del coeficiente armónico => Coeficiente de Fourier
En la estructura de red profunda, cuando el número de neuronas en una capa oculta es mucho menor que en otras capas ocultas, la capa se denomina capa de cuello de botella. El proceso es el siguiente, se pre procesan las muestras de voz de entrenamiento y luego se extraen los coeficientes de Fourier de las señales como la entrada de DNN. Cuando se completa el entrenamiento de DNN, se eliminan todas las capas de la red después de la capa de cuello de botella. De esta forma, se completa la red para extraer las características de los cuellos de botella.

Luego de las pruebas, los resultados del experimento muestran que la tasa de reconocimiento de emociones promedio basada en el método propuesto es 6.25% y 2. 91% más alto que el método de clasificación tradicional SVM y DNN-SVM, respectivamente.

Para finalizar, hemos visto las partes que componen un sistema SER, estos sistemas requieren datos de entrenamiento proporcionados por bases de datos de voz que se crean utilizando fuentes actuadas, provocadas o naturales, luego las señales se pre procesan para que se ajusten a la extracción de características, posteriormente haciendo uso de algoritmos se clasifican, si bien la mayoría utiliza enfoques clásicos, existe un número creciente de estudios que incorporan avances recientes, como las redes neuronales convolucionales o recurrentes.
A medida que los sistemas SER se vuelvan más parte de nuestra vida diaria, habrá más datos disponibles de los que aprender, lo que mejorará su rendimiento, incluso cuando a veces los humanos pueden fallar.