Temas acerca de Inteligencia Artificial
Foto de Usuario
hans1801

Ranking Troomes
Mensajes: 4
Registrado: 14 Nov 2020, 14:35
Contactar:

Deep Learning aplicado en el reconocimiento de emociones por voz

Mensaje por hans1801 » 18 Dic 2020, 18:27

1. Descripción
El habla es un medio de interacción natural y de uso común entre los seres humanos. La importancia del habla en la comunicación motiva a muchos investigadores a desarrollar métodos en los que el habla pueda utilizarse para la interacción humano-máquina. Sin embargo, la máquina debe ser lo suficientemente inteligente como para que pueda reconocer no solo las voces del hablante, sino también los estados emocionales del hablante. En diferentes partes del mundo, las personas tienen diferentes antecedentes culturales, idiomas locales, ritmos de habla y estilos de habla. Esta variación cultural crea dificultades en el reconocimiento efectivo de los estados emocionales del hablante y hace que el proceso de selección de características del habla sea muy desafiante y complejo.
La información paralingüística implica el significado implícito del mensaje, como la emoción en el habla. Las características del habla pueden interpretar el significado del habla; por lo tanto, la expresión conductual se investigó en la mayoría de los trabajos de reconocimiento de emociones por voz.

2. Herramientas

Conjunto de datos:
Para la evaluación del rendimiento, se utilizaron los siguientes conjuntos de datos disponibles públicamente: el conjunto de datos de Berlín sobre el habla emocional (Emo-DB), Surrey Audio Visual Expressed Emotion (SAVEE), Captura interactiva de movimiento dinámico emocional (IEMOCAP), y el conjunto de datos audiovisuales de habla y canción emocionales de Ryerson (RAVDESS).

Pre-procesamiento:
El preprocesamiento consiste en un proceso de extracción de datos para la conversión de datos a un formato específico. Convertimos la señal de voz en una representación de espectrograma log-mel. Debido a que la red neuronal requiere una capa de entrada de tamaño 227 × 227 × 3, los espectrogramas se redimensionan de acuerdo con el tamaño de la capa de entrada. Posteriormente, un espectrograma que representa datos de audio se alimenta a una red de preentrenamiento para el proceso de extracción de características.

Convolutional Neural Network:
Ambas investigaciones muestran su propio modelo de la red neuronal a usar.
Para la primera (Impact of Feature Selection Algorithm on Speech Emotion Recognition Using Deep Convolutional Neural Network) se basa en la arquitectura de una DCNN se muestra en la figura. Las características se extraen de la capa de convolución de la red preentrenada, a la que sigue una técnica de selección de características para seleccionar las características más discriminatorias. Se usa una técnica CFS que selecciona características discriminatorias. La técnica CFS evalúa el subconjunto de atributos y selecciona solo aquellas características que tienen una alta correlación con la etiqueta de la clase de salida.
img1.png
img1.png (77.83 KiB) Visto 159 veces
Mientras que para la segunda (Deep Residual Local Feature Learning for Speech Emotion Recognition) se basa en los siguientes factores: conjuntos de datos sin procesar, entornos y características se incluyen en el diseño de nuestro sistema. Con base en tales factores, se propuso un nuevo marco diseñado, llamado DeepResLFLB, como se muestra en la imagen. Este marco consta de cinco partes: (i) preparación de datos sin procesar, (ii) detección de actividad de voz, (iii) limpieza de marco de sesgo, (iv) extracción de características y (v) aprendizaje profundo.
img2.png
img2.png (50.06 KiB) Visto 159 veces
3. Resultados
La primera investigación logró un 95,10% de precisión para el SVM para experimentos dependientes del hablante y un 90,50% de precisión para el clasificador MLP para experimentos independientes del hablante. Sin embargo, con el conjunto de datos SAVEE, la técnica CFS seleccionó 150 de 64,896 características y obtuvo un 82,10% de precisión para el SVM para experimentos dependientes del hablante y un 66,90% de precisión para el clasificador MLP para experimentos independientes del hablante. Con el conjunto de datos IEMOCAP, la técnica CFS logró la mejor precisión, 83,80%, para el clasificador MLP para experimentos dependientes del hablante, y 76,60% de precisión para el clasificador SVM para experimentos independientes del hablante usando 445 características. En contraste, con el conjunto de datos RAVDESS, la técnica CFS arrojó la mejor precisión, 81.30%, para el clasificador SVM, y 73.50% para el clasificador MLP para experimentos dependientes e independientes del hablante usando solo 267 características.
img3.png
img3.png (12.94 KiB) Visto 159 veces
Mientras que para la segunda investigación en las siguientes tablas muestran la comparación de rendimiento entre las funciones de LMS y LMSDDC, en ese orden, probadas en el conjunto de datos EMODB. Se puede ver que la función LMSDDC proporcionó la mejora de la precisión, precisión, recuperación y puntuación F1, en comparación con la función LMS. De la misma manera, cuando se probaron los mismos modelos de aprendizaje con diferentes características, LMS y LMSDDC, en el conjunto de datos RAVDESS.
Función LMS:
img4.png
img4.png (50.51 KiB) Visto 159 veces
Función LMSDDC:
img5.png
img5.png (42.83 KiB) Visto 159 veces
4. Conclusiones
El avance en el reconocimiento de la emociones por voz permitirá mejorar la comunicación humano-máquina ser de utilidad en campos como educación entre otros. A pesar de ser un una tarea desafiante las redes neuronales han demostrado ser muy eficientes pero aún existe el reto de llevarlo a situaciones más semejantes a los escenarios reales donde la distorsión del audio puede afectar negativamente a los resultados.

5. Referencias

https://research-repository.griffith.ed ... sAllowed=y
https://arxiv.org/pdf/2011.09767.pdf


Responder