Temas acerca de Inteligencia Artificial
-
DiegoHDMGZ

- Mensajes: 8
- Registrado: 18 Abr 2020, 17:33
Mensaje
por DiegoHDMGZ » 18 Dic 2020, 13:04
- Descripción: En estos tiempos, es cada vez más común la interacción de las personas con sus celulares. Una de las primeras cosas que se nos puede venir a la mente al tocar este tema es el asistente de voz de Apple : Siri. Es por ello que ha crecido el interés en mejorar la comunicación entre humano-máquina. Uno de los caminos para lograr esto, es que las máquinas pueden detectar las emociones de las personas a través de audio. Esto también podría ser tener aplicaciones en campos como e-learning, en tutoriales web, en terapias, en aplicaciones para call centers, etc.
Las emociones clásicas que suelen considerar para el reconocimiento son las denominadas emociones de Ekman : enojo, disgusto, miedo, alegría, tristeza y sorpresa.
El reconocimiento de las emociones a través de audio es un problema desafiante debido a que no se sabe exactamente qué características acústicas sean las mejores para poder analizar los patrones de las emociones. Además que en cada característica exista cierta variabilidad en cada persona distinta. También está le hecho de que en una misma oración que habla una persona podrían estar presentes varias emociones a la vez en distinto grado.

- audioFeatures.png (87.04 KiB) Visto 246 veces
- Herramientas:
- Dataset
La mayoría de datasets de speech emotion recognition son actuados debido a que utilizar audios de conversaciones reales puede tener implicancias legales y éticas. Algunos datasets usados son IEMOCAP, RAVDESS, INTERFACE.
- Características acústicas
Existen un gran número de características del audio que pueden ser usados como input para un algoritmo de machine learning. Algunas de ellas son por ejemplo el tono (pitch), la energía, la frecuencia, el formante, etc. También son muy usadas las características espectrales, entre las cuales se encuentra los Mel Frequency Cepstrum Coefficients (MFCC).
- Algoritmos
Una vez seleccionadas las características a usar, se puede utilizar algoritmos de machine learning para poder hacer la clasificación final. Algunos de los algoritmos que se citan en la literatura son Hidden Markov Model, Gaussian Mixture Models, Support Vector Machine, Neural Networks y k-NN.
En un intento de mejorar la precisión del reconocimiento, algunos autores combinan las características acústicas con el contenido lingüístico del discurso. Un esquema podría ser el siguiente:

- procedimiento.png (48.37 KiB) Visto 246 veces
En este caso, se debe entrenar un modelo para poder obtener las palabras utilizadas y también las emociones que involucra cada palabra. Luego se debe combinar este resultado con el obtenido con las características acústicas para poder obtener el resultado final.
Por ejemplo, Tripathi et al. utilizan Redes neuronales convolucionales para poder relacionar las palabras con las emociones. Para ello utilizan un diccionario de palabras que están agrupadas según las emociones que transmiten. Esto les permite obtener un denominado "word embeddings" a partir de cada secuencia de palabras, lo cual representa un vector de números enteros que codifica, de cierta forma, la información necesaria de las palabras. Esta conversión le permite pasar estos "words embeddings" como inputs para la red neuronal. Los autores utilizan los word embeddings de Google denominados "Google Word2Vec".
Ellos también hacen una red neuronal para las características acústicas con MFCC para finalmente fusionar la información lingüística con la acústica en una última capa de la red neuronal. Los autores en la red neuronal utilizaron técnicas como dropout (con ratios entre 25 y 75%) y batch normalization para poder contrarrestar el overfitting; y la técnica “adadelta” como optimización. Para la función de activación se utilizó Rectified Linear Unit (ReLU).
La arquitectura completa es la siguiente:

- arquitectura.png (235.01 KiB) Visto 246 veces
- Resultados:
Tripathi et al. utilizaron su algoritmo de redes neuronales sobre el dataset IEMOCAP. Ellos probaron varios modelos, pero el que les dio mejor resultados fue el de combinar MFCC con las características lingüísticas, obteniendo 76.1% de accuracy. Esta es la tabla de todos sus experimentos.

- resultados.png (36.15 KiB) Visto 246 veces
- Conclusiones:
El avance en Speech Emotion Recognition permitirá mejorar la comunicación humano-máquina y otras aplicaciones en otros campos. Aunque todavía hacer esto es desafiante, más aún por el hecho de que la mayoría de datasets son audios “actuados”, se pueden utilizar algoritmos como redes neuronales sobre características acústicas (como MFCC) y características lingüísticas para tener resultados prometedores con porcentaje de acierto de 76.1%
- Referencias: