Reconocimiento de emociones con Deep Learning
Publicado: 14 Ago 2020, 22:43
Dentro del campo de interacción hombre - máquina, el reconocimiento de emociones se ha convertido en un tópico importante; sin embargo, debido a la complejidad de la expresión de emociones esto se vuelve más complicado. Con la aplicación de técnicas de aprendizaje profundo, especialmente redes neuronales, el porcentaje de precisión y éxito se ha elevado permitiendo encontrar una posible solución para este problema. Con el fin de descubrir la técnica o combinación de técnicas óptima para procesar y clasificar este tipo de datos se han realizado diversos estudios.
Dentro de estos, encontramos la implementación de redes de creencia profunda donde una al tener tres capas presentó un mejor desempeño que otra de solo dos capas, otro estudio, no se limitó a usar solo una técnica y utilizó tanto redes neuronales convolucionales como recurrentes, esta como muchas otras arquitecturas híbridas fueron evaluadas, donde algunas al ir obteniendo una mayor precisión fueron perdiendo eficiencia al necesitar de más tiempo para procesar los datos.
Continuando con el enfoque en las técnicas de aprendizaje profundo, un estudio realizó una comparación entre un modelo basado solo en redes neuronales convolucionales y otro basado en una combinación de redes convolucionales y recurrentes. Para el desarrollo del estudio se utilizó datos recolectados de 27 personas incluyendo audio y video. Esta data fue dividida en tres conjuntos, uno para el entrenamiento del modelo, para el desarrollo y para prueba.
En el preprocesamiento de datos se utilizó Dlibml como ayuda para la detección de rostros en los frames obtenidos de los videos para que luego de las normalizaciones respectivas, los datos pudieran ser procesados por las redes neuronales convolucionales.
Los primeros resultados mostraron una relativa superioridad por parte del modelo exclusivo de CNN sobre un modelo de referencia desarrollado en base a un tipo de red neuronal recurrente, aunque, como era de esperar, el modelo combinado presenta métricas mucho mejores. Sin embargo, al unir técnicas de CNN y LSTM se logra un mejor rendimiento que el mejor modelo de CNN y RNN.
Conclusiones
La implementación de técnicas de Deep learning en campos como el reconocimiento de emociones, facial o en general, brinda mayores oportunidades de desarrollar modelos precisos y eficientes, aún más si se evalúa la colaboración entre distintas técnicas.
Si bien distintas técnicas han sido estudiadas en el campo del reconocimiento de emociones, las redes neuronales convolucionales parecen mostrar un mejor desempeño a comparación de las demás incluso se podría decir que a nivel de reconocimiento de imágenes en general.
La consideración de data que implique tanto campos visuales como de audio permitiría un reconocimiento de más características por parte de los modelos haciendo posible una mejora en sus resultados.
Referencias
Khan, R. y Sharif, O. (2017). A Literature Review on Emotion Recognition Using Various Methods. Global Journal of Computer Science and Technology.
Khorrami, P., Le Paine, T., Brady, K., Dagli, C. y Huang, T. (2016). How deep neural networks can improve emotion recognition on video data. 2016 IEEE International Conference on Image Processing (ICIP).
Dentro de estos, encontramos la implementación de redes de creencia profunda donde una al tener tres capas presentó un mejor desempeño que otra de solo dos capas, otro estudio, no se limitó a usar solo una técnica y utilizó tanto redes neuronales convolucionales como recurrentes, esta como muchas otras arquitecturas híbridas fueron evaluadas, donde algunas al ir obteniendo una mayor precisión fueron perdiendo eficiencia al necesitar de más tiempo para procesar los datos.
Continuando con el enfoque en las técnicas de aprendizaje profundo, un estudio realizó una comparación entre un modelo basado solo en redes neuronales convolucionales y otro basado en una combinación de redes convolucionales y recurrentes. Para el desarrollo del estudio se utilizó datos recolectados de 27 personas incluyendo audio y video. Esta data fue dividida en tres conjuntos, uno para el entrenamiento del modelo, para el desarrollo y para prueba.
En el preprocesamiento de datos se utilizó Dlibml como ayuda para la detección de rostros en los frames obtenidos de los videos para que luego de las normalizaciones respectivas, los datos pudieran ser procesados por las redes neuronales convolucionales.
Los primeros resultados mostraron una relativa superioridad por parte del modelo exclusivo de CNN sobre un modelo de referencia desarrollado en base a un tipo de red neuronal recurrente, aunque, como era de esperar, el modelo combinado presenta métricas mucho mejores. Sin embargo, al unir técnicas de CNN y LSTM se logra un mejor rendimiento que el mejor modelo de CNN y RNN.
Conclusiones
La implementación de técnicas de Deep learning en campos como el reconocimiento de emociones, facial o en general, brinda mayores oportunidades de desarrollar modelos precisos y eficientes, aún más si se evalúa la colaboración entre distintas técnicas.
Si bien distintas técnicas han sido estudiadas en el campo del reconocimiento de emociones, las redes neuronales convolucionales parecen mostrar un mejor desempeño a comparación de las demás incluso se podría decir que a nivel de reconocimiento de imágenes en general.
La consideración de data que implique tanto campos visuales como de audio permitiría un reconocimiento de más características por parte de los modelos haciendo posible una mejora en sus resultados.
Referencias
Khan, R. y Sharif, O. (2017). A Literature Review on Emotion Recognition Using Various Methods. Global Journal of Computer Science and Technology.
Khorrami, P., Le Paine, T., Brady, K., Dagli, C. y Huang, T. (2016). How deep neural networks can improve emotion recognition on video data. 2016 IEEE International Conference on Image Processing (ICIP).