Troomes

JairPuican

Descripción del Trabajo

El presente trabajo es la integración de dos papers referido al tema de reconocimiento de emociones a travez del habla(SER), el cual uno de ellos describe de manera general el sistema SER; modelos emocionales, bases de datos, características, métodos de preprocesamiento, modalidades de apoyo y clasificadores mientras que el otro propone un método de reconocimiento de emociones de voz basado en el modelo DNN-árbol de decisión SVM.

Descripción del Problema

Siendo el habla el medio más natural de comunicarnos, es entendible las aplicaciones informáticas sobre este campo, SER(Speech Emotion Recognition) no es un campo nuevo, existe desde hace dos décadas y en este post, mencionamos las metodologías y técnicas que hacen posible SER.
A pesar que tiene muchas aplicaciones, la detección de emociones por voz es un área desafiante, porque las emociones son subjetivas. Definimos un sistema SER como una colección de metodologías que procesan y clasifican señales del habla para detectar emociones incrustadas en ellas, a continuación, se muestra un enfoque holístico del sistema SER. Las emociones están incrustadas en las bases de datos en el extremo izquierdo y se extraen en el extremo derecho de la figura.

Para implementar con éxito un sistema de reconocimiento de emociones del habla, necesitamos definir y modelar la emoción con cuidado. Sin embargo, no hay consenso sobre la definición de emoción y sigue siendo un problema abierto en psicología. Con base a esta definición, las emociones son estados psicológicos intrincados que se componen de varios componentes como la experiencia personal, reacciones fisiológicas, conductuales y comunicativas, dos modelos se han vuelto comunes en el reconocimiento de emociones del habla: el modelo emocional discreto y el modelo emocional dimensional. La primera se basa en 6 emociones básicas; tristeza, felicidad, miedo, ira, disgusto y sorpresa, mientras que la otra es un modelo alternativo que utiliza un pequeño número de dimensiones latentes para caracterizar emociones como valencia, excitación, control, poder.
Las bases de datos son una parte esencial del reconocimiento de emociones del habla ya que el proceso de clasificación se basa en los datos etiquetados. Los datos incompletos, de baja calidad o defectuosos pueden dar lugar a predicciones incorrectas, las bases de datos para el reconocimiento de emociones del habla se pueden investigar en tres partes:
• Bases de datos de emociones del habla actuadas (simuladas)
• Bases de datos de emociones del habla provocadas (inducidas)
• Bases de datos de emociones de habla natural
El pre procesamiento es el primer paso después de recopilar los datos que se utilizarán para entrenar al clasificador en un sistema SER. Algunas de estas técnicas de pre procesamiento se utilizan para la extracción de características, mientras que otras se utilizan para normalizar las características de modo que las variaciones de los hablantes y las grabaciones no afecten el proceso de reconocimiento. Algunas acciones comunes son; segmentación, ventanas, detección de pasos de voz, normalización, reducción del ruido, entre otras.

Herramientas

Conforme continuamos en nuestro proceso de reconocimiento de emociones del habla, llegamos a la clasificación, donde se utilizan clasificadores tradicionales y algoritmos de aprendizaje profundo.
Como podemos ver en el mapa inicial, uno de ellos es el Deep Neural Networks(DNN) y el Support Vector Machine(SVM) los cuales son usados en el paper de Linhui et al. cuyo título es “Speech Emotion Recognition Based on DNN-Decision Tree SVM Model”.
Básicamente lo que proponen es combinar la idea de decisión multinivel y el aprendizaje profundo para terminar reconocimiento de emociones del habla, en este método, la estructura de SVM del árbol de decisión se construye en primer lugar calculando el grado de confusión de la emoción, y luego se entrenan diferentes redes DNN para diversos grupos de emociones para extraer las características de cuello de botella que se utilizan para entrenar cada SVM en el árbol de decisión, tal como lo muestran en el diagrama.

En la etapa de entrenamiento, la señal de voz es preprocesada por pre-énfasis y encuadre para extraer el coeficiente de Fourier de la señal de voz, a diferencia de trabajos anteriores, en este artículo se utiliza el coeficiente de Fourier como parámetro característico del entrenamiento de DNN. El pre procesamiento incluye principalmente detección de puntos finales, marcos, ventanas, etc. A continuación se muestra el diagrama de flujo del proceso de extracción del coeficiente de Fourier.

Entrada de señal de voz => Pre procesamiento => Transformación rápida de Fourier => Módulo del coeficiente armónico => Coeficiente de Fourier

En la estructura de red profunda, cuando el número de neuronas en una capa oculta es mucho menor que en otras capas ocultas, la capa se denomina capa de cuello de botella. El proceso es el siguiente, se pre procesan las muestras de voz de entrenamiento y luego se extraen los coeficientes de Fourier de las señales como la entrada de DNN. Cuando se completa el entrenamiento de DNN, se eliminan todas las capas de la red después de la capa de cuello de botella. De esta forma, se completa la red para extraer las características de los cuellos de botella.

Resultados

Luego de las pruebas, los resultados del experimento muestran que la tasa de reconocimiento de emociones promedio basada en el método propuesto es 6.25% y 2. 91% más alto que el método de clasificación tradicional SVM y DNN-SVM, respectivamente.

Conclusiones

Para finalizar, hemos visto las partes que componen un sistema SER, estos sistemas requieren datos de entrenamiento proporcionados por bases de datos de voz que se crean utilizando fuentes actuadas, provocadas o naturales, luego las señales se pre procesan para que se ajusten a la extracción de características, posteriormente haciendo uso de algoritmos se clasifican, si bien la mayoría utiliza enfoques clásicos, existe un número creciente de estudios que incorporan avances recientes, como las redes neuronales convolucionales o recurrentes.
A medida que los sistemas SER se vuelvan más parte de nuestra vida diaria, habrá más datos disponibles de los que aprender, lo que mejorará su rendimiento, incluso cuando a veces los humanos pueden fallar.

JairPuican

En este blog presentamos elementos que incluyen software, hardware y técnicas de planificación y programación de Inteligencia Artificial. Para la detección y ubicación de los usuarios se construye un sistema de detección de hardware basado en el RFID. El usuario llevará una etiqueta RFID pasiva (no requiere batería interna) que cuando se ubica dentro del lector, el campo electromagnético adquiere energía con la ayuda de su antena incorporada mediante acoplamiento inductivo o radioactivo. Sumado a esto empleamos las técnicas de inteligencia artificial, más concretamente una herramienta de planificación, para la orientación de las personas dada el dataset de ubicaciones obtenidas por el sistema RFID anteriormente.

El principal inconveniente del GPS son las señales de GPS bloqueadas completamente o demasiado débil para ser recibido en interiores ambientes [2]. Para superar estas limitaciones, se han propuesto y evaluado diversas tecnologías, como las tecnologías basadas en ultrasonidos, infrarrojos, visión por computadora y radiofrecuencia (RF), incluidas RFID (identificación por radiofrecuencia), LAN inalámbricas.

LOCALIZACIÓN A TRAVÉS DE RFID

El ambiente interior influye en la señal RSSI con varios factores, como el espacio libre factor de pérdida, reflejo de trayectos múltiples y efectos de interferencia . La utilización de la señal RSSI para la estimación de la distancia se puede lograr mediante el uso de uno de los siguientes procedimientos:
1) caracterizar los parámetros de la etiqueta antes de localizar el objeto etiquetado que se llama técnicas indirectas
2) usar uno de los algoritmos probabilísticos o de aprendizaje automático directamente en la señal recibida basada en la base de datos de huellas digitales que se llama técnica directa.Mugahid Omer (2019).

ALGORITMO DE CLASIFICACIÓN BASADO EN LA BASE DE DATOS DE HUELLAS DIGITALES RSSI

La técnica de huella digital estima la ubicación al referirla a puntos de observación. Este término se usa comúnmente para explicar cómo identificar la ubicación del objeto objetivo a partir de las señales RSS detectadas y registrar toda la información en un sistema de almacenamiento basado en computadora.
La técnica basada en la ubicación de la huella dactilar se compone de dos etapas de procesamiento, primero construyendo un conjunto de datos de entrenamiento y luego probando para identificar la posición objetivo. En la primera etapa del proceso, un mapa de radio de la señal RSSI detectada, que se mide desde diferentes ubicaciones, se graba y guarda en el servidor. Luego, para el proceso de estimación de posición, la intensidad de la señal recibida del dispositivo monitoreado se compara con el mapa de radio grabado usando cualquiera de las técnicas de coincidencia de proximidad, como el vecino más cercano k (K-NN), para predecir
la ubicación del dispositivo actual .
Existen varios métodos para la estimación de distancia que se combinan con la técnica de huella digital, pero presentan complicaciones como requerir de alto procesamiento o necesitar una distribución de etiquetas de referencia de alta densidad como un mapa histórico. Es por ello que usaremos la técnica LANDMARCK, esta técnica depende del algoritmo de clasificación KNN para encontrar la etiqueta de referencia mas cercana.

VECTOR DESPLAZAMIENTO

Mediante el método de localización por frecuencia de respuesta, haciendo uso de tres lectores RFID(A,B,C), se procede a identificar la posición inicial de la etiqueta para un tiempo(t=1), con ello se tiene las distancias entre la etiqueta y los lectores(dA1,dB1,dC1).. Luego para un tiempo (t=2) la etiqueta se encuentra en una posición E2, con ello, se observa una distancia nueva con respecto a los lectores ABC que según la figura 1 son dA2,dB2 y dC2. Dicho esto, podemos
identificar un vector dirección u12 del punto E1 al punto E2, Para un tiempo(t=3) se observa que un nuevo lector D reconoce la señal de la etiqueta en su posición E3, entonces la nueva terna de lectores sería B,C,D, es decir, A quedaría fuera ya que su distancia es superior a los tres, entonces el nuevo
vector dirección sería u23.
Por lo tanto, haciendo uso de un agente y data histórica se podría proponer el vector dirección para un tiempo(t=n). Los atributos a tomar en cuenta para nuestra investigación son:

ID o código identificador del lector RFID

ID o código identificador de la etiqueta RFID

La fecha y hora del evento

El ángulo del vector x,y,z

El vector x,y,z

La magnitud del vector (a partir de un cálculo previo realizado al RSSI)

GENERACIÓN DE DATA SET

Después de haber localizado la ubicación de la etiqueta objetivo en un tiempo t=1, volveremos a localizar su ubicación en un tiempo t=2, para generar un vector de dirección
Imagen

U12 en el tiempo t=1, así sucesivamente. De esta manera generaremos un data set de vectores de dirección dentro de un espacio para un periodo determinado.
El modelo de pronóstico del vector de desplazamiento será creado con ayuda del programa Rapid Miner, el cual facilita la creación de modelos de forma intuitiva y rápida. Primero, se carga el dataset con los valores requeridos y se establece el formato para cada uno de los atributos (se puede visualizar los atributos en la Fig.2)
Imagen

Luego de tener el dataset preparado para ser usado, se procede con la generación del modelo.
Imagen

de la etiqueta, se utilizarán la fecha y hora de cada lectura de la etiqueta y se procederá a ordenar de forma temporal las lecturas. Es debido a ello que se puede ordenar en tiempos de t=0, t=1, ..., t=t’ para determinar la secuencialidad y con una data más amplia, se podría predecir el vector posición del objeto que se está desplazando.
Imagen

APLICACIÓN DEL MÉTODO KNN PARA RECONOCER EL VECTOR DESPLAZAMIENTO

Para un tiempo determinado (t=t’) se ingresa una nueva etiqueta al espacio de análisis, por RF y haciendo uso de la ecuación 3, se conoce su ubicación(x,y).Haciendo uso del método KNN se evalúa cual es la etiqueta de referencia más próxima, Una vez identificado su vecino más próximo, se infiere que la etiqueta objetivo toma el vector desplazamiento de la etiqueta de referencia escogida.

CONCLUSIONES
En el paper actual, la técnica de huella digital se aplica a la señal RSSI, que se recibe del sistema RFID. El método del KNN se aplica para una etiqueta objetivo RFID para distintos instantes de tiempo. La distancia entre el lector-etiqueta y la intensidad de frecuencia son factores que influyen en la estimación de la localización.
Utilizando la IA en un sistema RFID, podríamos direccionar a las personas a su correcto lugar destino, sin la necesidad de consultar a otra persona

Se encontraron 2 coincidencias

Sistema SER y aplicación basada en el modelo DNN-árbol de decisión SVM

PRONÓSTICO DEL VECTOR DESPLAZAMIENTO MEDIANTE MÉTODOS DE LOCALIZACIÓN CON TECNOLOGÍA RFID