Troomes

Kmucching

1. Agrupación de actividades económicas de empleo mediante el Cluster

2. Resumen del trabajo

En el presente trabajo se utiliza inteligencia artificial para agrupar las actividades económicas que generan empleo durante la pandemia por la Covid 19 en Perú, se usará datos publicados por el Ministerio de Trabajo y Promoción del Empleo (MTPE). Para ello se usarán metodologías que permitan limpiar el dataset de manera que tenga la data necesaria y crucial para su posterior procesamiento, se agrupará mediante el Cluster SimpleKmeans y luego se va a mostrar los resultados y se concluirá.

3. Descripción del Dataset

Data set original: El data set original cuenta con 15 atributos, que son los siguientes:
- Uibgeo_Ejecutor: Es el código de ubicación geográfica de donde se encuentra el gobierno local o municipalidad
- Ubigeo_Obra: Es el código de ubicación geográfica de la obra o actividad
- Nombre_Entidad: Es el nombre del gobierno local o municipalidad
- Codigo_Actividad: Es el código de reconocimiento de la actividad
- Tipologia_Actividad: Indica el tipo de actividad realizada
- Nro_Empleados_Programados: Indica el número de empleados
- Monto_Total: Indica el costo total de la actividad
- Monto_L_No_Calificada: Indica el costo total destinado a los participantes
- Monto_Otros: Indica el costo total por otros rubros o conceptos
- Fecha_Recibido: Indica la fecha en la que se recibió la ficha técnica
- Fecha_Elegibilidad: Indica la fecha en la que se declaró como elegible la ficha técnica
- Fecha_G_Padron: Indica la fecha de generación del padrón
- Id_Convenio: Indica el código del convenio asignado
- Fecha_Inicio: Indica la fecha de inicio de la actividad
- Fecha_Termino: Indica la fecha de término de la actividad

Limpieza del dataset
- Se eliminarán atributos irrelevantes a la hora de la predicción como: Ubigeo_Ejecutor, Ubigeo_Obra, Codigo_Actividad, Fecha_Recibido, Fecha_Elegibilidad, Fecha_G_Padron, Id_Convenio, Fecha_Inicio, Fecha_Termino. Se elimino ambos Ubigeos porque se comprobó que en un 99% son iguales y que corresponden a la misma municipalidad

Con esto, el dataset solo se quedaría con 6 atributos y 4461 instancias que nos permitirán agrupar las actividades.

Figura1.JPG (33.74 KiB) Visto 1786 veces

El dataset original se puede encontrar en el siguiente enlace: https://www.datosabiertos.gob.pe/datase ... del-empleo

4. Descripción de los resultados obtenidos con las técnicas usadas

Cluster: KMeans

KMeans.JPG (55.83 KiB) Visto 1786 veces

Se puede ver que se han encontrado solo 2 Clusters, ya que solo tiene 4461 instancias. El primer Clúster: 0 hace referencia a la actividad correspondiente a la Limpieza, Mantenimiento y Acondicionamiento de caminos, con un promedio de trabajadores menor a 60 y un costo total mayor a los 100 mil soles. El segundo Clúster: 1 hace referencia a la actividad de Limpieza de cauces en riachuelos, con un promedio de 60 a más trabajadores y un costo total menor a 100 mil soles.

5. Conclusiones
El modelo del SimpleKMeans para Clustering no es tan exacto para este trabajo debido a la baja cantidad de instancias y la gran similitud entre los datos; sin embargo, sí se acerca bastante a la realidad de agrupación de actividades económicas para la generación de empleo debido a la pandemia de la Covid 19. Con un software más sofisticado y un mayor número de instancias, la precisión del Clustering aumentaría significativamente.

6. Ruta Github
En la siguiente ruta de GIthub se puede encontrar el dataset procesado y el archivo .arff https://github.com/Kmucching/ActividadEconomica

Kmucching

1. Modelo de Inteligencia Artificial aplicado al bono independiente dado por el MTPE

2. Resumen del trabajo

En el presente trabajo se utiliza inteligencia artificial para escoger el mejor modelo para la predicción del cobro del bono independiente, se usará datos publicados por el Ministerio de Trabajo y Promoción del Empleo (MTPE). Para ello se usarán metodologías que permitan limpiar el dataset de manera que tenga la data necesaria y crucial para su posterior procesamiento, los algoritmos de regresión que se pondrán a prueba serán: Random Forest, Support Vector Machine, Redes Bayesianas y Árbol de decisión. Se van a mostrar los resultados de cada algoritmo utilizado y se concluirá cuál es el más eficiente.

3. Descripción del Dataset

Data set original: El data set original cuenta con 13 atributos, que son los siguientes:
- COD_HOGAR: Es el código único por hogar
- UBIGEO: Es el código de ubicación geográfica
- DE_DEPARTAMENTO: Indica el departamento del hogar beneficiado
- DE_PROVINCIA: Indica la provincia del hogar beneficiado
- DE_DISTRITO: Indica el distrito del hogar beneficiado
- PERSONAS_HOGAR: Indica el número de personas del hogar beneficiado
- MONTO: Indica el monto asignado, en todos los casos es de 780.
- TIPO_BONO: Indica el tipo de bono, en todos los casos es Bono Independiente
- BONO_COBRADO: Indica si el bono se ha cobrado o no
- FECHA_COBRO: Indica la fecha en la que se cobró el bono, en caso no se haya cobrado no existe fecha
- ENTIDAD_COBRO: Indica la entidad financiera donde se ha cobrado el bono, en todos los casos es Banco de la nación
- MEDIO_COBRO: Indica el medio por el cuál se cobró el bono
- FECHA_ACTUALIZACION: Indica la última fecha de actualización del dataset, en todos los casos es el 20/06/2020
Fig1.JPG (115.54 KiB) Visto 1860 veces

Limpieza del dataset
- Se eliminarán atributos irrelevantes a la hora de la predicción como los que tienen todos los valores diferentes por fila: COD_HOGAR, FECHA_COBRO, MEDIO_COBRO
- Se eliminarán atributos donde la información siempre es la misma, puesto que esto no influirá para nada en la predicción: MONTO, TIPO_BONO, ENTIDAD_COBRO, FECHA_ACTUALIZACIÓN
- Con esto, el dataset solo se quedaría con 6 atributos que nos permitirán predecir si el bono se cobrará o no. Así mismo hay una gran cantidad de instancias que no permitirán correr correctamente los algoritmos en la plataforma Weka, por lo que se trabajará solo con una muestra de 5026 instancias.
  
  Fig2.JPG (40.44 KiB) Visto 1860 veces

El dataset original se puede encontrar en el siguiente enlace: https://www.datosabiertos.gob.pe/datase ... mpleo-mtpe

4. Descripción de los resultados obtenidos con las técnicas usadas

4.1. Árbol de decisión: J48

TreeDecisionJ48.JPG (65.32 KiB) Visto 1860 veces

4.2. Random Forest

TreeRF.JPG (68.73 KiB) Visto 1860 veces

4.3. SVM

SVM.JPG (67.33 KiB) Visto 1860 veces

4.4. Redes bayesianas:

Bayes.JPG (68.36 KiB) Visto 1860 veces

5. Conclusiones
Después de ver los resultados de cada algoritmo, podemos concluir que el mejor modelo es el Árbol de decisión J48, seguido por el modelo SVM ya que tienen el mayor porcentaje de precisión (92.83% y 92.63% respectivamente). Este resultado no es decisivo al cien por ciento, ya que solo es una muestra de toda la data, para conseguir resultados más precisos podrían utilizarse otras plataformas con mayor capacidad de procesamiento de datos.

6. Ruta Github
En la siguiente ruta Github se podrá encontrar el dataset original y el dataset procesado: https://github.com/Kmucching/BonoIndependientePeru

Kmucching

1. Descripción:
La previsión de las condiciones meteorológicas es importante, por ejemplo, para la operación de plantas de energía hidráulica y para la gestión de inundaciones. Se sabe que los modelos mecanicistas son computacionalmente exigentes. Por tanto, es de interés desarrollar modelos que puedan predecir las condiciones meteorológicas más rápidamente que los modelos meteorológicos tradicionales. Un desafío con la integración de las energías renovables en la red es que su generación de energía es intermitente e incontrolable. Por lo tanto, es importante predecir la generación renovable futura, ya que la red debe enviar generadores para satisfacer la demanda a medida que varía la generación. Si bien el desarrollo manual de modelos de predicción sofisticados puede ser factible para granjas solares a gran escala, desarrollarlos para generación distribuida en millones de hogares en toda la red es un problema desafiante. El campo del aprendizaje automático ha recibido mucho interés por parte de la comunidad científica. Debido a su aplicabilidad en una variedad de campos, es interesante estudiar si una red neuronal artificial puede ser un buen candidato para la predicción de condiciones climáticas en combinación con grandes conjuntos de datos. La disponibilidad de datos meteorológicos de múltiples fuentes en línea es una ventaja.

2. Herramientas:
a. Redes neuronales artificiales:

Una red neuronal artificial es una colección de neuronas que son pequeñas unidades computacionales que imitan superficialmente la forma en que funcionan las neuronas en la naturaleza.

Una red neuronal artificial es un grupo interconectado de nodos similar a la vasta red de neuronas en un cerebro biológico. Cada nodo circular representa una neurona artificial y cada flecha representa una conexión desde la salida de una neurona a la entrada de otra.

: Imagen1.png (36.87 KiB) Visto 1542 veces

b. Regresión Lineal de mínimos cuadrados:

La regresión lineal de mínimos cuadrados es una técnica simple y de uso común para estimar la relación entre una variable dependiente o de respuesta, por ejemplo, la intensidad solar, y un conjunto de variables independientes o predictores. La regresión minimiza la suma de las diferencias cuadradas entre la intensidad solar observada y la intensidad solar predicha por una aproximación lineal de las métricas meteorológicas previstas. La aplicación del método de mínimos cuadrados lineales a los ocho meses de datos de entrenamiento produce el modelo de predicción a continuación, con coeficientes para cada métrica.

3. Resultados:
1) Se utilizó solo datos de temperatura. Esto constituye un modelo de red neuronal autorregresiva (AR-NN). La figura muestra los resultados de la predicción del conjunto de prueba utilizando cada uno de los cuatro modelos (de 1, 3, 6 y 12 horas), junto con las medidas de referencia. Hay un cambio repentino en la temperatura medida en el intervalo de tiempo 36 a 42 en el equipo de prueba. Los modelos con horizontes de predicción de 1 y 3 horas muestran una respuesta oscilante a este rápido cambio. Sin embargo, todavía están más cerca de los datos medidos que los modelos con horizontes de predicción más largos. En el tiempo 8 al 20, el modelo de 12 horas es significativamente más pobre que los modelos de 1, 3 y 6 horas. Una razón plausible para esto podría ser que los modelos responden a los datos proporcionados y el modelo de 12 horas usa datos que son 12 horas antes de la medición. Entonces, en el momento 7 el modelo de 12 horas comenzó a aumentar, y en el momento 15 se aplana, probablemente porque el algoritmo usó los datos en el momento 3 y midió que los datos comenzaron a girar, por lo que un modelo de predicción debería “ralentizarse”.

: fig2.png (68.18 KiB) Visto 1542 veces

: fig4.PNG (22.85 KiB) Visto 1542 veces

2) Se verificó la precisión de la predicción utilizando un propio conjunto de datos de prueba para los meses restantes del año. Se observó la validación cruzada RMS-Error y la predicción RMS-Error en la intensidad solar como 165 vatios / m2 y 130 vatios / m2, respectivamente. Se validó de forma cruzada el modelo de regresión con el conjunto de datos de entrenamiento (de enero a agosto) y se verificó su precisión de predicción utilizando el conjunto de datos de prueba (septiembre y octubre). La validación cruzada RMS-Error cuantifica qué tan bien el modelo predice valores en el conjunto de datos de entrenamiento, mientras que la predicción RMS-Error predice qué tan bien el modelo predice valores en el conjunto de datos de prueba. La Fig. 5 muestra la intensidad solar observada y predicha para septiembre y octubre. Como muestra la figura, el modelo rastrea la predicción de la intensidad solar con una precisión razonable, aunque con algunas desviaciones.

: fig3.png (22.1 KiB) Visto 1542 veces

4. Conclusiones:

1) En este trabajo, se utilizan redes neuronales artificiales para predecir la temperatura. Se entrenaron cuatro modelos separados para predecir la temperatura 1, 3, 6 y 12 horas antes. A pesar de que los 4 modelos han predicho muy bien la temperatura, todos los modelos muestran un deterioro significativo en las predicciones cuando la temperatura cambia rápidamente.
2) Los modelos de predicción anteriores para la captación de energía solar se han basado principalmente en el pasado inmediato. Desafortunadamente, estos métodos no pueden predecir los cambios en los patrones climáticos de antemano. Se encuentra que el modelo derivado usando mínimos cuadrados lineales supera a los modelos de predicciones del pasado y a un modelo simple basado en pronósticos de condiciones del cielo de trabajos anteriores y es un área prometedora para aumentar la precisión de la predicción de generación de energía solar, que es esencial para aumentar la fracción de energías renovables en la red. En el futuro, se planea usar este modelo de predicción para adaptar mejor la generación renovable al consumo tanto en hogares inteligentes como en centros de datos que utilizan paneles solares para generar energía.

5. Referencias:
a. https://ieeexplore.ieee.org/abstract/document/6102379
b. https://ep.liu.se/ecp/153/024/ecp18153024.pdf

Kmucching

1. Descripción:
Los seres humanos hacemos uso de nuestros sentidos para poder percibir e interactuar con nuestro medio exterior, siendo uno de ellos el sentido de la visión. Es así que las personas que tienen discapacidades visuales (personas ciegas o “cortas de vista”) presentan muchísimas dificultades para poder desplazarse libremente sin ayuda alguna por las calles e incluso interactuar con cualquier persona o cosa. Así mismo, muchas personas con discapacidad visual, la asistencia juega un papel importante en la participación social. La ausencia de dispositivos de asistencia adecuados para las personas con discapacidad visual las hace demasiado dependientes de sus familiares. Además, es posible que el costo de la rehabilitación no sea asequible para las personas de países de bajos ingresos debido a la falta de empleo. Las tecnologías de asistencia son herramientas poderosas para la rehabilitación, que mejoran el funcionamiento, la participación y la independencia de las personas con discapacidad visual. Debido a ello, se ha realizado investigaciones en el campo de la Inteligencia Artificial que proponen diversas soluciones a este problema, tal como lo muestran los siguientes artículos publicados en la IEEE, proponiendo una solución basada en Smartphone Android, de modo que las personas con discapacidad visual puedan hacer uso de sus teléfonos inteligentes para poder percibir a través de sus celulares los distintos objetos a su alrededor, haciendo uso de las cámaras que estos poseen, y siendo alertados mediante sistemas táctiles, auriculares o altavoces de dichos dispositivos. Estas investigaciones presentan un enfoque que puede funcionar de manera autónoma, o con conexión a internet, pero ambas orientadas a la aplicación del Deep Learning, también conocido como Aprendizaje profundo.

2. Herramientas:
a. SSD (Single Shot Detector):

Existen 2 secciones para un sistema de detección de objetos que utiliza el algoritmo SSD:

● Uno es extraer los mapas de características.
● El segundo es aplicar filtros de convolución para detectar objetos.

Esta herramienta toma un solo disparo para detectar múltiples objetos presentes en una imagen. Es significativamente más rápido en velocidad y es un algoritmo de detección de objetos de alta precisión. Consiste en dividir la imagen usando una cuadrícula y cada celda de la cuadrícula es responsable de detectar objetos en esa región de la imagen. La detección de objetos simplemente significa predecir la clase y ubicación de un objeto dentro de esa región.

: SSD.png (90.88 KiB) Visto 1452 veces

b. CNN (Convolutional Neural Network):

Este es un algoritmo de aprendizaje profundo que puede tomar una imagen de entrada, asignar importancia (pesos y sesgos aprendibles) a varios aspectos / objetos de la imagen y poder diferenciar uno de otro.

Funciona de la siguiente manera: las capas convolucionales aplican un proceso complicado a los datos entrantes, después de lo cual el resultado que se genera se pasa a la siguiente capa. Esta capa de convolución tiene una reacción similar a la neurona humana al proceso de visión. Cada neurona en la convolución usa la información que recibe y procesa la información de la que es responsable. Lo hace agrupando algunas neuronas de una capa. La agrupación local agrupa principalmente a las neuronas en un número reducido, como 2x2. La agrupación global aplica el proceso a cada neurona.

c. Tyflos

Esta herramienta se utiliza para (1) detectar la proximidad y recopilar información de lo que pasa en el entorno, tales como la distancia a la que se encuentra un objeto o captar los sonidos del exterior para procesarlos y (2) un sistema de retroalimentación de audio a sus usuarios sobre los obstáculos.

: Tyflos.png (107.04 KiB) Visto 1452 veces

3. Resultados:
1) Se recopilaron datos de COCO 2014 para varios objetos, incluidas 80 clases. Al principio se utilizó el modelo YOLO entrenado. Consideramos la implementación de YOLO para obtener una visión detallada de cómo se lleva a cabo la detección de objetos en varios modelos. También se probó la implementación de SSD, de la cual se logró una mayor precisión y rendimiento que YOLO. Por lo tanto, se eligió SSD como modelo principal de proyecto. A continuación, se obtuvo un éxito en el desarrollo de un prototipo básico en lenguaje Python y que podía detectar y reconocer objetos usando una cámara web, y también proporcionar salida de voz. Además, este módulo se integró en Android Studio y se generó una apk.

: Resultado2.png (97 KiB) Visto 1452 veces

: Resultado1.png (90.69 KiB) Visto 1452 veces

: Resultado3.png (93.12 KiB) Visto 1452 veces

2) Mediante Tyflos se trabajó en un entorno controlado para detectar las veces en las que las personas con discapacidad visual chocaban contra los obstáculos. Se hizo un experimento comparativo con el “bastón blanco”, que es un bastón tradicional. El entorno interior contenía un total de 15 obstáculos que comprendían 5 obstáculos a la altura de los pies, 5 a la altura de las rodillas y 5 a la altura de la cintura en un área de 777 cm × 296 cm. Según los resultados, los usuarios chocaron más con obstáculos cuando usaron el bastón blanco, mientras que el número de choques con el Tyflos fue menor.

: Resultado4.png (37.49 KiB) Visto 1452 veces

4. Conclusiones:
Hoy en día, las personas con discapacidad visual pueden leer utilizando la escritura Braille, pero todavía les resulta difícil reconocer e interactuar con los objetos domésticos y también en las carreteras. En este proyecto, se desarrolló una aplicación de Android para ayudar a las personas con discapacidad visual que les ayuda a reconocer los objetos que encuentran y les envía un audio de la etiqueta basada en la puntuación de confianza del objeto predicho en el marco.
El uso de estas herramientas tecnológicas, demuestran una gran eficacia frente a las herramientas tradicionales o ausencia de herramientas respecto a los obstáculos u objetos que tienen en frente las personas con discapacidad visual. Sin embargo, estas herramientas tecnológicas no son muy conocidas ni tampoco las personas con discapacidad visual saben utilizarlas. Una vez que los usuarios se acostumbren y aprendan a manejar estas herramientas tecnológicas, podrán gozar de un mejor tránsito y tener menos colisiones.

5. Referencias:
a. https://ieeexplore.ieee.org/abstract/document/9105670
b. https://ieeexplore.ieee.org/abstract/document/8801898

Se encontraron 4 coincidencias

Agrupación de actividades económicas de empleo mediante Cluster

Modelo de Inteligencia Artificial aplicado al bono independiente dado por el MTPE

Sistema de predicción del clima basado en machine learning

Sistema de identificación de objetos basado en inteligencia artificial para ayudar a personas con discapacidad visual