Temas acerca de Inteligencia Artificial
Foto de Usuario
Kmucching

Ranking Troomes
Mensajes: 4
Registrado: 14 Nov 2020, 14:09

Agrupación de actividades económicas de empleo mediante Cluster

Mensaje por Kmucching » 15 Ene 2021, 21:47

1. Agrupación de actividades económicas de empleo mediante el Cluster


2. Resumen del trabajo

En el presente trabajo se utiliza inteligencia artificial para agrupar las actividades económicas que generan empleo durante la pandemia por la Covid 19 en Perú, se usará datos publicados por el Ministerio de Trabajo y Promoción del Empleo (MTPE). Para ello se usarán metodologías que permitan limpiar el dataset de manera que tenga la data necesaria y crucial para su posterior procesamiento, se agrupará mediante el Cluster SimpleKmeans y luego se va a mostrar los resultados y se concluirá.

3. Descripción del Dataset
  • Data set original: El data set original cuenta con 15 atributos, que son los siguientes:
    • Uibgeo_Ejecutor: Es el código de ubicación geográfica de donde se encuentra el gobierno local o municipalidad
    • Ubigeo_Obra: Es el código de ubicación geográfica de la obra o actividad
    • Nombre_Entidad: Es el nombre del gobierno local o municipalidad
    • Codigo_Actividad: Es el código de reconocimiento de la actividad
    • Tipologia_Actividad: Indica el tipo de actividad realizada
    • Nro_Empleados_Programados: Indica el número de empleados
    • Monto_Total: Indica el costo total de la actividad
    • Monto_L_No_Calificada: Indica el costo total destinado a los participantes
    • Monto_Otros: Indica el costo total por otros rubros o conceptos
    • Fecha_Recibido: Indica la fecha en la que se recibió la ficha técnica
    • Fecha_Elegibilidad: Indica la fecha en la que se declaró como elegible la ficha técnica
    • Fecha_G_Padron: Indica la fecha de generación del padrón
    • Id_Convenio: Indica el código del convenio asignado
    • Fecha_Inicio: Indica la fecha de inicio de la actividad
    • Fecha_Termino: Indica la fecha de término de la actividad

  • Limpieza del dataset
    • Se eliminarán atributos irrelevantes a la hora de la predicción como: Ubigeo_Ejecutor, Ubigeo_Obra, Codigo_Actividad, Fecha_Recibido, Fecha_Elegibilidad, Fecha_G_Padron, Id_Convenio, Fecha_Inicio, Fecha_Termino. Se elimino ambos Ubigeos porque se comprobó que en un 99% son iguales y que corresponden a la misma municipalidad
  • Con esto, el dataset solo se quedaría con 6 atributos y 4461 instancias que nos permitirán agrupar las actividades.
    Figura1.JPG
    Figura1.JPG (33.74 KiB) Visto 142 veces
El dataset original se puede encontrar en el siguiente enlace: https://www.datosabiertos.gob.pe/datase ... del-empleo

4. Descripción de los resultados obtenidos con las técnicas usadas
  • Cluster: KMeans
    KMeans.JPG
    KMeans.JPG (55.83 KiB) Visto 142 veces
    Se puede ver que se han encontrado solo 2 Clusters, ya que solo tiene 4461 instancias. El primer Clúster: 0 hace referencia a la actividad correspondiente a la Limpieza, Mantenimiento y Acondicionamiento de caminos, con un promedio de trabajadores menor a 60 y un costo total mayor a los 100 mil soles. El segundo Clúster: 1 hace referencia a la actividad de Limpieza de cauces en riachuelos, con un promedio de 60 a más trabajadores y un costo total menor a 100 mil soles.
5. Conclusiones
El modelo del SimpleKMeans para Clustering no es tan exacto para este trabajo debido a la baja cantidad de instancias y la gran similitud entre los datos; sin embargo, sí se acerca bastante a la realidad de agrupación de actividades económicas para la generación de empleo debido a la pandemia de la Covid 19. Con un software más sofisticado y un mayor número de instancias, la precisión del Clustering aumentaría significativamente.

6. Ruta Github
En la siguiente ruta de GIthub se puede encontrar el dataset procesado y el archivo .arff https://github.com/Kmucching/ActividadEconomica


Responder