Clustering de la población con bono independiente Trabaja Perú
Publicado: 15 Ene 2021, 09:35
Clustering de la población con bono independiente Trabaja Perú
1. Resumen del Trabajo
En este trabajo se busca identificar que grupos se caracterizan bajo cierto tipo de variables en el conjunto de datos de la población con bono independiente Trabaja Peru de los datos abiertos ofrecidos por el MINSA
2. Identificación e interpretación de los atributos de la base de datos
El conjunto de datos es un archivo “.csv” con nombre bono_Independiente_trabajaperu.csv presenta un total de 773291 registros con los siguientes atributos: COD_HOGAR, UBIGEO, DE_DEPARTAMENTO, DE_PROVINCIA, DE_DISTRITO, PERSONAS_HOGAR, MONTO, TIPO_BONO, BONO_COBRADO, FECHA_COBRO, ENTIDAD_COBRO, MEDIO_COBRO, FECHA_ACTUALIZACIÓN
3. Preparación del conjunto de datos
Se ha detectado 5 atributos que no aportan información al conjunto de datos debido a que se distribuyen uniformemente en todo el conjunto de datos, el cuales son: COD_HOGAR, MONTO, TIPO_BONO, ENTIDAD_COBRO, FECHA_ACTUALIZACION Quedando un total de 8 atributos en total 4. Evaluación de los modelos
Una vez tratado el dataset se evaluará con KNN, probando para k: 2, 3, 4, 5, 6
K = 2 K = 3 K = 4 K = 5 K = 6 5. Conclusión
Se escoge el clustering de K = 3, debido a que se asemeja más a la realidad, un caso visible que no se asemeja a la realidad es cuando el k = 6, el 4to clúster muestra que tiene un centroide en Lima como provincia y departamento, pero como distrito en Cajamarca que esta fuera de la realidad, tal como se muestra en la imagen de abajo, asimismo para otros valores de K, se presentan casos que no se asemejan a la realidad. Debido a las otras inconsistencias con K distinto a 3 se concluye que el mejor es 3.
DATASET: https://www.datosabiertos.gob.pe/datase ... mpleo-mtpe