Troomes

Clustering de la población con bono independiente Trabaja Perú

1. Resumen del Trabajo
En este trabajo se busca identificar que grupos se caracterizan bajo cierto tipo de variables en el conjunto de datos de la población con bono independiente Trabaja Peru de los datos abiertos ofrecidos por el MINSA

2. Identificación e interpretación de los atributos de la base de datos
El conjunto de datos es un archivo “.csv” con nombre bono_Independiente_trabajaperu.csv presenta un total de 773291 registros con los siguientes atributos: COD_HOGAR, UBIGEO, DE_DEPARTAMENTO, DE_PROVINCIA, DE_DISTRITO, PERSONAS_HOGAR, MONTO, TIPO_BONO, BONO_COBRADO, FECHA_COBRO, ENTIDAD_COBRO, MEDIO_COBRO, FECHA_ACTUALIZACIÓN

: img1.png (18.36 KiB) Visto 1554 veces

3. Preparación del conjunto de datos
Se ha detectado 5 atributos que no aportan información al conjunto de datos debido a que se distribuyen uniformemente en todo el conjunto de datos, el cuales son: COD_HOGAR, MONTO, TIPO_BONO, ENTIDAD_COBRO, FECHA_ACTUALIZACION

: img2.png (57.21 KiB) Visto 1554 veces

Quedando un total de 8 atributos en total

: img3.png (75.81 KiB) Visto 1554 veces

4. Evaluación de los modelos
Una vez tratado el dataset se evaluará con KNN, probando para k: 2, 3, 4, 5, 6
K = 2

: img4.png (81.23 KiB) Visto 1554 veces

K = 3

: img5.png (82.57 KiB) Visto 1554 veces

K = 4

: img6.png (80.49 KiB) Visto 1554 veces

K = 5

: img7.png (79.38 KiB) Visto 1554 veces

K = 6

: img8.png (78.85 KiB) Visto 1554 veces

5. Conclusión
Se escoge el clustering de K = 3, debido a que se asemeja más a la realidad, un caso visible que no se asemeja a la realidad es cuando el k = 6, el 4to clúster muestra que tiene un centroide en Lima como provincia y departamento, pero como distrito en Cajamarca que esta fuera de la realidad, tal como se muestra en la imagen de abajo, asimismo para otros valores de K, se presentan casos que no se asemejan a la realidad.

: img9.png (10.03 KiB) Visto 1554 veces

Debido a las otras inconsistencias con K distinto a 3 se concluye que el mejor es 3.

: img10.png (36.88 KiB) Visto 1554 veces

DATASET: https://www.datosabiertos.gob.pe/datase ... mpleo-mtpe