Temas acerca de Inteligencia Artificial
Foto de Usuario
hans1801

Ranking Troomes
Mensajes: 4
Registrado: 14 Nov 2020, 14:35
Contactar:

Clustering de la población con bono independiente Trabaja Perú

Mensaje por hans1801 » 15 Ene 2021, 09:35

Clustering de la población con bono independiente Trabaja Perú


1. Resumen del Trabajo
En este trabajo se busca identificar que grupos se caracterizan bajo cierto tipo de variables en el conjunto de datos de la población con bono independiente Trabaja Peru de los datos abiertos ofrecidos por el MINSA

2. Identificación e interpretación de los atributos de la base de datos
El conjunto de datos es un archivo “.csv” con nombre bono_Independiente_trabajaperu.csv presenta un total de 773291 registros con los siguientes atributos: COD_HOGAR, UBIGEO, DE_DEPARTAMENTO, DE_PROVINCIA, DE_DISTRITO, PERSONAS_HOGAR, MONTO, TIPO_BONO, BONO_COBRADO, FECHA_COBRO, ENTIDAD_COBRO, MEDIO_COBRO, FECHA_ACTUALIZACIÓN
img1.png
img1.png (18.36 KiB) Visto 155 veces
3. Preparación del conjunto de datos
Se ha detectado 5 atributos que no aportan información al conjunto de datos debido a que se distribuyen uniformemente en todo el conjunto de datos, el cuales son: COD_HOGAR, MONTO, TIPO_BONO, ENTIDAD_COBRO, FECHA_ACTUALIZACION
img2.png
img2.png (57.21 KiB) Visto 155 veces
Quedando un total de 8 atributos en total
img3.png
img3.png (75.81 KiB) Visto 155 veces
4. Evaluación de los modelos
Una vez tratado el dataset se evaluará con KNN, probando para k: 2, 3, 4, 5, 6
K = 2
img4.png
img4.png (81.23 KiB) Visto 155 veces
K = 3
img5.png
img5.png (82.57 KiB) Visto 155 veces
K = 4
img6.png
img6.png (80.49 KiB) Visto 155 veces
K = 5
img7.png
img7.png (79.38 KiB) Visto 155 veces
K = 6
img8.png
img8.png (78.85 KiB) Visto 155 veces
5. Conclusión
Se escoge el clustering de K = 3, debido a que se asemeja más a la realidad, un caso visible que no se asemeja a la realidad es cuando el k = 6, el 4to clúster muestra que tiene un centroide en Lima como provincia y departamento, pero como distrito en Cajamarca que esta fuera de la realidad, tal como se muestra en la imagen de abajo, asimismo para otros valores de K, se presentan casos que no se asemejan a la realidad.
img9.png
img9.png (10.03 KiB) Visto 155 veces
Debido a las otras inconsistencias con K distinto a 3 se concluye que el mejor es 3.
img10.png
img10.png (36.88 KiB) Visto 155 veces

DATASET: https://www.datosabiertos.gob.pe/datase ... mpleo-mtpe


Responder