Página 1 de 1

Clasificación de la población receptora de bonos independientes

Publicado: 15 Ene 2021, 20:29
por alexander.contreras
1.Resumen
En este post se creo un modelo de clasificación que permite identificar a un grupo de personas que probablemente cobraran su bono independiente debido a características como lugar de procedencia, ubigeo, personas que viven en su hogar, etc. Con el objetivo de desarrollar el modelo se escogio un dataset de la Plataforma Nacional de Datos abiertos .
2.Descripción del Dataset
Dataset original
https://www.datosabiertos.gob.pe/datase ... mpleo-mtpe
El dataset original está compuesto por un total de 773291 instancias, y presenta los siguientes atributos que corresponden a cod_hogar,ubigeo,de_departamento,de_provincia,de_distrito,personas_hogar,monto,tipo_bono,bono_cobrado,fecha_cobro,entidad_cobro,medio_cobro,fecha_actualizacion y se puede observar a continuación :
dataset_original.jpg
dataset_original.jpg (67.03 KiB) Visto 138 veces
Seleccionamos los atributos relevantes con InfoGainAttributeEval de weka:
information_gain_ahorasi.PNG
information_gain_ahorasi.PNG (21.32 KiB) Visto 122 veces
Eliminanos Monto,Tipo_bono,entidad_cobro ya que no aporta ninguna información.tambien eliminamos medio_cobro y fecha de cobro ya que el objetivo de este modelo es predecir a priori el cobro del bono independiente.
data_procesada.PNG
data_procesada.PNG (13.17 KiB) Visto 122 veces
Podemos observar que el dataset queda con 7 atributos y 773291 instancias
Para balancear la data hacemos uso del downsampling en ambas clases y nos queda la siguiente distribución:
data_balanceada.png
data_balanceada.png (5.82 KiB) Visto 138 veces
La data ha sido balanceada pero las filas están ordenadas según el atributo bono cobrado ,entonces aplicamos el filtro randomize para mezclar aleatoriamente el orden de las instancias
3.Descripción de los resultados con las técnicas usadas
Luego del preprocesamiento, el dataset se sometió a los siguientes modelos:
Árbol de decisión
J48
J48.PNG
J48.PNG (25.98 KiB) Visto 122 veces
Random Forest
RandomForest.PNG
RandomForest.PNG (25.89 KiB) Visto 122 veces
SVM
SVM.PNG
SVM.PNG (25.83 KiB) Visto 122 veces
Redes Bayesianas
Bayesnet.PNG
Bayesnet.PNG (26.22 KiB) Visto 122 veces
4.Conclusiones
En base a los resultados podemos concluir que el mejor modelo obtenido es BayesNet con una precisión del 60.4582% y obteniendo 0.628 para la clase "SI" y 0.582 para la clase "NO". Siendo así los resultados obtenidos no son alentadores ,este modelo no es optimo para la clasificación de cobros de bonos independientes
5.Github
https://gitlab.com/hola5480990/Bonos_Independientes/