Temas acerca de Inteligencia Artificial
Foto de Usuario
alexander.contreras

Ranking Troomes
Mensajes: 4
Registrado: 07 Sep 2020, 23:05

Clasificación de la población receptora de bonos independientes

Mensaje por alexander.contreras » 15 Ene 2021, 20:29

1.Resumen
En este post se creo un modelo de clasificación que permite identificar a un grupo de personas que probablemente cobraran su bono independiente debido a características como lugar de procedencia, ubigeo, personas que viven en su hogar, etc. Con el objetivo de desarrollar el modelo se escogio un dataset de la Plataforma Nacional de Datos abiertos .
2.Descripción del Dataset
Dataset original
https://www.datosabiertos.gob.pe/datase ... mpleo-mtpe
El dataset original está compuesto por un total de 773291 instancias, y presenta los siguientes atributos que corresponden a cod_hogar,ubigeo,de_departamento,de_provincia,de_distrito,personas_hogar,monto,tipo_bono,bono_cobrado,fecha_cobro,entidad_cobro,medio_cobro,fecha_actualizacion y se puede observar a continuación :
dataset_original.jpg
dataset_original.jpg (67.03 KiB) Visto 136 veces
Seleccionamos los atributos relevantes con InfoGainAttributeEval de weka:
information_gain_ahorasi.PNG
information_gain_ahorasi.PNG (21.29 KiB) Visto 120 veces
Eliminanos Monto,Tipo_bono,entidad_cobro ya que no aporta ninguna información.tambien eliminamos medio_cobro y fecha de cobro ya que el objetivo de este modelo es predecir a priori el cobro del bono independiente.
data_procesada.PNG
data_procesada.PNG (13.17 KiB) Visto 120 veces
Podemos observar que el dataset queda con 7 atributos y 773291 instancias
Para balancear la data hacemos uso del downsampling en ambas clases y nos queda la siguiente distribución:
data_balanceada.png
data_balanceada.png (5.82 KiB) Visto 136 veces
La data ha sido balanceada pero las filas están ordenadas según el atributo bono cobrado ,entonces aplicamos el filtro randomize para mezclar aleatoriamente el orden de las instancias
3.Descripción de los resultados con las técnicas usadas
Luego del preprocesamiento, el dataset se sometió a los siguientes modelos:
Árbol de decisión
J48
J48.PNG
J48.PNG (25.98 KiB) Visto 120 veces
Random Forest
RandomForest.PNG
RandomForest.PNG (25.89 KiB) Visto 120 veces
SVM
SVM.PNG
SVM.PNG (25.83 KiB) Visto 120 veces
Redes Bayesianas
Bayesnet.PNG
Bayesnet.PNG (26.22 KiB) Visto 120 veces
4.Conclusiones
En base a los resultados podemos concluir que el mejor modelo obtenido es BayesNet con una precisión del 60.4582% y obteniendo 0.628 para la clase "SI" y 0.582 para la clase "NO". Siendo así los resultados obtenidos no son alentadores ,este modelo no es optimo para la clasificación de cobros de bonos independientes
5.Github
https://gitlab.com/hola5480990/Bonos_Independientes/


Responder