Predicción de la causa de la muerte en Perú
Resumen del trabajo:
En el contexto actual de la pandemia, es necesario poder predecir que tipo de personas pueden ser vulnerables por el covid 19, tanto que lo lleve al fallecimiento. En el perú los casos de fallecimiento por covid aumentan desmesuradamente, es por ello importante saber a que personas se debe tener en consideración para realizar los protocolos correspondientes. En este trabajo se utiliza la dataset de la pagina de datos abierto de la PCM, para la predicción de las causas de muerte. Existen 6 posibles causas de muerte y una de ellas es por covid, analizaremos entre estas 6 causas cuál es la causante de muerte, será una predicción Binaria, prescindiremos si la causa de muerte es por COVID(1) y otras enfermedades(0) .Se utilizará modelos de clasificación LightGBM.
 
Descripción del dataset:
La dataset obtenida tiene el nombre de Información de Fallecidos del Sistema Informático Nacional de Defunciones - SINADEF - [Ministerio de Salud]. obtenido en el siguiente link:
https://www.datosabiertos.gob.pe/datase ... ministerio
Las columnas iniciales del DataSet son las siguientes:
 
Al analizar la data obtenemos los siguiente resultados, tenemos 13 tipos de seguros y 8 columnas convertidas de una cadena de tiempo a años, dias, meses, horas minutos , sin registro y segundos.
 
Se realizo Feature Engineering teniendo como columnas finales 
Descripción de los resultados con las técnicas usadas
Se utilizo el modelo LightGBM  con un K-fold de 5, con métrica AUC y con los siguientes hiperparametros:
 
Los resultados fueron los siguientes:
K Fold 1
K Fold 2
K Fold 3
K Fold 4
K Fold 5
Media y Desviación estándar
Las 10 variables más importantes:
 variable	gain_1	gain_2	gain_3	gain_4	gain_5	gain-avg
0	AÑO	485870.741778	484884.107778	486792.896745	486320.515530	487855.059704	486344.664307
1	MES	138319.766388	138441.417628	137380.591886	138590.002064	138098.482009	138166.051995
2	INSTITUCION	101259.758149	103072.145314	102684.936413	103344.371681	104477.538002	102967.749912
3	NIVEL DE INSTRUCCIÓN	43353.296092	42455.676000	44346.336248	43375.953208	42565.098694	43219.272049
4	TIPO LUGAR	38835.113842	39370.297935	40104.633745	39153.058889	39753.629682	39443.346818
5	TIEMPO	32625.203456	33191.512068	33591.301462	33027.910633	34590.001210	33405.185766
6	NECROPSIA	31625.710175	32022.876367	31295.650838	31728.859321	31642.216499	31663.062640
7	DEPARTAMENTO DOMICILIO	21403.562796	21889.510326	21983.249895	23039.293078	23739.975506	22411.118320
8	PROVINCIA DOMICILIO	18587.622044	18040.012477	20005.511141	19675.127608	18607.199447	18983.094543
9	DISTRITO DOMICILIO	8955.239150	9537.085954	10935.093841	10783.521191	11158.283071	10273.844641
10	SEXO	7220.570663	7120.319189	7796.101499	7466.085497	7674.082172	7455.431804
Conclusiones
El modelo utilizado LightGBM vemos que es muy estable en cada K fold,
teniendo como media 96% de AUC y desviación estandar de  0.04 %, concluyendo es un un modelo eficiente.
Se concluye que las variables "AÑO","MES","INSTITUCION","NIVEL DE INSTRUCCIÓN","TIPO LUGAR","TIEMPO","NECROPSIA","DEPARTAMENTO DOMICILIO","PROVINCIA DOMICILIO","DISTRITO DOMICILIO" y "SEXO" son las  más importante para identificar si la causa de muertes es por COVID.
Github
https://github.com/willians124/IAA
			
			
									
									Predicción de la causa de la muerte en Perú
- willians124uni
 
- Mensajes: 3
 - Registrado: 13 Ago 2020, 16:22