Troomes

willians124uni

Predicción de la causa de la muerte en Perú
Resumen del trabajo:
En el contexto actual de la pandemia, es necesario poder predecir que tipo de personas pueden ser vulnerables por el covid 19, tanto que lo lleve al fallecimiento. En el perú los casos de fallecimiento por covid aumentan desmesuradamente, es por ello importante saber a que personas se debe tener en consideración para realizar los protocolos correspondientes. En este trabajo se utiliza la dataset de la pagina de datos abierto de la PCM, para la predicción de las causas de muerte. Existen 6 posibles causas de muerte y una de ellas es por covid, analizaremos entre estas 6 causas cuál es la causante de muerte, será una predicción Binaria, prescindiremos si la causa de muerte es por COVID(1) y otras enfermedades(0) .Se utilizará modelos de clasificación LightGBM.

Descripción del dataset:
La dataset obtenida tiene el nombre de Información de Fallecidos del Sistema Informático Nacional de Defunciones - SINADEF - [Ministerio de Salud]. obtenido en el siguiente link:
https://www.datosabiertos.gob.pe/datase ... ministerio
Las columnas iniciales del DataSet son las siguientes:

: 2.png (14.49 KiB) Visto 1867 veces

Al analizar la data obtenemos los siguiente resultados, tenemos 13 tipos de seguros y 8 columnas convertidas de una cadena de tiempo a años, dias, meses, horas minutos , sin registro y segundos.

: 1.png (54.96 KiB) Visto 1867 veces

: 4.png (13.22 KiB) Visto 1867 veces

Se realizo Feature Engineering teniendo como columnas finales
Descripción de los resultados con las técnicas usadas
Se utilizo el modelo LightGBM con un K-fold de 5, con métrica AUC y con los siguientes hiperparametros:

: 3.png (9.88 KiB) Visto 1867 veces

Los resultados fueron los siguientes:
K Fold 1

: 6.png (4.72 KiB) Visto 1867 veces

K Fold 2

: 5.png (5.19 KiB) Visto 1867 veces

K Fold 3

: 9.png (4.78 KiB) Visto 1867 veces

K Fold 4

: 8.png (5.33 KiB) Visto 1867 veces

K Fold 5

: 7.png (4.71 KiB) Visto 1867 veces

Media y Desviación estándar

: 10.png (3.66 KiB) Visto 1867 veces

Las 10 variables más importantes:

variable gain_1 gain_2 gain_3 gain_4 gain_5 gain-avg
0 AÑO 485870.741778 484884.107778 486792.896745 486320.515530 487855.059704 486344.664307
1 MES 138319.766388 138441.417628 137380.591886 138590.002064 138098.482009 138166.051995
2 INSTITUCION 101259.758149 103072.145314 102684.936413 103344.371681 104477.538002 102967.749912
3 NIVEL DE INSTRUCCIÓN 43353.296092 42455.676000 44346.336248 43375.953208 42565.098694 43219.272049
4 TIPO LUGAR 38835.113842 39370.297935 40104.633745 39153.058889 39753.629682 39443.346818
5 TIEMPO 32625.203456 33191.512068 33591.301462 33027.910633 34590.001210 33405.185766
6 NECROPSIA 31625.710175 32022.876367 31295.650838 31728.859321 31642.216499 31663.062640
7 DEPARTAMENTO DOMICILIO 21403.562796 21889.510326 21983.249895 23039.293078 23739.975506 22411.118320
8 PROVINCIA DOMICILIO 18587.622044 18040.012477 20005.511141 19675.127608 18607.199447 18983.094543
9 DISTRITO DOMICILIO 8955.239150 9537.085954 10935.093841 10783.521191 11158.283071 10273.844641
10 SEXO 7220.570663 7120.319189 7796.101499 7466.085497 7674.082172 7455.431804

Conclusiones
El modelo utilizado LightGBM vemos que es muy estable en cada K fold,
teniendo como media 96% de AUC y desviación estandar de 0.04 %, concluyendo es un un modelo eficiente.

Se concluye que las variables "AÑO","MES","INSTITUCION","NIVEL DE INSTRUCCIÓN","TIPO LUGAR","TIEMPO","NECROPSIA","DEPARTAMENTO DOMICILIO","PROVINCIA DOMICILIO","DISTRITO DOMICILIO" y "SEXO" son las más importante para identificar si la causa de muertes es por COVID.
Github
https://github.com/willians124/IAA

willians124uni

CLUSTERIZACIÓN DE LA POBLACIÓN PERUANA PARA LOS BONOS INDEPENDIENTES TRABAJA PERÚ, MTPE

1. Resumen del trabajo
En el contexto actual de la pandemia, es necesario entender qué grupos del perú han sido beneficiados por el bono independiente trabaja Perú, esto con la finalidad de destinar los siguientes bonos a personas no beneficiadas y así poder apoyar a todos los peruanos. La dataset que se ha utilizado para realizar el clustering es “Bono independiente” obtenido de la página de la PCM. Se utilizó como herramientas google colab para la limpieza de la data y Weka para el entrenamiento y resultado de los modelos de clusterización, en esta ocasión utilice K-Means.

2. Descripción del Dataset
La dataset fue construida a partir de los padrones de beneficiarios generados por el programa social Trabaja Perú y los reportes de las entidades financieras encargadas de la entrega de bonos a ciudadanos.
La dataset consta de 773291 filas y 13 columnas, donde los tipos de datos de las columnas lo veremos en el python mediante el método info() y veremos algunos valores de la dataset con el método head().

: 5.png (169.22 KiB) Visto 1584 veces

: 5.png (169.22 KiB) Visto 1584 veces

: 5.png (169.22 KiB) Visto 1584 veces

fuente de la dataset: https://www.datosabiertos.gob.pe/datase ... e2749-e07e

3. Descripción de los resultados obtenidos
Se realizó la limpieza de los datos eliminando nulos y columnas no necesarias, como COD_HOGAR, ya que todos los valores eran diferentes, los métodos usados se pueden visualizar en el github.
Luego de la limpieza de los datos nos quedamos con las 8 columnas "UBIGEO","DE_DEPARTAMENTO","DE_PROVINCIA","DE_DISTRITO","PERSONAS_HOGAR","MONTO","BONO_COBRADO","MEDIO_COBRO". Las cuales podemos visualizar en el weka

Utilizamos el modelo de K Means para realizar el proceso de clusterizacipon, con lo cual obtenimos los siguientes resultados:

: 5.png (169.22 KiB) Visto 1584 veces

: 5.png (169.22 KiB) Visto 1584 veces

Hemos obtenido 2 clusteres, a partir de 773291 instancias y 8 atributos, el porcentaje de split utilizado fue de 80%. Como podemos observar uno de los clusters es de Lima del distrito de de SAN JUAN DE LURIGANCHO donde existe 1.8004 personas_hogar y el segundo cluster es Lima de el tambo donde existe 1.6825 persona_hogar.

4. Conclusiones
EL modelo utilizado para la clusterizacion realizó 4 interacciones donde el cluster 0 es del 29% de la data osea 45065 y el cluster 1 es del 71% osea del 109594, y como resultados nos dio la provincia de lima, por lo que podemos concluir que se a otorgado en mayor medida bonos idependientes a personas que residen en Lima, por lo que se debe destimar los siguientes bonos a provincias fuera de lima.

5. Github
https://github.com/willians124/IAA

willians124uni

CLUSTERIZACIÓN DE LA POBLACIÓN PERUANA PARA LOS BONOS INDEPENDIENTES TRABAJA PERÚ, MTPE

1. Resumen del trabajo
En el contexto actual de la pandemia, es necesario entender qué grupos del perú han sido beneficiados por el bono independiente trabaja Perú, esto con la finalidad de destinar los siguientes bonos a personas no beneficiadas y así poder apoyar a todos los peruanos. La dataset que se ha utilizado para realizar el clustering es “Bono independiente” obtenido de la página de la PCM. Se utilizó como herramientas google colab para la limpieza de la data y Weka para el entrenamiento y resultado de los modelos de clusterización, en esta ocasión utilice K-Means.

2. Descripción del Dataset
La dataset fue construida a partir de los padrones de beneficiarios generados por el programa social Trabaja Perú y los reportes de las entidades financieras encargadas de la entrega de bonos a ciudadanos.
La dataset consta de 773291 filas y 13 columnas, donde los tipos de datos de las columnas lo veremos en el python mediante el método info() y veremos algunos valores de la dataset con el método head().

fuente de la dataset: https://www.datosabiertos.gob.pe/datase ... e2749-e07e

3. Descripción de los resultados obtenidos
Se realizó la limpieza de los datos eliminando nulos y columnas no necesarias, como COD_HOGAR, ya que todos los valores eran diferentes, los métodos usados se pueden visualizar en el github.
Luego de la limpieza de los datos nos quedamos con las 8 columnas "UBIGEO","DE_DEPARTAMENTO","DE_PROVINCIA","DE_DISTRITO","PERSONAS_HOGAR","MONTO","BONO_COBRADO","MEDIO_COBRO". Las cuales podemos visualizar en el weka

Utilizamos el modelo de K Means para realizar el proceso de clusterizacipon, con lo cual obtenimos los siguientes resultados:

Hemos obtenido 2 clusteres, a partir de 773291 instancias y 8 atributos, el porcentaje de split utilizado fue de 80%. Como podemos observar uno de los clusters es de Lima del distrito de de SAN JUAN DE LURIGANCHO donde existe 1.8004 personas_hogar y el segundo cluster es Lima de el tambo donde existe 1.6825 persona_hogar.

4. Conclusiones
EL modelo utilizado para la clusterizacion realizó 4 interacciones donde el cluster 0 es del 29% de la data osea 45065 y el cluster 1 es del 71% osea del 109594, y como resultados nos dio la provincia de lima, por lo que podemos concluir que se a otorgado en mayor medida bonos idependientes a personas que residen en Lima, por lo que se debe destimar los siguientes bonos a provincias fuera de lima.

5. Github
https://github.com/willians124/IAA

Se encontraron 3 coincidencias

Predicción de la causa de la muerte en Perú

CLUSTERIZACIÓN DE LA POBLACIÓN PERUANA PARA LOS BONOS INDEPENDIENTES TRABAJA PERÚ, MTPE(CON IMAGENES)

CLUSTERIZACIÓN DE LA POBLACIÓN PERUANA PARA LOS BONOS INDEPENDIENTES TRABAJA PERÚ, MTPE