Predicción de la causa de la muerte en Perú
Resumen del trabajo:
En el contexto actual de la pandemia, es necesario poder predecir que tipo de personas pueden ser vulnerables por el covid 19, tanto que lo lleve al fallecimiento. En el perú los casos de fallecimiento por covid aumentan desmesuradamente, es por ello importante saber a que personas se debe tener en consideración para realizar los protocolos correspondientes. En este trabajo se utiliza la dataset de la pagina de datos abierto de la PCM, para la predicción de las causas de muerte. Existen 6 posibles causas de muerte y una de ellas es por covid, analizaremos entre estas 6 causas cuál es la causante de muerte, será una predicción Binaria, prescindiremos si la causa de muerte es por COVID(1) y otras enfermedades(0) .Se utilizará modelos de clasificación LightGBM.
 
Descripción del dataset:
La dataset obtenida tiene el nombre de Información de Fallecidos del Sistema Informático Nacional de Defunciones - SINADEF - [Ministerio de Salud]. obtenido en el siguiente link:
https://www.datosabiertos.gob.pe/datase ... ministerio
Las columnas iniciales del DataSet son las siguientes:
 
Al analizar la data obtenemos los siguiente resultados, tenemos 13 tipos de seguros y 8 columnas convertidas de una cadena de tiempo a años, dias, meses, horas minutos , sin registro y segundos.
 
Se realizo Feature Engineering teniendo como columnas finales 
Descripción de los resultados con las técnicas usadas
Se utilizo el modelo LightGBM  con un K-fold de 5, con métrica AUC y con los siguientes hiperparametros:
 
Los resultados fueron los siguientes:
K Fold 1
K Fold 2
K Fold 3
K Fold 4
K Fold 5
Media y Desviación estándar
Las 10 variables más importantes:
 variable	gain_1	gain_2	gain_3	gain_4	gain_5	gain-avg
0	AÑO	485870.741778	484884.107778	486792.896745	486320.515530	487855.059704	486344.664307
1	MES	138319.766388	138441.417628	137380.591886	138590.002064	138098.482009	138166.051995
2	INSTITUCION	101259.758149	103072.145314	102684.936413	103344.371681	104477.538002	102967.749912
3	NIVEL DE INSTRUCCIÓN	43353.296092	42455.676000	44346.336248	43375.953208	42565.098694	43219.272049
4	TIPO LUGAR	38835.113842	39370.297935	40104.633745	39153.058889	39753.629682	39443.346818
5	TIEMPO	32625.203456	33191.512068	33591.301462	33027.910633	34590.001210	33405.185766
6	NECROPSIA	31625.710175	32022.876367	31295.650838	31728.859321	31642.216499	31663.062640
7	DEPARTAMENTO DOMICILIO	21403.562796	21889.510326	21983.249895	23039.293078	23739.975506	22411.118320
8	PROVINCIA DOMICILIO	18587.622044	18040.012477	20005.511141	19675.127608	18607.199447	18983.094543
9	DISTRITO DOMICILIO	8955.239150	9537.085954	10935.093841	10783.521191	11158.283071	10273.844641
10	SEXO	7220.570663	7120.319189	7796.101499	7466.085497	7674.082172	7455.431804
Conclusiones
El modelo utilizado LightGBM vemos que es muy estable en cada K fold,
teniendo como media 96% de AUC y desviación estandar de  0.04 %, concluyendo es un un modelo eficiente.
Se concluye que las variables "AÑO","MES","INSTITUCION","NIVEL DE INSTRUCCIÓN","TIPO LUGAR","TIEMPO","NECROPSIA","DEPARTAMENTO DOMICILIO","PROVINCIA DOMICILIO","DISTRITO DOMICILIO" y "SEXO" son las  más importante para identificar si la causa de muertes es por COVID.
Github
https://github.com/willians124/IAA
					Se encontraron 3 coincidencias
- 16 Ene 2021, 01:12
 - Foros: Inteligencia Artificial
 - Tema: Predicción de la causa de la muerte en Perú
 - Respuestas: 0
 - Vistas: 1771
 
- 15 Ene 2021, 21:58
 - Foros: Inteligencia Artificial
 - Tema: CLUSTERIZACIÓN DE LA POBLACIÓN PERUANA PARA LOS BONOS INDEPENDIENTES TRABAJA PERÚ, MTPE(CON IMAGENES)
 - Respuestas: 0
 - Vistas: 1513
 
CLUSTERIZACIÓN DE LA POBLACIÓN PERUANA PARA LOS BONOS INDEPENDIENTES TRABAJA PERÚ, MTPE(CON IMAGENES)
CLUSTERIZACIÓN DE LA POBLACIÓN PERUANA PARA LOS BONOS INDEPENDIENTES TRABAJA PERÚ, MTPE
1. Resumen del trabajo
En el contexto actual de la pandemia, es necesario entender qué grupos del perú han sido beneficiados por el bono independiente trabaja Perú, esto con la finalidad de destinar los siguientes bonos a personas no beneficiadas y así poder apoyar a todos los peruanos. La dataset que se ha utilizado para realizar el clustering es “Bono independiente” obtenido de la página de la PCM. Se utilizó como herramientas google colab para la limpieza de la data y Weka para el entrenamiento y resultado de los modelos de clusterización, en esta ocasión utilice K-Means.
2. Descripción del Dataset
La dataset fue construida a partir de los padrones de beneficiarios generados por el programa social Trabaja Perú y los reportes de las entidades financieras encargadas de la entrega de bonos a ciudadanos.
La dataset consta de 773291 filas y 13 columnas, donde los tipos de datos de las columnas lo veremos en el python mediante el método info() y veremos algunos valores de la dataset con el método head().
 
 
fuente de la dataset: https://www.datosabiertos.gob.pe/datase ... e2749-e07e
3. Descripción de los resultados obtenidos
Se realizó la limpieza de los datos eliminando nulos y columnas no necesarias, como COD_HOGAR, ya que todos los valores eran diferentes, los métodos usados se pueden visualizar en el github.
Luego de la limpieza de los datos nos quedamos con las 8 columnas "UBIGEO","DE_DEPARTAMENTO","DE_PROVINCIA","DE_DISTRITO","PERSONAS_HOGAR","MONTO","BONO_COBRADO","MEDIO_COBRO". Las cuales podemos visualizar en el weka
 
Utilizamos el modelo de K Means para realizar el proceso de clusterizacipon, con lo cual obtenimos los siguientes resultados:
 
 
Hemos obtenido 2 clusteres, a partir de 773291 instancias y 8 atributos, el porcentaje de split utilizado fue de 80%. Como podemos observar uno de los clusters es de Lima del distrito de de SAN JUAN DE LURIGANCHO donde existe 1.8004 personas_hogar y el segundo cluster es Lima de el tambo donde existe 1.6825 persona_hogar.
4. Conclusiones
EL modelo utilizado para la clusterizacion realizó 4 interacciones donde el cluster 0 es del 29% de la data osea 45065 y el cluster 1 es del 71% osea del 109594, y como resultados nos dio la provincia de lima, por lo que podemos concluir que se a otorgado en mayor medida bonos idependientes a personas que residen en Lima, por lo que se debe destimar los siguientes bonos a provincias fuera de lima.
5. Github
https://github.com/willians124/IAA
					1. Resumen del trabajo
En el contexto actual de la pandemia, es necesario entender qué grupos del perú han sido beneficiados por el bono independiente trabaja Perú, esto con la finalidad de destinar los siguientes bonos a personas no beneficiadas y así poder apoyar a todos los peruanos. La dataset que se ha utilizado para realizar el clustering es “Bono independiente” obtenido de la página de la PCM. Se utilizó como herramientas google colab para la limpieza de la data y Weka para el entrenamiento y resultado de los modelos de clusterización, en esta ocasión utilice K-Means.
2. Descripción del Dataset
La dataset fue construida a partir de los padrones de beneficiarios generados por el programa social Trabaja Perú y los reportes de las entidades financieras encargadas de la entrega de bonos a ciudadanos.
La dataset consta de 773291 filas y 13 columnas, donde los tipos de datos de las columnas lo veremos en el python mediante el método info() y veremos algunos valores de la dataset con el método head().
fuente de la dataset: https://www.datosabiertos.gob.pe/datase ... e2749-e07e
3. Descripción de los resultados obtenidos
Se realizó la limpieza de los datos eliminando nulos y columnas no necesarias, como COD_HOGAR, ya que todos los valores eran diferentes, los métodos usados se pueden visualizar en el github.
Luego de la limpieza de los datos nos quedamos con las 8 columnas "UBIGEO","DE_DEPARTAMENTO","DE_PROVINCIA","DE_DISTRITO","PERSONAS_HOGAR","MONTO","BONO_COBRADO","MEDIO_COBRO". Las cuales podemos visualizar en el weka
Utilizamos el modelo de K Means para realizar el proceso de clusterizacipon, con lo cual obtenimos los siguientes resultados:
Hemos obtenido 2 clusteres, a partir de 773291 instancias y 8 atributos, el porcentaje de split utilizado fue de 80%. Como podemos observar uno de los clusters es de Lima del distrito de de SAN JUAN DE LURIGANCHO donde existe 1.8004 personas_hogar y el segundo cluster es Lima de el tambo donde existe 1.6825 persona_hogar.
4. Conclusiones
EL modelo utilizado para la clusterizacion realizó 4 interacciones donde el cluster 0 es del 29% de la data osea 45065 y el cluster 1 es del 71% osea del 109594, y como resultados nos dio la provincia de lima, por lo que podemos concluir que se a otorgado en mayor medida bonos idependientes a personas que residen en Lima, por lo que se debe destimar los siguientes bonos a provincias fuera de lima.
5. Github
https://github.com/willians124/IAA
- 15 Ene 2021, 21:47
 - Foros: Inteligencia Artificial
 - Tema: CLUSTERIZACIÓN DE LA POBLACIÓN PERUANA PARA LOS BONOS INDEPENDIENTES TRABAJA PERÚ, MTPE
 - Respuestas: 0
 - Vistas: 1451
 
CLUSTERIZACIÓN DE LA POBLACIÓN PERUANA PARA LOS BONOS INDEPENDIENTES TRABAJA PERÚ, MTPE
CLUSTERIZACIÓN DE LA POBLACIÓN PERUANA PARA LOS BONOS INDEPENDIENTES TRABAJA PERÚ, MTPE
 
1. Resumen del trabajo
En el contexto actual de la pandemia, es necesario entender qué grupos del perú han sido beneficiados por el bono independiente trabaja Perú, esto con la finalidad de destinar los siguientes bonos a personas no beneficiadas y así poder apoyar a todos los peruanos. La dataset que se ha utilizado para realizar el clustering es “Bono independiente” obtenido de la página de la PCM. Se utilizó como herramientas google colab para la limpieza de la data y Weka para el entrenamiento y resultado de los modelos de clusterización, en esta ocasión utilice K-Means.
 
2. Descripción del Dataset
La dataset fue construida a partir de los padrones de beneficiarios generados por el programa social Trabaja Perú y los reportes de las entidades financieras encargadas de la entrega de bonos a ciudadanos.
La dataset consta de 773291 filas y 13 columnas, donde los tipos de datos de las columnas lo veremos en el python mediante el método info() y veremos algunos valores de la dataset con el método head().
 
fuente de la dataset: https://www.datosabiertos.gob.pe/datase ... e2749-e07e
 
3. Descripción de los resultados obtenidos
Se realizó la limpieza de los datos eliminando nulos y columnas no necesarias, como COD_HOGAR, ya que todos los valores eran diferentes, los métodos usados se pueden visualizar en el github.
Luego de la limpieza de los datos nos quedamos con las 8 columnas "UBIGEO","DE_DEPARTAMENTO","DE_PROVINCIA","DE_DISTRITO","PERSONAS_HOGAR","MONTO","BONO_COBRADO","MEDIO_COBRO". Las cuales podemos visualizar en el weka
 
 
 
 
Utilizamos el modelo de K Means para realizar el proceso de clusterizacipon, con lo cual obtenimos los siguientes resultados:
 
Hemos obtenido 2 clusteres, a partir de 773291 instancias y 8 atributos, el porcentaje de split utilizado fue de 80%. Como podemos observar uno de los clusters es de Lima del distrito de de SAN JUAN DE LURIGANCHO donde existe 1.8004 personas_hogar y el segundo cluster es Lima de el tambo donde existe 1.6825 persona_hogar.
 
4. Conclusiones
EL modelo utilizado para la clusterizacion realizó 4 interacciones donde el cluster 0 es del 29% de la data osea 45065 y el cluster 1 es del 71% osea del 109594, y como resultados nos dio la provincia de lima, por lo que podemos concluir que se a otorgado en mayor medida bonos idependientes a personas que residen en Lima, por lo que se debe destimar los siguientes bonos a provincias fuera de lima.
 
5. Github
https://github.com/willians124/IAA
					1. Resumen del trabajo
En el contexto actual de la pandemia, es necesario entender qué grupos del perú han sido beneficiados por el bono independiente trabaja Perú, esto con la finalidad de destinar los siguientes bonos a personas no beneficiadas y así poder apoyar a todos los peruanos. La dataset que se ha utilizado para realizar el clustering es “Bono independiente” obtenido de la página de la PCM. Se utilizó como herramientas google colab para la limpieza de la data y Weka para el entrenamiento y resultado de los modelos de clusterización, en esta ocasión utilice K-Means.
2. Descripción del Dataset
La dataset fue construida a partir de los padrones de beneficiarios generados por el programa social Trabaja Perú y los reportes de las entidades financieras encargadas de la entrega de bonos a ciudadanos.
La dataset consta de 773291 filas y 13 columnas, donde los tipos de datos de las columnas lo veremos en el python mediante el método info() y veremos algunos valores de la dataset con el método head().
fuente de la dataset: https://www.datosabiertos.gob.pe/datase ... e2749-e07e
3. Descripción de los resultados obtenidos
Se realizó la limpieza de los datos eliminando nulos y columnas no necesarias, como COD_HOGAR, ya que todos los valores eran diferentes, los métodos usados se pueden visualizar en el github.
Luego de la limpieza de los datos nos quedamos con las 8 columnas "UBIGEO","DE_DEPARTAMENTO","DE_PROVINCIA","DE_DISTRITO","PERSONAS_HOGAR","MONTO","BONO_COBRADO","MEDIO_COBRO". Las cuales podemos visualizar en el weka
Utilizamos el modelo de K Means para realizar el proceso de clusterizacipon, con lo cual obtenimos los siguientes resultados:
Hemos obtenido 2 clusteres, a partir de 773291 instancias y 8 atributos, el porcentaje de split utilizado fue de 80%. Como podemos observar uno de los clusters es de Lima del distrito de de SAN JUAN DE LURIGANCHO donde existe 1.8004 personas_hogar y el segundo cluster es Lima de el tambo donde existe 1.6825 persona_hogar.
4. Conclusiones
EL modelo utilizado para la clusterizacion realizó 4 interacciones donde el cluster 0 es del 29% de la data osea 45065 y el cluster 1 es del 71% osea del 109594, y como resultados nos dio la provincia de lima, por lo que podemos concluir que se a otorgado en mayor medida bonos idependientes a personas que residen en Lima, por lo que se debe destimar los siguientes bonos a provincias fuera de lima.
5. Github
https://github.com/willians124/IAA