ALUMNO: Juan Carlos Cosme López
Curso: Tópicos de Ingeniería de sistemas.
RESUMEN:
Se busca predecir o explicar en un modelo de aprendizaje automático. cuantos pacientes por grupo de edad presentan diagnóstico de morbilidad mediante un conjunto de datos del hospital Nacional arzobispo Loayza. De acuerdo a las variables indicadas en el dataset descargado de la página de https://www.datosabiertos.gob.pe/
DESCRIPCION DATASET
La base de nuestro dataset original sin normalizar nace de la url:
https://www.datosabiertos.gob.pe/datase ... rzobispo-1#{}
con variables:
PERIODO_DIAGNOSTICO
DEPARTAMENTO
PROVINCIA
DISTRITO
UBIGEO
FECHA DE CORTE
SEXO
GRUPOS_POR_EDAD
DIAGNOSTICOS_CIE
CATEGORIA_DIAGNOSTICO
TOTAL_PACIENTES
De la cuales se depuro´ las variables Periodo_Diagnotico y fecha de corte por las fechas incorrectas y el UBIGEO dato innecesario cuya descarga es de: https://www.datosabiertos.gob.pe/node/13944/download
Con respecto al dataset normalizada es decir data depurada se encuentra en el LINK.
https://unipe-my.sharepoint.com/:x:/g/p ... Q?e=lrzUhe
DESCRIPCION RESULTADOS OBTENIDOS CON TECNICAS
1) Limpieza de DATASET

En la imagen se obtiene los valores y datos normalizados mediante la herramienta WEKA
2) Tipo de Problema: Por clasificación
Árbol de decisión: Se uso la opción cross-validation con Folds de 20 (trees j48)

En la imagen se debe de considerar 3 requisitos para un tipo de clasificación
- Instancia correlativa
- TP Rate
- Matrix de confusión
Por lo cual su Instancia correlativa contiene un valor de 6.3348 % de acierto
Con respecto al TP Rate de la variable objetivo de grupo de edades por ejemplo de 1 a 4 años tiene un valor de 0.182
Con respecto a la Matriz de confusión tomando la clasificación de la letra “A” que es “grupo de edades de 1 a 4 años” se observa a continuación:
• 2 son de a = DE 25 A 29 AÑOS
• 2 son de b = MENORES DE 1 AÑO
• 1 son de c = DE 60 A 64 AÑOS
• 1 son de d = DE 35 A 39 AÑOS
• 0 son de e = DE 1 A 4 AÑOS
• 1 son de f = DE 65 AÑOS A MAS
• 2 son de g = DE 45 A 49 AÑOS
• 0 son de h = DE 30 A 34 AÑOS
• 0 son de i = DE 20 A 24 AÑOS
• 1 son de j = DE 50 A 54 AÑOS
• 0 son de k = DE 5 A 9 AÑOS
• 0 son de l = DE 15 A 19 AÑOS
• 3 son de m = DE 10 A 14 AÑOS
• 2 son de n = DE 55 A 59 AÑOS
• 5 son de o = DE 40 A 44 AÑOS
Random Forest: Se uso la opción cross-validation con Folds de 20

En la imagen se debe de considerar 3 requisitos para un tipo de clasificación
- Instancia correlativa
- TP Rate
- Matrix de confusión
Por lo cual su Instancia correlativa contiene un valor de 5.8824% de acierto
Con respecto al TP Rate de la variable objetivo de grupo de edades por ejemplo de 1 a 4 años tiene un valor de 0.000
Con respecto a la Matriz de confusión tomando la clasificación de la letra “A” que es “grupo de edades de 1 a 4 años” se observa a continuación:
• 0 son de a = DE 25 A 29 AÑOS
• 1 son de b = MENORES DE 1 AÑO
• 0 son de c = DE 60 A 64 AÑOS
• 0 son de d = DE 35 A 39 AÑOS
• 0 son de e = DE 1 A 4 AÑOS
• 1 son de f = DE 65 AÑOS A MAS
• 1 son de g = DE 45 A 49 AÑOS
• 0 son de h = DE 30 A 34 AÑOS
• 0 son de i = DE 20 A 24 AÑOS
• 2 son de j = DE 50 A 54 AÑOS
• 0 son de k = DE 5 A 9 AÑOS
• 0 son de l = DE 15 A 19 AÑOS
• 2 son de m = DE 10 A 14 AÑOS
• 1 son de n = DE 55 A 59 AÑOS
• 4 son de o = DE 40 A 44 AÑOS
Redes Neuronales: Se uso la opción cross-validation con Folds de 20

En la imagen se debe de considerar 3 requisitos para un tipo de clasificación
- Instancia correlativa
- TP Rate
- Matrix de confusión
Por lo cual su Instancia correlativa contiene un valor de 8.7481 % de acierto
Con respecto al TP Rate de la variable objetivo de grupo de edades por ejemplo de 1 a 4 años tiene un valor de 0.000
Con respecto a la Matriz de confusión tomando la clasificación de la letra “A” que es “grupo de edades de 1 a 4 años” se observa a continuación:
• 0 son de a = DE 25 A 29 AÑOS
• 0 son de b = MENORES DE 1 AÑO
• 0 son de c = DE 60 A 64 AÑOS
• 0 son de d = DE 35 A 39 AÑOS
• 0 son de e = DE 1 A 4 AÑOS
• 0 son de f = DE 65 AÑOS A MAS
• 0 son de g = DE 45 A 49 AÑOS
• 0 son de h = DE 30 A 34 AÑOS
• 0 son de i = DE 20 A 24 AÑOS
• 0 son de j = DE 50 A 54 AÑOS
• 0 son de k = DE 5 A 9 AÑOS
• 0 son de l = DE 15 A 19 AÑOS
• 0 son de m = DE 10 A 14 AÑOS
• 0 son de n = DE 55 A 59 AÑOS
• 0 son de o = DE 40 A 44 AÑOS
En la imagen se debe de considerar 3 requisitos para un tipo de clasificación
- Instancia correlativa
- TP Rate
- Matrix de confusión
Por lo cual su Instancia correlativa contiene un valor de 8.7481 % de acierto
Con respecto al TP Rate de la variable objetivo de grupo de edades por ejemplo de 1 a 4 años tiene un valor de 0.000
Con respecto a la Matriz de confusión tomando la clasificación de la letra “A” que es “grupo de edades de 1 a 4 años” se observa a continuación:
• 0 son de a = DE 25 A 29 AÑOS
• 0 son de b = MENORES DE 1 AÑO
• 0 son de c = DE 60 A 64 AÑOS
• 0 son de d = DE 35 A 39 AÑOS
• 0 son de e = DE 1 A 4 AÑOS
• 0 son de f = DE 65 AÑOS A MAS
• 0 son de g = DE 45 A 49 AÑOS
• 0 son de h = DE 30 A 34 AÑOS
• 0 son de i = DE 20 A 24 AÑOS
• 0 son de j = DE 50 A 54 AÑOS
• 0 son de k = DE 5 A 9 AÑOS
• 0 son de l = DE 15 A 19 AÑOS
• 0 son de m = DE 10 A 14 AÑOS
• 0 son de n = DE 55 A 59 AÑOS
• 0 son de o = DE 40 A 44 AÑOS
En la imagen se debe de considerar 3 requisitos para un tipo de clasificación
- Instancia correlativa
- TP Rate
- Matrix de confusión
Por lo cual su Instancia correlativa contiene un valor de 8.7481 % de acierto
Con respecto al TP Rate de la variable objetivo de grupo de edades por ejemplo de 1 a 4 años tiene un valor de 0.000
Con respecto a la Matriz de confusión tomando la clasificación de la letra “A” que es “grupo de edades de 1 a 4 años” se observa a continuación:
• 0 son de a = DE 25 A 29 AÑOS
• 0 son de b = MENORES DE 1 AÑO
• 0 son de c = DE 60 A 64 AÑOS
• 0 son de d = DE 35 A 39 AÑOS
• 0 son de e = DE 1 A 4 AÑOS
• 0 son de f = DE 65 AÑOS A MAS
• 0 son de g = DE 45 A 49 AÑOS
• 0 son de h = DE 30 A 34 AÑOS
• 0 son de i = DE 20 A 24 AÑOS
• 0 son de j = DE 50 A 54 AÑOS
• 0 son de k = DE 5 A 9 AÑOS
• 0 son de l = DE 15 A 19 AÑOS
• 0 son de m = DE 10 A 14 AÑOS
• 0 son de n = DE 55 A 59 AÑOS
• 0 son de o = DE 40 A 44 AÑOS
3) DIAGRAMA POR CLASIFICACIÓN
Árbol de decisión:

Redes Neuronales:

4) Tipo de Problema: Por Clustering (SipleKMeans)
Seleccionar la variable objetivo del dataset y eliminarlo en este caso GRUPO por EDADES para hacer la agrupación: aprendizaje no supervisado.

Por lo que quedaría de la siguiente manera:

Escogemos SipleKMeans y agregamos 2 clusters

En lo cual validamos que existe 2 cluster 0 y 1 de las cuales
• Cero significa 49% probabilidad de pacientes con menor morbilidad
• Uno significa 51% probabilidad de pacientes con mayor morbilidad por lo que se tomaría para un alcance mejor es del 51% mas cercano al 100% de predicción.

CONCLUSIÓN:
El mejor modelo con respecto al tipo de clasificación se observa que el algoritmo que nos da mayor seguridad en aciertos es redes neuronales por tener un alto porcentaje de probabilidad de 8.7481 % Correctly Classified Instances y con respecto a TP Rate nos arroja en base al grupo de edades de 1 a 4 años es de 0.00 quiere decir que en ese rango se tiene una clasificación detallada de paciente sin morbilidad y por último la Confusión Matrix con respecto al grupo de edades de 1 a 4 años simbolizada con la unidad “A” son 0 de “A” = DE 1 A 4 AÑOS.
Con respecto al modelo de agrupación de aprendizaje no supervisado se observa 2 clusters de las cuales se tomaría para un alcance mejor es del 51% más cercano al 100% de predicción.
https://unipe-my.sharepoint.com/persona ... ments&ga=1
https://www.flipsnack.com/95F76BFF8D6/w ... pos-d.html