Resumen del Trabajo
El propósito de este trabajo es determinar el mejor modelo que se debería utilizar para el dataset de Casos positivos por COVID-19 del MINSA de fecha de 15 de Enero de 2021. Son alrededor de 1048662 de registros almacenados en el archivo que brinda el repositorio de datos del gobierno (https://www.datosabiertos.gob.pe). En este articulo se utiliza el software WEKA y los modelos J48, Random Forest, Redes Bayesianas y SVM.
Descripción del dataset
Los datos corresponden al total de casos que dieron positivo al COVID – 19, por departamento, provincia y distrito. Son datos que se actualizan diariamente, y al momento de la realización de este articulo existen 1048662 registros.
Las columnas del dataset son :
FECHA_CORTE, UUID, DEPARTAMENTO, PROVINCIA, DISTRITO, METODODX, EDAD, SEXO, FECHA_RESULTADO
Eliminando las columnas que no ayudan al modelo: FECHA_CORTE, UUID, PROVINCIA, DISTRITO y FECHA_RESULTADO.
Descripción de los datos obtenidos
Aplicando el modelo J48 se obtiene:
Aplicando el modelo Random Forest se obtiene:
Aplicando el modelo de Redes Bayesianas se obtiene:
Conclusión
Según los resultados obtenidos anteriormente se puede concluir que el mejor modelo para este dataset es el J48 con una precisión del 53.7818%, sin embargo los otros modelos utilizados tienen un porcentaje de clasificación muy parecido.