Troomes

AugustoChoy

Tema: Predicción de la evolución de colonias de la bacteria Ralstonia mediante algoritmos de aprendizaje automatizado

Integrantes:
- Felipe de Mendiburu Delgado
- Juan Pablo Mansilla López
- Augusto Carlos Choy Pun

Resumen:
Se formula diferentes modelos de aprendizaje supervisado para estimar mediante árboles de regresión (en Weka Reg Tree, SMOReg, DecisionStump, y en Python: Decision Regress Tree y Random Forest) la evolución de la población de la bacteria Ralstonia solanacearum que produce la enfermedad de la marchitez bacteriana en cultivos de la especie solanacea. Se utilizaron muestras de suelo de diferentes regiones del Perú (Costa, Sierra y Selva). Para el estudio se utilizaron 19 elementos físico-químicos del suelo y se observó la dinámica de la bacteria durante el desarrollo del cultivo de tomate.

AugustoChoy

Título:
“Algoritmo de ‘Clustering’ Para Determinar los ‘Clusters’ que se Obtienen de los Datos de Síntomas y Enfermedades de Pacientes Fallecidos con Posibilidad de COVID19.”

Resumen:
El algoritmo de “clustering” ha sido ejecutado en la Certificado de Defunciones en datos abiertos del gobierno del Perú. En el trabajo se utilizó RandomTree para establecer el árbol de decisión que se utiliza en la tabla, luego se procesó con el algoritmo de K-Means para 2, 3 y 4 “clusters” a fin de visualizar la relación entre los síntomas y enfermedades con las causas de fallecimiento de estos pacientes.

Descripción de los datos originales
Los datos fueron obtenidos del siguiente enlace de datos abiertos del Gobierno del Perú: https://www.datosabiertos.gob.pe/datase ... efunciones el archivo se llama TB_SINADEF.csv y su estructura es como sigue:
Los atributos de los datos son como sigue: id_persona – correlativo entero, tipo-seguro – tipo de seguro del fallecido, sexo - M para masculino, F para femenino, edad – número entero que puede estar en años u otra unidad, tiempo-edad – las unidades usadas en la edad, estado-civil – casado, soltero viudo, divorciado o conviviente, nivel-de-instrucción – iñetradp, básico, primario, secundario superior, ténico completo o no completo, cod-ubigeo-domicilio - código de ubigeo del lugar de residencia del fallecido, país-domicilio – país de origen, departemento-domicilio, provincia-domicilio, distrito-domicilio, fecha – fecha de defunción, año, mes, tipo-lugar – lugar de defunción, institución – institución de defunción, muerte-violenta – si murió violentamente, necropsia – si hubo o no necropsia, sigue una lista de 6 síntomas o enfermedades cada una con dos campos desde la A a la F dos atributos por cada grupo: debido-a y causa - un código de la causa y una descripción de la enfermedad. Debido a la cantidad de datos y que no corría fácilmente, se eliminaron las columnas que no ayudaban al clustering y se trabajaron los códigos en el orden en el que se encontraron, pero debido a que las enfermedades y síntomas ocurrían en cualquier orden los que cargaron los datos no ponían los síntomas en un mismo orden podían aparecer en cualquiera de los 6 grupos de síntoma/enfermedad. Las corridas no conducían a conclusión alguna.
Para que el trabajo tuviera más sentido, se seleccionaron las enfermedades/síntomas de mayor incidencia y se creó una columna para cada síntoma y se puso 1 en el caso que existiera el síntoma o enfermedad en el paciente y cero en el caso contrario. Con estos datos se realizó en análisis con K-Means de 2, 3 y 4 agrupaciones. De esta manera los resultados llegaron a dar más luz sobre la situación a analizar.

Descripción de los resultados con las técnicas utilizadas
Con estos datos así organizados se procesó primero con REPTree para reconocer la importancia de los atributos en un árbol de decisión y de esta manera tener una mejor comprensión sobre los datos.
Seguidamente se tomaron los mismos datos para su procesamiento en k-Mean para 2, 3 y 4 clusters. Los resultados obtenidos por ambos algoritmos hicieron más clara la organización de los datos como se explica a continuación.

Descripción de los resultados con las técnicas utilizadas
La corrida con REPTree dio más importancia al síntoma U071 (el paciente no tuvo COVID19 confirmado) en el primer subárbol el síntoma más importante fue el B972 (que el paciente no tiene otros síntomas realcionados con el Coronavirus y luego el B342 (que el paciente no tuvo infección debida al coronavirus). Por otro lado, el árbol se trunca en el otro ramal una vez que U071 es 1 (se confirmó el COVID19) los demás síntomas se vuelven irrelevantes. El coeficiente de correlación es 0.979 y el error absoluto medio es de 0.012, lo cual indica que el modelo está trabajando bien.
En la corrida con K-Means para 2 clusters, vemos que dividió las muestras en 35% para el cluster 0 y 65% para el 1, El atributo diferenciador entre los dos conglomerados es el J960 (Insuficiencia Respiratoria Aguda), el cluster 0 tiene valor 0, es decir, sin insuficiencia respiratoria, y el cluster 1 tiene el 1 o con insuficiencia.
Debemos resaltar que los síntomas E108 (diabetes mielitus), E43X (desnutrición calórica severa), G936 (hipertensión intracraneana), J151 (neumonía por pseudomona), J961 ( insuficiencia respiratoria refractaria), J989 (insuficiencia respiratoria aguda), K566 (obstrucción intestinal), K729 (encefalopatía hepática), R060 (disnea), R278 (falla multiorgánica) R69X (Causas de morbilidad desconocidas y no especificadas) y S069 (Traumatismo encéfalo craneano) no aparecen en el cluster 0 en la primera corrida de 2 clusters.
En la segunda corrida para 3 clusters, vemos que dividió las muestras en 23% para el cluster 0, 32% para el 1 y 45% para el 2. El atributo diferenciador entre los tres conglomerados sigue siendo el J960 (Insuficiencia Respiratoria Aguda), el cluster 0 tiene valor 0, es decir, sin insuficiencia respiratoria, y el cluster 1 tiene el 1 con insuficiencia y el cluster 2 tiene una combinación de ambos.
En la segunda corrida, para 3 clusters: Todos los casos con C61X (cáncer de próstata) pasaron al conglomerado 2, el cluster 1 no tiene E108, E43X, J151, J961, J989, K566, R060, R278 y R69X al igual que en la corrida anterior, vemos que los dos clusters 1, de la primera y segunda corridas, tienen mucho en común y que el cluster 2 se ha formado de tomar elementos del 0 y el 1 anteriores.
Finalmente, en la tercera corrida para 4 clusters: Todos los casos con C61X (cáncer de próstata) están entre los conglomerados 0 y 2, el cluster 1 no tiene E108, E43X, J151, J961, J989, K566, R060, R278 y R69X al igual que en las corridas anteriores, vemos que los tres clusters 1 tienen mucho en común y que el cluster 2 y 3 se han formado de tomar elementos del 0 y el 1 anteriores.

Conclusión
El Portal de Datos Abiertos del Gobierno del Perú es una fuente de datos de lo más diverso, este acceso es un medio de promover la transparencia y que permite que el ciudadano de a pie pueda analizar y sacar sus conclusiones sobre que se está haciendo y a la vez aportar para mejorar las cosas para nuestra sociedad. El presente trabajo ha modificado la estructura de los datos provistos para un mejor procesamiento y obtener mejores conclusiones. Como en todo campo, una vez obtenidos los clusters, es necesaria la participación de un experto en la materia para que las conclusiones sean basadas en el conocimiento del experto y se pueda extraer experiencias coherentes y que ayuden a mejorar la situación. En este trabajo sólo hemos trabajado los datos y sus resultados sin tener mayor conocimientos de medicina por ello nuestras conclusiones carecen de la profundidad que tendrían si trabajáramos con un experto en COVID.

AugustoChoy

Título:
“Algoritmo de Clasificación Para Determinar si una Persona es o no Sospechosa de COVID19, basado en los síntomas.”

Resumen:
El algoritmo de clasificación ha sido extraído de la Tabla de Sospechosos de COVID19 en datos abiertos del gobierno del Perú. En el trabajo se utilizó RandomTree para establecer el árbol de decisión que se utiliza en la tabla, luego Regresión Lineal a fin de comparar la precisión de los métodos. El primer método fue mucho más acertado y es el que utilizamos para predecir.

Descripción de los datos originales
Los datos fueron obtenidos del siguiente enlace de datos abiertos del Gobierno del Perú: https://www.datosabiertos.gob.pe/datase ... e-covid-19 el archivo se llama TB_F00_SICOVID.csv y su estructura es como sigue:
Los atributos de los datos son como sigue: id_persona – correlativo entero, fecha_contacto – la fecha en que la persona se contact’0 al 113, flag_sospechoso - 1 es sospechoso de COVID19, 0 no es sospechoso, fecha_síntomas – fecha de inicio de los síntomas, sigue una lista de 14 síntomas y el valor es 1 si la persona presentaba el sínntoma y 0 si no lo presentaba. Los síntomas fueron: tos, cefalea, congestión nasal, dificultad respiratoria, dolor de garganta, fiebre, diarrea, nauseas anosmia hiposmia, dolor abdominal, dolor de articulaciones, dolor muscular, dolor de pecho, otros síntomas.
Para procesar los datos se eliminaron todos los atributos que no tenían que ver con los síntomas y el flag sospechoso se pasó al final de los datos como objetivo.

Descripción de los resultados con las técnicas utilizadas
El primer método utilizado fue el de REPTree, pero la laptop se quedó sin memoria, era más de un millón de datos. Luego se corrió con Random Tree, este método proporciona además una árbol de decisión originado en los datos el que nos permite ver la relación entre los diversos atributos. El árbol dio primera importancia al dolor de garganta, si no había este síntoma, luego veía la dificultad respiratoria luego revisaba si había cefalea, dolor abdominal y tos. Si había dificultad respiratoria luego veía si había tos, cefalea y fiebre, en ese orden. Si había dolor de garganta luego revisaba si había fiebre y tos. El árbol generado es de 671 nodos, el coeficiente de correlación es de 0.9005 y el error absoluto medio es de 0.0745. Este método nos da un buen modelo. Pero como indican los datos, la predicción es de sospecha y no determina si el paciente tiene COVID19.
El segundo método utilizado fue el de Regresión Lineal
Este método le dio más importancia al síntoma de la tos y dolor de garganta seguido de fiebre, peor no produce el árbol de decisión que produce Random Tree. De otro lado el coeficiente de correlación nos dio sólo 0.7539, mucho menor que el de Random Tree y el Error medio absoluto es de 0.2294, bastante mayor que el de Random Tree.

Descripción de los resultados con las técnicas utilizadas
De los resultados obtenidos por ambos métodos, Random Tree nos produjo el mejor modelo, Nos dio un árbol detallado de la importancia de los síntomas y este modelo nos puede servir para predecir la sospecha de COVID19. El principal argumento que establece el mejor método es el coeficiente de correlación el cual es mucho más alto en este método, Random Tree que en el método de regresión.

Conclusión
El portal de Datos Abiertos del Gobierno del Perú nos permite el acceso a datos de lo más diverso y a medida que se vaya ampliando el portal, los ciudadanos tendremos más oportunidad de realizar estudios y analizar la situación del país en los más diversos campos. En este caso hemos trabajado los datos de Sospechosos de COVID19 basado en los síntomas de los pacientes, la base de datos original es de más de un millón de datos. Luego de reducir los datos y quedarnos con lo más relevante se ha realizado el análisis utilizando dos métodos para comparar su potencial y exactitud. Pero, como se menciona, el modelo es sólo de sospecha de COVID19 y no puede predecir la ocurrencia de COVID19. Pero si una persona con síntomas es sospechosa de COVID19, es razón para que se haga una prueba. De salir no sospechosa, no implica que esté libre de COVID19.

Se encontraron 3 coincidencias

Predicción de la evolución de colonias de la bacteria Ralstonia mediante algoritmos de aprendizaje automatizado

Algoritmo de ‘Clustering’ Para Determinar los ‘Clusters’ que se Obtienen de los Datos de Síntomas y Enfermedades de Paci

Algoritmo de Clasificación Para Determinar si una Persona es o no Sospechosa de COVID19, basado en los síntomas.