Análisis de Datos de Salud de la ENAHO utilizando Machine Learning
Publicado: 25 Jul 2024, 23:54
Análisis de Datos de Salud de la ENAHO utilizando Machine Learning
Autores:
Benitez Altamirano, Bernie Hans (berniebeniteza@gmail.com)
Diaz Cabrera, Alexander Gabriel (gdavid.moralesc@gmail.com)
Morales Ccasa, Geyson David (alexandergabrieldiazcabrera@gmail.com)
Siu Siu Ting, Aldo Daniel (aldosiu@gmail.com)
RESUMEN
En este ensayo se aborda el problema del análisis y predicción de variables de salud utilizando modelos de Machine Learning. Se eligen algoritmos como el Random Forest y el Regresor Lineal para este propósito debido a su capacidad para manejar grandes volúmenes de datos y detectar patrones complejos. La predicción precisa de variables de salud es crucial para la planificación de políticas públicas y la toma de decisiones en el sector sanitario.
El conjunto de datos utilizado en este estudio proviene de la Encuesta Nacional de Hogares (ENAHO) 2023, que incluye una variedad de características relevantes relacionadas con la salud y el gasto en servicios de salud. Se aplican técnicas de preprocesamiento para preparar los datos antes de dividirlos en conjuntos de entrenamiento y prueba. Los modelos se entrenan utilizando estos datos y se evalúan mediante métricas como el error cuadrático medio (MSE). Los resultados obtenidos muestran que ambos modelos tienen un desempeño notable en la predicción de variables de salud, con el Random Forest mostrando un MSE de 101,193.82.
Finalmente, se discuten las implicaciones de estos resultados y se concluye que los modelos de Machine Learning son herramientas efectivas para el análisis de datos de salud, proporcionando una base sólida para decisiones informadas en el sector sanitario.
I. INTRODUCCIÓN
Introducción
La predicción precisa de variables de salud es crucial para la planificación de políticas públicas y la toma de decisiones en el sector sanitario. En un entorno dinámico y con datos en constante cambio, contar con estimaciones precisas puede marcar la diferencia en la toma de decisiones estratégicas. Los datos de salud están influenciados por una variedad de factores, incluyendo características sociodemográficas, condiciones económicas y acceso a servicios de salud.
Tradicionalmente, el análisis de datos de salud se realizaba mediante métodos estadísticos y el juicio de expertos, lo cual, aunque valioso, puede ser subjetivo y limitado en términos de escalabilidad y precisión. Con la creciente disponibilidad de datos y avances en el procesamiento de datos, los modelos de Machine Learning han emergido como una herramienta poderosa para prever variables de salud. Estos modelos pueden analizar grandes volúmenes de datos y detectar patrones complejos que no son evidentes a simple vista.
En este ensayo, exploramos la aplicación de modelos de Machine Learning, específicamente Random Forest y Regresión Lineal, para el análisis de datos de salud en el Perú obtenidos del ENAHO 2023 . Describimos el conjunto de datos, las técnicas utilizadas, y presentamos los resultados obtenidos, seguidos de una discusión sobre la efectividad de los modelos empleados.
II. ESTADO DEL ARTE
Los modelos de Machine Learning han demostrado ser eficaces en diversas aplicaciones, incluyendo el análisis de datos de salud. Técnicas como el Random Forest y la Regresión Lineal han sido ampliamente estudiadas y aplicadas en este campo. En esta sección se revisan algunos estudios previos y los enfoques utilizados para abordar este problema.
A. Extended Linear Regression: A Kalman Filter Approach for Minimizing Loss via Area Under the Curve
En este proyecto se propone una metodología para mejorar los modelos de regresión lineal integrando un filtro de Kalman y analizando el área bajo la curva (AUC) para minimizar la pérdida. Se realizaron experimentos con conjuntos de datos como Boston Housing, Diabetes y California Housing, mostrando que la metodología propuesta tiene un error cuadrático medio más bajo en comparación con métodos tradicionales como OLS y Ridge Regression, aunque con un valor R-cuadrado negativo, indicando que puede no capturar completamente las relaciones en los datos.
Dataset Preparation:
Boston Housing Dataset: Contiene información sobre precios de viviendas en Boston. Consta de 506 muestras con 13 características de entrada.
Diabetes Dataset: Incluye 442 muestras representando pacientes con diabetes, con 10 variables fisiológicas.
California Housing Dataset: Contiene información sobre precios de viviendas en California, con un total de 20,640 muestras.
Kalman Filter Training and Weight Prediction:
El modelo de regresión lineal se implementó utilizando descenso de gradiente estocástico (SGD) para la actualización de pesos.
Durante el entrenamiento, se rastrearon los pesos y la pérdida, utilizando esta información para entrenar el filtro de Kalman.
Tras el entrenamiento del filtro de Kalman, se predijeron los siguientes pesos consolidados, representando un conjunto optimizado de parámetros para el modelo de regresión lineal.
Resultados:
Se comparó el rendimiento de la metodología propuesta con la regresión lineal tradicional utilizando Mínimos Cuadrados Ordinarios (OLS), Ridge Regression y Lasso Regression.
En el dataset de California, la metodología propuesta mostró un MSE significativamente más bajo, aunque con un valor R-cuadrado extremadamente bajo, lo que sugiere que el modelo puede no explicar adecuadamente la varianza de los datos.
En el dataset de Diabetes, la metodología propuesta también mostró un MSE más bajo, pero nuevamente con un valor R-cuadrado negativo, lo que indica posibles deficiencias en la captura de relaciones importantes en los datos.
B. Adversarial Random Forests for Density Estimation and Generative Modeling
Este artículo propone métodos para la estimación de densidad y la generación de datos utilizando una forma novedosa de Random Forests no supervisados, inspirada en las redes adversarias generativas (GANs). Se implementa un procedimiento recursivo en el que los árboles aprenden gradualmente las propiedades estructurales de los datos a través de rondas alternas de generación y discriminación. El método es consistentemente eficiente bajo mínimas suposiciones y proporciona densidades suaves y generación de datos completamente sintéticos.
Metodología
Estimación de Densidad y Generación de Datos:
La técnica introduce un algoritmo de Random Forest adversarial (ARF), que se utiliza para crear un modelo generativo capaz de sintetizar nuevos datos que imitan las características de los datos reales.
A través de la generación de datos sintéticos y la discriminación, los árboles se entrenan para aprender las dependencias estructurales de los datos.
Ventajas y Desempeño:
Comparado con métodos tradicionales de circuitos probabilísticos y modelos de aprendizaje profundo, el método propuesto muestra un rendimiento comparable o superior en benchmarks de datos tabulares.
La implementación es aproximadamente dos órdenes de magnitud más rápida en promedio.
El modelo se destaca por su capacidad para manejar datos mixtos (continuos y categóricos) y su facilidad de uso con recursos computacionales estándar.
Implementación:
Un paquete de R llamado arf está disponible en CRAN para facilitar la implementación del método.
La investigación incluye un análisis detallado de la notación y el fondo sobre Random Forests, así como resultados teóricos que garantizan la convergencia bajo suposiciones razonables.
Resultados y Conclusiones:
El algoritmo de Random Forest adversarial (ARF) simplifica significativamente la tarea de estimación de densidad y generación de datos, logrando una ejecución rápida y efectiva en una variedad de conjuntos de datos.
La metodología demuestra ser una adición valiosa a las técnicas existentes, ofreciendo mejoras tanto en precisión como en eficiencia.
C. WildWood: A New Random Forest Algorithm for Enhanced Prediction
El artículo "WildWood: a new Random Forest algorithm" introduce un nuevo algoritmo de ensamble para el aprendizaje supervisado tipo Random Forest. Este algoritmo, llamado WildWood (WW), mejora las predicciones al utilizar muestras out-of-bag (OOB) para producir predicciones mejoradas mediante la agregación de predicciones de todos los árboles del bosque.
Metodología:
Bootstrap y Submuestreo de Características:
WildWood utiliza bootstrap, que selecciona aleatoriamente muestras con reemplazo para formar el conjunto de entrenamiento, mientras que el subconjunto OOB se utiliza para la validación interna.
En cada división de nodo, solo se considera un subconjunto de características, seleccionadas aleatoriamente, lo que mejora la diversidad y la precisión del modelo.
Optimización de Divisiones:
Para la clasificación de múltiples clases, WildWood implementa estrategias de división optimizadas, como la clasificación uno contra el resto y métodos heurísticos para mejorar la eficiencia computacional.
Pruning de Árboles:
WildWood incorpora técnicas de pruning para reducir el tamaño del bosque sin sacrificar precisión. Esto se realiza mediante la eliminación de árboles redundantes o menos significativos.
Resultados y Desempeño:
WildWood mostró un rendimiento superior en comparación con los algoritmos Random Forest tradicionales en diversos benchmarks de datos tabulares, logrando una ejecución más rápida y eficiente.
Los experimentos demostraron que WildWood no solo mejora la precisión de las predicciones, sino que también reduce significativamente el tiempo de computación, especialmente en configuraciones con datos de alta dimensionalidad.
D. Improved Analysis of Sparse Linear Regression in Local Differential Privacy Model
El artículo "Improved Analysis of Sparse Linear Regression in Local Differential Privacy Model" aborda la regresión lineal esparsa en el contexto de la privacidad diferencial local no interactiva (NLDP). Este estudio propone un análisis exhaustivo de los límites inferiores para el error de estimación en algoritmos NLDP, destacando las complejidades y desafíos en escenarios de alta dimensionalidad.
Metodología
Modelo de Privacidad Diferencial Local (NLDP):
Se analiza cómo los protocolos NLDP afectan la utilidad del modelo, demostrando que cualquier protocolo ϵϵ-NLDP se puede transformar en un protocolo (ϵ/2)(ϵ/2)-NLDP sin afectar su utilidad.
Se establece un límite inferior para el error de estimación en algoritmos NLDP, sugiriendo que la dependencia polinómica del error es inevitable en escenarios de alta dimensionalidad.
Asunción sobre Distribución de Datos:
Se asume que los covariables son vectores sub-Gaussianos con media cero y varianza constante, y las respuestas son variables sub-Gaussianas con varianza similar.
Esta suposición facilita la derivación de los límites superiores e inferiores en la estimación del error.
Desafíos y Métodos Eficientes:
Se destacan los desafíos de privatizar métodos existentes como LASSO y el estimador de Dantzig, debido al ruido significativo necesario para mantener la privacidad.
Se propone un enfoque que añade ruido Gaussiano a las estadísticas suficientes sin resolver un problema de optimización, adaptándose mejor al contexto de alta dimensionalidad y privacidad.
Resultados y Conclusiones
Los resultados muestran que los modelos de regresión lineal esparsa en un entorno NLDP enfrentan dificultades significativas en escenarios de alta dimensionalidad, pero se pueden manejar eficientemente bajo ciertas condiciones.
El estudio proporciona un marco teórico robusto para entender las limitaciones y capacidades de los algoritmos NLDP en la regresión lineal esparsa.
III. IDENTIFICACION DEL PROBLEMA
El problema a resolver es el análisis preciso de variables de salud para ayudar en la toma de decisiones en el sector sanitario. Un análisis preciso puede ayudar a identificar áreas de mejora y a planificar políticas públicas eficaces.
IV. SOLUCION
Se propone el uso de modelos de Machine Learning, específicamente Random Forest y Regresión Lineal, para analizar variables de salud. Estos modelos se eligen por su simplicidad y eficacia en tareas de regresión
.
V. DESCRIPCION DEL CONJUNTO DE DATOS
El conjunto de datos utilizado incluye registros de la Encuesta Nacional de Hogares (ENAHO) 2023, que contiene información detallada sobre el estado de salud, el acceso a servicios de salud y los gastos en salud de los hogares peruanos. Los campos principales son: edad, nivel de estudios, estado civil, y diversas variables relacionadas con el gasto en salud.
que el sistema sea completo y confiable antes de su despliegue final.
VI. CONCLUSIONES
A través del análisis de regresión y la matriz de correlación, se observa una relación positiva entre la edad y el gasto total en salud. A medida que las personas envejecen, es probable que sus gastos en salud aumenten debido a necesidades médicas crecientes. Impacto del Nivel de Estudios:
El nivel de estudios muestra una correlación positiva con el gasto total. Personas con niveles de estudios más altos tienden a gastar más en salud. Esto puede deberse a una mayor conciencia de la importancia de la salud y/o a mayores ingresos disponibles para gastar en servicios médicos. Estado Civil y Gasto en Salud:
El análisis muestra que el estado civil también influye en los gastos en salud, aunque de manera más moderada. Los individuos casados o en unión pueden tener mayores gastos debido a responsabilidades familiares compartidas. Variables Específicas de Gasto en Salud:
Las variables específicas como "Consultas", "Medicinas", "Otros Exámenes" y "Servicio Oftalmológico" tienen un impacto significativo en el gasto total. Esto sugiere que estos son los componentes principales del gasto en salud.
Resultados del Modelo de Regresión:
El modelo de regresión lineal muestra que variables como "Consultas" y "Medicinas" son predictores significativos del gasto total en salud. Sin embargo, el modelo explica solo un pequeño porcentaje de la variabilidad en el gasto total (R-cuadrado ajustado = 0.008), indicando que hay muchos otros factores no capturados por este análisis.
Importancia de las Características (Random Forest):
La importancia de las características obtenidas del modelo Random Forest destaca que la edad es, con mucho, el predictor más importante del gasto total en salud, seguido por el nivel de estudios y el estado civil. Recomendaciones Enfoque en la Prevención:
Dado que el gasto en salud aumenta con la edad, es crucial implementar políticas de prevención y promoción de la salud para las personas jóvenes y de mediana edad para reducir los gastos médicos a largo plazo. Acceso a Medicinas y Consultas:
Mejorar el acceso a medicinas y consultas médicas puede ayudar a controlar y posiblemente reducir los gastos totales en salud. Esto podría incluir subsidios para medicinas esenciales y consultas preventivas. Educación en Salud:
Fomentar la educación en salud puede tener un impacto positivo en la gestión de la salud personal, especialmente en niveles educativos más bajos. Programas educativos sobre la importancia de la salud y cómo acceder a servicios médicos podrían ser beneficiosos. Análisis Adicional:
Considerar la inclusión de más variables en futuros análisis para mejorar la explicación de la variabilidad en los gastos de salud. Variables como el ingreso, tipo de empleo, y acceso a seguro médico podrían proporcionar una visión más completa. Resultados Clave del Análisis de Machine Learning Matriz de Correlación:
Las correlaciones muestran que muchas de las variables tienen relaciones débiles con el gasto total, excepto por algunas como "Medicinas" y "Consultas". Modelo de Random Forest
El modelo Random Forest resaltó la importancia de la edad, el nivel de estudios y el estado civil como los factores más relevantes. Aunque la precisión del modelo no es perfecta, ofrece una buena indicación de qué variables considerar en futuros análisis.
Autores:
Benitez Altamirano, Bernie Hans (berniebeniteza@gmail.com)
Diaz Cabrera, Alexander Gabriel (gdavid.moralesc@gmail.com)
Morales Ccasa, Geyson David (alexandergabrieldiazcabrera@gmail.com)
Siu Siu Ting, Aldo Daniel (aldosiu@gmail.com)
RESUMEN
En este ensayo se aborda el problema del análisis y predicción de variables de salud utilizando modelos de Machine Learning. Se eligen algoritmos como el Random Forest y el Regresor Lineal para este propósito debido a su capacidad para manejar grandes volúmenes de datos y detectar patrones complejos. La predicción precisa de variables de salud es crucial para la planificación de políticas públicas y la toma de decisiones en el sector sanitario.
El conjunto de datos utilizado en este estudio proviene de la Encuesta Nacional de Hogares (ENAHO) 2023, que incluye una variedad de características relevantes relacionadas con la salud y el gasto en servicios de salud. Se aplican técnicas de preprocesamiento para preparar los datos antes de dividirlos en conjuntos de entrenamiento y prueba. Los modelos se entrenan utilizando estos datos y se evalúan mediante métricas como el error cuadrático medio (MSE). Los resultados obtenidos muestran que ambos modelos tienen un desempeño notable en la predicción de variables de salud, con el Random Forest mostrando un MSE de 101,193.82.
Finalmente, se discuten las implicaciones de estos resultados y se concluye que los modelos de Machine Learning son herramientas efectivas para el análisis de datos de salud, proporcionando una base sólida para decisiones informadas en el sector sanitario.
I. INTRODUCCIÓN
Introducción
La predicción precisa de variables de salud es crucial para la planificación de políticas públicas y la toma de decisiones en el sector sanitario. En un entorno dinámico y con datos en constante cambio, contar con estimaciones precisas puede marcar la diferencia en la toma de decisiones estratégicas. Los datos de salud están influenciados por una variedad de factores, incluyendo características sociodemográficas, condiciones económicas y acceso a servicios de salud.
Tradicionalmente, el análisis de datos de salud se realizaba mediante métodos estadísticos y el juicio de expertos, lo cual, aunque valioso, puede ser subjetivo y limitado en términos de escalabilidad y precisión. Con la creciente disponibilidad de datos y avances en el procesamiento de datos, los modelos de Machine Learning han emergido como una herramienta poderosa para prever variables de salud. Estos modelos pueden analizar grandes volúmenes de datos y detectar patrones complejos que no son evidentes a simple vista.
En este ensayo, exploramos la aplicación de modelos de Machine Learning, específicamente Random Forest y Regresión Lineal, para el análisis de datos de salud en el Perú obtenidos del ENAHO 2023 . Describimos el conjunto de datos, las técnicas utilizadas, y presentamos los resultados obtenidos, seguidos de una discusión sobre la efectividad de los modelos empleados.
II. ESTADO DEL ARTE
Los modelos de Machine Learning han demostrado ser eficaces en diversas aplicaciones, incluyendo el análisis de datos de salud. Técnicas como el Random Forest y la Regresión Lineal han sido ampliamente estudiadas y aplicadas en este campo. En esta sección se revisan algunos estudios previos y los enfoques utilizados para abordar este problema.
A. Extended Linear Regression: A Kalman Filter Approach for Minimizing Loss via Area Under the Curve
En este proyecto se propone una metodología para mejorar los modelos de regresión lineal integrando un filtro de Kalman y analizando el área bajo la curva (AUC) para minimizar la pérdida. Se realizaron experimentos con conjuntos de datos como Boston Housing, Diabetes y California Housing, mostrando que la metodología propuesta tiene un error cuadrático medio más bajo en comparación con métodos tradicionales como OLS y Ridge Regression, aunque con un valor R-cuadrado negativo, indicando que puede no capturar completamente las relaciones en los datos.
Dataset Preparation:
Boston Housing Dataset: Contiene información sobre precios de viviendas en Boston. Consta de 506 muestras con 13 características de entrada.
Diabetes Dataset: Incluye 442 muestras representando pacientes con diabetes, con 10 variables fisiológicas.
California Housing Dataset: Contiene información sobre precios de viviendas en California, con un total de 20,640 muestras.
Kalman Filter Training and Weight Prediction:
El modelo de regresión lineal se implementó utilizando descenso de gradiente estocástico (SGD) para la actualización de pesos.
Durante el entrenamiento, se rastrearon los pesos y la pérdida, utilizando esta información para entrenar el filtro de Kalman.
Tras el entrenamiento del filtro de Kalman, se predijeron los siguientes pesos consolidados, representando un conjunto optimizado de parámetros para el modelo de regresión lineal.
Resultados:
Se comparó el rendimiento de la metodología propuesta con la regresión lineal tradicional utilizando Mínimos Cuadrados Ordinarios (OLS), Ridge Regression y Lasso Regression.
En el dataset de California, la metodología propuesta mostró un MSE significativamente más bajo, aunque con un valor R-cuadrado extremadamente bajo, lo que sugiere que el modelo puede no explicar adecuadamente la varianza de los datos.
En el dataset de Diabetes, la metodología propuesta también mostró un MSE más bajo, pero nuevamente con un valor R-cuadrado negativo, lo que indica posibles deficiencias en la captura de relaciones importantes en los datos.
B. Adversarial Random Forests for Density Estimation and Generative Modeling
Este artículo propone métodos para la estimación de densidad y la generación de datos utilizando una forma novedosa de Random Forests no supervisados, inspirada en las redes adversarias generativas (GANs). Se implementa un procedimiento recursivo en el que los árboles aprenden gradualmente las propiedades estructurales de los datos a través de rondas alternas de generación y discriminación. El método es consistentemente eficiente bajo mínimas suposiciones y proporciona densidades suaves y generación de datos completamente sintéticos.
Metodología
Estimación de Densidad y Generación de Datos:
La técnica introduce un algoritmo de Random Forest adversarial (ARF), que se utiliza para crear un modelo generativo capaz de sintetizar nuevos datos que imitan las características de los datos reales.
A través de la generación de datos sintéticos y la discriminación, los árboles se entrenan para aprender las dependencias estructurales de los datos.
Ventajas y Desempeño:
Comparado con métodos tradicionales de circuitos probabilísticos y modelos de aprendizaje profundo, el método propuesto muestra un rendimiento comparable o superior en benchmarks de datos tabulares.
La implementación es aproximadamente dos órdenes de magnitud más rápida en promedio.
El modelo se destaca por su capacidad para manejar datos mixtos (continuos y categóricos) y su facilidad de uso con recursos computacionales estándar.
Implementación:
Un paquete de R llamado arf está disponible en CRAN para facilitar la implementación del método.
La investigación incluye un análisis detallado de la notación y el fondo sobre Random Forests, así como resultados teóricos que garantizan la convergencia bajo suposiciones razonables.
Resultados y Conclusiones:
El algoritmo de Random Forest adversarial (ARF) simplifica significativamente la tarea de estimación de densidad y generación de datos, logrando una ejecución rápida y efectiva en una variedad de conjuntos de datos.
La metodología demuestra ser una adición valiosa a las técnicas existentes, ofreciendo mejoras tanto en precisión como en eficiencia.
C. WildWood: A New Random Forest Algorithm for Enhanced Prediction
El artículo "WildWood: a new Random Forest algorithm" introduce un nuevo algoritmo de ensamble para el aprendizaje supervisado tipo Random Forest. Este algoritmo, llamado WildWood (WW), mejora las predicciones al utilizar muestras out-of-bag (OOB) para producir predicciones mejoradas mediante la agregación de predicciones de todos los árboles del bosque.
Metodología:
Bootstrap y Submuestreo de Características:
WildWood utiliza bootstrap, que selecciona aleatoriamente muestras con reemplazo para formar el conjunto de entrenamiento, mientras que el subconjunto OOB se utiliza para la validación interna.
En cada división de nodo, solo se considera un subconjunto de características, seleccionadas aleatoriamente, lo que mejora la diversidad y la precisión del modelo.
Optimización de Divisiones:
Para la clasificación de múltiples clases, WildWood implementa estrategias de división optimizadas, como la clasificación uno contra el resto y métodos heurísticos para mejorar la eficiencia computacional.
Pruning de Árboles:
WildWood incorpora técnicas de pruning para reducir el tamaño del bosque sin sacrificar precisión. Esto se realiza mediante la eliminación de árboles redundantes o menos significativos.
Resultados y Desempeño:
WildWood mostró un rendimiento superior en comparación con los algoritmos Random Forest tradicionales en diversos benchmarks de datos tabulares, logrando una ejecución más rápida y eficiente.
Los experimentos demostraron que WildWood no solo mejora la precisión de las predicciones, sino que también reduce significativamente el tiempo de computación, especialmente en configuraciones con datos de alta dimensionalidad.
D. Improved Analysis of Sparse Linear Regression in Local Differential Privacy Model
El artículo "Improved Analysis of Sparse Linear Regression in Local Differential Privacy Model" aborda la regresión lineal esparsa en el contexto de la privacidad diferencial local no interactiva (NLDP). Este estudio propone un análisis exhaustivo de los límites inferiores para el error de estimación en algoritmos NLDP, destacando las complejidades y desafíos en escenarios de alta dimensionalidad.
Metodología
Modelo de Privacidad Diferencial Local (NLDP):
Se analiza cómo los protocolos NLDP afectan la utilidad del modelo, demostrando que cualquier protocolo ϵϵ-NLDP se puede transformar en un protocolo (ϵ/2)(ϵ/2)-NLDP sin afectar su utilidad.
Se establece un límite inferior para el error de estimación en algoritmos NLDP, sugiriendo que la dependencia polinómica del error es inevitable en escenarios de alta dimensionalidad.
Asunción sobre Distribución de Datos:
Se asume que los covariables son vectores sub-Gaussianos con media cero y varianza constante, y las respuestas son variables sub-Gaussianas con varianza similar.
Esta suposición facilita la derivación de los límites superiores e inferiores en la estimación del error.
Desafíos y Métodos Eficientes:
Se destacan los desafíos de privatizar métodos existentes como LASSO y el estimador de Dantzig, debido al ruido significativo necesario para mantener la privacidad.
Se propone un enfoque que añade ruido Gaussiano a las estadísticas suficientes sin resolver un problema de optimización, adaptándose mejor al contexto de alta dimensionalidad y privacidad.
Resultados y Conclusiones
Los resultados muestran que los modelos de regresión lineal esparsa en un entorno NLDP enfrentan dificultades significativas en escenarios de alta dimensionalidad, pero se pueden manejar eficientemente bajo ciertas condiciones.
El estudio proporciona un marco teórico robusto para entender las limitaciones y capacidades de los algoritmos NLDP en la regresión lineal esparsa.
III. IDENTIFICACION DEL PROBLEMA
El problema a resolver es el análisis preciso de variables de salud para ayudar en la toma de decisiones en el sector sanitario. Un análisis preciso puede ayudar a identificar áreas de mejora y a planificar políticas públicas eficaces.
IV. SOLUCION
Se propone el uso de modelos de Machine Learning, específicamente Random Forest y Regresión Lineal, para analizar variables de salud. Estos modelos se eligen por su simplicidad y eficacia en tareas de regresión
.
V. DESCRIPCION DEL CONJUNTO DE DATOS
El conjunto de datos utilizado incluye registros de la Encuesta Nacional de Hogares (ENAHO) 2023, que contiene información detallada sobre el estado de salud, el acceso a servicios de salud y los gastos en salud de los hogares peruanos. Los campos principales son: edad, nivel de estudios, estado civil, y diversas variables relacionadas con el gasto en salud.
que el sistema sea completo y confiable antes de su despliegue final.
VI. CONCLUSIONES
A través del análisis de regresión y la matriz de correlación, se observa una relación positiva entre la edad y el gasto total en salud. A medida que las personas envejecen, es probable que sus gastos en salud aumenten debido a necesidades médicas crecientes. Impacto del Nivel de Estudios:
El nivel de estudios muestra una correlación positiva con el gasto total. Personas con niveles de estudios más altos tienden a gastar más en salud. Esto puede deberse a una mayor conciencia de la importancia de la salud y/o a mayores ingresos disponibles para gastar en servicios médicos. Estado Civil y Gasto en Salud:
El análisis muestra que el estado civil también influye en los gastos en salud, aunque de manera más moderada. Los individuos casados o en unión pueden tener mayores gastos debido a responsabilidades familiares compartidas. Variables Específicas de Gasto en Salud:
Las variables específicas como "Consultas", "Medicinas", "Otros Exámenes" y "Servicio Oftalmológico" tienen un impacto significativo en el gasto total. Esto sugiere que estos son los componentes principales del gasto en salud.
Resultados del Modelo de Regresión:
El modelo de regresión lineal muestra que variables como "Consultas" y "Medicinas" son predictores significativos del gasto total en salud. Sin embargo, el modelo explica solo un pequeño porcentaje de la variabilidad en el gasto total (R-cuadrado ajustado = 0.008), indicando que hay muchos otros factores no capturados por este análisis.
Importancia de las Características (Random Forest):
La importancia de las características obtenidas del modelo Random Forest destaca que la edad es, con mucho, el predictor más importante del gasto total en salud, seguido por el nivel de estudios y el estado civil. Recomendaciones Enfoque en la Prevención:
Dado que el gasto en salud aumenta con la edad, es crucial implementar políticas de prevención y promoción de la salud para las personas jóvenes y de mediana edad para reducir los gastos médicos a largo plazo. Acceso a Medicinas y Consultas:
Mejorar el acceso a medicinas y consultas médicas puede ayudar a controlar y posiblemente reducir los gastos totales en salud. Esto podría incluir subsidios para medicinas esenciales y consultas preventivas. Educación en Salud:
Fomentar la educación en salud puede tener un impacto positivo en la gestión de la salud personal, especialmente en niveles educativos más bajos. Programas educativos sobre la importancia de la salud y cómo acceder a servicios médicos podrían ser beneficiosos. Análisis Adicional:
Considerar la inclusión de más variables en futuros análisis para mejorar la explicación de la variabilidad en los gastos de salud. Variables como el ingreso, tipo de empleo, y acceso a seguro médico podrían proporcionar una visión más completa. Resultados Clave del Análisis de Machine Learning Matriz de Correlación:
Las correlaciones muestran que muchas de las variables tienen relaciones débiles con el gasto total, excepto por algunas como "Medicinas" y "Consultas". Modelo de Random Forest
El modelo Random Forest resaltó la importancia de la edad, el nivel de estudios y el estado civil como los factores más relevantes. Aunque la precisión del modelo no es perfecta, ofrece una buena indicación de qué variables considerar en futuros análisis.