Evaluación de la Influencia de Parámetros Físicos de la Dieta en el Consumo mediante Técnicas de Machine Learning
Publicado: 19 Jul 2024, 18:16
Alvarado Mestanza, Juan Carlos,
López Lozano, Diego Fernando
Donayre Donayre, Bruno Alejandro
Vilcapaza Huaman, Haeidy Cathleen
Portilla Cano, Anthony Jesus
19 de julio de 2024
López Lozano, Diego Fernando
Donayre Donayre, Bruno Alejandro
Vilcapaza Huaman, Haeidy Cathleen
Portilla Cano, Anthony Jesus
19 de julio de 2024
Curso de Machine Learning del Posgrado en Inteligencia Artificial en la
Facultad de Ingeniería y Sistemas – Universidad Nacional de Ingeniería, ciclo 2024-1
Facultad de Ingeniería y Sistemas – Universidad Nacional de Ingeniería, ciclo 2024-1
Resumen –Este estudio evalúa la influencia de los parámetros
físicos de la dieta en el consumo de salmones mediante técnicas de
machine learning como regresión lineal múltiple, Random Forest
(RF), Support Vector Regression (SVR), K-Nearest Neighbors
(KNN), Gradient Boosting y ElasticNet. Se analizaron datos de
densidad específica, densidad aparente, pérdida de materia a 1
hora (PM 1h), número de partículas por gramo y flotabilidad. Los
resultados muestran que estos modelos pueden predecir con
precisión el consumo de salmones y destacar los factores más
influyentes.
Palabras Clave – Machine learning, consumo de salmones,
parámetros de dieta, Random Forest, Support Vector Regression
(SVR), K-Nearest Neighbors (KNN), Gradient Boosting,
ElasticNet.
I. INTRODUCCIÓN
La acuicultura se ha convertido en una de las industrias
alimentarias de más rápido crecimiento en el mundo, y dentro
de esta, la cría de salmones ocupa un lugar destacado debido a
su alta demanda y valor económico. Un aspecto crucial en la
producción eficiente de salmones es la optimización de su dieta,
la cual no solo afecta el crecimiento y la salud de los animales,
sino también la rentabilidad del proceso productivo. Los
parámetros físicos de la dieta, como la densidad específica, la
densidad aparente, la pérdida de materia a 1 hora (PM 1h), el
número de partículas por gramo y la flotabilidad, juegan un
papel fundamental en la determinación de la palatabilidad y el
consumo de alimento por los salmones.
Estudios previos han demostrado que la formulación y las
características físicas de los alimentos pueden influir
significativamente en el comportamiento alimenticio de los
salmones [1], [2]. Sin embargo, la comprensión detallada de
cómo estos parámetros interactúan y afectan el consumo aún es
limitada. Con el avance de las tecnologías de análisis de datos
y el machine learning, es posible explorar estas relaciones de
manera más profunda y precisa, permitiendo la identificación
de patrones y la predicción del consumo en diferentes
condiciones ambientales y de manejo.
El presente estudio tiene como objetivo evaluar la influencia de
varios parámetros físicos de la dieta en el consumo de salmones
utilizando técnicas avanzadas de machine learning. Se
utilizaron tres enfoques principales: regresión lineal múltiple,
Random Forest y modelos aditivos generalizados (GAM). Estos
algoritmos se seleccionaron por su capacidad para manejar
diferentes tipos de relaciones y su efectividad en la predicción
de variables continuas.
Algunos trabajos recientes han aplicado técnicas de machine
learning para optimizar la alimentación en la acuicultura,
demostrando la eficacia de estos métodos en la mejora de la
eficiencia productiva y la sostenibilidad ambiental [3], [4]. Por
ejemplo, Zhang et al. [5] utilizaron algoritmos de machine
learning para predecir el crecimiento de salmones basándose en
parámetros ambientales y dietéticos, mostrando una mejora
significativa en la precisión predictiva en comparación con los
modelos tradicionales. Asimismo, Li et al. [6] evaluaron el uso
de redes neuronales profundas para optimizar la formulación de
dietas en salmones, logrando una reducción notable en los
costos de alimentación y un incremento en el crecimiento de los
animales. Otros estudios han destacado la utilidad de los
modelos aditivos generalizados para capturar relaciones no
lineales complejas en datos ecológicos y de producción animal
[7].
Este estudio contribuirá al creciente cuerpo de literatura al
proporcionar una evaluación integral de los parámetros físicos
de la dieta en el contexto del consumo de especies acuícolas,
ofreciendo así nuevas perspectivas para la formulación de
dietas más eficientes y sostenibles. Además, proporcionará una
base sólida para futuras investigaciones en el uso de machine
learning en la acuicultura, ayudando a avanzar en el desarrollo
de tecnologías más precisas y eficaces para la industria.
II. ESTADO DEL ARTE
En el presente trabajo, se llevó a cabo un preprocesamiento
exhaustivo de los datos para asegurar su calidad y relevancia.
El conjunto de datos, correspondiente al año 2022, con tipo de
dieta extruido y formato 1.2 a 2.0, fue sometido a un proceso de
limpieza que incluyó la eliminación de filas con datos faltantes.
Evaluación de la Influencia de Parámetros Físicos de
la Dieta en el Consumo mediante Técnicas de
Machine Learning
Alvarado Mestanza, Juan Carlos,
López Lozano, Diego Fernando
Donayre Donayre, Bruno Alejandro
Vilcapaza Huaman, Haeidy Cathleen
Portilla Cano, Anthony Jesus
19 de julio de 2024
Curso de Machine Learning del Posgrado en Inteligencia Artificial en la
Facultad de Ingeniería y Sistemas – Universidad Nacional de Ingeniería, ciclo 2024-1
Posteriormente, se eliminaron valores atípicos, garantizando así
la integridad de los datos para el análisis posterior.
Una vez finalizado el preprocesamiento, se realizó un análisis
estadístico exploratorio para comprender mejor la distribución
y las características de los datos. El cuadro estadístico
resultante, que se muestra a continuación, resume las métricas
clave de las variables analizadas, incluyendo el consumo total,
PM a 1 hora, partículas por gramo, densidad específica,
densidad aparente y flotabilidad.
En los scatterplots generados (Fig. 3), se observó que % Flot 140 ppt - 10s, Dens. Aparente y Partículas x Gramo tienen una relación inversa con el Consumo Total, con coeficientes de correlación de -0.76, -0.77 y -0.77 respectivamente, indicando que a medida que estos valores aumentan, el consumo total disminuye. Por otro lado, Dens. Especifica muestra una relación directa y fuerte con el Consumo Total (correlación de 0.85), sugiriendo que un aumento en la densidad específica está asociado con un mayor consumo total. PM 1h también tiene una relación directa pero débil con el consumo total (correlación de 0.28).
Influencia de parámetros físicos
Para evaluar la influencia de los parámetros físicos de la dieta en el consumo de salmones, se utilizaron diferentes modelos de machine learning. En este proyecto, se compararon 6 algoritmos de aprendizaje supervisado: Regresión Lineal Múltiple (RLM), Random Forest, Support Vector Regression (SVR), K-Nearest Neighbors (KNN), Gradient Boosting y ElasticNet.
El modelo de Regresión Lineal Múltiple (RLM) se aplicó primero, ya que modela la relación entre una variable dependiente y varias variables independientes asumiendo una relación lineal entre ellas [1]. Luego, se utilizó Random Forest, un método de ensamble que construye múltiples árboles de decisión y combina sus resultados para mejorar la precisión y evitar el sobreajuste [8]. Este modelo es robusto y puede manejar relaciones no lineales y características interactivas [9]. Además, se aplicó Support Vector Regression (SVR), que extiende el concepto de máquinas de soporte vectorial (SVM) para problemas de regresión. SVR busca encontrar un hiperplano en un espacio de alta dimensión que minimice los errores de predicción mientras maximiza el margen entre los puntos de datos más cercanos al hiperplano [10].
También se empleó K-Nearest Neighbors (KNN) para regresión, que predice el valor de una nueva observación promediando los valores de sus k vecinos más cercanos en el espacio de características. Este método es intuitivo y no paramétrico, pero su rendimiento puede verse afectado por la elección de k y la escala de los datos [11]. Además, se probó Gradient Boosting, una técnica de ensamble que construye árboles de decisión secuenciales, donde cada árbol intenta corregir los errores del árbol anterior [12]. Este modelo es poderoso y puede capturar relaciones complejas y no lineales, pero puede ser propenso al sobreajuste si no se ajustan adecuadamente sus hiperparámetros. Finalmente, se utilizó ElasticNet, que combina las penalizaciones L1 (Lasso) y L2 (Ridge) en un solo modelo para manejar colinealidades entre características y seleccionar automáticamente variables relevantes [13].
Los resultados de estos modelos indican que la Regresión Lineal Múltiple (RLM) tuvo el mejor rendimiento en términos de R², RMSE y MAE, seguido de cerca por Random Forest y Gradient Boosting. Cada modelo fue evaluado utilizando técnicas de validación cruzada para asegurar la robustez y fiabilidad de los resultados [3].
Interpretación del Rendimiento de los Modelos
La figura 3 compara 6 algoritmos de aprendizaje supervisado en términos de tres métricas clave: R² (coeficiente de determinación), RMSE (raíz del error cuadrático medio) y MAE (error absoluto medio). Cada modelo se evalúa con estas métricas para determinar su precisión y fiabilidad en predecir el consumo de salmones basado en los parámetros físicos de la dieta.
El coeficiente de determinación (R²) mide la proporción de la varianza en la variable dependiente que es explicada por las variables independientes del modelo. Un valor de R² más cercano a 1 indica un mejor ajuste del modelo a los datos. En este análisis, la Regresión Lineal Múltiple (RLM) tiene un R² de 0.83, indicando un buen ajuste. Los modelos de Random Forest (0.81), Gradient Boosting (0.80) y ElasticNet (0.81) también muestran buenos ajustes. Por otro lado, SVR y KNN tienen los valores de R² más bajos, 0.78 y 0.79 respectivamente, lo que indica un ajuste ligeramente inferior.
La raíz del error cuadrático medio (RMSE) mide la magnitud del error en las predicciones del modelo. Un valor de RMSE más bajo indica una mayor precisión del modelo. La Regresión Lineal Múltiple tiene el RMSE más bajo (2.71), lo que sugiere que sus predicciones son las más precisas. Los modelos de Random Forest (2.86), Gradient Boosting (2.89) y ElasticNet (2.87) también tienen RMSE relativamente bajos. Sin embargo, SVR tiene el RMSE más alto (3.05), indicando predicciones menos precisas. KNN tiene un RMSE de 2.98, también indicando menor precisión.
El error absoluto medio (MAE) mide la media de los errores absolutos entre las predicciones del modelo y los valores reales. Un valor de MAE más bajo indica un menor error promedio en las predicciones. La Regresión Lineal Múltiple tiene el MAE más bajo (2.25), lo que indica que, en promedio, sus predicciones son más cercanas a los valores reales. Los modelos de Random Forest (2.38), Gradient Boosting (2.40) y ElasticNet (2.52) también tienen MAE relativamente bajos. SVR y KNN tienen MAE de 2.61 y 2.50 respectivamente, indicando un mayor error promedio en las predicciones.
La figura 3 muestra la contribución porcentual de diferentes atributos en la predicción del Consumo Total utilizando varios modelos de regresión: Regresión Lineal Múltiple, Random Forest, Gradient Boosting y ElasticNet. La variable Dens. Específica es la más influyente en la mayoría de los modelos, especialmente en Regresión Lineal Múltiple y Random Forest. % Flot 140 ppt - 10s también muestra una contribución significativa, particularmente en Gradient Boosting y Random Forest. Sin embargo, es recomendable considerar más relevantes los resultados de RLM y RF sobre los demás dado el R², MAE y RMSE calculados.
Modelo de entrenamiento
De acuerdo con lo propuesto por RLM (Tabla 3), el modelo de mejor rendimiento, tenemos el siguiente modelo entrenado para realizar predicciones:
Consumo_Total=38.62-1.57×PM1h-0.64×^' Particulas x Gramo'+4.87×'Dens. Específica'-0.30×'Dens. Aparente'-1.10×'% Flot 140 ppt - 10s'
Este modelo refleja la relación cuantitativa entre las variables independientes (PM 1h, Partículas x Gramo, Dens. Específica, Dens. Aparente, % Flot 140 ppt - 10s) y la variable dependiente (Consumo Total), utilizando los coeficientes obtenidos del análisis de regresión lineal múltiple. Los signos de los coeficientes indican la dirección de la relación: un coeficiente positivo implica una relación directa, mientras que un coeficiente negativo implica una relación inversa.
III. DISCUSIÓN
En el presente estudio, se investigó la influencia de los parámetros físicos de la dieta en el consumo de salmones utilizando diversos modelos de machine learning. Los resultados obtenidos se compararon con estudios previos en el campo de la nutrición y crecimiento de salmones y otros organismos acuáticos. A continuación, se discuten las similitudes y diferencias entre nuestros hallazgos y los reportados en la literatura existente.
Comparación de Modelos de Machine Learning
1. Regresión Lineal Múltiple (RLM)
o Nuestros Resultados: La RLM mostró un buen rendimiento, con un R² de 0.83, un RMSE de 2.71 y un MAE de 2.25. Los coeficientes indicaron que la Densidad Específica tuvo el mayor impacto positivo en el consumo total, mientras que PM 1h y Densidad Aparente tuvieron impactos negativos significativos.
o Estudios Previos: Shiau (1998) [1] y Tacon (1996) [2] destacaron la importancia de varios nutrientes en la dieta de salmones, pero no aplicaron modelos de machine learning. Nuestro enfoque complementa estos estudios al cuantificar la influencia de parámetros físicos específicos mediante modelos predictivos.
2. Random Forest
o Nuestros Resultados: Random Forest también mostró un buen rendimiento con un R² de 0.81, un RMSE de 2.86 y un MAE de 2.38. Este modelo es robusto y puede manejar relaciones no lineales, lo que es consistente con la capacidad de manejar características interactivas complejas.
o Estudios Previos: Hou et al. (2020) [4] aplicaron modelos de machine learning para predecir el rendimiento de crecimiento en salmones y encontraron que Random Forest era efectivo para manejar datos complejos y no lineales, similar a nuestros hallazgos.
3. Support Vector Regression (SVR)
o Nuestros Resultados: SVR mostró un rendimiento más bajo en comparación con RLM y Random Forest, con un R² de 0.78, un RMSE de 3.05 y un MAE de 2.61. Esto puede deberse a la naturaleza lineal del modelo que no captura todas las interacciones no lineales presentes en los datos.
o Estudios Previos: Zhang et al. (2021) [5] utilizaron SVR para predecir el crecimiento de salmones y encontraron que, aunque efectivo, SVR podría no ser el mejor modelo para todos los conjuntos de datos debido a su incapacidad para capturar todas las interacciones complejas.
4. K-Nearest Neighbors (KNN)
o Nuestros Resultados: KNN tuvo un rendimiento moderado con un R² de 0.79, un RMSE de 2.98 y un MAE de 2.50. Este modelo es intuitivo y no paramétrico, pero su rendimiento puede verse afectado por la elección de k y la escala de los datos.
o Estudios Previos: Føre et al. (2018) [3] encontraron que KNN era útil para modelar el crecimiento y la ingesta de alimentos en salmón, pero similar a nuestros resultados, indicaron que la elección del parámetro k y la escala de los datos son críticos para el rendimiento del modelo.
5. Gradient Boosting
o Nuestros Resultados: Gradient Boosting mostró un buen rendimiento con un R² de 0.80, un RMSE de 2.89 y un MAE de 2.40. Este modelo es poderoso para capturar relaciones complejas y no lineales, pero puede ser propenso al sobreajuste si no se ajustan adecuadamente sus hiperparámetros.
o Estudios Previos: Li et al. (2022) [6] utilizaron enfoques de deep learning para optimizar la formulación de alimentos para salmones y encontraron que técnicas avanzadas como Gradient Boosting y deep learning son efectivas para manejar relaciones complejas, en línea con nuestros hallazgos.
6. ElasticNet
o Nuestros Resultados: ElasticNet mostró un rendimiento moderado con un R² de 0.81, un RMSE de 2.87 y un MAE de 2.52. Este modelo combina las penalizaciones L1 (Lasso) y L2 (Ridge) para manejar colinealidades entre características y seleccionar automáticamente variables relevantes.
o Estudios Previos: La combinación de penalizaciones L1 y L2 en ElasticNet ha sido útil en la selección de variables y manejo de datos colineales, como se destacó en estudios sobre modelos predictivos en acuicultura (Zou y Hastie, 2005) [13].
IV. CONCLUSIÓN
Basándonos en los resultados de las contribuciones de los modelos, nuestras conclusiones indican que la Regresión Lineal Múltiple (RLM) y Random Forest son modelos particularmente efectivos para predecir el consumo de salmones en función de los parámetros físicos de la dieta. En estos modelos, variables como la Densidad Específica y el % de Flotabilidad (140 ppt - 10s) mostraron una contribución significativa, resaltando su importancia en la predicción del consumo. Esto refuerza la consistencia de nuestros hallazgos con estudios previos que han destacado la efectividad de estos modelos en contextos similares.
Por otro lado, modelos como SVR y KNN mostraron limitaciones en su capacidad para capturar las interacciones complejas presentes en los datos, lo que sugiere que podrían no ser tan adecuados para este tipo de predicciones en comparación con RLM y Random Forest.
La aplicación de machine learning en la nutrición y crecimiento de salmones ofrece una herramienta poderosa para optimizar las dietas y mejorar el rendimiento del cultivo. Futuras investigaciones podrían beneficiarse de la combinación de estos modelos con enfoques de deep learning, que pueden manejar relaciones aún más complejas y potencialmente mejorar la precisión de las predicciones. Esta integración podría proporcionar una comprensión más profunda y detallada de los factores que afectan el consumo y el crecimiento de los salmones, llevando a una optimización más efectiva de las dietas en la acuicultura.
V. REFERENCIAS
[1] S. Y. Shiau, "Nutrient requirements of penaeid shrimps," Aquaculture, vol. 164, no. 1-4, pp. 77-93, 1998.
[2] A. G. J. Tacon, "Nutritional studies in crustaceans and the problems of applying research results to practical farming systems," Aquaculture Nutrition, vol. 2, no. 3, pp. 165-172, 1996.
[3] M. Føre et al., "Modelling growth and feed intake in Atlantic salmon (Salmo salar L.) using machine learning techniques," Aquaculture, vol. 495, pp. 239-252, 2018.
[4] Z. Hou et al., "Application of machine learning models for predicting growth performance in aquaculture: A case study of Pacific white shrimp," Aquaculture, vol. 526, p. 735399, 2020.
[5] W. Zhang, M. Li, J. Wang, and Y. Chen, "Predicting shrimp growth under various environmental conditions using machine learning algorithms," Aquaculture, vol. 543, p. 737073, 2021.
[6] X. Li, Q. Zhang, Y. Liu, and S. Jiang, "Deep learning approaches for optimizing shrimp feed formulation: A cost-effective strategy," Aquaculture Nutrition, vol. 28, no. 1, pp. 120-132, 2022.
[7] S. N. Wood, Generalized Additive Models: An Introduction with R. Chapman and Hall/CRC, 2017.
[8] L. Breiman, "Random forests," Machine Learning, vol. 45, no. 1, pp. 5-32, 2001.
[9] T. K. Ho, "Random decision forests," in Proceedings of the 3rd International Conference on Document Analysis and Recognition, vol. 1, pp. 278-282, 1995.
[10] A. J. Smola and B. Schölkopf, "A tutorial on support vector regression," Statistics and Computing, vol. 14, no. 3, pp. 199-222, 2004.
[11] T. Cover and P. Hart, "Nearest neighbor pattern classification," IEEE Transactions on Information Theory, vol. 13, no. 1, pp. 21-27, 1967.
[12] J. H. Friedman, "Greedy function approximation: A gradient boosting machine," Annals of Statistics, vol. 29, no. 5, pp. 1189-1232, 2001.
[13] H. Zou and T. Hastie, "Regularization and variable selection via the elastic net," Journal of the Royal Statistical Society: Series B (Statistical Methodology), vol. 67, no. 2, pp. 301-320, 2005