Estimación de calorías usando visión por computador

renzo.guerrero · Mensaje por **renzo.guerrero** » 18 Dic 2020, 17:40

1.Descripción del problema
Uno de los principales problemas que aqueja a la población mundial es el exceso de peso, según reportes de la OMS en el año 2016 había más de 1900 millones de adultos de 18 o más años tenían sobrepeso y el 13% eran obesas, en el Perú hasta el año 2019 se conoce que la prevalencia nacional de sobrepeso fue de 40,5% y de obesidad 19,7%, con un total de 60,2% de población adulta con exceso de peso.
Como se sabe las principales complicaciones del sobrepeso son las enfermedades cardiovasculares, hipertensión y diabetes, las cuales comparten como tratamiento a un control del régimen especial de alimentación, ya sea midiendo la cantidad de hidratos de carbono, grasas, sodio y proteínas.
El uso creciente de aplicativos en teléfonos móviles se ha vuelto una oportunidad para que personas tomando fotos de alimentos puedan conocer su valor nutricional, estos aplicativos hacen uso de la visión por computador y distintos sensores que permitan estimar principalmente el contenido calórico de los alimentos antes de ingerirlos a manera de que las personas puedan tener un mayor control de éstos.

2.Herramientas
2.1. Algoritmos de detección y segmentación de objetos
-En [1] se propone el uso de Faster R-CNN para resolver el problema de la detección de múltiples alimentos en una imagen, esta arquitectura de detección de objetos se entrenó en un conjunto de datos llamado ECUSTFD el cual está formado por distintos alimentos entre ellos manzanas, peras, quiwi y demás alimentos de origen japonés,además de los alimentos se hace uso de una moneda de un yuan como objeto de referencia a manera de que se pueda conocer el tamaño real de los alimentos en la imagen.

: Fig1.jpg (76.6 KiB) Visto 1370 veces

-En [2] se propone DepthCalorieCam que mediante el uso de teléfonos Iphone X con IOS11 al tomar imágenes desde la cámara del celular este tipo de imágenes son RGB-D donde D indica el sentido de profundidad de la imagen captada , este valor D se puede obtener ya que estos teléfonos cuentan con un par de cámaras en la parte trasera que pueden ser usadas como cámaras estéreo,para la etapa de segmentación se propone el uso de la arquitectura U-net entrenándose en el conjunto de datos UECFOOD100,además este método no hace uso de un objeto de referencia ya que los volúmenes reales pueden ser estimados por visión estéreo , tomando en cuenta que se conoce los parámetros de la cámara del IPhone de antemano.

: Fig8.JPG (39.47 KiB) Visto 1370 veces

2.2. Estimación de calorías
-En [1] se hace uso de 2 fotos, desde una vista superior y una vista lateral del mismo alimento para conocer las tres dimensiones, posteriormente se realiza la segmentación de cada una de los alimentos utilizando el algoritmo de Grabcut y así calcular el volumen de dicho alimento, ahora con el volumen estimado y la densidad de cada alimento como dato se podrá conocer la masa de este , lo cual asociado a una tabla de valor nutricional por 100 gramos del alimento nos permitirá conocer el contenido calórico de cada uno de los alimentos presentes en la imagen.

A)Cálculo de volumen

: Fig4.jpg (13.24 KiB) Visto 1370 veces

- En [2] se hace uso 1 foto RGB-D, donde se divide las estructuras 3D en muchas piezas pequeñas de paralelípedo rectangular donde el volumen de cada una de estas piezas estará dado por la multiplicación de su área por la profundidad, luego haciendo uso de geometría espacial se puede obtener la distancia de la cámara al plano de referencia donde se colocan los alimentos, para así escalar el tamaño real de los píxeles en la imagen.

: Fig5.jpg (13.11 KiB) Visto 1370 veces

2.3.Comparación del volumen estimado vs volumen real
Ambas investigaciones usan el método de desplazamiento de agua para calcular el volumen real del objeto , este método consiste en sumergir un objeto en un recipiente lleno de agua en el que la masa de agua desplazada es igual al volumen real del objeto dado que la densidad del agua es de 1g/cm3.

3.Resultados

1) En [1] para la etapa de detección se usó los algoritmos de detección Faster R-CNN y Exemplar SVM(ESVM) se usó como métrica de evaluación la precisión media (mAP), en Faster R-CNN se encontró el valor de 93% y para ESVM un valor de 75.9%, para la etapa de estimación de volumen se usó como métrica el error medio, tal como se muestra en la siguiente tabla:

: Fig6.jpg (94.34 KiB) Visto 1370 veces

2) En [2] para la etapa de segmentación se usó la arquitectura U-net obteniéndose u valor de 80% para la métrica Intersection over Union en la muestra de prueba, para la etapa de estimación de calorías en la siguiente tabla se muestra la media + - desviación estándar de los errores en las calorías estimadas.

: Fig7.jpg (12.48 KiB) Visto 1370 veces

4. Conclusiones

1) En [1] el usó de una arquitectura Faster R-CNN ayudó a solucionar el problema de localizar múltiples alimentos en una imagen,obteniéndose un IoU mayor al 90%, además de que hace uso de una entrada basada en dos vistas y un objeto de referencia, a comparación de [2] en el que DepthCalorieCam aprovecha los sensores estéreo que puedan dar la noción de profundidad en base a una sola imagen para así hacer poder la aplicación más fácil de usar , sin embargo este tipo de aplicación sólo puede ser soportado para ciertos teléfonos que tengan estos sensores.
2) Los 2 trabajos revisados hacen uso de base de datos con alimentos de origen asiático por lo cual no serían de mucho impacto en la realidad de Latinoamérica, por lo que se busca realizar nuevos trabajos que se adapten a distintas realidades.

5. Referencias

[1] https://www.researchgate.net/publicatio ... Assessment
[2] https://dl.acm.org/doi/10.1145/3347448.3357172