Temas acerca de Inteligencia Artificial
Foto de Usuario
Luis.Rodriguez

Ranking Troomes
Mensajes: 5
Registrado: 02 Sep 2020, 20:21
Contactar:

Sistema de detección de objetos basado en Android para personas con discapacidad visual

Mensaje por Luis.Rodriguez » 15 Dic 2020, 20:58

  1. Descripción
    Imagen

    Los seres humanos hacemos uso de nuestros sentidos para poder percibir e interactuar con nuestro medio exterior, siendo uno de ellos el sentido de la visión. Es así que las personas que tienen discapacidades visuales (personas ciegas o “cortas de vista”) presentan muchísimas dificultades para poder desplazarse libremente sin ayuda alguna por las calles e incluso interactuar con cualquier persona o cosa. Debido a ello, se ha realizado investigaciones en el campo de la Inteligencia Artificial que proponen diversas soluciones a este problema, tal como lo muestran los siguientes artículos publicados en la IEEE, proponiendo una solución basada en Smartphones Android, de modo que las personas con discapacidad visual puedan hacer uso de sus teléfonos inteligentes para poder percibir a través de sus celulares los distintos objetos a su alrededor, incluyendo sus nombres, direcciones y distancias a las que se encuentran, haciendo uso de las cámaras que estos poseen, y siendo alertados mediante auriculares o altavoces de dichos dispositivos. Estas investigaciones presentan un enfoque que puede funcionar de manera autónoma, o con conexión a internet, pero ambas orientadas a la aplicación del Deep Learning, también conocido como Aprendizaje profundo.
  2. Herramientas
    • Arquitectura de la solución
      La solución propuesta por una de las investigaciones está compuesta de tres módulos: un módulo de detección de objetos (I), un módulo de cálculo de distancia de los objetos respecto del usuario (II), y un módulo de determinación de la dirección en la que se encuentra el objeto (III), módulos cuyas salidas (output) se enviarán a una salida por audio para que el usuario pueda recibir la información.
      Imagen


      El módulo I (de detección) se encargará de realizar la clasificación (indicar que tipo de objetos son los que se está captando a través de la cámara) y localización del objeto (encerrar en un rectángulo -bounding box- a los objetos que se quiere captar para aislarlos dentro de la imagen captada por la cámara). Este módulo usará como base la API de detección de objetos de Tensor Flow que contiene 80 objetos detectables por defecto, pero que puede ser re-entrenada para detectar más objetos. Además, solo se indicará al usuario aquellos objetos que tengan mayor prioridad (como un camión o vehículo que puede ser peligroso para el usuario con discapacidad visual), y que además cumplan con un umbral de nivel de confianza por encima del 70%. El módulo II (determinar la distancia) y el III (determinar dirección), se realizará mediante la librería OpenCV para realizar los cálculos respectivos, también se hace uso de un algoritmo basado en conceptos geométricos de semejanza de triángulos. Para la dirección, se toma solo tres direcciones: izquierda, centro (al frente) y derecha. Por ejemplo, una posible alerta podría ser “Hay un camión 10 metros a la izquierda”.
      Imagen
    • Tipo de arquitectura
      En contraste con la primera investigación, que tiene implementado el modelo de detección dentro de la aplicación Android, la segunda nos propone un cambio en el sentido de que además de utilizar un smartphone, se haga uso de un servidor externo de alta gama para realizar las tareas de clasificación de los objetos captados por la cámara, por lo que para acceder a este servidor, otro requisito necesario es disponer de una conexión a internet estable en el celular. Se propone hacer uso de un servidor Intel Xeon E5 v3 de 2,3GHz y 7,5 GB de RAM, con una unidad GPU Nvidia Tesla K80 para hacer más rápido los cálculos necesarios. La similitud con la investigación anterior recae en que también se utilizará la librería Text To Speech (TTS) de Android para convertir la salida de la detección y ubicación de objetos a voz para que pueda notificarse al usuario con discapacidad. Respecto al dataset utilizado para el entrenamiento del modelo (de redes neuronales convolucionales - CNN), se utilizó un total de 35.000 imágenes, de las cuales el 70% se reservó para el entrenamiento, y el 30% para las pruebas respectivas.
  3. Resultados
    1) La primera investigación muestra que es capaz de detectar objetos alrededor del usuario con una precisión del 87%. Se indica también que el sistema puede ser re-entrenado para obtener una gama mayor de objetos para su detección.
    2) La segunda investigación nos muestra mayor detalle en cuanto a los resultados:
    Dado que el sistema a tratar debe ser lo suficientemente seguro para el usuario (no se puede jugar a lanzar un sistema con elevadas deficiencias pues se pone en riesgo la vida del usuario), se hizo pruebas con diferentes modelos de CNN, entre los cuales tenemos a ResNet50, InceptionV3 y VGG19, siendo el que mejor precisión alcanzó el modelo InceptionV3, con una precisión del 96.4%. Todos estos modelos fueron testeados con distintos optimizadores para conseguir mejores resultados en la detección.
    Imagen
  4. Conclusiones
    Podemos concluir que una mejor arquitectura de solución para el tema de reconocimiento de objetos y cálculo de distancia y dirección, está en el uso de un servidor externo para realizar el procesamiento de cada uno de los frames del video captado por la cámara. La precisión que se consigue con esta arquitectura y además usando redes neuronales convolucionales (CNN) es mucho mayor que implementando todo el modelo de manera local en un smartphone Android. Este último tiene la desventaja de que el usuario requiera de datos móviles, lo cual implica mayores costos, pero con el beneficio de obtener una mayor precisión en los resultados que el modelo de solución autónomo propuesto. Han de realizarse mayores investigaciones respecto al tema para incorporar más funcionalidades de detección, como la de billetes, monedas, e incluso reconocimiento de rostros humanos, todo ello con el fin de mejorar la accesibilidad de las personas con discapacidad visual a los distintos servicios proveídos por una comunidad.
  5. Referencias


Responder