Deep Learning aplicado en el reconocimiento de las señales de tránsito
1. Descripción
La detección y el reconocimiento automáticos de señales de tráfico desempeñan un papel fundamental en la gestión del inventario de señales de tráfico, sistemas autónomos y sistemas de asistencia al conductor. Proporciona una forma precisa y oportuna de administrar el inventario de señales de tráfico con un mínimo esfuerzo humano. En la comunidad de visión artificial, el reconocimiento y detección de señales de tráfico es un problema bien investigado. Sin embargo, esto representa un número relativamente pequeño de todas las señales de tráfico (alrededor de 50 categorías de varios cientos) y el rendimiento en el conjunto restante de señales de tráfico, que se requieren para eliminar el trabajo manual en la gestión del inventario de señales de tráfico, sigue siendo una cuestión abierta.
2. Herramientas
Conjunto de datos:
Para la evaluación del rendimiento, se utilizaron los siguientes conjuntos de datos disponibles públicamente:
• The German Traffic-Sign Detection Benchmark (GTSDB): 3 supercategorías, destinadas principalmente para la detección.
• The German Traffic-Sign Recognition Benchmark (GTSRB): 43 categorías, destinadas únicamente al reconocimiento.
• El conjunto de datos de señales de tráfico de Bélgica (BTS): 62 categorías, para detección y reconocimiento.
• The Mapping and Assessing the State of Traffic Infrastructure (MASTIF): 9 categorías originales, ampliadas a 31 categorías, adquiridas para el mantenimiento de carreteras servicio de evaluación en Croacia.
• The Laboratory for Intelligent and Safe Automobiles (LISA) Dataset: 49 categorías de señales de tráfico, adquiridas en las carreteras de EE. UU.
Convolutional Neural Network:
Ambas investigaciones muestran su propio modelo de la red neuronal a usar.
Para la primera (Deep Learning for Large-Scale Traffic-Sign Detection and Recognition) En la etapa de la detección: el primer módulo es una red profunda y completamente convolucional, la denominada Red de propuestas regionales (RPN), que toma una imagen de entrada y produce un conjunto de propuestas de objetos rectangulares, cada una con una puntuación de objetividad. El segundo módulo es una CNN basada en regiones, llamada Fast R-CNN, que clasifica las regiones propuestas en un conjunto de categorías predefinidas. Siguiendo la terminología recientemente popular de redes neuronales con el mecanismo de "atención", el módulo RPN le dice al módulo Fast RCNN dónde buscar. Mask R-CNN luego mejora este sistema combinando la arquitectura de red subyacente con una Feature Pyramid Network (FPN). Con el FPN, el detector puede mejorar el rendimiento en objetos pequeños, ya que FPN extrae características de las capas inferiores de la red, antes de que el muestreo descendente elimine detalles importantes en objetos pequeños. Luego con las imágenes extraídas son entrenadas con una nueva red neuronal basada en la arquitectura de VGG16 y ResNet50 con imágenes redimensionadas de 256x256x3, logrando así el reconocimiento, la arquitectura se muestra en la figura.
Mientras que para la segunda (Novel Deep Learning Model for Traffic Sign Detection Using Capsule Networks) realiza un método distinto a las Redes Convolucionales y las denomina como “Las redes de cápsulas”, estas redes consisten en cápsulas en lugar de neuronas. La cápsula es un grupo de redes neuronales artificiales que realizan complicados cálculos internos en sus entradas y encapsulan los resultados en un pequeño vector. Cada cápsula captura la posición relativa del objeto y si se cambia la pose del objeto, la orientación del vector de salida cambia en consecuencia, haciéndolos equivariantes.
3. Resultados
La primera investigación logró que el rendimiento en la métrica mAP50 se mejora del 93% a más del 95%, y el error de tasa de error se reduce casi a la mitad del 5,4% al 3,5%. Se obtienen resultados ligeramente peores en la métrica mAP50:95, pero esto mejora cuando se habilita el aumento. Con el data-augmentation mejora ligeramente mAP50 y mejora significativamente mAP50: 95 de 82 - 83% con la máscara R-CNN original a 84,4% para cuando se utilizan nuestras adaptaciones y aumento de datos.
Mientras que para la segunda investigación, el modelo se evalúa utilizando el conjunto de datos de prueba de 12,630 imágenes con un tamaño de lote de 50 obtuvo una precisión del 97,6% y una pérdida final de 0,0311028 evaluada en el conjunto de datos de prueba.
4. Conclusiones
El reconocimiento de las señales de tráfico a pesar de haberse vuelto popular en estoy últimos años sigue siendo una tarea desafiante y las redes neuronales han mostrado un gran potencial para la resolución de esta tarea y han mostrado que pueden dar resultados confiables y precisos al realizar correctamente las tareas de clasificación y detección de imágenes incluso en imágenes borrosas, giradas y distorsionadas imágenes.
5. Referencias
https://arxiv.org/pdf/1904.00649v1.pdf
https://arxiv.org/ftp/arxiv/papers/1805/1805.04424.pdf