DILATED RESIDUAL NETWORKS
La mayoría de redes neuronales destruyen la imagen para lograr clasificarlas. La idea principal de las DRN es preservar la resolución de las redes convolucionales. A pesar que reducir la resolución ha sido una técnica muy eficiente para clasificación de dígitos u otras imágenes, la perdida de información espacial resulta un obstáculo para la clasificación de imágenes donde la se aprecian varios objetos y donde la posición de estos representa información importante para el entendimiento de la escena o en imágenes donde objetos pequeños importantes se pierden debido a esta reducción de la resolución. Sin embargo, remover las capas en las que se reduce la resolución (subsampling) reduciría el campo receptivo de las capas posteriores.
Para resolver esta problemática se realizan “dilated convolutions” (convoluciones dilatadas) para ampliar el campo receptivo de las capas posteriores compensando así el efecto de eliminar las capas de subsampling.
La arquitectura base que utiliza la arquitectura ResNet propuesta por ]K. He, X. Zhang, S. Ren, and J. La cual consiste en 5 grupos de capas convolucionales en donde la primera capa de cada grupo es un capa de downsamplimg. Se elimina estas capas en los 2 últimos grupos ((G_4 y G_5). Luego se dilata las capas convolucionales de G_4 por un factor de 2 y un G_5 por un factor de 4.
Usando esta arquitectura se puede producir directamente usando una capa convolucional 1x1 desde G5 una predicción por pixeles para los objetos en los que se ha entrenado la red neuronal, de esta manera se puede obtener fácilmente una localización de los objetos en las imágenes de ser este el objetivo. Para adaptar el modelo para realizar clasificación de imágenes se debe mantener la capa de global pooling de la arquitectura original.
Además de la red descrita previamente (DRN-A-18) se proponen 2 arquitecturas en las que se modificaron otros componentes descritos en la imagen (DRN-B-26 y DRN-C-26). En las cuales se reemplazó un filtro inicial polling por varias capas convolucionales 3x3 tanto al inicio como al final de la red.
Estas modificaciones permitieron superar la arquitectura inicial usando redes neuronales de tamaños iguales. Por ejemplo, ResNet – 50 obtuvo un error de top 1 de 24.01 mientras que DRN-A – 50 y DRN-C-42 Obtuvieron uno de 22.94
La arquitectura DRN-C a pesar de aumentar la cantidad de parámetros a su vez mejora significativamente el rendimiento superando a redes ResNet más profundas y con mayor cantidad de parámetros.