El objetivo es crear un concepto simple, flexible y general marco para la segmentación de instancias de objetos. Actualmente las técnicas utilizadas son pésimas y no logran segmentar eficientemente a las personas a los objetos. El enfoque que se quiere lograr es detectar eficientemente objetos en una imagen mientras simultáneamente se genera una máscara de segmentación de alta calidad para cada instancia.
El método, llamado Mask R-CNN, se extiende más rápido con R-CNN (Convolutional Neuronal Network) agregando una rama para predecir una máscara de objeto en paralelo con la rama existente para el reconocimiento de cuadro delimitador.
Además, Mask R-CNN es fácil de generalizar a otras tareas, por ejemplo, permitiendo nosotros poder estimar poses humanas en el mismo marco. Esto es ampliamente utilizado en videojuegos como el Kinect o para detectar eficientemente el entorno y en la robótica.
ANTECEDENTES
Para la realización de un enfoque de segmentación se recurrió a diversos trabajos, pero principalmente se analizaron estos dos:
R-CNN: El enfoque basado en la región CNN (R-CNN) para la detección de objetos de caja delimitadora es atender a un manejable número de regiones de objetos candidatos y evaluar redes convoluciones de forma independiente en cada RoI. R-CNN se amplió para permitir asistir a RoI en los mapas de características usando RoIPool, lo que conduce a una velocidad rápida y con mejor precisión. A contrario de otras técnicas, R-CNN es flexible y robusto puesto que posee muchas mejoras de seguimiento, y es el marco líder actual en varios puntos de referencia.
Segmentación de instancias: impulsado por la efectividad de RCNN, muchos enfoques para la segmentación de instancias se basan en propuestas de segmento. Métodos anteriores recurrieron a segmentos ascendentes. DeepMask y los siguientes trabajos aprenden a proponer candidatos de segmentos, que luego son clasificados por Fast R-CNN. En estos métodos, la segmentación precede el reconocimiento, que es lento y menos preciso del mismo modo, Día et al. propuso un complejo cascada de múltiples etapas que predice propuestas de segmentos de propuestas de recuadro delimitador, seguido de clasificación.

Mask R-CNN
Link: http://openaccess.thecvf.com/content_IC ... _paper.pdf