Troomes

Publicado: **29 May 2018, 14:04**

Apesar de la flexibilidad del deep neural networks, estas poseen una sensible limitación, ambos inputs y outputs de los modelos tienen que estar codificados en vectores de un tamaño fijo. Por ejemplo, para clasificacion imagenes, siempre se tienen que tener un tamaño fijo de la imagen ingresada, y el tamaño de las salidas en un vector one-hot de todas las clases posibles a clasificar. Sin embargo muchos problemas son mejor definidos como problemas "sequences to sequences" en donde tanto las entradas como las salidas son sequencias de largo indefinido de palabras, imagenes, sonidos, etc.

Para este tipo de problemas se utilizan en la actualidad redes neuronales recurentes.
Las redes neuronales recurrentes son modelos en los cuales las predicciones en el "tiempo" 't' usan como input los outputs del modelo en el "tiempo" 't-1'. De esta forma el output (h_t) seria representado por la siguiente ecuacion. Donde W y U son parametros del modelo.
Imagen

De esta manera el modelo genera outputs en funcion al "tiempo" o secuencia de entrada de los inputs como se observa a continuacion.

Imagen

Link:
https://deeplearning4j.org/lstm.html

Troomes

Sequence to Sequence Learning with Neural Networks

Sequence to Sequence Learning with Neural Networks