En el siguiente link se encuentra una explicación de los distintos algoritmos que se utilizan para la optimizacion de los parametros de la red neuronal.
http://ruder.io/optimizing-gradient-descent/
Del blog de Sebastian Ruder.
Los algoritmos mencionados en el blog son: Momentum, Nesterov accelerated gradient, Adagrad, Adadelta, RMSprop, Adam, AdaMax, Nadam, AMSGrad
Ademas realiza una comparación entre estos y una recomendación de como elegir el optimizador a utilizar.

