Uso de RNN para el descubrimiento musical

jorgesalcedo · Mensaje por **jorgesalcedo** » 24 Jul 2020, 17:58

Large-scale user modeling with recurrent neural networks for music discovery on multiple time scales

Los autores realizan un estudio para determinar la efectividad de usar redes neuronales recurrentes para generar recomendaciones musicales para un usuario.
El articulo comienza con una historia acerca de los orígenes de este problema, los cuales pasan por la necesidad de recomendar ítems a un usuario de entre un conjunto casi infinito de ítems, la cual es prácticamente una definición de los actuales servicios de distribución de entretenimiento multimedia como Netflix y Spotify, y plataformas de comercio online con Amazon. Se mencionan luego algunas de las técnicas anteriormente usadas para resolver este problema entre las que se encuentran:
• Colaborative filtering
• Implicit feedback models
• Item embeddings
• Matrix factorization
• Singular value decomposition
• Markov models

Luego de esto introduce la solución propuesta, la cual consta de 3 etapas:
La creación de vectores de las canciones, usando word2vec
La creación de un vector de gusto musical por usuario, usando como entrada los vectores de las canciones escuchadas por el usuario.
La recomendación de canciones para el usuario, en base al vector de gusto musical generado.

Luego se explican los pormenores de los pasos desarrollados, incluyendo el procesamiento y filtrado de la data, la arquitectura de la red neuronal utilizada, la plataforma de hardware utilizada.

También se mencionan los experimentos llevados a cabo, como la mayor velocidad de predicción del modelo GRU sobre LSTM, razón por la cual se decide por un modelo GRU de dos capas.

Se presentan finalmente los resultados en distancia L2 y distancia coseno y se compara el rendimiento obtenido con otras implementaciones existentes.

Motivación del autor (críticas del autor a otros trabajos)

La principal motivación de los autores se centra en encontrar si la aplicación de redes neuronales recurrentes puede significar un avance en el campo de los sistemas de recomendación. Este estudio se centra en las particularidades de implementar un sistema como este con el objetivo de recomendar música, ya que un tema musical tiene características diferentes a las de un producto que se pueda vender en una tienda online.

Descripción del aporte del autor

El principal aporte consiste en presentar los resultados de la implementación de un modelo de redes neuronales recurrentes para recomendar canciones a un usuario, tanto en el corto como en el largo plazo.
Para cada uno de estos casos se generó una red neuronal diferente, para luego comparar los resultados.
Además, se compararon estos resultados con los de implementaciones anteriores, a través de la distancia coseno, para medir el rendimiento de estas soluciones

Proceso para obtener el aporte que considera el autor

Para obtener el vector gusto musical de cada usuario los autores implementaron dos redes neuronales: una de largo y otra de corto plazo, con el objetivo de generar, a través del vector gusto musical generado, recomendaciones de canciones para el usuario.
Para entrenar estas redes neuronales los autores utilizaron una instancia de AWS, con un procesador de 32 núcleos, 64 GB de RAM y un procesador de video K520.

Proceso para resolver el problema considerado por el autor

A través del flujo realizado puede aplicarse este método de recomendaciones para obtener vectores gusto musical para los usuarios de una plataforma como Spotify.
Para esto deben tomarse en cuenta los resultados de las pruebas realizadas: la implementación a gran escala del flujo generado es altamente paralelizable, por lo que puede ejecutarse en tantos nodos computacionales como sea posible.
La generación de vectores para las canciones es una parte del proceso que se debería ejecutar una sola vez, de modo que la mayor parte del peso computacional recaiga en el entrenamiento de las redes neuronales que generan el vector gusto musical

Métricas que el autor usa y resultado que obtiene. Comentar (los resultados son mejores respecto a otros)

El autor utiliza la distancia coseno entre los resultados predichos y los resultados reales, esto tomando como data de entrenamiento los vectores de las 100 primeras canciones de un usuario y como data de testeo las siguientes n canciones.

Observaciones y/o críticas suyas al artículo

Considerar el problema como un problema de regresión y no de clasificación es una perspectiva audaz asumida por los autores del estudio. En particular, es una visión que puede resultar útil en el caso de intentar predecir las preferencias musicales de un grupo de usuarios, ya que en este caso puede considerarse el gusto musical de los concurrentes como un único vector preferencia.

https://link.springer.com/article/10.10 ... 017-5121-z