Para llevar a cabo este estudio, utilizan el cluster Hadoop usado para almacenar y analizar la data de logs de Spotify. Los datos corresponden a usuarios Premium de España, el Reino Unido y Suecia entre el 2010 y el 2011
La principal motivación es ser los primeros en obtener información empírica del comportamiento de los usuarios de Spotify, una tarea que, a pesar del tamaño de la plataforma, aún no había sido realizada en profundidad
En el paper se considera primero el comportamiento general de los usuarios de Spotify. A través de los datos que se tienen en el clúster se pueden determinar las relaciones entre los tiempos de escucha, los momentos en los que se inicia una sesión y las canciones que se escuchan en cada sesión. El autor modela por ejemplo el periodo del día preferido para escuchar canciones por cada uno de los usuarios. Para esto divide un día en 8 periodos, y determina el número de reproducciones en cada periodo. En base a esto, el periodo que tenga mayor cantidad de reproducciones es designado como el periodo favorito para el usuario. Luego se determina el porcentaje de canciones diarias escuchado durante el periodo favorito, para determinar cuán importante es en la escucha diaria de un usuario.
Siguiendo métodos similares se modelan las relaciones de uso de la plataforma, obteniendo en la mayoría de los casos gráficos como los siguientes:





Luego de modelar la data en Hadoop encontraron los siguientes resultados:
1) Encontraron que las llegadas de sesión, las llegadas de reproducción y la duración de la sesión muestran patrones diarios fuertes en Spotify.
2) Mostraron que las llegadas de sesión en intervalos de 1 hora y 10 minutos en Spotify se pueden modelar como un proceso de Poisson no homogéneo.
3) Observaron una fuerte "inercia" de los usuarios de Spotify para continuar con las sesiones sucesivas en el mismo dispositivo.
4) Encontraron que la mayoría de los usuarios de Spotify tienen sus momentos favoritos del día para usar Spotify.
5) Encontraron que la duración de la primera sesión se puede utilizar como indicador tanto para la duración de la sesión sucesiva como para el tiempo de inactividad.