Troomes

jorgesalcedo

Tambien está Ex Machina:

https://www.imdb.com/title/tt0470752/

jorgesalcedo

Los autores realizan un estudio donde describen el efecto de permitir que un usuario controle ciertos aspectos de un sistema de recomendación, tal como la dirección de las recomendaciones. En particular, los efectos de dos interfaces de usuario: una con sliders y otra con un radar chart, esto con el fin de estudiar la implicancia de la participación de los usuarios en la confianza que estos muestran en un sistema de recomendaciones, dado el grado de desconocimiento que la mayoría de los usuarios tienen sobre su funcionamiento.
Las interfaces utilizadas fueron las siguientes:

Imagen

El procedimiento se basó principalmente en ofrecer estas diferentes interfaces a los usuarios a fin de que puedan interactuar con ellas y recabar la información del uso que le daban al sistema de recomendación utilizado.

Luego de las interacciones de los usuarios se pudo obtener la siguiente información:

Imagen

Donde podemos ver claramente como la UI puede generar un comportamiento diferente de un sistema de recomendación. En este caso en particular vemos como las dos UI mostradas difieren en 3 puntos clave:

Q3: Respuestas a la afirmación: "Este sistema de recomendación me ayudo a descubrir nuevas canciones"
liked: Número de veces que el botón de like fue presionado
nbEnergy: Número de veces que el atributo energía fue cambiado

Esto no hace más que mostrarnos como el rendimiento de un sistema de AI no depende solamente de los algoritmos utilizados sino tambien de las herramientas a través de las cuales el usuario puede interactuar con él.

DOI: 10.1145/3209219.3209223

jorgesalcedo

Los autores realizan un estudio en base a la data de usuarios de Spotify para analizar el comportamiento de los usuarios de Spotify desde dos frentes: las dinámicas del comportamiento de los usuarios en base a los tiempos de escucha, tiempos de conexión y de llegada, y el comportamiento individual de los usuarios tanto en uno como en varios dispositivos. Esto les permite determinar tiempos de uso preferido y correlaciones entre tiempos de escucha y tiempos de descanso.

Para llevar a cabo este estudio, utilizan el cluster Hadoop usado para almacenar y analizar la data de logs de Spotify. Los datos corresponden a usuarios Premium de España, el Reino Unido y Suecia entre el 2010 y el 2011

La principal motivación es ser los primeros en obtener información empírica del comportamiento de los usuarios de Spotify, una tarea que, a pesar del tamaño de la plataforma, aún no había sido realizada en profundidad

En el paper se considera primero el comportamiento general de los usuarios de Spotify. A través de los datos que se tienen en el clúster se pueden determinar las relaciones entre los tiempos de escucha, los momentos en los que se inicia una sesión y las canciones que se escuchan en cada sesión. El autor modela por ejemplo el periodo del día preferido para escuchar canciones por cada uno de los usuarios. Para esto divide un día en 8 periodos, y determina el número de reproducciones en cada periodo. En base a esto, el periodo que tenga mayor cantidad de reproducciones es designado como el periodo favorito para el usuario. Luego se determina el porcentaje de canciones diarias escuchado durante el periodo favorito, para determinar cuán importante es en la escucha diaria de un usuario.
Siguiendo métodos similares se modelan las relaciones de uso de la plataforma, obteniendo en la mayoría de los casos gráficos como los siguientes:

Imagen

Luego de modelar la data en Hadoop encontraron los siguientes resultados:

1) Encontraron que las llegadas de sesión, las llegadas de reproducción y la duración de la sesión muestran patrones diarios fuertes en Spotify.
2) Mostraron que las llegadas de sesión en intervalos de 1 hora y 10 minutos en Spotify se pueden modelar como un proceso de Poisson no homogéneo.
3) Observaron una fuerte "inercia" de los usuarios de Spotify para continuar con las sesiones sucesivas en el mismo dispositivo.
4) Encontraron que la mayoría de los usuarios de Spotify tienen sus momentos favoritos del día para usar Spotify.
5) Encontraron que la duración de la primera sesión se puede utilizar como indicador tanto para la duración de la sesión sucesiva como para el tiempo de inactividad.

jorgesalcedo

Esta semana Microsoft anunció la compra de ZeniMax Media, dueña de Bethesda Softworks por 7.5 mil millones de dólares a fin de ampliar su catálogo de videojuegos en Xbox, de cara al próximo lanzamiento de las consolas de nueva generación Xbox Series X y Xbox Series S. Con esta adquisición Microsoft se hace con 8 estudios de videojuegos y eleva el número de estudios bajo su manga de 15 a 23, en buena parte para suplir la escasez de títulos de lanzamiento para estas nuevas consolas.
Aterrizando esta compra en el contexto peruano podemos mencionar algunas las empresas peruanas más grandes que cotizan en bolsa:

Credicorp (BCP) 17.28 B
Intercorp (Interbank) 4.54 B
Buenaventura 3.88 B
Cementos Pacasmayo 0.79 B

Lo que nos permite apreciar la escala a la que se comienza a manejar el negocio de los videojuegos en el mercado mundial.

jorgesalcedo

Integrantes:
Rojas Silva, Rodrigo Bernie
Salcedo Del Pino, Jorge Daniel

Resumen del trabajo
El sistema desarrollado pretende servir como DJ automatico para un grupo de amigos. Para esto, y en funcion a la data que se extrae de los perfiles de spotify de cada uno, se calcula una playlist ordenada con las canciones que serian del agrado del grupo. De esta manera, los invitados pueden preocuparse de pasarla bien y dejar al sistema reproducir automaticamente la musica

Video:

Código GitHub:
https://github.com/jorged94/group-playlisting

Documento:

jorgesalcedo

Descripción

La continuación automática de las listas de reproducción es un problema importante en la recomendación de música. Una parte significativa del consumo de música ahora se realiza en línea a través de listas de reproducción y estaciones de radio en línea similares a listas de reproducción. La compilación manual de listas de reproducción para los consumidores es una tarea que requiere de mucho tiempo y que es difícil de realizar a escala, dada la diversidad de gustos y la gran cantidad de contenido musical disponible. En consecuencia, la continuación automatizada de la lista de reproducción ha recibido mucha atención recientemente

Para poder llevar a cabo esta tarea se requiere el desarrollo de modelos que puedan extraer caracteristicas tanto de las canciones como de los usuarios. Es en esta linea que se presentan dos trabajos enfocados principalemente en estos dos temas: el primero versa acerca de como extraer informacion de la historia de escucha de los usuarios a fin de determinar canciones similares que remomendarle mientras que el segundo se basa en la extraccion de informacion de las canciones en sí mismas.

Podemos ver como el primer modelo usa la siguiente estructura:
Imagen

A través de este ensamble de metodos se consiguió ganar el concurso RecSys Challenge’18, 2018, Vancouver, Canada, con los siguientes indicadores

R-Precision
R-Precision es el número de pistas relevantes recuperados dividido por el número de pistas relevantes conocidas (es decir, el número de pistas retenidas):
R-Precision = | G ∩ R1: | G | | | G |.
La métrica se promediará en todas las listas de reproducción del conjunto de desafíos. Esta métrica premia el número total de pistas relevantes recuperadas (independientemente del orden).
Ganancia acumulativa con descuento normalizada (NDCG)
La ganancia acumulada con descuento (DCG) mide la calidad de clasificación de las pistas recomendadas, aumentando cuando las pistas relevantes se colocan más arriba en la lista. El DCG normalizado (NDCG) se determina calculando el DCG y dividiéndolo por el DCG ideal en el cual las pistas recomendadas están perfectamente clasificadas:
DCG = REL1 + ∑ i = 2 | R | relilog2(i + 1).
El DCG o IDCG ideal es, en nuestro caso, igual a:
IDCG = 1 + ∑ i = 2 | G | 1log2(i + 1).
Si el tamaño de la intersección del conjunto de G y R , está vacío, después el DCG es igual a 0. La métrica NDCG se calcula ahora como:
NDCG = DCGIDCG.
Canciones recomendadas hace clic
Canciones recomendadas es una característica de Spotify que, dado un conjunto de pistas en una lista de reproducción, recomienda 10 pistas para agregar a la lista de reproducción. La lista se puede actualizar para producir 10 pistas más. Los clics de las canciones recomendadas son el número de actualizaciones necesarias antes de que se encuentre una pista relevante. Se calcula de la siguiente manera:
clics =⌊argmini{ri: Ri∈G |} − 110⌋
Si la métrica no existe (es decir, si no hay ninguna pista relevante en rr ), se recoge un valor de 51 (que es 1 + el número máximo de clics posible).

Imagen

Aqui vemos como resulta claramente vencedor.

Mientras, por el lado del segundo paper se puede observar como a partir de los datos obtenidos de la informacion sonora se puede obtener una clasificacion de las canciones de los artistas

Imagen

Se observa una precision de 0.937 cuando se toman pedazos de cancion de 3s. Esto se obtiene a través de un ensamble de redes neuronales recurrentes convolucionales
Imagen

Conclusiones
Podemos ver como cada dia se dan grandes avances en el campo de los sistemas de recomendacion y la inteligencia artificial en general. Sin embargo, cada nuevo avance trae consigo nuevas oportunidades de mejora. En el primer modelo podemos ver como es dificil predecir el comportamiento de nuevas canciones que aun no han sido escuchadas por los usuarios, mienstas que en el segundo se puede ver como la precision baja para pedazos de cancion de mas de 3 segundos

Referencias

Nasrullah, Z., & Zhao, Y. (2019). Music Artist Classification with Convolutional Recurrent Neural Networks. In 2019 International Joint Conference on Neural Networks (IJCNN) (pp. 1–8).
Volkovs, M., Rai, H., Cheng, Z., Wu, G., Lu, Y., & Sanner, S. (2018). Two-stage Model for Automatic Playlist Continuation at Scale. In Proceedings of the ACM Recommender Systems Challenge 2018 on (p. 9).

jorgesalcedo

Sistemas de recomendacion musical

Descripción
En la actualidad una de las necesidades más grandes de los nuevos sistemas de distribución de contenido como Netflix, YouTube o Spotify es la de ser capaces de recomendar el contenido apropiado para sus suscriptores. Dado que estos ofrecen una cantidad de contenido extremadamente grande, es sumamente importante conectar este contenido con los consumidores que puedan apreciarlo, de modo que las tres partes involucradas vean cumplidas sus metas en el proceso: los creadores vean sus canciones recomendadas a más usuarios potenciales, los consumidores vean más recomendaciones de acuerdo con sus gustos y la plataforma vea que el uso se incrementa.

Para solucionar este problema a lo largo del tiempo se han desarrollado diferentes estrategias entre las cuales encontramos:

Filtrado por contenido
Es aquel donde se generan perfiles tanto para los usuarios como para los contenidos. La idea es luego asociar estos perfiles para que los usuarios puedan acceder a contenido relevante. El problema consiste en que muchas veces es difícil o incluso imposible conseguir esta información externa, necesaria para generar estos perfiles. (Koren, 2009)

Filtrado colaborativo
Aquí los dos principales métodos son los enfocados a los vecindarios o a los factores latentes
Los métodos enfocados a vecindarios se basan en analizar las interacciones que se han dado entre los usuarios y el contenido. Estos pueden ser enfocados tanto en el usuario como en contenido. Cuando se enfocan en el contenido se trata de asignar una calificación a un contenido en función a como se han calificado contenidos vecinos por un mismo usuario. Para esto, un contenido vecino es aquel que ha sido calificado de manera similar por un mismo usuario. (Koren, 2009)
Por otro lado, cuando el enfoque se basa en el contenido la idea es analizar a que usuarios les agrada determinado contenido. Tomemos un ejemplo:
A Luis le gustar tres películas de acción. Basado en esto el sistema busca otros usuarios a los que les agraden estas tres películas de acción. Luego, analiza el total de películas que son del agrado de estos usuarios. La s que más se repitan serán aquellas que tendrán mayor probabilidad de gustarle a Luis.
Otro método es del factor latente. Aquí se infieren características tanto de los contenidos como de los usuarios a partir de los patrones de calificación, de manera que se obtienen características similares al filtrado por contenido. Uno de los métodos más exitosos para obtener estos modelos de características es el de la factorización matricial.
La data para obtener la data a factorizar es principalmente de dos tipos: Explicita e implícita.
La data explicita es aquella que es el resultado de una acción directa de los usuarios, como un pulgar arriba o abajo luego de ver una película o una calificación de 5 estrellas al final de un episodio.
Por el contrario, la data implícita es aquella que se obtiene a través del análisis del comportamiento del usuario en la plataforma, midiendo, por ejemplo, los clics que realiza o sus búsquedas más frecuentes.
El método de factorización matricial se base principalmente en crear vectores que representen la afinidad de un usuario por determinada característica y la presencia de determinada característica en un contenido. Una vez que se ha resuelto esta dificultad el método genera recomendaciones simplemente realizando una multiplicación punto entre el vector contenido y el vector usuario:

Para poder realizar esta factorización es necesario contar con una matriz densa, esto es, sin espacios en blanco. El problema radica en encontrar los datos para llenar esta matriz, de modo que se puedan aplicar los métodos de factorización matricial.

Conclusiones
Vemos como la necesidad de conectar los productos de la industria del entretenimiento con los consumidores más adecuados ha llevado a un rápido desarrollo de diversos sistemas de recomendación, los cuales tienen profundas raíces matemáticas, y que han logrado una cuantiosa investigacion en el campo, utilizando tanto metodos matriciales como el filtrado colaborativo como las nuevas tendencias de machine learning

Referencias

Zheng, H.-T., Chen, J.-Y., Liang, N., Sangaiah, A., Jiang, Y., & Zhao, C.-Z. (2019). A Deep Temporal Neural Music Recommendation Model Utilizing Music and User Metadata. Applied Sciences, 9(4), 703.
Koren, Y., Bell, R. M., & Volinsky, C. (2009). Matrix Factorization Techniques for Recommender Systems. IEEE Computer, 42(8), 30–37.

jorgesalcedo

Large-scale user modeling with recurrent neural networks for music discovery on multiple time scales

Los autores realizan un estudio para determinar la efectividad de usar redes neuronales recurrentes para generar recomendaciones musicales para un usuario.
El articulo comienza con una historia acerca de los orígenes de este problema, los cuales pasan por la necesidad de recomendar ítems a un usuario de entre un conjunto casi infinito de ítems, la cual es prácticamente una definición de los actuales servicios de distribución de entretenimiento multimedia como Netflix y Spotify, y plataformas de comercio online con Amazon. Se mencionan luego algunas de las técnicas anteriormente usadas para resolver este problema entre las que se encuentran:
• Colaborative filtering
• Implicit feedback models
• Item embeddings
• Matrix factorization
• Singular value decomposition
• Markov models

Luego de esto introduce la solución propuesta, la cual consta de 3 etapas:
La creación de vectores de las canciones, usando word2vec
La creación de un vector de gusto musical por usuario, usando como entrada los vectores de las canciones escuchadas por el usuario.
La recomendación de canciones para el usuario, en base al vector de gusto musical generado.

Luego se explican los pormenores de los pasos desarrollados, incluyendo el procesamiento y filtrado de la data, la arquitectura de la red neuronal utilizada, la plataforma de hardware utilizada.

También se mencionan los experimentos llevados a cabo, como la mayor velocidad de predicción del modelo GRU sobre LSTM, razón por la cual se decide por un modelo GRU de dos capas.

Se presentan finalmente los resultados en distancia L2 y distancia coseno y se compara el rendimiento obtenido con otras implementaciones existentes.

Motivación del autor (críticas del autor a otros trabajos)

La principal motivación de los autores se centra en encontrar si la aplicación de redes neuronales recurrentes puede significar un avance en el campo de los sistemas de recomendación. Este estudio se centra en las particularidades de implementar un sistema como este con el objetivo de recomendar música, ya que un tema musical tiene características diferentes a las de un producto que se pueda vender en una tienda online.

Descripción del aporte del autor

El principal aporte consiste en presentar los resultados de la implementación de un modelo de redes neuronales recurrentes para recomendar canciones a un usuario, tanto en el corto como en el largo plazo.
Para cada uno de estos casos se generó una red neuronal diferente, para luego comparar los resultados.
Además, se compararon estos resultados con los de implementaciones anteriores, a través de la distancia coseno, para medir el rendimiento de estas soluciones

Proceso para obtener el aporte que considera el autor

Para obtener el vector gusto musical de cada usuario los autores implementaron dos redes neuronales: una de largo y otra de corto plazo, con el objetivo de generar, a través del vector gusto musical generado, recomendaciones de canciones para el usuario.
Para entrenar estas redes neuronales los autores utilizaron una instancia de AWS, con un procesador de 32 núcleos, 64 GB de RAM y un procesador de video K520.

Proceso para resolver el problema considerado por el autor

A través del flujo realizado puede aplicarse este método de recomendaciones para obtener vectores gusto musical para los usuarios de una plataforma como Spotify.
Para esto deben tomarse en cuenta los resultados de las pruebas realizadas: la implementación a gran escala del flujo generado es altamente paralelizable, por lo que puede ejecutarse en tantos nodos computacionales como sea posible.
La generación de vectores para las canciones es una parte del proceso que se debería ejecutar una sola vez, de modo que la mayor parte del peso computacional recaiga en el entrenamiento de las redes neuronales que generan el vector gusto musical

Métricas que el autor usa y resultado que obtiene. Comentar (los resultados son mejores respecto a otros)

El autor utiliza la distancia coseno entre los resultados predichos y los resultados reales, esto tomando como data de entrenamiento los vectores de las 100 primeras canciones de un usuario y como data de testeo las siguientes n canciones.

Observaciones y/o críticas suyas al artículo

Considerar el problema como un problema de regresión y no de clasificación es una perspectiva audaz asumida por los autores del estudio. En particular, es una visión que puede resultar útil en el caso de intentar predecir las preferencias musicales de un grupo de usuarios, ya que en este caso puede considerarse el gusto musical de los concurrentes como un único vector preferencia.

https://link.springer.com/article/10.10 ... 017-5121-z

Se encontraron 8 coincidencias

Re: Omnisciente y Psycho-Pass: Que avances hay en Inteligencia Artificial cercanos a esa ficción

Cómo afecta la UI a la AI?

Comprendiendo el comportamiento de los usuarios de Spotify

Microsoft compra ZeniMax por $7.5 mil millones

Group Playlisting

Continuación automática de músical

Sistemas de recomendacion musical

Uso de RNN para el descubrimiento musical