Temas acerca de Inteligencia Artificial
Foto de Usuario
rodrigorojass

Ranking Troomes
Mensajes: 3
Registrado: 08 Ene 2020, 19:27

Recomendación de música basada en contenido

Mensaje por rodrigorojass » 14 Ago 2020, 23:48

Introducción
En los últimos años, la industria de la música se ha orientado cada vez más hacia la distribución digital a través de tiendas de música en línea y servicios de transmisión como iTunes, Spotify, Grooveshark y Google Play. Como resultado, la recomendación automática de música se ha convertido en un problema cada vez más relevante: permite oyentes para descubrir nueva música que coincida con sus gustos, y permite a las tiendas de música en línea orientar sus productos a la audiencia adecuada. Aunque los sistemas de recomendación se han estudiado ampliamente, el problema de la recomendación de música en particular se complica por la gran variedad de diferentes estilos y géneros, así como factores sociales y geográficos que influyen en las preferencias del oyente.

Recomendación basada en contenido
La música se puede recomendar en función de los metadatos disponibles: generalmente se conoce información como el artista, el álbum y el año de lanzamiento. Desafortunadamente, esto conducirá a recomendaciones predecibles. Por ejemplo, recomendar canciones de artistas que se sabe que disfruta el usuario no es particularmente útil. También se puede intentar recomendar música que sea perceptualmente similar a lo que el usuario ha escuchado anteriormente, midiendo la similitud entre las señales de audio.

Filtrado colaborativo
Los métodos de filtrado colaborativo pueden basarse en vecindarios o en modelos. Los primeros se basan únicamente en una medida de similitud entre usuarios o artículos: recomiendan artículos consumidos por otros usuarios con preferencias similares, o artículos similares a los que el usuario ya ha consumido. Los métodos basados en modelos, por otro lado, intentan modelar las características latentes de los usuarios y los elementos, que generalmente se representan como vectores de factores latentes. Los modelos de factor latente han sido muy populares desde que se demostró su efectividad para la recomendación de películas en el Premio Netflix.

El Dataset
Million Song Dataset (MSD) es una colección de metadatos y funciones de audio precalculadas para un millón de canciones contemporáneas. También se encuentran disponibles otros conjuntos de datos vinculados al MSD, que incluyen letras, versiones de canciones, etiquetas y datos de escucha de los usuarios. Dos conjuntos de datos vinculados se utilizan en los trabajos de referencia:
El subconjunto de perfiles de sabor de Echo Nest proporciona recuentos de reproducción para más de 380.000 canciones en el MSD, recopiladas de 1 millón de usuarios.
El conjunto de datos de Last.fm proporciona etiquetas para más de 500.000 canciones.

Factorización de matriz ponderada
El subconjunto de perfil de sabor contiene recuentos de reproducción por canción y por usuario, que es una forma de retroalimentación implícita. Sabemos cuántas veces los usuarios han escuchado cada una de las canciones del conjunto de datos, pero no las han calificado explícitamente. Sin embargo, podemos asumir que los usuarios probablemente escucharán canciones con más frecuencia si las disfrutan. Si un usuario nunca ha escuchado una canción, esto puede tener muchas causas: por ejemplo, es posible que no se dé cuenta o que espere no disfrutarla. Esta configuración no es compatible con los algoritmos tradicionales de factorización matricial, que tienen como objetivo predecir calificaciones.
Se utiliza el algoritmo de factorización matricial ponderada (WMF), propuesto por Hu et al.

Predecir factores latentes del audio musical
La predicción de factores latentes para una canción determinada a partir de la señal de audio correspondiente es un problema de regresión. Requiere aprender una función que mapea una serie de tiempo a un vector de números reales. Evaluamos dos métodos para lograr esto: uno sigue el enfoque convencional en MIR extrayendo características locales de las señales de audio y agregándolas en una representación de bolsa de palabras (BoW). Luego, se puede usar cualquier técnica de regresión tradicional para mapear esta representación de características con los factores. El otro método es usar una red convolucional profunda. Los vectores de factor latente obtenidos mediante la aplicación de WMF a los datos de uso disponibles se usan como verdad del terreno para entrenar los modelos de predicción. Cabe señalar que este enfoque es compatible con cualquier tipo de modelo de factor latente que sea adecuado para grandes conjuntos de datos de retroalimentación implícita. Se eligió usar WMF porque existe un procedimiento de optimización eficiente para él.

Conclusiones
En este artículo, se estudiaron métodos para para predecir los factores latentes del audio musical cuando no se pueden obtener a partir de los datos de uso
Aunque muchas características de las canciones que afectan la preferencia del usuario no se pueden predecir a partir de las señales de audio, las recomendaciones resultantes parecen ser sensatas. Podemos concluir que predecir los factores latentes del audio musical es un método viable para recomendar música nueva e impopular.

Referencias
Deep content-based music recommendation - Advances in Neural Information Processing Systems 26 (NIPS 2013)
http://papers.nips.cc/paper/5004-deep-c ... dation.pdf
A Deep Temporal Neural Music RecommendationModel Utilizing Music and User Metadata - Appl. Sci. 2019, 9, 703.
https://www.mdpi.com/2076-3417/9/4/703


Responder