Temas acerca de Inteligencia Artificial
Foto de Usuario
gian20132

Ranking Troomes
Mensajes: 7
Registrado: 22 Jun 2020, 22:24

Estrategia basada en machine learning para tratar con conjuntos de datos no etiquetados usando conjuntos aproximados

Mensaje por gian20132 » 27 Jul 2020, 03:18

El presente articulo plantea una estrategia basada en Machine Learning para tratar con conjuntos de datos no etiquetados utilizando conjuntos aproximados y/o ganancia de información. Propone una estrategia para agrupar los datos utilizando k-medias, considerando cuánta información aporta un atributo (ganancia de información), además de poder seleccionar cuáles atributos son realmente indispensables para clasificar nuevos datos y cuáles son dispensables (conjuntos aproximados), lo cual es muy beneficioso pues permite tomar decisiones en menor tiempo.
Materiales y métodos
Para realizar las pruebas utilizaron conjuntos de datos provenientes de la Universidad de California (UCI) . En el cuadro se muestran más detalles de los mismos:
Imagen

Tomaron conjuntos de datos con atributos de decisión para poder correr los algoritmos excluyendo este atributo y luego comparar los resultados obtenidos con lo que originalmente indicaba dichos atributos. Además, el tener conjuntos de datos para los cuales se conoce el atributo de decisión, permite determinar el número de grupos del algoritmo k-means.
Resultados
Como se aprecia en el cuadro, “k-means clásico – aleatorio – mejor caso” supera a los otros esquemas en su tasa de éxito para Credit Approval (alcanza un 63,80%), para Car Evaluation (obtiene un 41,92%) y para Skin Segmentation (con un 60,61%); solo para el conjunto de datos Chess, el valor obtenido 54,78%, es inferior a cuando se usa ganancia de información (59,73%) y cuando se utilizan conjuntos aproximados (55,48%).

Imagen

CONCLUSIóN
Un aspecto que se podría argumentar es que el cálculo de la entropía, la ganancia de información y los conjuntos aproximados requiere un esfuerzo computacional previo al cálculo del k-means, que el método clásico (sin reducir atributos) se ahorra. Pero ante este argumento hay dos aspectos muy importantes, el primero es que si se cuenta con muchos atributos, la reducción de atributos recuperará el tiempo invertido al calcular el k-means con mucho menos atributos; y el segundo es que se sabe que la reducción de atributos colabora en la reducción del sobreajuste en caso de presentarse

Referencia:
Calvo Valverde, Luis Alexander. (26/09/2015). Estrategia basada en el aprendizaje de máquina para tratar con conjuntos de datos no etiquetados usando conjuntos aproximados y/o ganancia de información . Tecnología en Marcha. Edición especial. Matemática Aplicada.


Responder