Data clustering: a review
Publicado: 31 May 2018, 17:21
Clustering se refiere a la clasificación no supervisada de patrones (observaciones, elementos de datos o vectores de características) en grupos (clusters). El problema del clustering ha sido abordado en muchos contextos y por investigadores en muchas disciplinas; esto refleja su amplio atractivo y utilidad como uno de los pasos en el análisis de datos exploratorios. Sin embargo, la agrupación es un problema difícil de forma combinatoria, y las diferencias en las suposiciones y los contextos en las diferentes comunidades han hecho que la transferencia de conceptos genéricos y metodologías útiles sea lenta. Este documento presenta una visión general de los métodos de agrupamiento de patrones desde una perspectiva de reconocimiento estadístico de patrones, con el objetivo de proporcionar consejos útiles y referencias a conceptos fundamentales accesibles para la amplia comunidad de profesionales en clustering. Se presenta una taxonomía de técnicas de agrupamiento e identificamos temas transversales y avances recientes. También se describen algunas aplicaciones importantes de los algoritmos de agrupamiento, como la segmentación de imágenes, el reconocimiento de objetos y la recuperación de información.