Temas acerca de Inteligencia Artificial
Foto de Usuario
diego.trujillo

Ranking Troomes
Mensajes: 7
Registrado: 17 Mar 2018, 14:30

K-modes para el clustering de datos cualitativos

Mensaje por diego.trujillo » 08 Jun 2018, 00:29

En el siguiente artículo el autor habla sobre la aplicación del algoritmo K-modes por un alumno de la Universida de Middlebury para entender los datos de usuarios en un sitio de citas y así mejorar su propio perfil. La data incluía preguntas de respuestas múltiples, muy similar a data cualitica (o categorical data en inglés).

Uno de los métodos usados para tratar data categórica es transformarla a vectores, segúnse ve en la imagen cada pregunta es dividida en el número de posibles valores, en este caso en 4 alternativas. Entonces tenemos que cada usuario representado por cada fila solo solo pudo haber respondido una de las 4 alternativas, este columna tendrá el valor de 1 y las demás el valor de 0. En el caso del primer usuario (fila 1) y la pregunta 1 (primeras 4 columnas) vemos que marcó la alternativa A.

Imagen

Recordemos que K-means identifica centroides, que están en el espacio de datos, pero no son necesariamente son datos existentes. Si aplicamos esto a los datos que tenemos el algoritmo buscará promedios entre 0 y 1, y puede interpretarse

Por otro lado, K-modes en lugar de obtener promedios dividiendo por el número de usuarios, identifica la alternativa que tuvo más votos. Esta es la moda de las respuestas. A diferencia de K-means que calcula distancias de cada punto de data a cada centroide en base a la substracción de sus valores, K-modes calculará la cantidad de respuestas distintas, cuando concuerden en una pregunta disminuirá la distancia y viceversa.

Sin embargo el uso de K-means también tiene sus desventajas, ya que no considera que tan cerca estuvo la pregunta más concordada con la segunda más concordada.

Artículo original: https://shapeofdata.wordpress.com/2014/03/04/k-modes/


Responder