1. Resumen: Este trabajo consiste en aplicar el algoritmo de clustering “Kmeans”, para agrupar la data obtenida de la Plataforma Nacional de Datos abiertos, para este objetivo primero se hará uso de algoritmos para obtener el número óptimo de clústeres mediante Rstudio, para posteriormente aplicar el simpleKmeans en Weka.
2. Dataset: Este dataset contiene 541 866 registros, donde cada registro contiene un tipo de seguro de la persona, su sexo, la edad, estado civil, nivel de instrucción, un ubigeo de domicilio, país del domicilio, el departamento, provincia, distrito, fecha, año, mes, el lugar donde falleció, Institución, muerte violenta (si lo fue, se especifica la causa), necropsia (si se realió) y por último 6 columnas finales para distintas causas de muerte de la A-F.
Esta dataset fue procesada y los valores para cada columna que anteriormente eran texto, fueron convertidas a valores numéricos y se filtraron únicamente 16 485 registros del total mediante los algoritmos de filtro de weka.
Dataset original:
https://www.datosabiertos.gob.pe/datase ... ministerio
Dataset limpio:
https://github.com/edwincusquisiban/IAA-PC2
3. Descripción de los resultados obtenidos:
Una ves con la dataset lista, se empleo Rstudio para aplicar algoritmos de obtención del valor óptimo de clústeres.
Elbow method
Mediante el método Elbow se determinó que el valor óptimo de clústeres debería ser de 4, que es el punto donde las variaciones en la data dejan de ser significativas como para considerar más grupos.
Silhouette method
Este otro algoritmo nos arrojó un valor óptimo de 5 para los clústeres, siendo diferente al valor del método anterior en 1.
Para comprobar cual de los dos resultados se debería tomar se realizó el clustering en weka mediante el algoritmo de simpleKmenas cuyo resultados se muestran a continuación:
Para este primer caso se aplicó el simpleKmeans, dando como parámetro, de número de clústeres, el valor de 4. Vemos que el clúster 0 abarca el 53% de la data, un total de 8698 registros y sus centroides para las 9 características consideradas (Tipo de seguro, sexo, estado civil, nivel de instrucción, país domicilio, departamento domicilio, mes, tipo lugar e institución ) son 2.48, 0, 2.6, 4.4, 0.0, 9.27, 1.46, 1.76 y 2.43.
Para el segundo caso se aplicó el simpleKmeans, dando como parámetro, de número de clústeres, el valor de 5 obtenido con el método de la silueta en R. Vemos que el clúster 0 abarca el 29% de la data y el clúster 1 abarca el 24% de la data. Para el clúster 0 sus centroides para las 9 características consideradas son 2.45, 0, 2.6, 4.4, 0.0, 9.4, 1, 1.72 y 2.43, de esto vemos que con respecto al clúster 0 del caso anterior la variación en mínima, esta variación se explica por que ahora abarca menos data, es decir el clúster 0 del caso anterior que contenía 53% de la data en este caso se separó en el clúster 0 que ahora abarca solo 29%, pero que mantiene centroides muy similares al anterior, y el clúster 1 que contiene 24% de la data con clústeres de igual manera muy similares al clúster 0 del caso anterior, siendo estos de 2.5, 0, 2.6, 4.4, 0.0, 9.0, 2.0, 1.7 y 2.4
4. Conclusiones
Con los resultados anteriores podemos determinar que el número óptimo de clústeres a elegir es 4, ya que si elegimos 5, se generará un clúster a partir de la división del clúster 0 del primer caso y cuyos centroides son muy similares, es por esto que se preferiría mantenerlo unido en un solo clúster.
El cluster 0 corresponde a un grupo de mujeres exclusivamente, de diferentes estados civiles, formacion academica, etc. El resto de clústeres son de grupos de varones, pero el clúster 2 abarca a varones casados o convivientes y el resto de clusters abarcan a varones de los demás estados civiles, predominantemente solteros. Finalmente el cluster 1 abarca a varones que no estan casados o no son convivientes y cuya nivel de instrucción fue ignorado en la data, es inicial o no tienen, el cluster 3 abarcaria entonces a varones no casados ni convivientes que cuentan con al menos primaria incompleta.
5. Dificultades
Un problema que se presentó en varias ocasiones fué que en algunos resgitros de la dataset no habian datos, por lo que weka no podia cargar la dataset, así que se tuvo que quitar esos registros de manera manual para que la herramienta funcionara correctamente.
6. Ruta Github: https://github.com/edwincusquisiban/IAA-PC2
Clustering de Personas fallecida registradas en el SINADEF en el año 2020.
- Edwin.Cusquisiban
- Mensajes: 5
- Registrado: 14 Nov 2020, 14:12
- Contactar: