Estudio comparativo de métodos de clasificación no supervisada en contextos de grandes bases de datos
Abstract
En estadística se conoce como análisis clúster al estudio formal de los métodos para el agrupamiento de objetos según las características intrínsecas de los mismos. Estos métodos, tienen por objetivo obtener grupos dentro de los cuales los individuos, que a priori conforman un grupo heterogéneo, sean homogéneos entre si y distintos de los pertenecientes a otro grupo. Se pueden encontrar cientos de algoritmos de clustering propuestos a través de las distintas disciplinas científicas, además de las modificaciones y adaptaciones de estos a casos particulares.
En general cuando se pretende agrupar objetos no existe una forma única de lograrlo. Distintos métodos pueden derivar en diferentes configuraciones. El presente trabajo compara los métodos K – means, K – medoid, DBSCAN y algoritmo EM a fin de descubrir ventajas y desventajas en su aplicación.
Para evaluar la capacidad de las distintas estrategias de clasificación escogidas para identificar grupos que representen a ciertas estructuras que pueden aparecer en casos reales, se realiza un estudio por simulación. Se simularon cuatro escenarios considerando 10 variables cuantitativas continuas y cuatro poblaciones en cada uno. En todos ellos, los grupos de observaciones provienen de distintas poblaciones gaussianas mixtas con y sin contaminación, y distintos niveles de solapamiento entre las poblaciones. Todos los casos se simularon con una cantidad total de observaciones a clasificar de 1.000, 5.000, 10.000, 50.000, 100.000, 250.000, 500.000, 1.000.000 y 5.000.000 de observaciones. Los tamaños de grupo se mantuvieron iguales en todas las simulaciones. Para evaluar la bondad de la clasificación en cada caso se utilizó el criterio denominado Variación de la Información propuesto por Marina Meila (2003), y la proporción de datos correctamente clasificados.
Los mejores resultados se obtienen con el algoritmo EM. Además, el método demuestra ser estable con la calidad de los resultados obtenidos al aumentar el tamaño de los grupos a clasificar.
Collections
The following license files are associated with this item: