UNA TÉCNICA  DE  AGRUPACIÓN  ROBUSTA PARA UN ENFOQUE BIG DATA: CLARABD PARA TIPOS DE DATOS MIXTOS

Víctor  Morales Oñate; Bolívar  Morales Oñate

doi:10.47187/perf.v2i22.68

Autores/as

Víctor Morales Oñate Universidad de Valparaíso, Instituto de Estadística, Valparaíso, Chile
Bolívar Morales Oñate Escuela Superior Politécnica de Chimborazo, Facultad de Ciencia, Riobamba, Ecuador

DOI:

https://doi.org/10.47187/perf.v2i22.68

Palabras clave:

Clasificación, CLARA, K-medoides, datos mixtos, R software

Resumen

Cuando el investigador no cuenta con un conocimiento apriori de la conformación de grupos en un conjunto de datos dado, emerge la necesidad de realizar una clasificación conocida como clasificación no supervisada. Además, el conjunto de datos puede ser mixto (datos cualitativos y/o cuan- titativos) o presentarse en grandes volúmenes. El algoritmo k-medias, por ejemplo, no permite la comparación de datos mixtos y está limitado a un máximo de 65536 objetos en el software R. K-medoides, por su parte, permite la comparación de datos mixtos pero también tiene la misma limitación de objetos que k-medias. El algoritmo CLARA tradicional puede exceder fácilmente este limitante de volúmenes, pero no permite la comparación de datos mixtos. En este contexto, este trabajo es una extensión del algoritmo CLARA para datos mixtos, el algoritmo CLARABD. La distancia de Gower es central en CLARABD para realizar esta extensión, debido a que permite la comparación de datos mixtos y también es posible procesar un conjunto de datos con mas de 65536 observaciones. Para mostrar las bondades del algoritmo propuesto, se ha realizado un proceso de simulación así como una aplicación a datos reales obteniendo resultados consistentes en cada caso.

Descargas

Los datos de descarga aún no están disponibles.

Referencias

James G, Witten D, Hastie T, Tibshirani R. An introduction to statistical learning. Vol. 112. Springer; 2013.

Izenman AJ. Modern multivariate statistical techniques. Regression, classification and manifold learning; 2008.

Godoy S. Evaluacion de algoritmos de clasificacion basada en el modelo estructural de cubrimientos [PhD thesis]. Instituto Politécnico Nacional, México; 2006.

Toledo LB. Procedimiento para evaluar el nivel de complejidad de los procesos de negocio a partir de su representacion grafica [PhD thesis]. Universidad Central "Marta Abreu" de Las Villas; 2014.

Riquenes-Fernandez A, Alba-Cabrera E. Collective classification: An useful alternative for the classification of objects. In: European Congress on Intelligent Techniques and Soft Computing EUFIT. Vol. 97; 1997. p. 1875-9.

Baillo Moreno A, Grané Chávez A. 100 problemas resueltos de estadística multivariante: (implementados en Matlab). Madrid, España: Delta Publicaciones; 2008.

MacQueen J. Some methods for classification and analysis of multivariate observations. In: Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, Volume 1: Statistics. Berkeley, Calif.: University of California Press; 1967. p. 281-97. Available from: https://projecteuclid.org/euclid.bsmsp/1200512992.

Ripley BD. Pattern recognition and neural networks. Cambridge: Cambridge University Press; 2007.

Xu R, Wunsch D. Clustering. Vol. 10. John Wiley & Sons; 2008.

Toomey D. R for Data Science. 1st ed. Packt Publishing Ltd; 2014.

Kassambara A. Statistical tools for high-throughput data analysis; 2018. Available from: http://www.sthda.com/english/.

Dheeru D, Taniskidou EK. UCI machine learning repository; 2017. Available from: http://archive.ics.uci.edu/ml.

UNA TÉCNICA DE AGRUPACIÓN ROBUSTA PARA UN ENFOQUE BIG DATA: CLARABD PARA TIPOS DE DATOS MIXTOS

Autores/as

DOI:

Palabras clave:

Resumen

Descargas

Referencias

Descargas

Publicado

Número

Sección

Licencia

Cómo citar

Artículos similares

Enviar un artículo

Idioma

Información

Últimas publicaciones