UNA TÉCNICA DE AGRUPACIÓN ROBUSTA PARA UN ENFOQUE BIG DATA: CLARABD PARA TIPOS DE DATOS MIXTOS

Autores/as

  • Víctor Morales Oñate Instituto de Estadística, Universidad de Valparaíso, Valparaíso, Chile
  • Bolívar Morales Oñate Facultad de Ciencias, Escuela Superior Politécnica de Chimborazo, Riobamba - Ecuador.

Palabras clave:

Clasificación, CLARA, K-medoides, datos mixtos, R software

Resumen

Cuando el investigador no cuenta con un conocimiento apriori de la conformación  de grupos  en un conjunto  de datos dado, emerge la necesidad de realizar una clasificación conocida como clasificación no supervisada. Además, el conjunto  de datos puede ser mixto (datos  cualitativos y/o  cuan- titativos) o presentarse  en grandes volúmenes. El algoritmo  k-medias, por ejemplo, no permite  la comparación de datos  mixtos  y está limitado  a un máximo de 65536 objetos en el software R. K-medoides, por su parte, permite la comparación  de datos mixtos pero también tiene la misma limitación de objetos que k-medias. El algoritmo  CLARA tradicional  puede exceder fácilmente este limitante  de volúmenes, pero  no permite  la comparación  de datos mixtos. En este contexto, este trabajo  es una extensión del algoritmo CLARA para datos mixtos, el algoritmo CLARABD. La distancia  de Gower es central  en CLARABD para realizar esta extensión, debido a que permite la comparación de datos mixtos y también es posible procesar un conjunto de datos con mas de 65536 observaciones. Para mostrar  las bondades del algoritmo propuesto, se ha realizado un proceso de simulación así como una aplicación a datos reales obteniendo resultados consistentes en cada caso.

Descargas

Los datos de descargas todavía no están disponibles.

Citas

Leonard Kaufman and Peter J Rousseeuw. Finding groups in data: an introduction to cluster analysis, volume 344. John Wiley & Sons, 2009.

Chris Fraley and Adrian E Raftery. How many clusters? which cluste- ring method? answers via model-based cluster analysis. The computer journal, 41(8):578–588, 1998.

Pedro Galeano and Daniel Peña. Data science, big data and statistics. TEST, pages 1–41, 2019. Surekha Borra, Rohit Thanki, and Nilanjan Dey. Satellite Image Analy- sis: Clustering and Classification. Springer, 2019.

Brefeld Ulf, Jesse Davis, Jan Van Haaren, and Albrecht Zimmermann. Machine Learning and Data Mining for Sports Analytics. Springer, 2019.

Gautam K Vallabha, James L McClelland, Ferran Pons, Janet F Werker, and Shigeaki Amano. Unsupervised learning of vowel categories from infant-directed speech. Proceedings of the Na- tional Academy of Sciences, 104(33):13273–13278, 2007.

Feng Zhen, Xiao Qin, Xinyue Ye, Honghu Sun, and Zhaxi Luosang. Analyzing urban de- velopment patterns based on the f low analysis met- hod. Cities, 86:178–197, 2019.

Martin Maechler, Peter Rousseeuw, Anja Struyf, Mia Hubert, and Kurt Hornik. cluster: Clus- ter Analysis Basics and Extensions, 2017. R pac- kage version 2.0.6 — For new features, see the ’Changelog’ file (in the package source).

Bater Makhabel. Learning data mining with R. Packt Publishing Ltd, 2015.

R Core Team. R: A Language and Environment for Statistical Compu- ting. R Foundation for Statistical Computing, Vienna, Austria, 2017. URL https://www.R-project.org/.

Trevor Hastie, Robert Tibshirani, and Jerome Friedman. The elements of statistical learning, ser, 2001.

Gareth James, Daniela Witten, Trevor Hastie, and Robert Tibshirani. An introduction to statistical learning, volume 112. Springer, 2013.

Alan Julian Izenman. Modern multivariate statistical techniques. Regression, classification and manifold learning, 2008.

Salvador Godoy. Evaluacion de algoritmos de clasificacion basada en el modelo estructural de cubrimientos. PhD thesis, Instituto Polit´ecnico Nacional, México, 5 2006.

Liset Bandomo Toledo. Procedimiento para evaluar el nivel de comple- jidad de los procesos de negocio a partir de su representacion grafica. PhD thesis, Universidad Central ?Marta Abreu? de Las Villas, 2014.

A Riquenes-Fernandez and E Alba-Cabrera. Collective classification: An useful alternative for the classification of objects. In European Congress on Intelligent Techniques and Soft Computing EUFIT, volume 97, pages 1875–1879, 1997.

Amparo Baillo Moreno and Aurea Gran´e Ch´avez. 100 problemas re- sueltos de estad´ıstica multivariante: (implementados en Matlab). Delta Publicaciones, Madrid, Espan˜a, 2008.

J. MacQueen. Some methods for classification and analysis of multi- variate observations. In Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, Volume 1: Statistics, pages 281–297, Berkeley, Calif., 1967. University of California Press. URL https://projecteuclid.org/euclid.bsmsp/1200512992.

Brian D Ripley. Pattern recognition and neural networks. Cambridge university press, 2007.

Rui Xu and Don Wunsch. Clustering, volume 10. John Wiley & Sons, 2008.

Dan Toomey. R for Data Science. Packt Publishing Ltd, Unated King- dom, 1 edition, 2014.

Alboukadel Kassambara. Statistical tools for high-throughput data analysis, 09 2018. URL http://www.sthda.com/english/.

Dua Dheeru and Efi Karra Taniskidou. UCI machine learning repository, 2017. URL http:// archive.ics.uci.edu/ml.

Descargas

Publicado

2020-01-01

Cómo citar

Morales Oñate, V. ., & Morales Oñate , B. . (2020). UNA TÉCNICA DE AGRUPACIÓN ROBUSTA PARA UN ENFOQUE BIG DATA: CLARABD PARA TIPOS DE DATOS MIXTOS. Perfiles, 2(22), 87-97. Recuperado a partir de https://perfiles.espoch.edu.ec/index.php/perfiles/article/view/68