88
ISSN 2477-9105 Número 22 Vol. 2 (2019)
I. INTRODUCCION
La búsqueda de grupos en un conjunto de datos no es una
tarea nueva. Uno de los libros seminales a este respecto
fue publicado por primera vez en 1990, Finding groups
in data: An introduction to cluster analysis [1]. Lo que en
ese entonces se conoce en inglés como cluster analysis se
traduce al español como análisis de conglomerados. Co-
múnmente se podía encontrar estos métodos en trabajos
relacionados a estadística multivariante [2]. Hoy, con el
surgimiento de la ciencia de datos y del big data [3], el
análisis de conglomerados se conoce como clasicación
no supervisada o aprendizaje no supervisado, llevando este
nombre debido a que el investigador no conoce apriori,
la clase o grupo al que pertenecen las observaciones del
conjunto de datos que analiza.
La investigación teórica y aplicada que usa algoritmos de
clasicación no supervisada sigue vibrante. Por ejemplo,
existen trabajos en diferentes áreas como clasicación de
imágenes [4], analítica de deportes [5], análisis de lengua-
je [6] y ciencias sociales [7] en esta línea de investigación.
Cada uno usa diferentes métodos con un mismo propó-
sito: encontrar grupos en los datos analizados. Dos de los
algoritmos clásicos con los que se ha abordado este pro-
blema son k-medias y k-medoides. Ambos tienen como
entrada el conjunto de datos y el número de conglome-
rados, como salida una partición del conjunto. K-medias
permite usar únicamente variables cuantitativas y kme-
doides permite usar variables cuantitativas y cualitativas.
Una extensión de este ´ultimo es el algoritmo CLARA [1].
CLARA es conocida por ser una alternativa robusta para
clasicación no supervisada para conjuntos de datos
grandes. Por un lado, se considera robusta por usar el al-
goritmo k-medoides para obtener los representantes de
los grupos. Por otro lado, un conjunto de datos es consi-
derado grande en función de la complejidad computacio-
nal así como del poder de cómputo. Por ejemplo, en 1990
se entendía como un conjunto de datos grande cuando se
tenía más de 100 observaciones [1].
Hoy se considera grande un problema con varios miles de
observaciones. En particular, el soware R permite hasta
65536 observaciones cuando usa el algoritmo k-medoides
tradicional; más allá de ese umbral el problema debe ser
abordado con el algoritmo CLARA [8]. En el contexto Big
Data, CLARA es un algoritmo que encaja adecuadamen-
te. Es capaz de procesar conjuntos de datos de millones de
observaciones en pocos segundos [9]. Sin embargo, una
limitante es la métrica utilizada para el
cálculo de las disimilaridades (diferencia
o distancia). Actualmente las opciones
son la distancia euclideana y la de man-
hattan. Esto limita el uso de este potente
algoritmo para la clasicación de datos
mixtos, esto es, datos de tipo nominal,
ordinal y binario (a) simétricos.
El algoritmo CLARA realiza múltiples
muestras del conjunto de datos original,
aplica k-medoides a cada muestra, en-
cuentra los medoides y luego devuelve
su mejor agrupamiento como salida.
Este trabajo presenta el algoritmo CLA-
RABD que extiende al algoritmo tradi-
cional posibilitando la clasicación de
observaciones con tipos de datos mixtos
y ha sido implementado en el lenguaje
R [10]. Especícamente, esta propuesta
se diferencia del algoritmo CLARA tra-
dicional en que la entrada para el cálculo
de los medoides de cada muestra puede
realizarse mediante una matriz de dis-
tancias o disimilaridad con las métricas
euclídea, manhattan y gower. Siendo
esta última la métrica de disimilaridad la
que permite clasicar observaciones de
tipo mixto.
Marco Teórico
Es común encontrar deniciones de
clustering en la literatura de análisis
multivariante, machine learning y reco-
nocimiento de patrones. Se cita a conti-
nuación tres deniciones:
• Todo se relaciona con la agrupación o
segmentación de una colección de obje-
tos en subconjuntos o clúster, de modo
que aquellos dentro de cada clúster están
más estrechamente relacionados entre
sí que los objetos asignados a diferentes
clúster. [11]
• El clustering se reere a un conjunto
muy amplio de técnicas para encontrar
subgrupos, o clústeres, en un conjun-
to de datos. Cuando se agrupan las ob-