
21
Existen diversos campos en los que los eventos de
poca frecuencia (raros) o datos desbalanceados
tienen gran relevancia, no solo por el evento en sí
mismo, sino también por el alto costo que puede
implicar el equivocarse en su predicción (5). Den-
tro de este marco, cuando se realiza un modelo de
predicción con variable de respuesta binaria como
la regresión logística, autores como (3) muestran
que existe una distorsión en la probabilidad de que
ocurra el evento raro dado un vector de caracterís-
ticas, es decir que Pr(Y
i
=1|x
i
)=π
i
será generalmente
menor para los eventos raros, por tanto π
i
(1-x
i
) de
igual manera es más pequeño para los eventos raros
y la varianza es mucho mayor.
Por otro lado autores como (6) mencionan que en
los modelos de predicción con eventos raros exis-
te un alto grado de error en las clases minoritarias.
En virtud de que estas clases son relativamente pe-
queñas, entonces la afectación en ciertos criterios
de evaluación como la precisión o exactitud es in-
adecuada. Por ejemplo, si tomamos el caso de una
muestra desbalanceada en donde existe un total de
98% de casos donde la variable dependiente es igual
a cero y 2% de los casos son iguales a uno (clase mi-
noritaria), cuando el modelo predice a todos los ca-
sos que son igual a cero, entonces tendría una exac-
titud del 98%. En principio parece ser una exactitud
alta, sin embargo, el total de los casos raros están
mal clasificados. Es por esto que también se utiliza
una evaluación distinta de los diferentes modelos
como la Curva ROC y su área bajo la curva AUC
(7). La curva ROC se forma al graficar la Tasa de
Verdaderos Positivos (TPR = verdaderos positivos /
positivos) contra la Tasa de Falsos Positivos (FPR=
falsos positivos / positivos). Por ejemplo, si tenemos
10 individuos en una muestra donde 9 de ellos son
positivos y 1 es negativo, entonces TPR=1 y FPR = 1.
Esto representa un par ordenado sobre la diagonal
indicando una mala clasificación debido a la mues-
tra desbalanceada.
Al identificarse las distorsiones que pueden conlle-
var una muestra desbalanceada para modelos de
predicción como Logit, se han generado alternati-
vas que tratan de solucionar estos problemas, estas
soluciones abordan el desbalance desde diferentes
visiones.
Muchas alternativas se han presentado con respecto
a las muestras desbalanceadas y una de las pioneras
en buscar una solución a este problema es SMOTE
(Synthetic Minority Over-sampling Technique) (6),
donde se combinan enfoques de sobre-muestreo y
sub-muestreo. No obstante, han surgido diferentes
variantes de SMOTE que buscan mejorar el rendi-
miento de este algoritmo desde distintos puntos de
vista y modificaciones. Una de estas propuestas es la
de (8) donde el algoritmo ADASYN (Adaptive Syn-
thetic) utiliza una distribución no uniforme para la
creación de individuos sintéticos de la clase minori-
taria en función de la proporción del número de ve-
cinos cercanos que encuentra por individuo. Otro
enfoque para tratar de contrarrestar los efectos de
los datos desbalanceados son las matrices de costo,
es decir, ponderar los costos de predecir mal una
clase. El trabajo de (9) analiza este punto de vista
basándose en técnicas de curvas de costo donde se
modifica el sobre-muestreo y el sub-muestreo con
algoritmos de aprendizaje basados en un árbol de
decisión.
SMOTE: Synthetic Minority Over-sampling Te-
chnique
Cuando se trabaja con muestras en el que la falta
de datos de interés clasificados con uno es escasa se
dificulta la detección de regularidades dentro de los
casos raros (clase minoritaria) (6). Es por esto que
en (10) se propone una metodología que combina el
sobre-muestreo y el sub-muestreo de las diferentes
clases. SMOTE es un algoritmo donde lo que pri-
ma es la creación de individuos sintéticos a partir
de individuos de la clase minoritaria. Esto se realiza
determinando, en primera instancia, una vecindad
entre los individuos cercanos. Un nuevo individuo
es creado al tomar la distancia entre los individuos
de la misma vecindad y esta distancia se multipli-
ca por un valor aleatorio entre 0 y 1. Por un lado,
como resultado se obtiene una clase minoritaria
aumentada dependiendo el número de individuos
sintéticos que se escoja aumentar por cada indivi-
duo observado. Por otro lado, se puede sub mues-
trear a la clase mayoritaria de forma que se escoge
una muestra aleatoria menor de esta clase lo que a
la final equilibra las proporciones de las diferentes
clases y así se eliminan las distorsiones por el no ba-
lanceo de las clases.
El algoritmo de SMOTE ha demostrado tener un
mejor rendimiento medido con el indicador de la
Morales, Moreta, Morales