108
Revista Cientíca
I. INTRODUCCIÓN
La minería de datos como herramienta estratégica es
clave para explotar el conocimiento de los datos, su
objetivo es analizarlos desde todas las perspectivas es-
tratégicas, con el n de transformar la información y el
conocimiento. Mediante la minería de datos se puede:
ordenar, clasicar, ltrar y resumir todas las relacio-
nes que un dato puede tener dentro de la información,
está centrada no solo en extraer conocimiento sino en
encontrar las relaciones o correlaciones que la informa-
ción; vista desde diferentes (1) ámbitos, tiene con otros
datos aparentemente no conectados y, generalmente,
recogidos en enormes bases de datos relacionales. La
minería de datos en variables meteorológicas tiene una
gran aplicación e interés en la actualidad; pues, brinda
alternativas diferentes a los métodos tradicionales de
análisis y permite estimar variables diversas en casos
especícos (2). En este trabajo, primero se realiza un
enfoque teórico de cinco clasicadores en minería de
datos: Naive Bayes, CN2 Rule Induction, K-NN, Tree
y Random Forest; así como, los parámetros para eva-
luar el rendimiento de cada uno de estos y los méto-
dos que permiten modicar al clasicador. Segundo,
mediante el software Orange Canvas se realiza la apli-
cación; y tercero, se analizan los resultados y emiten
conclusiones.
Clasicadores
La clasicación en minería de datos es una técnica super-
visada, donde generalmente se tiene un atributo llamado
clase y se busca determinar si los atributos pertenecen o
no a un determinado concepto (3).
La clasicación, es la habilidad para adquirir una fun-
ción que mapee (clasique) un elemento de dato a una de
entre varias clases predenidas. Un objeto se describe a
través de un conjunto de características (variables o atri-
butos) X→{X
1
, X
2
,…, X
n
}. El objetivo de la tarea de
clasicación es clasicar el objeto dentro de una de las
categorías de la clase C = {C
1
,…, C
k
}
f: X
1
x X
2
x … x X
n
→ C
Las características o variables elegidas dependen del pro-
blema de clasicación. Para el estudio se consideraron
los siguientes clasicadores:
Naive Bayes
La clasicación mediante el algoritmo
Bayesiano ofrece la solución óptima de
la probabilidad de pertenencia de cada
muestra a todas las clases. De acuerdo
a la teoría general de la probabilidad de
Bayes, dado x el objetivo es asignar x a
alguna de las clases existentes. Supónga-
se que las clases son S
1
, S
2
, …, S
c
; para
cada una de ellas se puede estimar la fun-
ción de densidad de probabilidad, por lo
que para la observación x se trata de de-
terminar la probabilidad a posteriori de
que dicha muestra pertenezca a la clase
S
j
, misma que se puede calcular por:
Donde (m
j
, C
j
) es la función de densidad
P(S
j
| x) =
P(x | m
j
, C
j
)P(S
j
)
∑
(j=1)
P(x | m
j
, C
j
)
c
de probabilidad para la clase S
j
(4).
CN2 Rule Induction
El algoritmo CN2 es una técnica de cla-
sicación diseñada para la inducción e-
ciente de reglas sencillas y comprensi-
bles de forma “si entonces”, este modelo
funciona solo para clasicar. La búsque-
da de reglas puede ser por:
• Medida de evaluación, selecciona
una regla heurística para evaluar las
hipótesis encontradas; puede darse
por: entropía (medida de la imprevi-
sibilidad del contenido), mediante la
precisión de Laplace o por una preci-
sión relativa ponderada.
• Ancho del haz, recuerda la mejor regla
encontrada hasta el momento y moni-
torea un número jo de alternativas.
K-NN o Nearest Neighbours (Vecinos
más cercanos)
El método K-NN emplea la clasicación
supervisada estimando la distancia de
cierto número de muestras (K vecinos)
Número 20 Vol. 2 (2018)
ISSN 2477-9105