
5
Sin embargo, nos preguntamos si la sensibilidad
que presenta la media ante estas observaciones,
cuando se usa esta medida como un descriptor
se mantiene cuando se la usa como un estima-
dor de la media poblacional µ. Como sabemos,
en el proceso de inferencia, cuando la varianza
teórica es desconocida se usa la prueba t-Stu-
dent para realizar inferencias sobre µ, por lo que
pondremos especial atención en este test de hi-
pótesis (4).
Estudios realizados revelan que la presencia de
datos atípicos en una muestra altera la proba-
bilidad de cometer un error tipo I (TIEP por
sus siglas en inglés) y disminuye la potencia de
test de hipótesis usados para contrastar medias
(5,6,7). Algunos coinciden en señalar que es-
tas afectaciones se dan exclusivamente en los
test paramétricos (t-Student, F), mientras que
para los métodos no paramétricos (Wilcoxon
(8), Kruskal-Wallis (9)) no existe ningún tipo
de afectación, por lo que se cree que las ano-
malías y la presencia de atípicos no tiene nin-
gún efecto sobre los test de distribución libre
(10,11,12,13,14). Sin embargo, estudios poste-
riores indican que la afectación está presente
tanto para pruebas paramétricas como no pa-
ramétricas, es decir ambos métodos son sensi-
bles a la presencia de datos atípicos, aunque se
aclara que el grado de afectación no es el mismo
(15).
Es importante mencionar que estos y otros au-
tores han usado como metodología para gene-
rar (simular) datos con valores atípicos el mo-
delo de distribución normal mixta (10,16), el
cual consiste en generar un conjunto de datos
de dos o más distribuciones normales con dis-
tintos parámetros, sobre todo distinta varianza,
esto hace que se produzcan datos con desviacio-
nes extremas, los cuales son considerados como
atípicos.
A nuestro parecer, esta metodología descrita
para generar datos atípicos no es la más adecua-
da. El problema es que, al mezclar dos distri-
buciones normales, no se puede garantizar que
el nuevo conjunto de datos generados también
provenga de una distribución gaussiana, de he-
cho, al realizar cualquier prueba de hipótesis
Flores, Muñoz, Velasco
de normalidad sobre este nuevo conjunto de
datos, esta se termina rechazando. Por este mo-
tivo, creemos que las investigaciones anteriores
muestran una alteración en la TIEP y potencia
de las pruebas paramétricas, que no se debe
precisamente a la presencia de datos atípicos,
sino a la violación del supuesto de normalidad
bajo el cual están elaboradas estas pruebas. Por
otro lado, esta afectación desaparece cuando se
usan test no paramétricos, pero de acuerdo a la
analogía planteada, esto podría ocurrir debido
a que estas metodologías son diseñadas para da-
tos no normales, que precisamente, son los que
se forman al mezclar dos distribuciones norma-
les.
En el presente trabajo, mediante un algoritmo
de simulación y usando muestras que presen-
tan datos atípicos, se estima la TIEP y potencia
(Complemento de la Probabilidad de error tipo
II) de la t-student para inferir sobre una media.
Es necesario estimar la TIEP con el n de co-
nocer la robustez de la prueba, esto a partir del
criterio de Cochran que establece que un test de
hipótesis es considerado útil o preciso si la TIEP
estimada en el proceso tiene una desviación res-
pecto al nivel de signicancia α de máximo el
20% de su valor, es decir si se ubica dentro del
intervalo [α ±0.2α] (17). En esencia, este mismo
criterio es usado para establecer si una prueba
de hipótesis es robusta (18,19,20).
Las muestras que se usarán para el cálculo de
la TIEP, por un lado, serán generadas usando la
metodología de distribución normal mixta usa-
da en investigaciones previas, y además gene-
raremos muestras con atípicos que se formen a
partir de una sola distribución normal sin nece-
sidad de ningún tipo de contaminación.
Luego, estas metodologías serán comparables y
se podrá determinar si la alteración de los erro-
res tipo I y tipo II persisten, aun cuando no se
mezclen distribuciones para la generación de la
muestra. Finalmente, se realiza una estimación
por intervalos de conanza de la media µ en los
escenarios propuestos con el n de observar si
existe una variación signicativa de este pará-
metro.