4
ISSN 2477-9105 Número 24 Vol.1 (2020)
ROBUSTEZ Y POTENCIA DE LA T-STUDENT PARA INFERENCIA DE
UNA MEDIA ANTE LA PRESENCIA DE DATOS ATÍPICOS.
Robustness and Power of the one mean t – student test against presence of outliers.
1
Pablo Flores Muñoz*,
2
Laura Muñoz Escobar,
1
Geoconda Velasco Castelo
1
Escuela Superior Politécnica de Chimborazo, Facultad de Ciencias, Grupo de Investigación Cien-
cia de Datos, Riobamba, Ecuador.
2
Universidad Nacional de Chimborazo, Facultad de Ciencias de la Educación, Humanas y Tecnolo-
gías, Riobamba, Ecuador.
* p_flores@espoch.edu.ec
A
bstract
Previous studies reveal that samples with outliers alter the type I and type II error of a t-Student test
for inference of a mean. The methodology that these works use to simulate extreme data consists
of mixing two different normal in order to contaminate the data. We think that this technique is
not the most appropriate, since, when making this process, the result is not a new normal, which
is breaching the main assumption of the test. In this work, this methodology is repeated in order
to verify the problems described, but atypical data are also generated from a single normal without
the need for any contamination. Using this last methodology, and with a stochastic simulation
process, the probability of type I and type II error is estimated, from which it is concluded that
the t-Student is a robust test against the presence of outliers and its power does not depend of the
number of extreme data generated in the sample.
Keywords: outliers, t-Student, mean, inference
R
esumen
Estudios previos revelan que las muestras con datos atípicos, alteran el error tipo I y tipo II de la
prueba t-Student para inferencia sobre una media. La metodología que estos trabajos usan para
simular datos extremos consiste en mezclar dos normales distintas con el fin de contaminar los
datos. Pensamos que esta técnica no es la más adecuada, puesto que esta nueva muestra no es
necesariamente una normal, con lo cual se está incumpliendo con el principal supuesto de la prueba.
En el presente trabajo se repite esta metodología con el fin de comprobar los problemas descritos,
pero además se generan datos atípicos a partir de una sola normal sin necesidad de realizar ninguna
contaminación, usando esta última metodología y mediante un proceso de simulación estocástica
se estima la probabilidad de error tipo I y tipo II, a partir de lo cual, contrario a los estudios previos,
se concluye que la t-Student es una prueba robusta ante la presencia de datos atípicos y que su
potencia no depende del número de datos extremos generados en la muestra.
Palabras claves: atípicos, t-Student, media, inferencia
Fecha de recepción: 10-12-2019 Fecha de aceptación: 03-02-2020 Fecha de publicación: 07-02-2020
I. INTRODUCCIÓN
Es conocida la sensibilidad que tiene la media
aritmética ante la presencia de datos atípicos,
y por tanto las dicultades que podrían pre-
sentarse si conamos en esta medida como un
resumen del centro de la información (1,2). Al
menos, en una descripción numérica, este pro-
blema parece quedar solucionado cuando se usa
la mediana en su lugar, puesto que fácilmente
se puede vericar que esta medida permanece
robusta ante la presencia de datos extremos (3).
5
Sin embargo, nos preguntamos si la sensibilidad
que presenta la media ante estas observaciones,
cuando se usa esta medida como un descriptor
se mantiene cuando se la usa como un estima-
dor de la media poblacional µ. Como sabemos,
en el proceso de inferencia, cuando la varianza
teórica es desconocida se usa la prueba t-Stu-
dent para realizar inferencias sobre µ, por lo que
pondremos especial atención en este test de hi-
pótesis (4).
Estudios realizados revelan que la presencia de
datos atípicos en una muestra altera la proba-
bilidad de cometer un error tipo I (TIEP por
sus siglas en inglés) y disminuye la potencia de
test de hipótesis usados para contrastar medias
(5,6,7). Algunos coinciden en señalar que es-
tas afectaciones se dan exclusivamente en los
test paramétricos (t-Student, F), mientras que
para los métodos no paramétricos (Wilcoxon
(8), Kruskal-Wallis (9)) no existe ningún tipo
de afectación, por lo que se cree que las ano-
malías y la presencia de atípicos no tiene nin-
gún efecto sobre los test de distribución libre
(10,11,12,13,14). Sin embargo, estudios poste-
riores indican que la afectación está presente
tanto para pruebas paramétricas como no pa-
ramétricas, es decir ambos métodos son sensi-
bles a la presencia de datos atípicos, aunque se
aclara que el grado de afectación no es el mismo
(15).
Es importante mencionar que estos y otros au-
tores han usado como metodología para gene-
rar (simular) datos con valores atípicos el mo-
delo de distribución normal mixta (10,16), el
cual consiste en generar un conjunto de datos
de dos o más distribuciones normales con dis-
tintos parámetros, sobre todo distinta varianza,
esto hace que se produzcan datos con desviacio-
nes extremas, los cuales son considerados como
atípicos.
A nuestro parecer, esta metodología descrita
para generar datos atípicos no es la más adecua-
da. El problema es que, al mezclar dos distri-
buciones normales, no se puede garantizar que
el nuevo conjunto de datos generados también
provenga de una distribución gaussiana, de he-
cho, al realizar cualquier prueba de hipótesis
Flores, Muñoz, Velasco
de normalidad sobre este nuevo conjunto de
datos, esta se termina rechazando. Por este mo-
tivo, creemos que las investigaciones anteriores
muestran una alteración en la TIEP y potencia
de las pruebas paramétricas, que no se debe
precisamente a la presencia de datos atípicos,
sino a la violación del supuesto de normalidad
bajo el cual están elaboradas estas pruebas. Por
otro lado, esta afectación desaparece cuando se
usan test no paramétricos, pero de acuerdo a la
analogía planteada, esto podría ocurrir debido
a que estas metodologías son diseñadas para da-
tos no normales, que precisamente, son los que
se forman al mezclar dos distribuciones norma-
les.
En el presente trabajo, mediante un algoritmo
de simulación y usando muestras que presen-
tan datos atípicos, se estima la TIEP y potencia
(Complemento de la Probabilidad de error tipo
II) de la t-student para inferir sobre una media.
Es necesario estimar la TIEP con el n de co-
nocer la robustez de la prueba, esto a partir del
criterio de Cochran que establece que un test de
hipótesis es considerado útil o preciso si la TIEP
estimada en el proceso tiene una desviación res-
pecto al nivel de signicancia α de máximo el
20% de su valor, es decir si se ubica dentro del
intervalo [α ±0.2α] (17). En esencia, este mismo
criterio es usado para establecer si una prueba
de hipótesis es robusta (18,19,20).
Las muestras que se usarán para el cálculo de
la TIEP, por un lado, serán generadas usando la
metodología de distribución normal mixta usa-
da en investigaciones previas, y además gene-
raremos muestras con atípicos que se formen a
partir de una sola distribución normal sin nece-
sidad de ningún tipo de contaminación.
Luego, estas metodologías serán comparables y
se podrá determinar si la alteración de los erro-
res tipo I y tipo II persisten, aun cuando no se
mezclen distribuciones para la generación de la
muestra. Finalmente, se realiza una estimación
por intervalos de conanza de la media µ en los
escenarios propuestos con el n de observar si
existe una variación signicativa de este pará-
metro.
6
ISSN 2477-9105 Número 24 Vol.1 (2020)
II. MATERIALES Y MÉTODOS
Revisión y comentario de la prueba t – student
Es importante realizar una revisión de la litera-
tura sobre el uso de la prueba t-Student para in-
ferencias sobre la media µ, esto debido a que en
el análisis clásico suele existir cierta confusión,
sobre todo en lo que respecta a las condiciones
que deben tener las muestras en su distribución
y tamaño para que sea válido su uso.
La condición más importante para usar una
prueba t-Student, es que los datos con los que
se trabajan deben provenir de una distribución
normal. Por el teorema del límite central (21),
conocemos que cuando es la media de una
muestra aleatoria (proveniente de cualquier dis-
tribución no normal) de tamaño n, entonces la
forma límite de la distribución de
(1)
conforme n→∞ es la distribución normal están-
dar N(0,1), es por ello que un posible test de hi-
pótesis para inferencia sobre µ es el que se basa
en el estadístico z, determinado por el teorema
precedente. Esta aproximación resulta ser buena
cuando n≥30, pero note que esto solo si la mues-
tra aleatoria no proviene de una distribución
normal, puesto que si estos datos sí son norma-
les, la media será también lo será, independiente
del tamaño de la muestra, es decir para cualquier
n mayor o menor que 30.
Por otra parte, note que el estadístico z contiene
los parámetros μ y σ, los cuales sabemos que en
la realidad son valores desconocidos. En un test
de hipótesis, no habría problema por el valor de
μ puesto que este sería el valor hipotético sobre
el cual se está realizando la inferencia, pero esto
no ocurre con el valor de σ, el cual será un valor
que a partir de datos reales nunca se conocerá. Es
por ello que se utiliza la distribución t-Student
como una forma limitante de la normal z cuando
no se conoce la varianza poblacional σ
2
pero se la
puede aproximar a través de la varianza muestral
S
2
(4).
Este análisis nos lleva entonces a la conclusión de
que independientemente del tamaño de la mues-
tra (n≥30 o n<30), la única condición para ele-
gir entre una prueba z o una t-Student (siempre
y cuando los datos de la muestra provengan de
una distribución normal), es el conocimiento o
no de la varianza poblacional. En el presente tra-
bajo ponemos énfasis solo en la t-Student puesto
que, como ya habíamos mencionado, en un aná-
lisis de datos real el valor de σ
2
siempre será un
parámetro desconocido al cual solo tendremos la
oportunidad de estimarlo.
Como ilustración didáctica, a continuación,
planteamos el test de hipótesis al que estamos
haciendo referencia:
H
0
: μ=μ
0
H
1
: μμ
0
(2)
Rechazaremos H
0
si el estadístico de prueba t es
mayor que el valor crítico |t
α/2
|, donde α es el ni-
vel de significancia de la prueba, y t viene dado
por:
(3)
Que sigue una distribución t-Student con n-1
grados de libertad.
Generación aleatoria de muestras con atípicos
Para la generación de muestras contaminadas,
usaremos la metodología del estudio previo,
propuesta por Zimmerman (15). Esta consiste
en generar muestras provenientes de una nor-
mal N(0,1) con probabilidad de ocurrencia 1-p,
mezclados aleatoriamente con los de otra dis-
tribución normal N(0,k
2
) con probabilidad p,
donde k es una constante que determina el nivel
de alejamiento de los atípicos y p determina el
porcentaje de datos contaminados en la muestra.
En nuestro caso, usaremos los valores de k=20 y
p=0.16, que son los valores que usa el autor en su
publicación.
Para el caso de muestras no contaminadas, una
simulación previa de muestras aleatorias nor-
males N(0,1) mostró que con cierta frecuencia se
presentan datos atípicos en ciertos porcentajes
de las réplicas generadas, esto independiente-
mente del tamaño de la muestra, por tanto, sin
necesidad de mezclas, generamos varias réplicas
de una sola distribución normal y separamos
aquellas que presenten atípicos. Con la ayuda del
software estadístico R (22) y algunos paquetes
complementarios (23,24), se crearon funciones y
algoritmos de simulación, los cuales generaron
10000000 (diez millones) de muestras N(0,1) de
7
número de atípicos) las 10000000 de muestras,
con el uso de la función tcal (Anexo 1) deter-
minamos para cada una de ellas el estadístico t,
asumiendo siempre una media hipotética igual a
cero. El algoritmo cuenta el número de veces que
la hipótesis nula es rechazada y divide este valor
para el número total de muestras generadas en
el caso atípico correspondiente. Esta razón nos
entrega una proporción, la cual en el caso de ge-
nerar muestras de media teórica μ=0 es la pro-
porción de veces que se rechaza la hipótesis nula
cuando esta es verdadera (media teórica igual a
media hipotética), lo cual resulta ser un estima-
dor de la TIEP. Por otro lado, cuando la me-
dia teórica es distinta de cero (en nuestro caso
usamos μ=1), la razón representa la proporción
de veces que se rechaza la hipótesis nula cuando
esta es falsa, lo cual claramente es un estimador
de la potencia de la prueba.
Intervalos de confianza para la media
Para todos los escenarios generados, se toma una
muestra y se calcula un intervalo de confianza
para la media, basada en una distribución t – stu-
dent, es decir:
(4)
Este proceso está implícito dentro de la función
tiep (Anexo 1). Los intervalos de confianza per-
mitirán determinar si existe una variación sig-
nificativa en la estimación de la media para las
distintas muestras (contaminadas y sin contami-
nar), número de atípicos y tamaños muestrales.
III. RESULTADOS
La cantidad de atípicos en cada muestra, depen-
de del número de datos que esta contiene, por
ejemplo, para una n=5, el máximo de atípicos
obtenidos es 2, lo cual no necesariamente repre-
senta una cantidad baja, puesto que constituye el
40% de la información. Así mismo, para un ta-
maño muestral n=10 se obtuvo un máximo de 4
atípicos, para n=20 un máximo de 5 y para n=40
un máximo de 6. En realidad, aleatoriamente se
generan más atípicos (de manera proporcional
al tamaño de la muestra), sin embargo, se toma-
ron solo aquellas muestras que fueron significa-
tivamente altas para un proceso de simulación
(10000), con el fin de que no exista un elevado
error de estimación. La Figura 1 muestra la fre-
diferente tamaño (n=5,10,20,40), luego con el
uso de la función nout (Anexo 1), las separamos,
clasificándolas de acuerdo al número de atípicos
que se produjeron (0,1,2,…).
El criterio que hemos usado para considerar a
un dato extremo es el “Criterio de las vallas de
Tukey”, el cual es utilizado por la gran mayoría
de software estadístico y determina que un dato
se considera atípico si está fuera del intervalo
[Q
1
-1.5(Q
3
-Q
1
), Q
3
+1.5(Q
3
-Q
1
)] (25). La Tabla
1 muestra el número de muestras generadas de
acuerdo al número de atípicos producidos alea-
toriamente en cada una de ellas. Con el fin de
que la estimación sea representativa, solo hemos
tomado en cuenta los casos en que se han gene-
rado más de 10000 (diez mil) muestras.
N Atípicos Datos Contaminados Datos no contaminados
0 -0.15827 +/- 0.07866 0.02704 +/- 0.12512
1 0.05813 +/- 0.11231 0.46318 +/- 0.21746
2 -0.07676 +/- 0.11686 -12.93124 +/- 4.20264
3 0.09983 +/- 0.12571 62.36825 +/- 23.05360
4 -0.02376 +/- 0.11771 -38.02842 +/- 15.70124
5 0.06223 +/- 0.10183 -24.83912 +/- 19.42902
6 0.18334 +/- 0.11896 37.61960 +/- 10.53280
7 -0.08020 +/- 0.11132 24.16709 +/- 14.99893
8 0.01056 +/- 0.09469 -22.40650 +/- 29.69436
Tabla 1. Estimación de la media mediante intervalos de conanza con n =
20 y α = 0.05
Estimación de la tiep y potencia
La función creada para estimar la probabilidad
de error tipo I y la potencia tiene por nombre tiep
(Anexo 1), entre sus argumentos tenemos “nsim
la cual determina el número de muestras totales
a generarse (en nuestro caso 10000000); “n” que
indica el tamaño de cada una de las muestras
(en nuestro caso n=5,10,20,40); “mean” que de-
termina el valor teórico de la media poblacional
con las que se generarán las muestras (en nues-
tro caso 0 y 1 para la TIEP y potencia respecti-
vamente), “alpha” que determina el nivel de sig-
nificancia (que en todos los casos hemos usado
α=0.05), “sd” que siempre será igual a 1, "sdCon-
tamin" que tomará el valor de 1 si no queremos
contaminar la muestra, o el valor de k
2
=20
2
y fi-
nalmente "p" que tomará el valor 0 para muestras
no contaminadas y 0.16 para contaminar el 16%
de la muestra.
Una vez generadas y clasificadas (de acuerdo al
Flores, Muñoz, Velasco
8
ISSN 2477-9105 Número 24 Vol.1 (2020)
cuencia (en millones) del número de atípicos
generados en el proceso de simulación para los
distintos tamaños muestrales, donde se puede
observar claramente que a partir de 6 atípicos
generados, el tamaño de la muestra es práctica-
mente irrelevante. Además, como era de espe-
rarse, se observa que la prevalencia de atípicos
es mayor para datos contaminados que para no
contaminados.
Figura1. Cantidad de datos obtenidos (en millones) en el proceso de si-
mulación para distinto número de atípicos en muestras contaminadas y no
contaminadas.
La Figura 2, muestra la estimación de la proba-
bilidad de error tipo I (TIEP), calculada como la
proporción de veces que se rechaza la hipótesis
nula (H
0
:μ=0) cuando teóricamente esta es cier-
ta. En el caso de muestras no contaminadas se
puede observar que, en todos los casos, la esti-
mación es muy cercana al nivel de significancia
α=0.05, a excepción de pequeñas desviaciones
irrelevantes (de acuerdo al criterio de Cochran)
que ocurren principalmente cuando el número
de atípicos aumenta. Contrario a esto cuando se
contamina la muestra existe una clara alteración
de la TIEP por debajo del nivel de significancia.
Figura2. Estimación de la TIEP para distintos tamaños muestrales, con
α=0.05 en muestras contaminadas y no contaminadas.
La Figura 3 muestra la estimación de la poten-
cia calculada como la proporción de veces que
se rechaza H
0
cuando teóricamente esta es falsa
(t-student generado para probar μ=0 mientras
que las muestras se generaron con media teórica
μ=1). En muestras no contaminadas se observa
que la potencia de la prueba solo está afectada
por el tamaño de la muestra (entre más grande
mayor potencia), y no por la cantidad de atípi-
cos, esto ya que la medida es significativamente
la misma tanto en ausencia de valores atípicos
como en presencia del máximo de ellos. Por su
parte, para muestras contaminadas se obser-
va una potencia demasiado baja, la cual es peor
conforme el número de atípicos aumenta.
Figura3. Estimación de la Potencia para distintos tamaños muestrales con
α=0.05, en muestras contaminadas y no contaminadas.
Finalmente, la Tabla 1 muestra intervalos de
confianza para la media, calculados para un ta-
maño muestral n=20. Para datos contaminados,
los resultados muestran que las estimaciones no
presentan variaciones significativas y que ade-
más no se equivocan (contienen el cero) inde-
pendientemente del número de atípicos que se
presenten en la muestra. Para datos no conta-
minados se observa todo lo contrario, es decir
existe variación significativa de los estimadores
y además la mayoría de veces se comete un error
(el intervalo no contiene el cero). Los errores de
estimación en todos los casos, como es normal,
son proporcionales al tamaño de la muestra y el
mismo comportamiento se observa en los dife-
rentes tamaños muestrales, por lo que se omite
la presentación de estos resultados.
IV. DISCUSIÓN
Los resultados obtenidos muestran que cuando
existe contaminación de la muestra producida
por el método de distribuciones mixtas, la pro-
babilidad de cometer un error tipo I y la potencia
de la t – Student se ve alterada de manera signifi-
cativa, lo cual la hace una prueba poco confiable,
9
no robusta y con una baja potencia.
Contrario a esto, cuando no existe esta contami-
nación se observa que la cantidad de atípicos que
se producen de manera natural en muestras nor-
males no afectan la probabilidad de error tipo I ni
la potencia. Estas probabilidades parecen mante-
nerse estables independientemente de si existen
o no cualquier cantidad de datos extremos.
En este punto, obtenemos resultados diferentes
a los mencionados en estudios previos, supone-
mos que estas diferencias se deben a la distinta
metodología usada para obtener muestras con
datos atípicos.
Los estudios previos usan mezclas de distribucio-
nes normales con una diferencia en sus desvia-
ciones con el fin de obtener los datos extremos,
esto parece ser una buena idea, sin embargo, no
olvidemos de que, al mezclar dos normales, el
resultado deja de ser una normal, con lo cual, al
usar estos datos en la prueba t-student estamos
faltando con el principal supuesto sobre el cual
está elaborada esta prueba.
De nuestra parte no hemos contaminado ningu-
na distribución, hemos generado aleatorios de
una misma normal, para posteriormente separar
las muestras de acuerdo al número de aleatorios
que se forman (0, 1, 2, …) de manera natural, es
decir, esperando que la misma aleatoriedad de la
distribución gaussiana cree estos atípicos, con lo
cual no estamos afectando el supuesto de norma-
lidad, indispensable para utilizar la t-Student.
Código:
# Función "nout"
nout <- function(x){
cuart <- quantile(x)
iq <- cuart[4] - cuart[2]
crt <- c(cuart[2] - (1.5 * iq), cuart[4] + (1.5 * iq))
length(x[x < crt[1] | x > crt[2]])
}
# Función "tcal"
tcal <- function(x){
n <- length(x)
abs((sqrt(n) * mean(x)) / (sd(x)))
}
# Función "rnorm.contamin"
rnorm.contamin <- function(n, mean = 0, sd = 1,
meanContamin, sdContamin, pContamin){
z = rnorm(n)
ifelse(runif(n) <= pContamin, sdContamin * z
+ meanContamin,
sd * z + mean)
}
# Función "tiep"
tiep <- function(nsim, n, mean = 0, sd = 1, mean-
Contamin = mean,
sdContamin = sd, pContamin = 0, alpha
= 0.05){
sample <- replicate(nsim, rnorm.contamin(n,
mean, sd, meanContamin, sdContamin, pCon-
tamin))
tcrit <- qt(alpha / 2, n - 1, lower.tail = F)
atip <- apply(sample, 2, nout)
m <- length(unique(atip))
t <- qt(alpha/2, n - 1, lower.tail = F)
res <- list(NULL)
ic_med <- data.frame(NULL)
ee <- NULL
tiep <- NULL
for(i in 1:m){
res[[i]] <- sample[, which(atip == i - 1)]
}
res[[m + 1]] <- sapply(res, ncol)
for(j in 1:m){
tiep[j] <- sum(apply(res[[j]], 2, tcal) > tcrit) /
ncol(res[[j]])
}
for(k in 1:m){
m1 <- res[[k]][, 1]
ee <- (t * sd(m1)) / n
mn <- mean(m1)
ic_med[k, 1] <- paste(mn, "+/-", ee)
ic_med[k, 2] <- mn - ee
ic_med[k, 3] <- mn + ee
}
colnames(ic_med) <- c("Media-Error", "L.Inf",
"L.Sup")
row.names(ic_med) <- 0:(m-1)
print(list("N.outliers" = sort(unique(atip)),
"subsamples" = res[[m + 1]],
"TIEP" = tiep, "IC_Mean" = ic_med))
}
Flores, Muñoz, Velasco
10
ISSN 2477-9105 Número 24 Vol.1 (2020)
picos sin necesidad de contaminar o mezclar la
distribución normal, se observa que los valores
estimados para la TIEP, se encuentran todos den-
tro del intervalo [α ±0.2α]=[0.04-0.06], de hecho
todos son muy cercanos al nivel de signicancia
α, lo cual nos muestra evidencia para concluir
que la prueba t-Student se mantiene robusta ante
la presencia de datos atípicos y tiene una poten-
cia alta independientemente de la cantidad de
atípicos que tiene la muestra. La diferencia en la
potencia solo depende del tamaño muestral, es
decir a mayor tamaño, mayor potencia, pero esto
no es algo que se produzca por la presencia de
atípicos, sino que es una propiedad de la t-Stu-
dent y en general de todas las pruebas de inferen-
cia estadística.
V. CONCLUSIONES
A partir de la metodología implementada en el
presente trabajo y de acuerdo al criterio de Co-
chran, se puede observar que para casos de mues-
tras contaminadas la prueba t –Student no es una
prueba robusta ya que no controla el error tipo I
y que la potencia es muy baja, haciendo en estos
casos que la prueba sea prácticamente inservible.
Esta conclusión no hace más que comprobar los
resultados de los estudios previos descritos en el
apartado I del presente trabajo.
En el aporte propio de esta investigación, es decir
en los casos que usamos muestras con datos a-
1. Leys C, Ley C, Klein O, Bernard P, Licata L. Detecting outliers: Do not use standard devia-
tion around the mean, use absolute deviation around the median. Journal of Experimental Social
Psychology. 2013; 49(4).
2. Miller J. Reaction time analysis with outlier exclusion: Bias varies with sample size. e
quarterly journal of experimental psychology. 1991; 43(4).
3. Gervini D. Robust functional estimation using the median and spherical principal compo-
nents. Biometrika. 2008; 95(3).
4. Student. e probable error of a mean. Biometrika. 1908.
5. Barnett V, Lewis T. Outliers in statistical data. Wiley. 1974.
6. Hampel F, Ronchetti E, Rousseeuw P, Stahel WA. Robust statistics: the approach based on
inuence functions. 1st ed.: John Wiley \& Sons; 2011.
7. Hawkins D. Identication of outliers. 11th ed.: Springer; 1980.
8. Wilcoxon F. Individual comparisons by ranking methods. Breakthroughs in statistics. 1992.
9. Kruskal W, Wallis A. Use of ranks in one-criterion variance analysis. Journal of the Ameri-
can statistical Association. 1952; 47.
10. Bradley J. A common situation conducive to bizarre distribution shapes. e American
Statistician. 1977; 31(4).
11. Neave H, Granger C. A Monte Carlo study comparing various two-sample tests for die-
rences in mean. Technometrics. 1968; 10(3).
12. Rasmussen JL. e power of Student's t and Wilcoxon W statistics: A comparison. Evalua-
tion Review. 1985; 9(4).
13. Rasmussen JL. An evaluation of parametric and non-parametric tests on modied and
non-modied data. British Journal of Mathematical and Statistical Psychology. 1986; 39(2).
14. Zimmerman D, Zumbo B. e relative power of parametric and nonparametric statistical
methods. Lawrence Erlbaum Associates. 1993.
15. Zimmerman D. A note on the inuence of outliers on parametric and nonparametric tests.
e journal of general psychology. 1994; 121(4).
16. Rasmussen JL. An evaluation of parametric and non-parametric tests on modied and
non-modied data. British Journal of Mathematical and Statistical Psychology. 1986; 39(2).
17. Cochran W. e x2 correction for continuity. Iowa State College Journal of Science. 1942;
16(1).
R
eferencias
11
18. Rasch D, Guiard V. e robustness of parametric statistical methods. Psychology Science.
2004; 46.
19. Flores P, Ocana J. Heteroscedasticity irrelevance when testing means dierence. SORT: sta-
tistics and operations research transactions. 2018; 42(1).
20. Flores P, Ocaña J. Pretesting strategies for homoscedasticity when comparing means. eir
robustness facing non-normality. Communications in Statistics-Simulation and Computation.
2019; 43.
21. Rouaud M. Probability, Statistics and Estimation: Propagation of Uncertainties in Experi-
mental Measurement NC, USA: Lulu Press, Morrisville; 2013.
22. Team RC. R: A Language and Environment for Statistical Computing. R Foundation for
Statistical Computing. 2019.
23. Wickham H. ggplot2: Elegant Graphics for Data Analysis New York: Springer-Verlag; 2016.
24. Allaire J, Horner J, Xie Y, Marti V, Porte N. markdown: Render Markdown with the C Li-
brary 'Sundown'; 2019.
25. Tukey J. Exploratory Data Analysis: Addison-Wesley; 1977.
Flores, Muñoz, Velasco