100
Revista Cientíca
MÉTODO BOOTSTRAP PARA HIPÓTESIS CONCERNIENTES
A LA DIFERENCIA DE MEDIAS PARA MUESTRAS PAREADAS:
APLICACIONES
Bootstrap Method for Hypotheses Concerning the Difference
of Means for Paired Samples: Applications
1
Antonio Meneses*
2
Lourdes Zuñiga,
2
Carlos Santos,
2
Silvia Haro,
2
Nancy Chariguamán
2
Luis Vera
R
esumen
A
bstract
En este trabajo se propone un método exible para calcular un intervalo de conanza con réplicas Boots-
trap para la diferencia de medias de dos muestras pareadas sin necesidad de normalidad, en el ámbito de
la teoría de hipótesis. La hipótesis nula se rechaza si el intervalo de conanza no contiene el 0, caso con-
trario se acepta. Dos aplicaciones se realizan con las variables: producción mensual de leche y producción
promedio mensual de leche, de vacas alimentadas solo con forraje y con forraje más ensilaje de maíz.
También se realiza un estudio de simulación con muestras normales que se obtienen resultados similares
con el método comúnmente utilizado de la t-Student y el método propuesto Bootstrap.
In this paper , we propose a exible method to calculate a condence interval with bootstrap
replicas for the mean difference of two paired samples without the need of normality, in the eld of
hypothesis theory. The null hypothesis is rejected if the condence interval does not contain the 0,
otherwise it is accepted . Two applications are made with the variables : monthly milk production
and average monthly milk production , from cows fed only with forage and with forage plus corn
silage. A simulation study is also carried out with normal samples, obtaining similar results with
the com- monly used method of t-Student and the proposed Bootstrap method.
Palabras claves: método bootstrap, diferencias-medias, muestras pareadas.
Keywords: bootstrap method, differences-means, paired samples.
Fecha de recepción: 08-06-2018 Fecha de aceptación: 24-10-2018
I. INTRODUCCIÓN
Los métodos paramétricos comunes para la diferencia
de medias en el contexto de la teoría de hipótesis tienen
condiciones fuertes que deben cumplir las variables, una
de ellas es la normalidad (3). El método
que se propone es muy exible en cuanto
a que las variables sean normales o no.
Este método basado en Bootstrap (1,2),
principalmente se centra en calcular un
Número 20 Vol.
2
(2018)
ISSN
2477-9105
2
Escuela Superior Politécnica de Chimborazo, Riobamba, Ecuador
* ameneses@unach.edu.ec
1
Universidad Nacional de Chimborazo, Riobamba, Ecuador
101
intervalo de conanza para la diferencia
de medias de dos muestras pareadas de
acuerdo a lo siguiente:
Primero, se realiza la parte teórica pro-
puesta en forma de algoritmo con 9 pa-
sos en los que se detalla claramente la
manera de calcular el intervalo de con-
anza Bootstrap para la diferencia de
medias de dos muestras pareadas.
Segundo, se presentan los lineamientos
para seleccionar la hipótesis nula, nota-
ción para las hipótesis (3). También se
plantea de manera sistemática la prueba
de hipótesis en cinco pasos haciendo én-
fasis en el método Bootstrap propuesto.
Tercero, se realizan los resultados y las
discusiones al aplicar los cinco pasos de
la prueba de hipótesis usando el interva-
lo de conanza Bootstrap al 95% para
la diferencia de medias de dos muestras
pareadas. También se realiza un estudio
de simulación con muestras normales
mediante la función rnorm del software
R (6), obteniendo resultados similares
con el método comúnmente utilizado
de la t-Student y el método propuesto
Bootstrap.
Por último, se dan las conclusiones del
trabajo.
Intervalo de conanza Bootstrap
en hipótesis concernientes para la
diferencia de medias en muestras
pareadas.
El método Bootstrap es un procedimien-
to estadístico que sirve para aproximar
la distribución en el muestreo (normal-
mente de un estadístico). Para ello se
procede mediante remuestreo, es decir,
obteniendo muestras mediante algún
procedimiento aleatorio que utilice la
muestra original (2). sobre la base de los
aspectos generales de este método y sin
dejar de lado la hipótesis nula, se calcula
el intervalo de conanza para la diferen-
cia de medias de dos muestras pareadas
usando los pasos del siguiente algorit-
mo:
1. Dada la muestra pareada:
(X ,Y)={(X
1
,Y
1
),…, (X
n
,Y
n
)}
crear la muestra de diferencias:
D = {X
1
- X ̅ - Y
1
+ Y ̅ ,…, X
n
- X ̅ - Y
n
+ Y ̅ }
2. Para cada i = 1,2, … , n arrojar
U
i
~ U(0,1) y hacer D
i
* = D
[nUi ]+1
3. Obtener D* =
1
n
∑ D
i
*
1
n-1
S
2
D
*
=
∑ (D
i
* - D*)
2
4. Calcular el estadístico bootstrap:
R* =
D*
S
D
*
n
5. Repetir B veces los pasos 2, 3 y 4 para obtener las B ré-
plicas bootstrap de R*. Luego ordenar de forma creciente
estas réplicas del modo que:
R
1
* ≤ R
2
* ≤ ... ≤ R
B
*
6. Calcular los puntos críticos, inferior y superior al nivel
de signicancia α:
p.c.inf = R*
α
[
B
2
[
p.c.sup = R*
α
[
B(1- )
2
[
7. Calcular los límites inferior y superior del intervalo de
conanza para el nivel de signicancia α (ver detalles en
el numeral 4 de la prueba de hipótesis):
lim.inf =
DIF - p.c.sup
S
2
D I F
n
Lim.sup =
DIF - p.c.inf
S
2
D I F
n
102
Revista Cientíca
Donde DIF =X - Y, DIF = X - Y, S
2
D I F
es la desviación
típica muestral, [[·]] la función parte entera y U(0,1) es la
distribución uniforme en el intervalo (0 , 1).
Hipótesis nulas y prueba de hipótesis para diferencia
de medias en muestras pareadas (3)
• Lineamiento para seleccionar la hipótesis nula:
Cuando la meta de un experimento sea establecer una
armación, la negación de la armación debería tomarse
como la hipótesis nula. La armación se convierte en la
hipótesis alternativa.
Notación para las hipótesis:
H
0
: hipótesis nula
H
1
: hipótesis alternativa.
• Prueba de hipótesis:
Para tratar sistemáticamente los problemas de pruebas de
hipótesis, será útil proceder como se bosqueja en los si-
guientes cinco pasos (3):
1. Formular una hipótesis nula (H
0
) y una hipótesis al-
ternativa (H
1
) adecuada que se acepte cuando deba re-
chazarse la hipótesis nula. Estadísticamente se procede a
considerar la muestra de las diferencias:
DIF = X - Y
Esta colección de diferencias se trata como una muestra
aleatoria de tamaño n de una población que tiene media
μ_DIF. Donde μ_DIF=0 se interpreta como indicador de
que las medias de las dos variables son las mismas (hi-
pótesis nula), así como μ_DIF≠0 como indicador de que
la media de la variable X es diferente que la media de la
variable Y (hipótesis alternativa).
2. Especicar el nivel de signicancia α.
3. Construir un criterio para poner a prueba la hipótesis
nula contra la alternativa dada.
4. A partir de los datos, calcular el intervalo de conanza
con el algoritmo Bootstrap propuesto basado en la razón:
R =
DIF - µ
DIF
S
DIF
n
donde los límites del intervalo de con-
anza para μ
DIF
esta dado:
R
inf
<
DIF - µ
DIF
S
DIF
n
< R
sup
R
inf
y R
sup
son estimados con el algorit-
mo Bootstrap propuesto obteniendo:
p.c.inf. <
DIF - µ
DIF
S
DIF
n
< p.c.sup
A continuación despejando μ
DIF
sus lí-
mites del intervalo de conanza de son:
Límite inferior:
S
DIF
n
DIF - p.c.sup
Límite superior:
S
DIF
n
DIF - p.c.inf
5. Decidir si hay que rechazar la hipóte-
sis nula o fallar en rechazarla, al veri-
car que el cero no pertenece o pertenece
al intervalo de conanza de μ_DIF res-
pectivamente.
II. RESULTADOS Y DISCUSIÓN
Fuente de datos:
El desarrollo del trabajo se realiza con
dos variables: producción mensual de
leche y producción promedio mensual
de leche, en vacas alimentadas solo con
forraje y con forraje más ensilaje de
maíz en los meses de julio y agosto res-
pectivamente. Estas muestras son toma-
das en la Estación Experimental Tunshi,
Facultad de Ciencias Pecuarias de la Es-
cuela Superior Politécnica de Chimbo-
razo, Riobamba, Ecuador.
Número 20 Vol. 2 (2018)
ISSN 2477-9105
103
Aplicaciones de inferencias
concernientes a la diferencia de
medias en prueba de hipótesis
para muestras pareadas
Diferencia de medias entre las mues-
tras pareadas:
X: producción de leche en litros de 20
vacas alimentadas solo con forraje en el
mes de julio de 2017.
Y: producción de leche en litros de 20 va-
cas alimentadas con forraje más ensilaje
de maíz en el mes de agosto de 2017.
Prueba de hipótesis:
1. H
0
: μ
DIF
= 0 (No existe diferencia sig-
nicativa entre las medias de las va-
riables X e Y)
H
1
: μ
DIF
0 (Sí existe diferencia sig-
nicativa entre las medias de las va-
riables X e Y)
2. Nivel de signicancia α = 0,05
3. El criterio de aceptar la hipótesis nula
es cuando el 0 pertenece al intervalo
de conanza Bootstrap, caso contra-
rio la hipótesis nula es rechazada.
4. El intervalo de conanza Bootstrap al
95% es calculado siguiendo los pasos
del algoritmo del método Bootstrap
propuesto (con 1000 réplicas):
5. Decisión: en la Figura 3 se observa que
el intervalo de conanza bootstrap no
contiene el 0, por lo que la hipótesis
nula se rechaza, es decir que las medias
de las variables X e Y son signicativa-
mente diferentes al 95% de conanza.
También se observa que el intervalo de
conanza contiene únicamente valores
positivos, que signica que la media de
producción de leche en vacas alimen-
tadas solo con forraje es signicativa-
mente mayor a la media de producción
de leche en vacas alimentadas con fo-
rraje más ensilaje de maíz.
Figura 1: Unidad Académica y de Investigación en Bovinos Lecheros
de la Estación Experimental Tunshi (foto tomada por el Ingeniero Carlos
Santos, especialista pecuario de la Unidad).
900
800
700
600
500
400
300
443
453
461
470
474
484
488
515
517
520
521
524
529
538
544
558
561
565
571
582
número de arete
producción de leche (litros)
Alimentación con forraje
Forraje más ensilaje de maíz
Figura 2: producción de leche de 20 vacas alimentadas con forraje en el
mes de julio y con forraje más ensilaje de maíz en el mes de agosto.
Diferencia de medias entre las muestras pareadas:
V: producción promedio de leche en litros de 20 vacas
alimentadas solo con forraje en el mes de julio de
2017.
W: producción promedio de leche en litros de 20 vacas
alimentadas con forraje más ensilaje de maíz en el
mes de agosto de 2017.
104
Revista Cientíca
-60 -40 -20 0 20 40 60
Valores del intervalo de conanza
(19.29 , 53.32)
I.C. (95%)
Figura 3: Intervalo de confianza bootstrap al 95% para la diferencia
de medias de las variables, X e Y.
25
20
15
10
443
453
461
470
474
484
488
515
517
520
521
524
529
538
544
558
561
565
571
582
número de arete
producción de leche (litros)
Alimentación con forraje
Forraje más ensilaje de maíz
Figura 4: producción promedio de leche de 20 vacas alimentadas con forraje
en el mes de julio y con forraje más ensilaje de maíz en el mes de agosto.
Prueba de hipótesis:
H
0
: μ
DIF
= 0 (No existe diferencia signi-
cativa entre las medias de las varia-
bles V y W)
H
1
: μ
DIF
0 (Sí existe diferencia signi-
cativa entre las medias de las varia-
bles V y W).
2. Nivel de signicancia α = 0,05
3. El criterio de aceptar la hipótesis nula
es cuando el 0 pertenece al intervalo
de conanza Bootstrap, caso contra-
rio la hipótesis nula es rechazada.
4. El intervalo de conanza Bootstrap al
95% es calculado siguiendo los pasos
del algoritmo del método Bootstrap
propuesto (con 1000 réplicas):
5. Decisión: En la Figura 5 se observa
que el intervalo de conanza Boots-
trap no contiene el 0, por lo que la hi-
pótesis nula se rechaza, es decir que
las medias de las variables pareadas
V y W son signicativamente dife-
rentes al 95% de conanza. También
se observa que el intervalo de con-
anza contiene únicamente valores
positivos, que signica que la media
de producción promedio de leche en
vacas alimentadas solo con forraje es
signicativamente mayor a la media
de producción promedio de leche en
vacas alimentadas con forraje más
ensilaje de maíz.
Estudio de simulación del método
propuesto
Sin pérdida de generalidad, la aplica-
ción del método propuesto se realiza en
muestras simuladas de dos normales,
con el propósito de comparar con el mé-
todo tradicional de la t-Student en mues-
tras pareadas (4,5).
En la Tabla 1 se observa que los resulta-
dos del método propuesto y del método
tradicional de la t-Student son similares.
Número 20 Vol. 2 (2018)
ISSN 2477-9105
105
La columna Sim. se reere a 10 veces
la simulación de dos muestras norma-
les de tamaño 20, medias, 546 y 509 y
desviaciones típicas de 124 y 107. Es-
tas medidas son calculadas de las mues-
tras pareadas de la primera aplicación
del método propuesto sobre la produc-
ción de leche. Las columnas t-Student y
Bootstrap contienen intervalos de con-
anza al 95% del estadístico de la media
de las diferencias de variables simula-
das, (DIF); para la t-Student se calcula
el intervalo de la siguiente manera:
-3 -2 -1 0 1 2 3
Valores del intervalo de conanza
0,64 , 1,76
I.C. (95%)
Figura 5. Intervalo de confianza bootstrap al 95% para la diferencia
de medias de las variables, V y W.
S
DIF
20
DIF ± 1,96
donde 1.96 es el cuantil de la normal es-
tándar al 97.5% y S_DIF es la desvia-
ción típica de la variable aleatoria DIF
(3).
El intervalo de conanza Bootstrap es
calculado con el algoritmo propuesto.
Al comentar al inicio del estudio de si-
mulación que los dos métodos tienen
resultados similares se reere a que los
intervalos de las simulaciones de 1 al 9
contienen el 0, y en la simulación 10 no
contiene el cero, esto signica que en las
primeras 9 las diferencias de las medias
de las muestras no son signicativas al
95% de conanza, mientras que en la 10
la diferencia es signicativa.
III. CONCLUSIONES
Al nalizar esta investigación de hipó-
tesis inferencial sobre la diferencia de
medias para muestras pareadas se con-
cluye:
El método Bootstrap propuesto es
exible al obviar las condiciones de
normalidad y también los tamaños de
las muestras pareadas en hipótesis con-
cernientes a la diferencia de sus medias.
Esto es una ventaja muy importante
para ampliar el campo de aplicación.
Sim. t-Student Bootstrap
Dos muestras
normales
Intervalo de conanza
al 95 %
Intervalo de conanza
al 95 %
1 [-14 , 138] [- 4 , 150]
2 [-27 , 150] [- 38 , 134]
3 [- 57 , 79] [- 50 , 95]
4 [- 16 , 119] [- 12 , 114]
5 [- 120 , 36] [- 117 , 34]
6 [- 38 , 149] [- 33 , 166]
7 [- 3 , 167] [- 6 , 171]
8 [- 87 , 76] [- 88 , 74]
9 [- 80 , 75] [- 84 , 76]
10 [45 , 177] [40 , 174]
Tabla 1. intervalos de confianza al 95% para el estadístico (DIF)
por t-Student y el método bootstrap propuesto
106
Revista Cientíca
Todos los cálculos de este trabajo se realizaron con herra-
mientas del software estadístico R (6).
IV. AGRADECIMIENTOS
A los directivos de la Estación Experi-
mental Tunshi, Facultad de Ciencias Pe-
cuarias de la Escuela Superior Politécni-
ca de Chimborazo, Riobamba, Ecuador.
Y a la SENESCYT.
R
eferencias
1. Davison AC, Hinkley DV. Bootstrap Methods and their Application. Cambridge University
Press; 1997.
2. Efron B, Tibshirani R. Bootstrap methods for standard errors, condence intervals, and other
measures of statistical accuracy. Statistical Science 1; 1986.
3. Johnson R. Probabilidad y estadística para ingenieros. Vol 1. 8a ed. México: Pearson educación;
2012.
4. Patrick R. 1982. An extension of Shapiro and Wilk’s W test for normality to large samples.
Applied Statistics, 31, 115–124.
5. Patrick, R. 1982. Algorithm AS 181: The W test for Normality. Applied Statistics, 31, 176–180.
6. Rizzo M.L. Statistical Computing with R. Chapman&Hall/CRC; 2008.
7. Wasserman L. All of Statistics. A Concise Course in Statistical Inference. Springer; 2006.
Número 20 Vol. 2 (2018)
El método Bootstrap propuesto es una alternativa
conable cientícamente para calcular el intervalo de
conanza en diferencia de medias para muestras pa-
readas, y con este rechazar o aceptar la hipótesis nula
de forma estadísticamente signicativa.
ISSN 2477-9105