48
ISSN 2477-9105 Número 23 Vol.1 (2020)
R
esumen
La verificación de hipótesis requiere un previo planteamiento de factores como el tamaño de muestra y su
fiabilidad de las pruebas estadísticas para abordar estudios experimentales, dado que se puede rechazar la
presencia de un efecto derivado de un tratamiento, cuando en realidad no hay suficiente poder estadístico
para arribar a dicha conclusión. El objetivo de este artículo es definir que es el poder de una prueba
estadística, explicar su cálculo y determinar el nivel de aproximación de los tamaños de muestras de la
prueba estadística de medias pareadas generados por tres paquetes del software R, identificar si existen
similitudes en la generación de resultados con el software G*power; dando un grado de seguridad y
confianza para las pruebas estadísticas en el análisis de poder.
Palabras clave: poder estadístico, tamaños de muestras, paquetes de R, G*power.
A
bstract
Hypothesis verification requires a prior approach of factors such as the sample size and its reliabi-
lity of statistical tests to address experimental studies, since the presence of an effect derived from
a treatment can be rejected, when in reality there is not enough statistical power to arrive at that
conclusion. The objective of this article is to define what is the power of a statistical test, explain
its calculation and determine the level of approximation of the sample sizes of the statistical test of
paired means generated by three R software packages, and identify if there are similarities in the
generation of results with the G * power software; giving a degree of security and confidence for
statistical tests in power analysis.
Key words: statistical power, sample sizes, R packages, G*power.
Fecha de recepción: 20-07-2019 Fecha de aceptación: 01-12-2019
COMPARACIÓN ENTRE TAMAÑOS DE MUESTRAS DE MEDIAS
PAREADAS CON ANÁLISIS DE PODER USANDO PAQUETES DEL
SOFTWARE R Y EL SOFTWARE G*POWER
Comparison between paired sample sizes with power analysis using R software packages and G
* power software
Patricio Fernando Badillo Badillo*, Rubén Antonio Pazmiño Maji
Escuela Superior Politécnica de Chimborazo, Facultad de Ciencias, Grupo de Investigación Ciencia
de Datos/Carrera de Estadística Informática, Riobamba, Ecuador.
*patricio.badillo@espoch.edu.ec
I. INTRODUCCIÓN
La potencia de una prueba estadística o el poder
estadístico representa la probabilidad de recha-
zar la hipótesis nula cuando es realmente fal-
sa(1). Es decir, representa la capacidad de un test
para detectar como estadísticamente signicati-
vas diferencias o asociaciones de una magnitud
determinada(1). Jacob Cohen (1962,1990), fue
pionero en el uso de esta técnica.
El poder de una prueba estadística es la proba-
bilidad de que produzca resultados estadística-
mente signicativos(2). Cohen (1988 pag.16) (3)
arma que si se diseña un estudio para que tenga
alto poder 1−β (sensibilidad o capacidad del esti-
mador), para detectar alejamientos de la hipóte-
sis nula (siendo [Efecto de la muestra]= ∆), y no
se rechaza la hipótesis nula, entonces la conclu-
sión de que el verdadero valor del parámetro se
encuentra en ∆ unidades del valor de la hipótesis
49
nula, es signicativo al nivel β (probabilidad de
que ocurra un error tipo II)(4).
El análisis de poder es muy importante cuando
se está realizando un diseño de experimento,
permitiendo determinar el tamaño de muestra
requerido con parámetros establecidos como es
el tamaño del efecto y el nivel de signicancia.
Si la probabilidad es baja, sería prudentemente
de alterar sus parámetros o abandonar el experi-
mento(5).
El análisis de poder para diseños de medidas re-
petidas de dos celdas es lógicamente simple. El
concepto de prueba pareada se puede extender
a comparaciones de más de dos grupos y habla-
remos entonces de bloques de m elementos(6).
Si conocemos el promedio de la puntuación de
diferencia (Δ) y su desviación estándar (sd), el
tamaño del efecto viene dado por dz= Δ/sd. La
hipótesis nula y alterna viene dada de la siguiente
forma:
H
0
: μ
T
C
(caso medias poblacionales iguales)
H
a
: μ
T
≠μ
C
(caso de medias poblacionales distin-
tas)
Para ello se plantea el estadístico t-test
(1)
donde ū
T
es la media de la variable en el grupo de
tratamiento, μ
C
la media de la variable en el gru-
po de control, σ el error estándar y n la cantidad
de casos en la muestra(7).
El poder depende del tamaño del efecto de la po-
blación, que por lo general se tiende a descono-
cer, llevando a utilizar la mejor estimación dis-
ponible de dicho tamaño. En esta investigación
comprobaremos si los tamaños de las muestras
generadas por diferentes paquetes del soware R
son iguales o son distintas que los tamaños de las
muestras generada por el soware G*power.
El soware G*power es una herramienta para
calcular análisis estadísticos de potencia para
muchas pruebas t, pruebas F, pruebas χ2, pruebas
z y algunas pruebas exactas(8). G*power también
se puede utilizar para calcular los tamaños de los
efectos y para mostrar grácamente los resulta-
dos de los análisis de potencia(9). En nuestro caso
utilizamos el soware R ya que posee distintos
paquetes estadísticos que tienen funciones para
realizar análisis de poder como son los paque-
tes: pwr, powerSurvEpi, powerGWASinteraction,
Simr, Samplesize, powerEQTL, WebPower(10).
No todos estos paquetes calculan el tamaño de la
muestra de medias pareadas.
Para nuestro estudio se utilizó pwr, WebPower y
powerAnalysis con los que se obtuvo diferentes
tamaños de muestras de medias pareadas me-
diante diferentes combinaciones entre el tamaño
de efecto, nivel de signicancia y poder.
II. MATERIALES Y MÉTODOS
Se realizó una investigación experimental, de
tipo descriptiva, para proporcionar elementos
que permitan comparar diferentes parámetros
expuestos en un análisis de poder y posibles al-
ternativas para tamaños de muestras pareadas,
las cuales son importantes en estrategia de bús-
queda sobre metodología estadística de investi-
gación.
La herramienta de soporte para este estudio fue
el soware R versión 3.5.3 y la utilización de tres
paquetes pwr, WebPower y powerAnalysis los
cuales son gratuitos y se encuentran en el CRAN
y el soware G*power versión 3.1.
El paquete pwr tiene funciones de análisis de
poder a lo largo de las líneas de Cohen (1988)
utilizan en particular las mismas notaciones para
los tamaños de efecto, su versión que se utilizó
es 1.2-2, con fecha de publicación 2018-03-03,
pwr.t.test()” calcule la potencia de las pruebas o
determina los parámetros para obtener la poten-
cia objetivo(11).
El paquete WebPow er es una colección de herra-
mientas para realizar tanto análisis de potencia
estadística básica como avanzada, incluyendo
correlación, proporción, prueba t, ANOVA de
una vía, ANOVA de dos vías, regresión lineal,
regresión logística, etc. La versión que se utilizó
es 0.5.2, con fecha de publicación 2018-11-29,
wp.t()” puede evaluar la signicación estadísti-
ca de la diferencia entre la población media y un
valor especíco, la diferencia entre dos medias de
Badillo, Pazmiño
50
ISSN 2477-9105 Número 23 Vol.1 (2020)
población independientes y emparejadas(12).
El paquete powerAnalysi s posee funciones bási-
cas para el análisis de potencia y el cálculo del ta-
maño del efecto, La versión que se utilizó es 0.2.1,
con fecha de publicación 2017-02-02, “power.t()
puede realizar cálculos de potencia para la prue-
ba t(13).
III. RESULTADOS
Con la utilización de los paquetes pwr, Web-
Power y powerAnalysis del soware R en la ver-
sión 3.5.3, se obtuvieron mediante una simula-
ción matemática combinaciones entre el tamaño
de efecto de 0.1 a 0.9, el nivel de signicancia de
0.01 a 0.05 y un poder de 0.50 a 0.99 con tres re-
peticiones, dando un total de 6750 datos en cada
paquete.
Tabla 1. Base de datos generada con los paquetes pwr, Webpower y powe-
rAnalysis en R.
Se probaron los supuestos de normalidad(14),
independencia(15) y homocedasticidad(16), con
cada uno de los paquetes, con el n de vericar si
existen diferencias signicativas en su uso.
Figura 1. Representación de los tamaños de las muestras con respecto a
cada paquete.
La asimetría de los datos generados(17) por los
tres paquetes del sofware R se presenta a conti-
nuación:
Figura 2. Asimetría de los datos de los tres paquetes de R
En la representación gráca de los datos se ob-
serva que las muestras no siguen una distribu-
ción normal. Las tres muestras de los paquetes
"pwr", "Webpower" y "powerAnalysis" presentan
asimetría hacia la derecha. Con el uso de dife-
rentes test para vericar si las muestras siguen
una distribución normal se obtuvo que mediante
el test de Anderson-Darling, Lilliefors y Jarque
Bera(18), resultó un p-value inferior a 2.2e-16
con lo que se pudo armar que las muestras del
tamaño del efecto, nivel de signicancia, poder y
del tamaño de la muestra no seguían distribución
normal. Mediante el test Chi-cuadrado para ve-
ricar si las muestras son independientes(19), se
obtuvo que el paquete con respecto al tamaño de
muestra resultó un p-value inferior a 2.2e-16, por
lo que se pudo armar que estas variables son
dependientes; de igual forma el poder es depen-
diente del paquete que se utilizó. Mediante el test
de Levene y Bartlett para vericar si las muestras
siguen homocedasticidad(20), se obtuvo que el
tamaño de muestra, efecto y poder resultó un
p-value igual a 1, armando que poseen varian-
zas iguales.
Al hacer el análisis de nuestros datos se compro-
bó que no seguían una distribución normal, por
lo cual, se decidió recurrir a pruebas de contraste
no paramétrico, puesto que las pruebas no pa-
ramétricas, a pesar de ser igualmente rigurosas
que las paramétricas, no permiten rechazar la hi-
pótesis nula de nuestro estudio, se procedió a ha-
cer una transformación de los datos(21) con n
de que los nuevos datos sigan una distribución
51
normal, a continuación, se aplica el test de An-
derson Darlin para probar normalidad; se des-
criben las técnicas usadas a continuación:
Transformación
(tres paquetes
de R)
p-value Transformación
(pwr y G*power)
p-value
Logaritmos 3.7e-24 Logaritmos 3.7e-24
Exponencial 3.7e-24 Exponencial 3.7e-24
Paquete de Johnson 3.7e-24 Paquete de Johnson 0.0001698978
Box-Cox 3.7e-24 Box-Cox 3.7e-24
Tabla 2. Transformaciones realizadas en los datos
Se determinó que los datos nuevos son estricta-
mente no normales ya que se rechazó la hipótesis
nula resultando un su p-valor es inferior a 0.05;
llevando a la conclusión que se aplicaría en el es-
tudio pruebas no paramétricas(22). Mediante un
análisis multifactorial Kruskal-Wallis por rango,
es una alternativa no paramétrica ya que esta
prueba se recomienda cuando las muestras no
provienen de una distribución normal, con igual
varianza y misma distribución en los grupos(23).
Con el test de Kruskal-Wallis se obtuvo un va-
lor de p es de 0.999 siendo mayor que el nivel de
signicancia de 0.05, concluyendo que no exis-
ten diferencias signicativas entre los grupos de
tratamiento, es decir los tamaños de muestras de
medias pareadas son inuenciados a ser iguales
por los paquetes que se utilizó en R como son
pwr, WebPower y powerAnalysis.
De la población de los datos generados del pa-
quete “pwr” del soware R se sacó una muestra
de 363 datos mediante un muestreo aleatorio
simple, los cuales fueron replicados en las mis-
mas condiciones en el soware G*power; se
muestran a continuación:
Tabla 3. Base de datos generada con el paquete "pwr" del soware R y el
soware G*power
Se escogió aleatoriamente el paquete “pwr” del
sofware R, se sacó una muestra de 363 datos los
cuales se replicaron en el soware G*power para
determinar si existen diferencias en los resulta-
dos que generan los dos sowares.
Figura 3. Representación de las muestras de G*power y pwr.
La asimetría de los datos generados en el paquete
pwr del soware R y el soware G*power se pre-
senta a continuación:
Figura 4. Asimetría de los datos del paquete pwr de R y G*power
En la representación gráca de los datos se ob-
serva que la muestra no sigue una distribución
normal, los datos del paquete "pwr" del sofware
R y los datos del sofware G*power presentan asi-
metría positiva.
La comprobación de los supuestos mediante el
test de Anderson-Darling, Lilliefors y Jarque
Bera resultó un p-value inferior a 2.2e-16 con lo
que se pudo armar que las muestras del tamaño
del efecto, nivel de signicancia, poder y el ta-
maño de la muestra no seguían una distribución
normal. Con el test Chi-Cuadrado se obtuvo que
el paquete con respecto al tamaño de muestra re-
sultó un p-value de 5.292e-10 por lo que se pudo
armar que son dependientes, de igual forma el
poder es dependiente del paquete que se utilice.
Con el test de Levene y Bartlett para vericar si
las muestras siguen Homocedasticidad o varian-
Badillo, Pazmiño
52
ISSN 2477-9105 Número 23 Vol.1 (2020)
zas iguales, se obtuvo que el tamaño de muestra,
efecto y el poder un p-value de 0.9998 por lo que
se pudo armar que poseen varianzas iguales.
Mediante el análisis del test de Kruskal-Wallis se
obtuvo un p-value es de 0.7518 siendo mayor que
el nivel de signicancia de 0.05, concluyendo que
no existen diferencias signicativas entre los gru-
pos de tratamiento, es decir la muestra de medias
pareadas del paquete “pwr” del soware R y en
el soware G*power tienden a ser iguales; me-
diante las comparaciones por pares utilizando la
prueba de suma de rangos de Wilcoxon(24) dió
un p-value de 0.75 de forma que corrobora con el
test de Kruskal-Wallis.
IV. CONCLUSIONES
Según autores como Marco Perugini, Marcello
Gallucci, Giulio Costantini(25) el análisis de po-
tencia se pueden realizar en diferentes sowares
como G*power o R los cuales están equipados
para que sean exactos en sus resultados, pero
también pueden ser comprados con sowares
que brinden las mismas condiciones para el aná-
lisis de poder.
Con la utilización de tres paquetes del soware
R como son pwr, WebPower y powerAnalysis se
obtuvieron varios tamaños de muestras de me-
dias pareadas mediante combinaciones entre el
tamaño de efecto, nivel de signicancia y poder.
Se determinó que los grupos generados por el
soware fueron signicativamente similares ya
que no se rechazó la hipótesis de nula con el test
de Kruskal-Wallis, se obtuvo un p-value de 0.999
siendo mayor que el nivel de signicancia de
0.05, llevando a la conclusión que tanto los tama-
ños de muestras generados por los tres paquetes
son iguales en un análisis de poder para medias
pareadas. También se hizo una comparación con
los datos que genera el sofware G*power, llevan-
do a tomar de la población de los datos genera-
dos del paquete “pwr” del soware R una mues-
tra de 363 datos mediante un muestreo aleatorio
simple, los que se los replicó a las mismas con-
diciones en soware G*power, obteniendo como
resultados de que el soware "G*power" y el pa-
quete de R "pwr" entregan valores similares para
los tamaños de muestras utilizando la prueba de
suma de rangos de Wilcoxon con un p-value de
0.75 como estimado.
V. AGRADECIMIENTOS
Mi sincero agradecimiento al Dr. Rubén Pazmi-
ño docente de la Escuela Superior Politécnica
de Chimborazo por impartir sus conocimientos
para que se plasmen en realidad de forma apli-
cativa en este trabajo siendo de utilidad para el
sector académico y cientíco.
R
eferencias
1. lculo del poder estadístico de un estudio [Internet]. [citado 25 de noviembre de 2019].
Disponible en: https://www.fisterra.com/mbe/investiga/poder_estadistico/poder_estadistico.asp
2. Para C, Investigación LA, Fisher R. TAMAÑO DE EFECTO : 2007;
3. Cohen J. Statistical Power Analysis for the Behavioral Sciences. Second Edi. New York, New
York, USA: LAWRENCE ERLBAUM ASSOCIATES; 1988. 579 p.
4. Gesto Giannattasio N. Alisis de Poder Estadístico y su Aplicación a Evaluaciones Expe-
rimentales. 2016 ene.
5. Perugini M, Gallucci M, Costantini G. A Practical Primer To Power Analysis for Simple
Experimental Designs. Int Rev Soc Psychol. julio de 2018;31(1):20.
6. Pruebas pareadas. SHE. mayo de 2003;6.
7. Unknown P por. Prueba t de Student [Internet]. [citado 25 de noviembre de 2019]. Disponi-
ble en: http://pruebatstudentf.blogspot.com/
8. Kiel C. G * Power 3 : A flexible statistical power analysis program for the social , behavioral
, and biomedical sciences. 2007;39(2):175-91.
9. (PDF) A short tutorial of GPower [Internet]. [citado 25 de noviembre de 2019]. Disponible
en: https://www.researchgate.net/publication/49619426_A_short_tutorial_of_GPower
10. Blomberg S. Power Analysis using R. 2015.
11. pwr.pdf [Internet]. [citado 26 de noviembre de 2019]. Disponible en: https://cran.r-project.
53
Badillo, Pazmiño
org/web/packages/pwr/pwr.pdf
12. WebPower.pdf [Internet]. [citado 26 de noviembre de 2019]. Disponible en: https://
cran.r-project.org/web/packages/WebPower/WebPower.pdf
13. powerAnalysis.pdf [Internet]. [citado 26 de noviembre de 2019]. Disponible en: https://
cran.r-project.org/web/packages/powerAnalysis/powerAnalysis.pdf
14. Assumptions Part 1: Normality [Internet]. Discovering Statistics. 2012 [citado 26 de no-
viembre de 2019]. Disponible en: https://www.discoveringstatistics.com/2012/08/06/assump-
tions-part-1-normality/
15. Zhang S, Jalali D, Wuttke J, Mu K, Lam W, Ernst MD, et al. Empirically Revisiting the Test
Independence Assumption.
16. Assumptions Part 2: Homogeneity of Variance/Homoscedasticity [Internet]. Discovering
Statistics. 2012 [citado 26 de noviembre de 2019]. Disponible en: https://www.discoveringstatistics.
com/2012/09/13/assumptions-part-2-homogeneity-of-variancehomoscedasticity/
17. Garson GD. Single User License . Do not copy or post . Single User License . Do not copy
or post . 2012;1-52.
18. Moni M, Shuaib M. A Comparison of Power of Normality Tests: Shapiro-Wilk, Kolmogo-
rov-Smirnov, Lilliefors, Anderson-Darling and Jarque-Bera Tests. 2015.
19. Tests S. Chapter 10 Chi Square Tests.
20. Mu Z. Comparing the Statistical Tests for Homogeneity of Variances. En 2006.
21. Consejos para reconocer y transformar datos no normales - iSixSigma [Internet]. 2010 [ci-
tado 26 de noviembre de 2019]. Disponible en: https://www.isixsigma.com/tools-templates/norma-
lity/tips-recognizing-and-transforming-non-normal-data/
22. Cowan AR, Sergeant AMA. Interacting biases, non-normal return distributions and the
performance of tests for long-horizon event studies. J Bank Finance [Internet]. 1 de abril de 2001
[citado 26 de noviembre de 2019];25(4):741-65. Disponible en: http://www.sciencedirect.com/scien-
ce/article/pii/S0378426600000947
23. anova_un_factor-lectura.pdf [Internet]. [citado 26 de noviembre de 2019]. Disponible en:
https://previa.uclm.es/profesorado/mdsalvador/58109/teoria/anova_un_factor-lectura.pdf
24. tests noparametricos.pdf [Internet]. [citado 26 de noviembre de 2019]. Disponible en: ht-
tps://www.ugr.es/~rruizb/cognosfera/sala_de_estudio/estadistica/tests%20noparametricos.PDF
25. Perugini M, Gallucci M, Costantini G. Salvaguardar el poder como protección contra es-
timaciones imprecisas del poder. Perspect Psychol Sci [Internet]. 1 de mayo de 2014 [citado 26 de
noviembre de 2019];9(3):319-32. Disponible en: https://doi.org/10.1177/1745691614528519