Portada » Matemáticas » Pruebas estadísticas para comparar y relacionar variables: t, U de Mann-Whitney, Pearson, ANOVA, regresión y chi-cuadrado
Se trata de una variable cuantitativa (horas de estudio) y una variable cualitativa con dos niveles (sexo), por lo que se utilizará la t de Student para dos muestras independientes si se asume la normalidad y, en su defecto, la prueba no paramétrica de U de Mann‑Whitney.
Supuesto de normalidad.
Para analizar el supuesto de normalidad en la variable horas de estudio se utilizó la prueba de Shapiro‑Wilk, que obtuvo un estadístico W = 0,824 con un p < 0,01. Al ser menor que 0,05 se rechaza la hipótesis nula y se concluye que no se cumple el supuesto de normalidad. Además, el grupo de varones es de n = 13 (< 30), por lo que no es aplicable el TCL para asumir normalidad en ese grupo.
Por tanto, se utilizó la prueba no paramétrica de U de Mann‑Whitney. Se obtuvo un estadístico U = 307 con p = 0,038; al ser menor que 0,05 se rechaza la hipótesis nula y se acepta la alternativa de que las medias poblacionales de horas de estudio son distintas en hombres y en mujeres.
Se observa que la media de horas de estudio de las mujeres (m = 12,2; DT = 10,4) es mayor que la de los hombres (m = 6,95; DT = 6,36).
Al analizar la relación entre dos variables cuantitativas se utilizará el coeficiente de correlación de Pearson si se cumple la normalidad y, en su defecto, el coeficiente de correlación de Spearman.
Se aplicó Shapiro‑Wilk: para nota en estadística W = 0,908 con p < 0,01 y para nota en contabilidad W = 0,935 con p < 0,01. En ambos casos, al ser < 0,05, se rechaza la hipótesis nula y se concluye que no se cumple el supuesto de normalidad. Sin embargo, como el tamaño muestral es mayor de 30 (n = 87), por el Teorema del Límite Central se puede asumir la normalidad para fines de correlación.
En la tabla de correlaciones se obtiene r = 0,939 con p < 0,001; al ser menor que 0,05 se rechaza la hipótesis nula y se acepta que existe una relación lineal estadísticamente significativa. Dado que r = 0,939, la relación es directa y de gran magnitud.
Al tratarse de tres variables cuantitativas y querer comprobar si hay diferencias en las medias se utilizará la ANOVA de medidas repetidas si se cumple la normalidad y, en su defecto, la prueba no paramétrica de Friedman.
Supuesto de normalidad. Se aplicó Shapiro‑Wilk a las tres variables y en las tres se obtuvo un p inferior a 0,001, por lo que se rechaza la normalidad. No obstante, con un tamaño muestral de n = 87 (> 30) se asume la normalidad por el TCL.
Además, es necesario comprobar la esfericidad (Mauchly). Las hipótesis son:
Se obtiene Mauchly W = 0,322 con p < 0,001; al ser menor que 0,05 se rechaza la hipótesis nula y se concluye que no se cumple el supuesto de esfericidad. Por tanto, se aplicó la corrección de Greenhouse‑Geisser.
Con la corrección de Greenhouse‑Geisser se obtiene F = 32,7 con p < 0,001; al ser menor que 0,05 se rechaza la hipótesis nula principal y se concluye que al menos la nota media de dos asignaturas es distinta.
Para determinar dónde están las diferencias se aplicó la prueba post‑hoc de Tukey:
La variable dependiente es colesterol. Las variables independientes o explicativas son glucemia, TAS (tensión arterial sistólica) y edad.
Modelo obtenido:
Colesterol = -45,783 + 0,335 × glucemia + 1,792 × TAS – 0,546 × edad.
Los p‑valores asociados a los coeficientes son: glucemia p = 0,005; TAS p < 0,001; edad p = 0,030. Al ser todos menores que 0,05, las tres variables son significativas y entran en el modelo de regresión.
Se obtiene un R2 = 0,388, lo que indica que el 38,8% de la variabilidad del colesterol es explicada por el modelo.
Tanto el sexo como el hecho de trabajar en verano son variables cualitativas, por lo que se utilizó la prueba del chi‑cuadrado de independencia.
La prueba no requiere supuestos fuertes. Se obtuvo χ² = 5,29 con p = 0,021; al ser menor que 0,05 se rechaza la hipótesis nula y se concluye que sí existe relación entre las dos variables.
Para interpretar el sentido de la relación se examinó la tabla de contingencia: la frecuencia observada de hombres que sí trabajan en verano es 6, estando por encima de la frecuencia esperada en 2,84; por tanto, se puede concluir que los hombres tienden a trabajar más que las mujeres en verano.
Se han aplicado varias pruebas estadísticas apropiadas según el tipo de variables y el cumplimiento de supuestos (Shapiro‑Wilk, U de Mann‑Whitney, correlación de Pearson, ANOVA de medidas repetidas con corrección de Greenhouse‑Geisser, regresión lineal múltiple y chi‑cuadrado). Los resultados muestran diferencias significativas en horas de estudio por sexo, una correlación alta entre notas de estadística y contabilidad, diferencias de rendimiento entre algunas asignaturas, un modelo de regresión con tres predictores significativos para colesterol y una asociación entre sexo y trabajo en verano.
