Portada » Matemáticas » Conceptos Esenciales de Inferencia Estadística y Contraste de Hipótesis
Población: conjunto de individuos sobre los que se estudia una o varias características.
Muestra: subconjunto de elementos de la población.
Estadístico: es una función de variables aleatorias de la muestra y, como tal, adquiere valores de una muestra a otra.
Estimador: es un estadístico que toma valores admisibles para el parámetro desconocido, es decir, es una función de las variables que componen la muestra. Por ejemplo:
La inferencia estadística es el conjunto de métodos que nos permiten tomar decisiones u obtener conclusiones sobre la población total utilizando la información contenida en una muestra de esa población.
Se conoce la distribución de probabilidad de la población estudiada salvo un número finito de parámetros, y su objetivo es estimar el valor de dichos parámetros, dar un intervalo donde puedan tomar valores o contrastar alguna afirmación sobre los parámetros desconocidos. Se divide en:
Abarca problemas similares a la inferencia paramétrica, pero se aplica cuando no se conoce la distribución de la población. Algunos métodos son:
La estimación de un parámetro desconocido en la población suministra un valor θ, pero no permite tener una mayor o menor confianza en la estimación, porque θ tiene fluctuaciones en el muestreo. Para precisar la estimación se construyen intervalos de confianza. Un intervalo de confianza para el parámetro θ con un coeficiente de confianza 1-alfa es un conjunto de valores posibles de θ que son compatibles con los valores más probables del estimador correspondiente, el estadístico θ.
Tiene como objetivo decidir si una determinada hipótesis sobre la distribución de estudio es confirmada o invalidada a partir de las observaciones de una muestra. Si la hipótesis se formula sobre un parámetro de la población, se dice que el contraste es paramétrico. Los contrastes paramétricos necesitan el requisito de normalidad de las variables aleatorias que intervienen en el estadístico de contraste.
Es la hipótesis que se contrasta. Nunca se considera aprobada, aunque puede ser rechazada. Se llama así porque con frecuencia afirma que no hay diferencia entre el verdadero valor del parámetro y el que se desea contrastar.
Es la que aceptamos si rechazamos la hipótesis nula, es decir, es la negación de la hipótesis nula.
Es la probabilidad de cometer un error de tipo I (rechazar la hipótesis nula cuando es verdadera).
Es la probabilidad de rechazar la hipótesis nula cuando es falsa. Si beta (β) es la probabilidad de cometer un error de tipo II (no rechazar la hipótesis nula cuando es falsa), entonces la potencia es igual a 1-β. Entre dos contrastes con una misma hipótesis, se elige siempre el que tenga mayor potencia.
Es la región en la cual se rechaza la hipótesis nula (H₀).
Es el valor de alfa (α) entre 0 y 1 más pequeño que hace que la muestra observada nos indique que se debe rechazar H₀. Cuanto menor sea el p-valor, es menos probable que los datos observados se ajusten a la hipótesis nula formulada.
Es una técnica estadística que investiga y modela la relación entre las variables X e Y en la población y en qué sentido se da la relación. Otro de los objetivos del análisis de la regresión es estudiar si los valores de la variable X se pueden utilizar para predecir los valores de Y.
Residuo: es la diferencia entre el valor observado y el valor estimado.
Un error común es abusar de la interpretación del coeficiente de determinación (R²) como única medida de bondad del ajuste del modelo lineal estimado a un conjunto de datos, ya que se pueden dar situaciones en las que una inadecuada interpretación de R² puede llevarnos a situaciones como mínimo paradójicas.
Si no se verifica la hipótesis de aleatoriedad, no tiene sentido ningún método de estimación ni contraste de hipótesis. Para poder generalizar nuestras conclusiones, necesitamos que la muestra sea aleatoria, ya que es la hipótesis más importante de todas junto con la de independencia, que podemos asegurarnos en una investigación seleccionando de forma adecuada la muestra.
El objetivo de ANOVA (Análisis de la Varianza) es contrastar si existen diferencias entre las medias de los niveles de las variables (factores). Cuando solo hay dos medias, el ANOVA equivale a la prueba t-Student para el contraste de dos medias.
La prueba ANOVA es una prueba paramétrica y, como tal, requiere una serie de supuestos para poder ser aplicada correctamente (aleatoriedad, normalidad, etc.). En caso de no poder utilizar directamente ANOVA, recurrimos a pruebas no paramétricas como la de Kruskal-Wallis. Las pruebas paramétricas asumen que las muestras obtenidas son aleatorias, que las observaciones siguen una distribución normal y que existe un parámetro de interés que buscamos estimar. En cambio, las pruebas no paramétricas no asumen parcial o totalmente lo anterior. Por esta razón, bajo sus supuestos, el test ANOVA es más potente que el otro.
Es el método más adecuado para comparar poblaciones cuyas distribuciones no son normales. Incluso cuando las poblaciones son normales, este contraste funciona muy bien. También es adecuado cuando las desviaciones típicas de los diferentes grupos no son iguales entre sí. Cuando se rechaza la hipótesis nula en Kruskal-Wallis, aplicamos el método de Dunn para comprobar qué pareja de distribuciones difieren en su tendencia central.
