Portada » Matemáticas » Evaluación de la Fiabilidad en Tests Psicométricos: Métodos y Conceptos Clave
TEMA 3. Fiabilidad
Nos encontramos en un punto en el que hemos definido nuestro constructo, creado unos ítems, un test y probado con una muestra en una prueba piloto. Hemos aplicado los diferentes índices de dificultad y discriminación, y hemos desechado todos los ítems que no pasan los filtros. Y nos quedamos con los definitivos.
En el momento que ya hemos filtrado los ítems y tenemos la escala, es el momento de evaluar la fiabilidad. La Teoría de los Tests no es más que todo el procedimiento de elaboración de los cuestionarios. Cuando pasamos un test, pretendemos obtener una puntuación con la variable que estamos evaluando. Es decir, esta puntuación debe estar relacionada con el rasgo que la persona tenga. Cuando pasamos el test, lo que obtenemos es una puntuación empírica. La teoría de los Tests lo que hace es poner en relación este dato con la puntuación verdadera de la persona en ese rasgo. Esperamos que la correlación entre ambas puntuaciones sea lo mayor posible y evitar el error aleatorio todo lo que podamos. La puntuación empírica está relacionada con la verdadera, pero también contempla un error aleatorio afectando a la respuesta de la persona en el test.
Dos tests son paralelos si miden lo mismo, con distintos ítems, pero si a la vez hacen que la puntuación verdadera de una persona en el test 1 sea igual a la puntuación verdadera de la misma en el test 2, y la varianza de los errores entre ambos tests también son iguales. Como esto es casi imposible, se planteó el concepto de tests equivalentes, en la que solo sería suficiente con que la puntuación verdadera del test 1 y el test 2 sea igual. Pero nos interesa estudiar los paralelos a nivel teórico, así que vamos a ver cómo obtener las puntuaciones verdaderas. Podemos esperar que mi medida sea fiable si la puntuación verdadera de mi test con la de otro test es igual, siendo paralelos. La fiabilidad de un test no es más que la correlación del mismo con una forma paralela de sí. La fiabilidad así también se podría definir como la correlación de un test comparado consigo mismo tras un tiempo. Este sería el método del test – retest.
Según Spearman, la puntuación empírica de la persona en el test está compuesta de la suma de la puntuación verdadera en el rasgo y un error de medida (“X = V + e”). El problema es que la puntuación empírica la podemos calcular, pero no podemos calcular ni la puntuación verdadera ni la empírica.
Hay que diferenciar también entre “error sistemático” y “error aleatorio”. El primero, el error sistemático, es causado por el propio diseño del test y afecta a toda la muestra, pero lo podemos controlar. En cambio, el error aleatorio es, como hemos dicho, el inherente a la medida, que simplemente se da y es incontrolable. El que decía Spearman es el de este último tipo.
Para solucionarlo, se plantearon varios supuestos para tratar de solucionarlo, no comprobables pero sensatos:
El coeficiente de fiabilidad de un test podríamos definirlo como el coeficiente de la varianza de las puntuaciones verdaderas, entre la varianza de las puntuaciones empíricas. Es decir, el coeficiente de fiabilidad sería la correlación del test consigo mismo, o una forma paralela de sí. Si la fiabilidad es perfecta, el coeficiente debería salir 1. Las puntuaciones verdaderas de ambos tests son las mismas, y por eso al dividirlas sale 1, y cuanto más nos alejemos de ese valor, peor es la fiabilidad del test. Nos encontramos con el problema de que encontrar tests paralelos es imposible, con lo que nos encontramos con la opción de aplicar el mismo test dentro de un tiempo. Calcularíamos el coeficiente de correlación del test consigo mismo (fiabilidad como estabilidad temporal), o en el otro caso; con una forma paralela de sí.
Y esto también podríamos calcularlo con las desviaciones típicas, pero en este caso tendríamos un índice de fiabilidad (fxv). Así, el índice de fiabilidad sería la correlación entre la puntuación empírica del test con la puntuación verdadera del mismo.
Calculamos la correlación entre ambas puntuaciones. Por otro lado, si el constructo es poco estable, el método del test-retest es poco recomendable.
Si no podemos utilizar el método del test-retest, podemos utilizar una forma paralela del test para calcular la puntuación verdadera. En este caso, ya no apostamos por la estabilidad sino por la equivalencia. Tendríamos que conseguir dos tests paralelos y aplicarlos al mismo tiempo, ya no nos importa que el constructo no sea estable. Aunque volvemos a encontrarnos con que tener dos tests totalmente paralelos es prácticamente imposible.
Debido al problema de tener dos tests paralelos a nivel práctico, evaluamos la fiabilidad como consistencia a partir del método de las dos mitades. Lo que hacemos es pasar un test completo de, por ejemplo, 20 ítems, y posteriormente con las respuestas dividirlo en dos mitades, es decir, dos subtests de 10 ítems cada uno. Y lo que hacemos es calcular la correlación que existe entre ambos subtests, y esto daría lugar a la fiabilidad del test. Con lo que si utilizamos “dos mitades”, tenemos que utilizar la fórmula de Spearman-Brown. Esta fórmula tendrá en cuenta cuántas veces aumenta el test y la fiabilidad inicial del mismo. Cuanto más ítems tenemos, mayor fiabilidad. Otro de los factores que afecta a la fiabilidad que ya hemos mencionado es la varianza (dispersión). A mayor varianza, existe una mayor correlación, y por tanto, mayor fiabilidad. Otra forma de calcular la fiabilidad, considerándola como consistencia interna (dos mitades), se elabora el coeficiente alfa (α) de Cronbach, para cada una de las dimensiones del constructo. La fiabilidad de un test siempre va a ser de α hacia arriba (α es menor o igual que la fiabilidad siempre).
A nosotros nos interesa saber la puntuación verdadera (V) de una persona en un constructo. Podemos valernos de la regresión para predecir la puntuación verdadera de una persona en un test. Conociendo simplemente la fiabilidad del test, la puntuación en el test y la media de la muestra, podemos predecir la puntuación verdadera. Necesitamos conocer el error típico de estimación, la diferencia entre lo que yo estimo y la puntuación verdadera que realmente tiene la persona.
