Suponga que un maestro construye una prueba de opción múltiple de cuatro opciones. Cada ítem tiene una sola respuesta correcta. La prueba se califica de 0 a 100 que representa el porcentaje de elementos respondidos correctamente.
Quiero tener algunas reglas generales que puedan ser informativas sobre cuántos elementos se requieren para lograr un error estándar de medición dado. Por ejemplo, sería bueno poder aconsejar a los maestros que escriben sus propios exámenes de opción múltiple "si tiene 100 elementos que están razonablemente bien redactados, puede esperar un error estándar de medición de 2.5".
El error estándar de medición a menudo se define como:
donde es la desviación estándar y es la fiabilidad.
Además, la confiabilidad de la consistencia interna se puede calcular a partir del número de elementos y la correlación media entre ítems (es decir, correlación promedio entre ítem y artículo para todos artículos donde ):
Sin embargo, quiero traducir la información anterior en recomendaciones significativas para los maestros. Por lo tanto, esto supone que tengo alguna estimación empírica de los valores típicos de y que tengo un estimado de . Luego requiere la aplicación de las fórmulas para calcular los errores estándar de medición para el número probable de artículos. . En particular, estaba pensando en números de elementos iguales a: 10, 20, 50, 80, 100, 120, 150 y 200.
Por lo tanto, me preguntaba si hay estimaciones publicadas del error estándar de las pruebas de opción múltiple construidas por el maestro.
Harvill menciona una estimación de Lord (1959). Lord (1959) presenta algunos datos del error estándar de medición para algunas medidas cognitivas moderadamente difíciles. Si bien existen muchas advertencias (p. ej., la estimación del error estándar es más precisa para puntajes de alrededor del 50 % y las estimaciones se basan en pruebas que no son ni particularmente fáciles ni particularmente difíciles con promedios en el rango de .35 a .75), Lord proporciona una fórmula simple que se puede usar como regla general para predecir el error estándar de medición en su muestra de medidas cognitivas que funcionaron bastante bien.
donde es el número de artículos. Alternativamente, si está interesado en la media correcta en una escala de 0 a 100 en lugar del total correcto, puede dividir por y multiplicar por 100.
Cuando conecté esto en R para obtener algunos valores de muestra, obtuve:
> lord_approximation <- function(k) 0.432 * sqrt(k) /k * 100
> k <- c(10, 20, 50, 80, 100, 120, 150, 200)
> cbind(k, sem=round(lord_approximation(k), 2))
k sem
[1,] 10 13.66
[2,] 20 9.66
[3,] 50 6.11
[4,] 80 4.83
[5,] 100 4.32
[6,] 120 3.94
[7,] 150 3.53
[8,] 200 3.05
Por supuesto, no toda esta reducción en el error estándar de medición se debe a una mayor precisión. Parte de esto proviene de la desviación estándar más pequeña en los puntajes reales que ocurre cuando se toma la media de más elementos. Además, estas estimaciones se basan en medidas cognitivas relativamente bien diseñadas. Las pruebas diseñadas por el maestro pueden tener una confiabilidad ligeramente menor y, por lo tanto, un SEM más grande.
Para mí, la solución más natural es simplemente usar la teoría de respuesta al ítem (IRT). IRT ha existido durante algunas décadas, por lo que está bien establecido, implementado en una variedad de paquetes de software y proporciona un marco sensato y extensible para este tipo de problema.
Esencialmente, uno asume una construcción de interés latente subyacente, cuyos valores deberían impulsar las respuestas en la prueba. Para opciones múltiples donde la respuesta es "correcta" o "incorrecta", puede usar una serie de modelos logit (canónicamente) o probit. Luego, para cada estudiante, puede estimar el puntaje en la variable latente subyacente y eso, naturalmente, vendrá con alguna estimación de su calidad/variabilidad.
Problemas que se manejan automáticamente:
Si toma una vista bayesiana, para cada estudiante, podría usar el modelo y sus respuestas de prueba para calcular una distribución posterior para la construcción latente de interés, lo que permitiría una estimación puntual (p. ej., media posterior, mediana o moda) , así como estimaciones de variabilidad (p. ej., desviación estándar; 95 % de región de alta densidad posterior).
Este tipo de cosas es esencialmente lo que hacen las pruebas y los servicios de prueba a nivel nacional. En realidad, no es demasiado difícil de hacer, pero probablemente sea suficiente esfuerzo, la mayoría de los maestros que ya se sienten sobrecargados de trabajo no los adoptan.
usuario1196
Jeromy Anglim
Artem Kaznatchev
Josué