¿Cuál es el error estándar de medición para las pruebas de opción múltiple elaboradas por el maestro?

Suponga que un maestro construye una prueba de opción múltiple de cuatro opciones. Cada ítem tiene una sola respuesta correcta. La prueba se califica de 0 a 100 que representa el porcentaje de elementos respondidos correctamente.

Quiero tener algunas reglas generales que puedan ser informativas sobre cuántos elementos se requieren para lograr un error estándar de medición dado. Por ejemplo, sería bueno poder aconsejar a los maestros que escriben sus propios exámenes de opción múltiple "si tiene 100 elementos que están razonablemente bien redactados, puede esperar un error estándar de medición de 2.5".

El error estándar de medición a menudo se define como:

s mi = s X 1 r X X

donde s X es la desviación estándar y r X X es la fiabilidad.

Además, la confiabilidad de la consistencia interna se puede calcular a partir del número de elementos k y la correlación media entre ítems r ¯ i j (es decir, correlación promedio entre ítem i y artículo j para todos k artículos donde i j ):

r X X = k ( r ¯ i j ) 1 + ( k 1 ) r ¯ i j

Sin embargo, quiero traducir la información anterior en recomendaciones significativas para los maestros. Por lo tanto, esto supone que tengo alguna estimación empírica de los valores típicos de r ¯ i j y que tengo un estimado de s X . Luego requiere la aplicación de las fórmulas para calcular los errores estándar de medición para el número probable de artículos. k . En particular, estaba pensando en números de elementos iguales a: 10, 20, 50, 80, 100, 120, 150 y 200.

Por lo tanto, me preguntaba si hay estimaciones publicadas del error estándar de las pruebas de opción múltiple construidas por el maestro.

Solo estoy aprendiendo estadística, por lo que mi pregunta surge de mi ignorancia: ¿Qué significa el error estándar en una prueba de opción múltiple? No está extrayendo una muestra aleatoria de una población, sino probando la población completa (la población es la clase impartida por el maestro). Siempre supuse que el error estándar se refería a la diferencia entre la muestra y la población que se supone que representa.
El error estándar de medición es la desviación estándar que se obtendría si pudiera obtener repetidamente una medida para un individuo en particular bajo circunstancias idénticas hipotéticas. Es decir, es una medida de la incertidumbre que tienes sobre una medida que has obtenido de una persona.
¡Esto es increíble! Sería genial si recibiera todos mis exámenes y tareas con barras de error.
Un problema importante aquí es ¿qué tan relacionados están los artículos? En particular, me preocuparía que la similitud de los ítems aumente a medida que aumenta el número: una prueba de 20 ítems puede ser bastante diferente, pero una prueba de 200 ítems puede tener una redundancia sustancial.

Respuestas (2)

Harvill menciona una estimación de Lord (1959). Lord (1959) presenta algunos datos del error estándar de medición para algunas medidas cognitivas moderadamente difíciles. Si bien existen muchas advertencias (p. ej., la estimación del error estándar es más precisa para puntajes de alrededor del 50 % y las estimaciones se basan en pruebas que no son ni particularmente fáciles ni particularmente difíciles con promedios en el rango de .35 a .75), Lord proporciona una fórmula simple que se puede usar como regla general para predecir el error estándar de medición en su muestra de medidas cognitivas que funcionaron bastante bien.

s ^ mi = .432 k

donde k es el número de artículos. Alternativamente, si está interesado en la media correcta en una escala de 0 a 100 en lugar del total correcto, puede dividir por k y multiplicar por 100.

s ^ mi = .432 k k × 100

Cuando conecté esto en R para obtener algunos valores de muestra, obtuve:

> lord_approximation <- function(k) 0.432 * sqrt(k) /k * 100
> k <- c(10, 20, 50, 80, 100, 120, 150, 200)
> cbind(k, sem=round(lord_approximation(k), 2))
       k   sem
[1,]  10 13.66
[2,]  20  9.66
[3,]  50  6.11
[4,]  80  4.83
[5,] 100  4.32
[6,] 120  3.94
[7,] 150  3.53
[8,] 200  3.05

Por supuesto, no toda esta reducción en el error estándar de medición se debe a una mayor precisión. Parte de esto proviene de la desviación estándar más pequeña en los puntajes reales que ocurre cuando se toma la media de más elementos. Además, estas estimaciones se basan en medidas cognitivas relativamente bien diseñadas. Las pruebas diseñadas por el maestro pueden tener una confiabilidad ligeramente menor y, por lo tanto, un SEM más grande.

Referencias

  • Harvill, LM (1991). Error estándar de medida. Medición Educativa: Problemas y Práctica, 10(2), 33-41. PDF
  • Señor, FM (1959). Las pruebas de la misma longitud tienen el mismo error estándar de medición. Medida Educativa y Psicológica, 19, 233-239.
interesante, pero esto parece suponer que cada pregunta es independiente de las demás. Sin embargo, en una prueba real hay correlaciones extremadamente altas entre las preguntas. En particular, una medida válida debería al menos tener en cuenta las preguntas que provienen de un número fijo de unidades relativamente independientes (es decir, capítulos o temas) con una alta correlación pregunta-pregunta dentro de las unidades. También podría brindarles a los maestros una herramienta de software para inferir correlaciones típicas de pregunta a pregunta al hacer estadísticas sobre los resultados de los estudiantes en sus exámenes anteriores.

Para mí, la solución más natural es simplemente usar la teoría de respuesta al ítem (IRT). IRT ha existido durante algunas décadas, por lo que está bien establecido, implementado en una variedad de paquetes de software y proporciona un marco sensato y extensible para este tipo de problema.

Esencialmente, uno asume una construcción de interés latente subyacente, cuyos valores deberían impulsar las respuestas en la prueba. Para opciones múltiples donde la respuesta es "correcta" o "incorrecta", puede usar una serie de modelos logit (canónicamente) o probit. Luego, para cada estudiante, puede estimar el puntaje en la variable latente subyacente y eso, naturalmente, vendrá con alguna estimación de su calidad/variabilidad.

Problemas que se manejan automáticamente:

  • Si todos (o casi todos) obtienen una respuesta correcta, aporta muy poca información.
  • Corolario del n.° 1, si casi nadie obtiene una respuesta correcta y alguien sí, se debe ponderar más. Esencialmente, la dificultad de los elementos se maneja automáticamente.
  • Se tiene en cuenta la interdependencia entre los elementos. Preguntar el mismo elemento 10 veces seguidas no disminuirá artificialmente su error de medición.

Si toma una vista bayesiana, para cada estudiante, podría usar el modelo y sus respuestas de prueba para calcular una distribución posterior para la construcción latente de interés, lo que permitiría una estimación puntual (p. ej., media posterior, mediana o moda) , así como estimaciones de variabilidad (p. ej., desviación estándar; 95 % de región de alta densidad posterior).

Este tipo de cosas es esencialmente lo que hacen las pruebas y los servicios de prueba a nivel nacional. En realidad, no es demasiado difícil de hacer, pero probablemente sea suficiente esfuerzo, la mayoría de los maestros que ya se sienten sobrecargados de trabajo no los adoptan.

Respuesta sólida, tal vez los maestros usarían esto si hicieran una versión plug-and-play de esto que toma directamente los resultados de las hojas de scantron (¿todavía están en uso?) Y hace las estadísticas para ellos?
+1 Estoy de acuerdo IRT (IRT bayesiano en particular) proporciona un gran marco para modelar pruebas de opción múltiple. En mi caso particular, estoy buscando heurísticas que los maestros puedan usar para guiar su decisión sobre cuántos elementos incluir en una prueba. Me gustaría poder darles a los maestros una idea aproximada de cuánto más precisa podría ser su prueba si, por ejemplo, aumentaran su prueba de 80 a 100 elementos.
Además de las dificultades en la implementación, creo que IRT no se aplica en entornos de prueba construidos por el maestro porque a menudo hay un contrato implícito con los estudiantes. Es decir, la nota de un estudiante está directamente relacionada con la proporción de ítems respondidos correctamente. Por lo tanto, en IRT todavía existe la cuestión de cómo se asignarán thetas a las calificaciones de los exámenes. Por supuesto, esto se puede superar, pero creo que presenta otro obstáculo para la adopción, particularmente cuando la prueba se usa para emitir juicios sobre el desempeño absoluto y no solo sobre el desempeño normativo.
@JeromyAnglim Estoy de acuerdo con eso, con respecto al rendimiento absoluto. Sin embargo, el supuesto implícito es que los maestros en realidad tienen una medida válida de desempeño absoluto. Creo que es una suposición mucho más estricta que el hecho de que tienen una medida válida de rendimiento relativo (estoy abierto a que me discutan sobre eso). Con respecto a la precisión de la prueba, no estoy seguro de cuán razonable podría ser cualquier heurística. Eso depende de la (in)dependencia relativa de los elementos, ¿verdad? En el extremo, ¿puede un maestro hacer la misma pregunta otras 20 veces para llegar a 100 y aún ser más preciso?
Con respecto a las heurísticas: cualquier heurística se basaría en la suposición de que el maestro escribiría un conjunto de elementos adicionales de calidad, dificultad y variedad más o menos comparables a los elementos existentes. Reconozco que algunos maestros pueden diferir en su habilidad para hacer esto, pero al mismo tiempo, una heurística podría enmarcarse en términos de un parque de pelota o un rango típico.
Con respecto al rendimiento absoluto: estoy de acuerdo en que hacer afirmaciones sobre el rendimiento absoluto de una prueba de manera rigurosa es muy difícil. Pero, en última instancia, cualquier maestro al que se le pida que decida cuál es la calificación aprobatoria se ve obligado a trazar una línea absoluta en la arena en algún lugar. Esto podría ser un valor particular de theta o una proporción correcta en una prueba. Mi conjetura es que muchos maestros se sienten más cómodos hablando de proporción correcta (por ejemplo, menos del 50%, 60%, o cualquiera que sea la costumbre es un fracaso).