¿Un mejor aprendizaje afecta las evaluaciones de la enseñanza? ¿Si es así, cómo?

Arum y Roksa (p. 7) dicen:

La investigación sobre evaluaciones de cursos realizada por Valen Johnson ha demostrado de manera convincente que "las calificaciones más altas conducen a mejores evaluaciones de cursos" y "las evaluaciones de cursos de los estudiantes no son muy buenos indicadores de cuánto han aprendido los estudiantes".

No tengo acceso al libro de Johnson, pero una reseña dice:

[Johnson] encontró la teoría de la "atribución de calificaciones" como la más útil: "Los estudiantes se atribuyen el éxito en el trabajo académico a sí mismos, pero atribuyen el fracaso a fuentes externas" (96). Independientemente de la razón, el análisis proporciona "evidencia concluyente de un efecto de sesgo de las calificaciones de los estudiantes en las evaluaciones de la enseñanza por parte de los estudiantes" (118).

Johnson hizo su trabajo en los Estados Unidos. Si entiendo correctamente según las descripciones bastante breves que tengo disponibles, logró obtener permiso para espiar las acciones de los estudiantes a lo largo del tiempo, de modo que pudiera detectar no solo las correlaciones, sino también el orden temporal de los eventos, lo que podría ayudar. para desmenuzar cuestiones de causalidad.

Johnson dice que las evaluaciones son indicadores "no muy buenos" del aprendizaje. Mi pregunta es básicamente sobre cuál es la evidencia disponible en cuanto a lo que significa "no muy bueno". Es posible que alguien pueda responder a esto simplemente teniendo acceso al libro de Johnson y pasando a la p. 118.

Si "no muy bueno" significa baja correlación, entonces sería interesante saber si la correlación es estadísticamente diferente de cero y, de ser así, cuál es su signo. Mi conjetura, que encontró una reacción muy escéptica en los comentarios aquí , fue que la correlación podría ser negativa, ya que un mejor aprendizaje podría requerir estándares más altos, lo que tendería a resultar en calificaciones más bajas.

Si la correlación es distinta de cero, también sería interesante entender si se puede inferir que el aprendizaje tiene algún efecto causal en las evaluaciones. Estas dos variables podrían estar correlacionadas debido al efecto de atribución de calificaciones, pero eso no significaría que un mayor aprendizaje causara evaluaciones más altas; simplemente podría significar que los mejores estudiantes aprenden más, y los mejores estudiantes también dan evaluaciones más altas.

Si tuviéramos, por ejemplo, un estudio en el que los estudiantes fueran asignados al azar a diferentes secciones de un curso, podríamos saber si las diferencias entre las secciones en el aprendizaje estaban correlacionadas con las diferencias entre las secciones en las evaluaciones. Sin embargo, tengo entendido que la mayoría de estos análisis de "valor agregado" (que a menudo se realizan en la educación K-12) son estadísticamente falsos. Básicamente, está restando dos medidas entre sí, y la diferencia es muy pequeña en comparación con los errores aleatorios y sistemáticos.

Mi experiencia anecdótica es que cuando comencé a enseñar, calificaba con relativa facilidad, obtuve evaluaciones docentes muy altas y a mis alumnos les fue mal en una prueba estandarizada internacionalmente que presenté al final del período. Con el tiempo, obtuve la confianza suficiente para elevar mis estándares, mis evaluaciones de enseñanza disminuyeron y el aprendizaje de mis alumnos mejoró drásticamente, según lo medido por esta prueba.

Referencias

Arum y Roksa, académicamente a la deriva: aprendizaje limitado en los campus universitarios

Valen Johnson, Inflación de calificaciones: una crisis en la educación universitaria, 2003

relacionado: ¿ Las evaluaciones de la enseñanza conducen a estándares más bajos en la clase?

Sospecho que las evaluaciones de los docentes están diseñadas para evaluar lo que la facultad quiere evaluar sobre su cuerpo docente, y los resultados pueden no estar correlacionados con el aprendizaje por diseño .
@MassimoOrtolano: Buen punto. Los formularios que se usan en mi escuela contienen muy poco material que realmente trate sobre el aprendizaje. En su mayoría son cosas como: "Se aclararon los criterios de calificación del instructor" y "Todos los estudiantes fueron tratados por igual". (Estas no son citas reales, solo mi recuerdo del estilo de las preguntas).
En mi universidad R1, la administración requiere evaluaciones de enseñanza, pero se ignoran por completo, excepto en los momentos en que alguien quiere sabotear la tenencia de una persona joven. ¡Y, en cualquier caso, algunas décadas de observación tienden a corroborar el punto de vista escéptico mencionado anteriormente! ... y que los instructores más agradables son más queridos. Dios, ¿quién podría haber predicho eso? Supongo que lo que hay que recordar es que el objetivo de la enseñanza no es inducir a los estudiantes a que les "guste" el profesor, sino... ¿impartir conocimientos? ¿Hacer que pasen algunos exámenes de entrada? ¿Ayudarlos, aunque sea en contra de su propia voluntad? :)
... y, sí, los "formularios de evaluación" en mi lugar han sido rediseñados recientemente por personas aparentemente muy ingenuas (contratadas a un gran costo, etc.) en línea en cosas "UX" brillantes pero irrelevantes. Me imagino que la gente de la edad de los estudiantes se ha desencantado hace mucho tiempo con esas cosas... Pero, de nuevo, el único punto real es que los "maestros" no son maestros, literalmente, sino guardianes (de estatus). Desafortunadamente. No es mi papel favorito.
Parece que desea respuestas respaldadas por citas, no anécdotas. En cuyo caso, ¿parece que esto debería etiquetarse como solicitud de referencia ?
@ ff524: Entendí que la etiqueta de solicitud de referencia era más específica, como para las preguntas en las que dice: "Quiero aprender sobre la historia del sistema universitario alemán, indíqueme libros". Es decir, es para preguntas donde la respuesta consistiría solo en referencias.
No creo que las preguntas con respuestas que consisten solo en referencias sean el tema aquí. Entiendo que la solicitud de referencia es que se usa para preguntas en las que las respuestas deben estar respaldadas por citas. (Al menos, eso es lo que hago cuando respondo preguntas en esta etiqueta).
@ ff524: ¿eso difiere de mathoverflow? Creo que cualquier respuesta a una pregunta fáctica debería proporcionar evidencia, por lo que parecería que la solicitud de referencia sería extremadamente amplia. Tal vez esto sería una buena pregunta sobre meta.
Tengo entendido que muchas respuestas aquí se basan en la experiencia personal, y que la solicitud de referencia distingue las preguntas que buscan respuestas que están respaldadas por evidencia confiable (con citas de dicha evidencia). Estoy de acuerdo en que sería una buena idea aclarar sobre meta.
No estoy seguro de qué tipo de contribución está buscando en una respuesta. ¿Podría aclarar, por favor? por ej. - ¿Quieres más citas? Ya has hecho mucho trabajo preliminar. ¿Quiere las experiencias personales de las personas (con la enseñanza y/o el aprendizaje)? ¿Quieres una idea? ¿Quieres ayuda para averiguar exactamente lo que estás preguntando? ¿Quizás le gustaría saber cuánta correlación positiva o negativa existe entre el éxito académico en una clase y las evaluaciones de los maestros? (La idea que podría ofrecer sería asegurarse de involucrar a sus estudiantes en el establecimiento de objetivos).

Respuestas (2)

La respuesta, a partir de nuevos enfoques de investigación que datan de 2010, parece ser que un mayor aprendizaje tiende a causar puntajes más bajos en las evaluaciones de enseñanza de los estudiantes (SET), pero este es un tema complicado que históricamente ha sido motivo de controversia.

Hay una literatura enorme sobre este tema. Las personas que estudian este tipo de cosas con más intensidad son los psicometristas. Hay muchas cosas en las que parecen estar universalmente de acuerdo, y muchas de estas áreas simplemente representan la visión de consenso de los psicometristas profesionales en su campo en general:

  • Las encuestas utilizadas para las evaluaciones de la enseñanza de los estudiantes (SET) deben ser diseñadas por profesionales, y son básicamente inútiles si son creadas por personas que carecen de experiencia profesional en psicometría. Ciertas prácticas comunes, como tratar los puntajes de evaluación como si fueran lineales (y, por lo tanto, se pueden promediar significativamente), muestran una falta de competencia en la medición.

  • Es una idea terrible usar SET como la única medida de la efectividad de un maestro. Múltiples medidas siempre son mejores que una sola medida. Pero, como suele ser el caso, los administradores tienden a preferir una sola medida que sea económica de administrar y que superficialmente parezca imparcial y científica.

  • Los SET se administran cada vez más en línea en lugar de administrarse en clase en papel. Esto es un desastre, porque las tasas de respuesta para las evaluaciones en línea son extremadamente bajas (generalmente 20-40%), por lo que los datos resultantes son básicamente inútiles.

  • La dificultad de un curso o la carga de trabajo, medida por los puntajes SET, tiene una correlación casi nula con el logro.

  • Los puntajes SET son medidas multidimensionales de rasgos multidimensionales, pero parecen dividirse en dos dimensiones principales, profesional y personal, que tienen el mismo peso. La dimensión personal está sujeta a sesgos basados ​​en el sexo, la raza, la etnia y la orientación sexual (Calkins).

Llegando a la pregunta principal: ¿un mejor aprendizaje afecta las evaluaciones de la enseñanza?

Antes de 2010, los mejores estudios sobre este tema fueron aquellos en los que los estudiantes fueron asignados aleatoriamente a diferentes secciones del mismo curso y luego se les administró una prueba idéntica al final para medir el rendimiento. Estos estudios tendían a mostrar que las calificaciones SET tenían correlaciones con el rendimiento de alrededor de +0,30 a +0,44. Pero Cohen dice: "Hay un hallazgo de estudio de una fuerte relación negativa entre las calificaciones y los instructores mejor calificados tenían los estudiantes con el desempeño más bajo. También hay un hallazgo de estudio que muestra lo contrario, una relación positiva casi perfecta entre calificaciones y logros". Esta falta de consistencia no es sorprendente, porque estamos hablando de diferentes campos de la educación y diferentes formas de SET. Una correlación positiva típica de +0,4 indicaría que el 16 % de la varianza en las calificaciones de los estudiantes el rendimiento podría atribuirse a las diferencias entre los docentes que podrían medirse mediante SET. Aunque el 16% no es muy alto, el signo de la correlación en la mayoría de los estudios es positivo y estadísticamente significativo.

Pero a partir de 2010, llegaron nuevas evidencias que dieron vuelta todo este panorama (Carrell, Braga). En estos estudios más nuevos, los estudiantes fueron asignados aleatoriamente a diferentes secciones de una clase, como cálculo, pero luego fueron seguidos más adelante en su carrera cuando tomaron clases de seguimiento requeridas, como ingeniería aeronáutica. El estudio de Carrell se realizó en la Academia de la Fuerza Aérea de EE. UU. y, debido a la estructura de la academia, hubo poca deserción y los estudiantes podrían verse obligados a tomar los cursos de seguimiento.

Carrell construyó una medida de valor agregado para cada maestro basada en el desempeño de sus alumnos en una prueba dada al final de la clase (valor agregado contemporáneo), y una medida diferente (valor agregado de seguimiento del curso) basada en el desempeño en los últimos, requieren cursos de seguimiento.

El rango académico, la experiencia docente y el estado final de grado de los profesores se correlacionan negativamente con el valor agregado contemporáneo, pero se correlacionan positivamente con el valor agregado del curso de seguimiento.

Encontramos que los profesores menos experimentados y menos calificados producen estudiantes que se desempeñan significativamente mejor en el curso contemporáneo que se imparte, mientras que los profesores más experimentados y altamente calificados producen estudiantes que se desempeñan mejor en el plan de estudios relacionado de seguimiento.

El estudio de Braga en la Universidad Bocconi en Italia produce hallazgos similares:

[Nosotros] encontramos que nuestra medida de la efectividad del maestro está negativamente correlacionada con las evaluaciones de los estudiantes: en otras palabras, los maestros que están asociados con un mejor desempeño posterior reciben las peores evaluaciones de sus estudiantes. Racionalizamos estos resultados con un modelo simple en el que los profesores pueden participar en la enseñanza real o en la enseñanza para el examen, lo primero que requiere un mayor esfuerzo de los estudiantes que lo segundo.

Referencias

Abrami, d'Apollonia y Rosenfield, "La dimensionalidad de las calificaciones de instrucción de los estudiantes: lo que sabemos y lo que no", en The Scholarship of Teaching and Learning in Higher Education: An Evidence-Based Perspective, eds. Perry y Smart, Springer 2007 - enlace

Braga, Paccagnella y Pellizzari, "Evaluación de las evaluaciones de los profesores por parte de los estudiantes", Documento de discusión de IZA No. 5620, abril de 2011 - enlace

Calkins y Micari, "Less-Than-Perfect Judges: Evaluating Student Evaluations", Thought & Action, otoño de 2010, pág. 7 - enlace

Carrell y West, "¿Importa la calidad del profesor? Evidencia de la asignación aleatoria de estudiantes a profesores", J Political Economy 118 (2010) 409 - enlace

Marsh y Roche, "Cómo hacer que las evaluaciones de los estudiantes sobre la eficacia de la enseñanza sean efectivas: los problemas críticos de la validez, el sesgo y la utilidad", American Psychologist, noviembre de 1997, p. 1187 - enlace

Stark y Freishtat, "An Evaluation of Course Evaluations", ScienceOpen https://www.scienceopen.com/document/vid/42e6aae5-‐246b-‐4900-‐8015-‐dc99b467b6e4?0 - enlace

Algo que noté cuando era estudiante, pero nunca escuché que lo miraran en las evaluaciones: los estudiantes pobres tenían nociones muy diferentes de quiénes eran buenos maestros que los buenos estudiantes.

Solo comentando tu propia experiencia, puedo decir que la mía se corresponde (a grandes rasgos, muy a grandes rasgos) con tu segunda mitad. Esto es así a pesar de que los estudiantes eran (literalmente) material de la Ivy League. Sí noté un poco más de interés y compromiso que en una universidad estatal, pero solo para unos pocos. El grupo estaba más preocupado por marcar casillas para la clase, y si me ponía demasiado crítico, salían los malos comentarios.

Dicho esto, un mejor aprendizaje conduce (posiblemente) a mejores calificaciones, por lo que esto puede ayudar a las evaluaciones. Pero aquí quizás tengamos que distinguir entre el aprendizaje inmediato que conduce a calificaciones y el de largo plazo que produce un mejor pensamiento.

No se suicide, simplemente mezcle preocupaciones a corto y largo plazo en su enseñanza. Pero esto último puede costarte algunos puntos, aunque es lo correcto.

Gracias por compartir sus experiencias, pero esto no es una respuesta. Esto hubiera sido mejor como comentario.