¿Necesitamos una prueba previa para comparar la efectividad de dos tratamientos?

Supongamos que quiero evaluar qué tan efectivos son dos maestros para enseñar inglés a niños alemanes. Ambos profesores han estado enseñando en la misma escuela secundaria durante veinte años, y ambos utilizan una metodología pedagógica claramente diferente. De hecho, ha surgido una pequeña competencia entre ellos: han publicado y discutido sus ideas y prácticas en revistas relevantes para su profesión, y ahora han llamado a un analista de datos (usted) para realizar esta evaluación que, según esperan, decidirá. su concurso y reconciliar a los antiguos amigos.

La escuela, donde ambos trabajan, es la única escuela de su pequeño pueblo. Cuando los alumnos ingresan a esta escuela, se les asignan clases al azar: la mitad de los niños se asignan a una clase (y un profesor de matemáticas), la otra mitad a la otra clase (y el otro profesor de matemáticas).

Los dos profesores están cansados ​​de no saber qué método es el mejor. En interés de sus alumnos, quieren finalmente decidirse por el mejor y ambos lo utilizan a partir de ahora. Esperan que no sea necesario evaluar a un grupo de niños cuando terminen la escuela primaria, hacer que se les enseñe durante los 8 años desde el quinto grado hasta que se gradúen de la escuela secundaria, y luego medir su capacidad matemática nuevamente, para llegar a un conclusión. Por eso te preguntan:

¿Es suficiente comparar los niveles de la variable dependiente post-intervención? ¿O también necesita medirlo antes de la intervención? ¿Por qué?

Pero sí mediste la depresividad: sabes que tus sujetos tienen depresión leve .
Cambié mi ejemplo a un caso en el que no tenemos el pretratamiento de valores.
En su ejemplo, la asignación de clase definitivamente no es aleatoria en absoluto. La primera letra del apellido depende del idioma y, por lo tanto, de la etnia/origen y muchas otras variables socioeconómicas relevantes en muchas sociedades. Este fue fácil de desacreditar y podría conducir a algunas correlaciones grandes, pero en general, este tipo de procedimientos no son una buena manera de aleatorizar en absoluto.
@GaëlLaurans Sí, está bien, edité mi ejemplo. Simplemente asuma que la asignación es aleatoria. El foco de mi pregunta está en otra parte.
Bueno, por eso solo fue un comentario. Solo pensé que era divertido que tuvieras tanta confianza cuando era obvio para mí que esto generaría fuertes correlaciones psicológicamente relevantes. Prestar atención a este tipo de cosas es infinitamente más importante que sutilezas estadísticas o incluir una medida previa a la prueba. Con respecto a la pregunta en sí, creo que Jeromy ya la cubrió bastante bien. También puede consultar stats.stackexchange.com/questions/3466/… que proporciona muchas referencias sobre los problemas involucrados.
Esto también habría sido bueno para Cross Validated (si es posible que sea un duplicado, aunque no puedo encontrar uno para recomendar). Demasiadas preguntas preguntan qué hacer con los datos que ya han recopilado; no lo suficiente son sobre el diseño de la investigación. Sin embargo, la respuesta de Jeromy es genial; Incluso podría recomendarlo a las personas en el CV. :)

Respuestas (1)

Respuesta basada en su ejemplo original de depresión

Tenga en cuenta que esta respuesta se escribió originalmente en función de su ejemplo inicial, donde preguntó:

Supongamos que he desarrollado una nueva intervención para personas con depresión leve. Quiero comparar la efectividad de esta intervención (E) con una intervención existente (C). Para esto, recluto sujetos de prueba de la ambulancia psicoterapéutica local y los asigno aleatoriamente al grupo experimental (E) o de control (C). La variable dependiente interesante es, por supuesto, la depresividad.

En general, no es necesario medir el tratamiento previo para la variable dependiente . En la asignación aleatoria límite se asegura que los grupos sean iguales. O, para decirlo de otra manera, la asignación aleatoria garantiza que los grupos no estén sesgados para tener valores más altos o más bajos en la variable dependiente al inicio del estudio. Una prueba t típica entre sujetos que compare las puntuaciones posteriores al tratamiento normalmente proporcionaría una prueba imparcial de si la intervención tuvo un efecto sobre la variable dependiente (es decir, la depresión) en relación con la intervención de control.

Dicho esto, hay muchos beneficios al incluir una medida de referencia :

  • Incluir una medida de referencia de la depresión casi siempre le dará más poder estadístico porque puede controlar gran parte de las diferencias individuales estables en la variable dependiente (es decir, la depresión).
  • Si los participantes abandonan la intervención, puede ser útil ver si esto está relacionado con los niveles de referencia.
  • Puede comenzar a evaluar las diferencias individuales en el efecto de la intervención.
  • Cuando haya dudas sobre si la asignación aleatoria se realizó correctamente, puede probar las diferencias de línea de base.

Tenga en cuenta que hay varias opciones para analizar los diseños de control de tratamiento antes y después, incluidos ANCOVA, puntuaciones de diferencia y efectos de interacción. Consulte esta discusión para obtener más ideas .

Tenga en cuenta también que hay buenas razones para evaluar una intervención midiendo más de dos puntos de tiempo . Por ejemplo, podría obtener (a) varias medidas de referencia para tener una idea de la estabilidad antes de la intervención (b) varias medidas que podría tomar durante la intervención para evaluar la depresión durante la intervención, y (c) varias medidas de seguimiento en particular para ver tanto el efecto inmediato como el de largo plazo de la intervención.

Puntos actualizados basados ​​en el ejemplo de enseñanza

  • Es una pregunta empírica si la primera letra del apellido está relacionada con el efecto de la intervención docente o las diferencias de línea de base. En general, sería mejor tener una mejor forma de asignación al azar de los participantes a los grupos.
  • Cuando haya dudas sobre el procedimiento de asignación al azar, la presencia de una medida previa a la prueba puede ser beneficiosa para verificar esto.
  • Hay varias cuestiones particulares relacionadas con la evaluación de la eficacia de las intervenciones relacionadas con los niños en las aulas, incluso cuando los alumnos han sido asignados aleatoriamente a las aulas. (a) Con solo un salón de clases cada uno, es difícil descifrar cuál es el efecto del maestro y cuál es el efecto del plan de estudios; (b) típicamente habrá una falta de observaciones independientes. Así, por ejemplo, los estudiantes dentro del aula pueden influirse unos a otros. Por lo tanto, su tamaño de muestra efectivo no es tan grande como parece.
Está bien, entiendo. Supongamos que esto no es un tratamiento para la depresión, sino algo que experimenta la población en general, como la educación escolar. Entonces, la población que nos interesa no es una subpoblación difícil de identificar, sino simplemente todos. De esa manera, será fácil extraer muestras aleatorias repetidas y asegurarse de que todas las muestras tengan las mismas características distribuidas normalmente (por ejemplo, calificaciones escolares finales). [continuación]
[cont.] ¿Sería legítimo medir los efectos de los dos "tratamientos" en dos clases que se enseñan con dos métodos diferentes y medir la línea de base con un tercer grupo de niños que recién ingresan a la escuela al mismo tiempo (por ejemplo, el 11 de junio de 2013), en lugar de medir a un grupo de alumnos de primer grado ahora y volver a medir a los mismos niños, después del tratamiento, en diez años? (Suponga que los niños fueron asignados al azar a las clases experimentales y de control, etc. Solo estoy tratando de entender los principios, los ejemplos se crean a medida que avanzo).
La clave que mencionó en su pregunta es "asignación aleatoria". En general, la elección de la variable dependiente no cambia las cosas. Dicho esto, cuando te adentras en un contexto de investigación específico, surgen diferentes problemas. Por ejemplo, las intervenciones docentes tienen características propias relacionadas con el modo de impartición en aulas compartidas.
Cambié mi ejemplo para que se ajuste mejor a la pregunta. Tal vez tenga más sentido de esta manera.
Me gustaría hacer hincapié en que, si bien la asignación aleatoria en teoría es suficiente (como ya señaló Jeromy), en realidad es muy difícil obtener muestras aleatorias. Por ejemplo, no puede asignar estudiantes aleatoriamente a una clase. E incluso si lo hiciera, a partir de ese momento todos están en la misma clase y las medidas ya no son independientes. Los modelos jerárquicos se desarrollaron con esta aplicación en mente, pero son adecuados para una variedad de contextos. Así que tal vez esta podría ser una opción.
Entiendo los problemas con la aleatorización. Pero en la investigación del mundo real, la aleatorización a menudo es imposible. Piense en las encuestas en línea: hay una selección de participantes basada en quién tiene acceso a Internet y quién no (y aún hoy no todos lo tienen), los requisitos técnicos (alguien aquí programó recientemente una encuesta en Java, que solo se ejecuta bajo Windows, sin Linux, Mac o acceso móvil), etc. Obviamente, la gente no tira los datos de tales encuestas y los resultados se publican. Entonces, dejando de lado los problemas de aleatorización, el núcleo de mi pregunta es si necesitamos o no una prueba previa.
@what Estás confundiendo la aleatorización y el muestreo aleatorio. Es perfectamente posible asignar al azar a participantes autoseleccionados en una encuesta de Internet a diferentes condiciones y hacer inferencias válidas sobre el efecto de esta manipulación. Generalizar sus conclusiones a una población bien definida (más allá de “personas listas para participar en mi estudio”) es problemático, pero ese es un problema completamente diferente. También tenga en cuenta que las medidas previas a la prueba pueden ser útiles para varias cosas, pero no reemplazan la aleatorización.
@GaëlLaurans Tienes razón, gracias.