Justificación detrás de un diseño de "todo o nada" para una prueba con fines de diagnóstico y epidemiología

En la prueba del cociente del espectro autista , el sujeto se enfrenta a cincuenta afirmaciones como:

Particularmente no disfruto leyendo ficción.

Prefiero hacer las cosas de la misma manera una y otra vez.

y se le pregunta si ellos

  • definitivamente de acuerdo,
  • Ligeramente de acuerdo,
  • un poco en desacuerdo, o
  • definitivamente en desacuerdo

con ellos. No hay opción neutral.

La prueba se califica de la siguiente manera: si el sujeto está de acuerdo con una declaración "autista", obtiene un punto. Lo mismo se aplica, si no están de acuerdo con una declaración "no autista". No hay distinción entre levemente y definitivamente de acuerdo (o en desacuerdo).

Esperaría que este diseño de prueba (sin opción neutral, sin distinción entre tendencias leves y fuertes) conduzca a una amplificación de pequeños efectos, como la interpretación de la pregunta, tendencias leves, cebado, azar, etc. Si bien reconozco que este efecto puede ser deseable en encuestas de clientes y similares, me parece problemático en una prueba con fines de diagnóstico y epidemiología (como esta prueba). Por ejemplo, esperaría que las personas que ya han sido diagnosticadas con autismo (y lo saben) o las personas con intereses cliché autistas como las matemáticas tengan más probabilidades de inclinarse por la opción más autista, incluso si su postura real sobre la pregunta es neutral.

Ahora, soy un profano y reconozco que diseñar una prueba de este tipo no es fácil, ya que uno tiene que tener en cuenta varios efectos. Por lo tanto, me pregunto: ¿Cuáles son las justificaciones para tal diseño de prueba , en particular a la luz de sus aplicaciones (diagnóstico y epidemiología) y mi crítica anterior? El documento que presenta la prueba no proporciona ninguna cita o razón para esto, al menos no en aquellas secciones donde lo esperaría.

Esta es una pregunta totalmente válida, pero muy amplia. Hay 4 subpreguntas para esta pregunta. Primero, fue la historia de la prueba del cociente del espectro autista y cómo ha sido validada/disputada a lo largo de los años. En segundo lugar, cuánto se ven afectados los tipos de pruebas por cebado y estereotipos. En tercer lugar, ¿esta prueba se ve socavada por la falta de una opción neutral? En cuarto lugar, las encuestas sin métodos de comparación siguen siendo válidas. Divida esta pregunta en subpreguntas y las votaré a favor.
@ Seanny123: Entiendo su punto y dado que no puedo estimar remotamente cuánto tiempo serían las posibles respuestas, es muy posible que tenga razón. Sin embargo, antes de seguir su sugerencia, considere lo siguiente: 1) No estoy muy interesado en el historial o la validación de la prueba en sí, a menos que proporcione respuestas a mi(s) pregunta(s) principal(es). 2) No estoy muy preocupado por los temas abordados en sus últimas tres preguntas por sí solos (p. ej., reconozco plenamente que la influencia de la imprimación y los estereotipos es inevitable). En cambio, me preocupa su interacción.
Entiendo que (legítimamente) solo está interesado en su interacción, pero supongo que lo que afirmo es que personalmente creo que primero debemos establecer su validez individual antes de considerar su interacción.
@ Seanny123: Reduje la pregunta, aunque no tanto como sugeriste. Todavía espero que esto sea lo suficientemente estrecho ahora.
Creo que la pregunta se ha reducido a tal grado que se volvió respondible. Simplemente, ¿por qué los desarrolladores de la prueba del cociente del espectro autista dan cuatro opciones, si la reducen a solo dos (de acuerdo o en desacuerdo)?
¿Por qué asume que los matemáticos con puntajes altos no tienen Asperger ni autismo? En la actualidad, las empresas de alta tecnología y TI están reclutando específicamente a autistas de alto funcionamiento porque a menudo son mejores en matemáticas y programación que los no autistas. Tal vez los resultados de la prueba solo reflejen el hecho de que muchos autistas (posiblemente subclínicos) eligen una carrera en un campo que recompensa sus rasgos.
@what: ¿Por qué asume que los matemáticos de alto puntaje no tienen Asperger o autismo? – ¿Dónde dices esto? El hecho de que me preocupe si una prueba tiene fallas no significa que considere incorrectas todas las conclusiones extraídas de sus resultados. Mi problema con el diseño de la prueba es (para ser franco) que puede medir si alguien es matemático y no si alguien es autista. Esto sería problemático ya que la prueba puede, por ejemplo, diagnosticar autismo en un matemático no autista.
@Wrzlprmft "personas con intereses cliché autistas como las matemáticas" Es muy probable que la similitud no sea "cliché" sino muy significativa.
@qué: Hay una verdad subyacente en muchos clichés, pero eso no los libera de ser clichés. No todos los interesados ​​en las matemáticas son automáticamente autistas. Aún así, esa persona puede estar preparada para ser más "autista" que la población promedio y, por lo tanto, es más probable que elija la opción "autista" en la prueba (porque se ve obligada a tomar una decisión). Pero tal cebado es algo que no desea que se refleje en una prueba (por supuesto que no puede evitarlo por completo, pero esta prueba parece amplificarlo).

Respuestas (1)

Muchas escalas de construcción se desarrollan con relativamente poca atención al contenido. Los investigadores pueden comenzar con un gran conjunto de preguntas candidatas, versiones, formatos y frases, y luego, a través de un proceso de validación , reducirlas a un subconjunto que se correlacione bien con el constructo que están tratando de medir. El objetivo es un equilibrio entre mantener la prueba breve y al mismo tiempo conservar su valor predictivo. En la introducción de Baron-Cohen et al (2001) , señalan:

El AQ, como se muestra en el Apéndice, es el resultado de probar varias versiones durante varios años.

En muchos casos, a los investigadores les importa menos por qué funcionan las preguntas y más simplemente que funcionen.

Dicho esto, la decisión de optar por un formato de elección forzada frente a, por ejemplo, una escala de calificación tipo Likert con más granularidad y una opción neutral, puede ser política:

Las medidas ipsativas pueden ser más útiles para evaluar rasgos dentro de un individuo, mientras que las escalas tipo Likert son más útiles para evaluar rasgos entre individuos.

Esto puede hacer que las medidas de elección forzada sean deseables para las etiquetas estigmatizadas para desalentar la comparación de personas entre sí:

Animar a los alumnos a superar sus puntuaciones anteriores puede eliminar la presión de los compañeros de las situaciones y elimina el elemento competitivo asociado con la referencia basada en normas.

Tenga en cuenta también que el estudio original confirma que los matemáticos obtienen una puntuación significativamente más alta en esta escala, como era de esperar:

... los científicos puntúan más alto que los no científicos; y dentro de las ciencias, las matemáticas, los físicos, los informáticos y los ingenieros obtienen una puntuación más alta que las ciencias más humanas o centradas en la vida de la medicina (incluida la ciencia veterinaria) y la biología. Este último hallazgo replica nuestros estudios anteriores y encontró un vínculo entre las condiciones del espectro autista y las ocupaciones/habilidades en matemáticas, física e ingeniería.

Esto sugiere que los autores pensaron que era perfectamente válido que los matemáticos obtuvieran una puntuación más alta en su escala de autismo (es decir, esta escala no está diseñada para diferenciar las tendencias autistas de los matemáticos de las de las personas diagnosticadas con autismo).

A menos que haya entendido mal la terminología, la prueba AS no es una prueba ipsativa. Más bien es una prueba de escala de Likert sin una opción neutral. Tampoco veo qué tiene que ver evaluar a los alumnos y superar las puntuaciones anteriores con la prueba AS.
el estudio original confirma que los matemáticos obtienen puntajes significativamente más altos en esta escala, como es de esperar . Claro que lo hacen, pero eso no resuelve mis dudas, que (algo exageradas) son: la forma en que está diseñado el examen, las pequeñas tendencias se amplifican. Por ejemplo, un matemático estaría un poco de acuerdo con una opción "autista", porque están preparados para ser algo más autistas que el promedio. Por lo tanto, se espera una puntuación AS alta para los matemáticos a partir del diseño de la prueba y no nos dice nada sobre la realidad.
@Wrzlprmft Sí, es una prueba de elección forzada (ipsativa), los propios autores lo afirman en el artículo. Una escala de Likert tendría una puntuación diferente para ligeramente o totalmente (en desacuerdo). Simplemente estaba señalando que la puntuación en tales pruebas desalienta las comparaciones entre pacientes (en comparación con, por ejemplo, las pruebas de coeficiente intelectual), lo que puede hacer que sean preferibles para las pruebas de diagnóstico que tienen etiquetas potencialmente estigmatizantes. Los autores no explican su decisión en un sentido u otro.
Refiriéndose a la realidad, este es el propósito de la validación (un tema demasiado amplio para esta publicación, pero consulte cogsci.stackexchange.com/questions/9610/… para obtener más detalles). El proceso de validación confirmó que la amplificación es tanto esperada como realizada y, de hecho, nos dice lo que queremos saber de esta escala sobre la realidad, es decir, que los matemáticos tienen tendencias autistas superiores a la media. Es posible que pienses que esta escala debería medir algo diferente de lo que los autores creen que debería medir.
Con respecto al tema de la validación: creo que entiendo esto. Mi problema es más bien que la prueba tiene propiedades que harán que tenga éxito en la validación independientemente de las cualidades deseadas. Como un ejemplo simple y flagrante, considere un mundo donde el 80 % de todos los matemáticos son autistas y viceversa y considere una prueba que simplemente le pregunta al sujeto si son matemáticos. Esta prueba es obviamente defectuosa, pero tendrá que pasar una validación básica.
Si, absolutamente. Como dije, esa es una discusión más allá del alcance de esta pregunta (aunque la publicación a la que me vinculé sí discute este tema, por ejemplo, su afirmación de que el autismo y las matemáticas son construcciones separadas es tan polémica como una escala que mide las matemáticas cuando pretende medir el autismo!). De todos modos, parece que ya tienes una buena comprensión de los problemas.
más allá del alcance de esta pregunta , bueno, es más o menos mi pregunta central. Sin embargo, estoy abierto a la posibilidad de que la respuesta a esta pregunta sea que la prueba es realmente defectuosa a este respecto.
Su pregunta fue "¿Cuáles son las justificaciones para un diseño de prueba de este tipo", no "¿Este diseño de prueba es defectuoso". Si su pregunta hubiera sido "¿Este diseño de prueba tiene fallas?", entonces probablemente se habría cerrado por estar basado principalmente en opiniones, lo cual está fuera del alcance de este foro. Sospecho que piensas que esta escala debería medir algo diferente de lo que los autores creen que debería medir.
Tienes razón, "esta prueba es defectuosa" fue un poco demasiado lejos. Más bien, fue: "¿se tuvo en cuenta este posible efecto?" De todos modos, no me quejo.