¿Hay alguna investigación sobre las llamadas entrevistas de pizarra? [cerrado]

Probablemente, todos los ingenieros de software se encontraron con una entrevista en la pizarra. Por el bien de la pregunta, digamos que la entrevista de pizarra es la entrevista, donde al candidato se le da un problema para resolver en una pizarra, sin usar herramientas de desarrollo reales. Y el tema del problema probablemente sea algoritmos y estructuras de datos.

Si busca en Internet 'entrevista de pizarra', parece que ese concepto se ve como algo negativo. La razón principal parece ser que la gente piensa que el resultado de la entrevista de pizarra no se parece al entorno de trabajo. Por lo tanto, no puede mostrar la capacidad del candidato para realizar el trabajo. Y es visto como injusto por ambos lados del proceso de contratación: 1 2 3 .

Pero todos estos artículos están basados ​​en experiencias de una o varias personas. Entonces , ¿hay alguna investigación científica sobre la efectividad de las entrevistas de pizarra? No espero que la investigación científica responda a la pregunta "¿Son malas las entrevistas de pizarra?". Pero esperaría algo en la línea de

Creemos que las entrevistas de pizarra son buenas para entender X sobre el candidato. Medimos la "bondad de X" usando la métrica Y. Y medimos el rendimiento de la entrevista utilizando Z . Aquí está la dependencia de Y(Z) , a partir de la cual concluimos, asumiendo que Y es una buena métrica de X , que las entrevistas de pizarra son lo suficientemente buenas/malas para comprender X .

Es un problema difícil elegir X e Y. Pero sospecho que los científicos inteligentes aún pueden encontrar algún modelo.

Por ejemplo. Tal vez X podría ser la eficacia de la persona , que es realmente difícil de medir, pero las grandes empresas aún intentan hacerlo con evaluaciones de desempeño. Digamos que Y es el promedio de las tres primeras calificaciones de revisión . Y Z será el promedio de las calificaciones de los revisores . ¿Hay alguna correlación entre Y y Z .

Tal vez incluso algo más simple. Respondamos a la pregunta "¿Qué tan bien miden nuestras reseñas la participación de las personas en nuestra empresa ?". Luego intente medirlo con Y - *número de personas que abandonaron la empresa durante los primeros 3/6/9/12 meses. Y dibuje el histograma dependiendo del grado de revisión Z.

¿Qué piensa hacer con los datos de esta investigación?
Nada en particular. Solo me gustaría ver si la experiencia negativa de los desarrolladores está respaldada científicamente.
Como desarrollador, honestamente tuve una buena impresión de este tipo de preguntas. Sí, son un poco antinaturales y tal vez un poco más "intimidantes", pero realmente pueden decirte mucho sobre tu posible empleador.
Un punto, dudo que en este (excelente) foro, alguien tenga datos sobre la investigación actual en ese campo. (Posiblemente, podría preguntar sobre la academia, ¿o tal vez sobre la ingeniería de software?) Este foro es realmente más sobre, digamos, "interacción humana en la entrevista y el entorno laboral".
Solo quiero agregar cuánto desprecio las entrevistas de pizarra. Hice uno y me sentí tan incómodo que tuve que pararme frente a la gente e intentar sacar el código de la nada, terminé cometiendo errores muy tontos. Por supuesto, no conseguí el trabajo.
@Fattie: Podría decirse que la "investigación" sobre este tema generalmente sería una recopilación estadística de opiniones. Esto no se puede probar empíricamente, no se prueba que la entrevista de pizarra sea incorrecta; pero simplemente pasa por alto la métrica principal con la que se mide la aptitud de un desarrollador. Podría decirse que pedir respuestas aquí es hacer la investigación, ya que las respuestas las darán predominantemente los desarrolladores de software o las personas que trabajan en un campo que está estrechamente relacionado con él.
@DoctorMoisha I just would like to see whether negative experience of developers backed-up scientifically.Me cuesta entender cómo se puede probar esto científicamente. Probar científicamente algo inherentemente significa que es objetivamente medible. La "experiencia negativa de los desarrolladores" es inherentemente subjetiva, por definición de la palabra "experiencia" en este contexto. En el mejor de los casos, puede encuestar para obtener opiniones. E incluso si todas las opiniones encuestadas están unánimemente de acuerdo, todavía no has probado nada.
Maybe X could be person's effectiveness, which is really hard to measure, but big companies still try to do it with performance reviews.No puede comparar entrevistas de pizarra con evaluaciones de desempeño. Las entrevistas de pizarra evalúan las habilidades fuera de un entorno de trabajo natural, en una escala de tiempo de 10 a 20. Las revisiones de desempeño evalúan la habilidad en un entorno de trabajo natural, generalmente en una escala de tiempo anual . La diferencia entre estos dos es la razón clave por la cual las entrevistas de pizarra se consideran inútiles para evaluar la habilidad del desarrollador.
Let's say Y is the average of first three review grades. And Z will be average of reviewers grades. Is there any correlation between Y and Z.¿No acaba de definir la correlación como Z siendo el promedio de Y?
Maybe even something simpler. Let's answer question "How well do our reviews measure person's involvement in our company?"¿Cómo se mide la participación? Eso es notoriamente difícil de medir objetivamente . Si ayudo a mi colega a entender algo, ¿se me acredita el trabajo que hace en función de su comprensión ahora mejorada? ¿Qué proporción de crédito obtengo? ¿Cómo se rastrea eso? ¿Un error en el análisis inicial, que provocó una reelaboración importante, se descuenta de mi contribución? Sigues tratando de usar métricas imperfectas y vagas, lo que anula el propósito de tratar de encontrar un resultado preciso .
Sigue reformulando su pregunta, mientras repite el mismo problema una y otra vez. Pasas por alto los puntos más finos (cómo medir algo objetivamente, cómo definir el éxito/fracaso, ...) pero esperas obtener la respuesta que ya estás esperando. Su expectativa no está tan claramente definida como cree, lo que hace que sea imposible probar datos científicos precisos sobre un conjunto de datos inherentemente subjetivo y medible no concluyente.
Hay muchas cosas que son difíciles de medir objetivamente. No significa que la gente no deba tratar de medirlos de alguna manera. Pregunto si alguien lo intentó.
La entrevista de pizarra es un concepto demasiado mal definido para que se realicen estudios significativos sobre él. ¿Cualquier entrevista que involucre el uso de una pizarra califica? ¿Solo aquellos que implican escribir código compilable o aquellos que incluyen una descripción conceptual para resolver el problema? Si se trata de una descripción conceptual, ¿el conjunto de datos incluye otros campos relacionados periféricamente? Sería una pesadilla definir este problema lo suficientemente bien como para que los resultados sean significativos.
@Myles Muchas empresas tienen estándares en los procesos de entrevista. Por lo tanto, no sería tan difícil dentro de una empresa.
@DoctorMoisha: Many companies have standards on interview processes.Tener un cierto estándar de ninguna manera hace que el resultado sea significativamente medible. El hecho de que las empresas tengan sus propios estándares sugiere fuertemente que no existe una medida objetiva de lo que es objetivamente mejor. So, it wouldn't be so hard inside one company.Todavía te falta el punto de que es imposible atribuir correctamente la contratación de alguien (o no) a causas particulares, como la prueba de la pizarra. Las entrevistas son evaluaciones inherentemente multifacéticas y subjetivas.

Respuestas (1)

Entonces, ¿hay alguna investigación científica sobre la efectividad de las entrevistas de pizarra? Hay un problema difícil de medir la efectividad de la persona, pero cualquier cosa con números reales, estadísticas y conclusiones sería genial.

¿Cómo se mide la eficacia de una entrevista?

  • ¿Felicidad del empleador con el empleado que aceptó una oferta?
  • ¿Probabilidad de que un empleado acepte una oferta después de haber realizado una entrevista de pizarra?
  • ¿Porcentaje de solicitantes que aprueban el ejercicio de pizarra?

Sé que mencionó la dificultad de la efectividad de la evaluación, pero aún hace la misma pregunta, lo que parece extraño. Si no puede evaluarlo objetivamente, entonces no puede responder esa pregunta de manera concluyente.

Tal vez alguna gran empresa calculó la verdadera tasa positiva de personas, que pasaron la entrevista de pizarra con éxito y realmente hicieron un gran trabajo.

La suposición de que esta es una métrica correcta es exactamente la misma suposición errónea que lleva a pensar que las entrevistas de pizarra son un buen marcador de aptitud.

El problema no radica en contratar a personas que pasen la entrevista de pizarra (y que puedan o no ser apropiadas para el puesto de trabajo). El problema radica en no contratar a personas que sean apropiadas para el puesto de trabajo, sino que simplemente no pasan una prueba que no evalúa su aptitud relevante.

Piénsalo de esta manera:

Un entrevistador se niega a contratar a alguien que haya pasado menos de cinco años en la universidad. El objetivo del entrevistador es claro: descartar a los solicitantes "no calificados", de modo que solo se evalúen los solicitantes "calificados". Sin embargo, su métrica (tiempo pasado en la universidad) es defectuosa.
Utilizo "calificado" y "no calificado" como un discriminador simplificado de la opinión del entrevistador sobre las habilidades necesarias para el puesto. No estoy tratando de etiquetar a la gente.

  • Dos tipos de personas pasarán la prueba:
    • Los que lograron una maestría (calificados)
    • Aquellos que tuvieron que rehacer cursos a menudo y finalmente lograron obtener su título de licenciatura, casi por la fuerza bruta y con fondos suficientes para la matrícula (no calificados)
  • Dos tipos de personas fallarán la prueba:
    • Los que dejan de estudiar a la mitad (no calificados)
    • Aquellos que eran tan inteligentes que completaron su plan de estudios en la mitad del tiempo (especializados).

Esta es la razón por la cual la métrica es defectuosa: en realidad no separa a los "calificados" de los "no calificados". En realidad, no logra el objetivo que se implementa para lograr.

El problema con las entrevistas de pizarra es el mismo. Se utiliza para descartar a las personas que carecen de ciertas habilidades, pero prueba la métrica incorrecta y, por lo tanto, lleva a los entrevistadores a descartar a los solicitantes con la habilidad adecuada, así como a ofrecer puestos de trabajo a los solicitantes en función de la habilidad incorrecta .

Para resumirlo en una cita (que a menudo se atribuye erróneamente a Einstein):

Si juzgas a un pez por su habilidad para trepar a un árbol, vivirá toda su vida creyendo que es un estúpido.


El gran factor no mencionado aquí es lo que el entrevistador espera ver en la pizarra.

  • Si esperan ver código con sintaxis perfecta; eso es simplemente una expectativa irreal.
  • Si esperan ver una representación visual básica de, por ejemplo, cómo una lista enlazada es diferente de una matriz; eso es algo que se puede explicar significativamente usando una pizarra.

La razón principal parece ser que la gente piensa que el resultado de la entrevista de pizarra no se parece al entorno de trabajo.

Yo, por ejemplo, soy muy malo recordando la sintaxis de memoria. Sin embargo, soy muy rápido para buscar en Google temas relacionados, encontrar un fragmento de ejemplo y adaptarlo a mis necesidades. Sé que esto me hace sonar a mí mismo, pero puedo superar a la mayoría de los colegas en términos de velocidad para implementar algo desde cero.

Sin embargo, si me pone frente a una pizarra y me pide que escriba el código para deserializar un archivo XML, entonces ni siquiera sabría la clase utilizada para la (des) serialización.
Esto puede llevar a los entrevistadores a concluir que ni siquiera conozco los conceptos básicos y que mi repertorio de codificación es demasiado pequeño; mientras que lo contrario también puede ser cierto: mi repertorio de codificación es demasiado grande para recordar toda la sintaxis de memoria, y sé más que solo los conceptos básicos hasta el punto de simplemente no centrarme en los conceptos básicos.

Esta es la razón por la que "no parecerse al entorno de trabajo" anula el valor del ejercicio de pizarra. No todos funcionan de la misma manera. Recitar el conocimiento de memoria no es la métrica principal con la que se mide la aptitud de un desarrollador. Y ese es el quid de por qué la entrevista de pizarra no es un buen enfoque.

En todo caso, debería medir la capacidad de un desarrollador para adaptarse a nuevos sistemas y comprender el código existente, ya que esa es una habilidad mucho más valiosa.
Una vez me dieron este tipo de entrevista. Habían impreso su DbContextimplementación derivada y me pidieron que señalara lo que implementaron. Estaban buscando respuestas como eliminación suave, paginación, campos de auditoría, seguimiento de cambios. También habían introducido dos errores. Mi capacidad para evaluar el código existente es mucho más significativa que poder crear mi propia clase de la nada.


En segundo lugar, deja la puerta abierta a una falacia de inversión lógica.

Supongamos que el entrevistador le pide que recite de memoria todos los métodos de Entity Framework, ordenados por la longitud del nombre del método (sé que es un ejemplo tonto, pero quiero usar un ejemplo en el que no nos distraigamos discutiendo cuál es el mejor la respuesta es).

Si el solicitante puede hacer esto, entonces es una prueba (indirecta) de que debe tener mucha experiencia con Entity Framework. Sin la experiencia de Entity Framework, no podría hacer eso.

Sin embargo, es probable que el entrevistador invierta erróneamente esa lógica. Si la aplicación no puede hacer esto, eso no significa que no tenga experiencia con Entity Framework. Esta inversión es una falacia lógica.

Es por eso que estas preguntas son malas. Cuando el solicitante se enfrenta a una pregunta como esta, se encuentra entre la espada y la pared:

  • El solicitante no sabe si el entrevistador ha caído presa de la falacia de inversión lógica.
  • Si el solicitante habla sobre la falacia y el entrevistador no está de acuerdo, el solicitante corre el riesgo de perjudicar sus posibilidades de obtener una oferta.
  • Si el solicitante habla sobre la falacia y el entrevistador no estaba siendo víctima de la falacia, el solicitante podría haber perjudicado sus posibilidades porque asumió que el entrevistador estaba cometiendo un error cuando no era así.
  • Si, por lo tanto, el solicitante asume que es mejor no estar a la altura de la falacia, y simplemente no logra realizar la tarea solicitada (lo que no es señal de ser un mal programador), entonces corre el riesgo de que el entrevistador asuma que el solicitante no tiene la habilidad suficiente. para la posicion.

Independientemente de si el entrevistador cae en la trampa de la falacia o no, la existencia de la pregunta siempre coloca al solicitante en una posición incómoda de tener que evaluar el conocimiento del entrevistador (sobre la falacia) antes de que pueda dar una respuesta adecuada. Eso es efectivamente una apuesta , y realmente no deberías (no) contratar personas en base a (no) haber adivinado correctamente.

Dije "Estoy de acuerdo" en esa parte. El primer punto de mi comentario fue, con la pregunta de la entrevista en la pizarra como "¿qué es una cadena eslabonada?", en el mejor de los casos, puede probar una habilidad que realmente necesita del tipo (o 0 en el peor de los casos), pero no otra como manejar al cliente donde el gerente de contratación quiere que él haga esas cosas. Esto significa que para cada habilidad que desee probar, debe preparar una pregunta adecuada, lo cual no es tan fácil. Siento que se dice en toda la publicación, por supuesto, pero pensé que podría merecer su propia oración en negrita o lo que sea :)
Lo siento, no me gusta tu respuesta, porque no responde a mi pregunta. Si te entendí bien, dices que si algo es difícil de medir, no vale la pena medirlo en absoluto. Pero no creo que sea cierto. Sí, medir la contribución de los empleados es difícil y defectuoso. Aún así, muchas empresas realizan revisiones de desempeño, calificando la contribución de los empleados. Esto no puede responder a la pregunta: si la entrevista en la pizarra es buena o mala, pero brinda información sobre el impacto de las entrevistas en la pizarra.
@DoctorMoisha: If I understood you correctly - you say, that if something is difficult to measure - it is not worth to measure it at all.Eso no es lo que estoy diciendo. Lo que digo es que es imposible atribuir el éxito de una entrevista a una sola causa. Está tratando de usar métricas aproximadas que no son lo suficientemente precisas para darle una respuesta significativa (que es similar a la falla con las entrevistas de pizarra: métricas sobregeneralizadas que no tocan el enfoque central). Esto también es completamente diferente de las revisiones de desempeño o la contribución de calificación.
@DoctorMoisha: Las revisiones de desempeño (y las contribuciones) están evaluando al empleado en su entorno de trabajo natural . Las entrevistas de pizarra evalúan al empleado fuera de su entorno de trabajo natural . Esa es la diferencia clave y el argumento central de por qué las entrevistas de pizarra no son tan relevantes como creen los entrevistadores. Las entrevistas de pizarra también se llevan a cabo en un período de tiempo demasiado corto (10-20 minutos) para evaluar significativamente las habilidades de un empleado, mientras que las revisiones de desempeño toman un período de tiempo prolongado (3 meses a 1 año)
@DoctorMoisha Sorry, I don't like your answer, because it doesn't answer my question.Responde a su pregunta, la respuesta simplemente no es lo que espera. Si está preguntando si algo existe y también excluye la posibilidad de que no exista, entonces su pregunta es discutible. No puedo probar una negativa (la ausencia de la existencia de investigación). Si desea afirmar que existe investigación, entonces usted tiene la responsabilidad de probar su punto.
@Flater You're trying to use approximate metrics that are not precise enough to give you, sí, para concluir esto necesita investigación, métricas y su precisión. Básicamente es lo que pido. De todos modos, he editado mi respuesta, lo que probablemente lo aclare. Gracias por tus comentarios.
Desafortunadamente, esta respuesta (aunque es un buen ensayo) no se relaciona en absoluto con la pregunta. La pregunta es "Lista de trabajos de investigación en el campo".
@Fattie Como mencioné antes: podría decirse que la "investigación" sobre este tema generalmente sería una recopilación estadística de opiniones. Esto no se puede probar empíricamente, no se prueba que la entrevista de pizarra sea incorrecta; pero simplemente pasa por alto la métrica principal con la que se mide la aptitud de un desarrollador. Podría decirse que pedir respuestas aquí es hacer la investigación, ya que las respuestas las darán predominantemente los desarrolladores de software o las personas que trabajan en un campo que está estrechamente relacionado con él. Responder que la pregunta no se puede responder de manera significativa es una respuesta válida (incluso si no es correcta ).
No importa, pero no entiendo tu comentario. sería totalmente trivial medir el rendimiento de las "entrevistas de pizarra" en una gran empresa. (Apuesto a que Google, digamos, realmente haga esto ). Al igual que con la reducción de cualquier información estadística, simplemente contrataría a la mitad de las personas que usan WI y a la mitad de las personas que no usan WI. Luego, después de 2 años o lo que sea, vería cómo cada grupo ido
Cualquier práctica importante de gestión o recursos humanos se mide comúnmente de esta manera simplemente utilizando las pruebas A/B habituales. Sería totalmente sorprendente si hay algunos artículos académicos sobre esto. De todos modos saludos, que tengas un buen día.
@Fattie Sin un vínculo causal, los datos no tienen sentido. Podríamos hacer la misma prueba basándonos en tener una cantidad par o impar de letras en su nombre o color de cabello. Incluso si se mide una diferencia en el desempeño laboral, eso no significa que exista una relación causal real o incluso una correlación. Hay un sitio web llamado Spurious Correlations (iirc) que examina exactamente este comportamiento de los humanos sacando conclusiones de patrones aparentes que no tienen ningún significado y son coincidentes. Dadas suficientes pruebas, eventualmente encontrará una que pase.
"Sin un vínculo causal, los datos no tienen sentido" para eso están las pruebas A/B, reduce las variables. Todo análisis estadístico es "filosóficamente sin sentido". Si dentro de digamos 2 sd observa que el régimen X conduce a mejores resultados, tiene su respuesta. No hay otra realidad.
@Fattie Eso es simplemente absurdo. El hecho de que obtenga una tirada de dados no significa que el resultado esté destinado o sea reproducible de manera consistente. Está encontrando números que se ajustan a su opinión predeterminada.