Juicios de similitud entre muestras de escritura

Anoche estaba pensando en la posibilidad de un experimento que investigue los factores que contribuyen a los juicios de las personas sobre la "similitud estilística" entre dos muestras de escritura. Por ejemplo, un experimento de este tipo podría consistir en múltiples ensayos para cada sujeto, cada uno de los cuales presentaría un conjunto diferente de, digamos, 3 breves extractos de escritura (texto seleccionado al azar de un corpus de escritos de autores... tal vez no más de 500 palabras). cada). Se le pedirá a cada participante que haga un juicio de "¿Cuáles 2 de estos escritos son más similares en estilo?" O '¿Cuáles 2 de estos escritos probablemente fueron creados por la misma persona?'.

Parte del análisis e interpretación de datos puede implicar el uso de programas similares a este: http://www.hackerfactor.com/GenderGuesser.php . Los investigadores podrían formular hipótesis sobre factores de nivel relativamente bajo que podrían ser importantes en los juicios de similitud estilística de las personas, y luego escribir programas que harían juicios basados ​​en estos factores de bajo nivel.

Supongo que en el pasado se han realizado investigaciones que se asemejan o incluso coinciden perfectamente con lo que he descrito anteriormente. Después de leer lo que he escrito anteriormente, ¿alguien tiene alguna sugerencia para lecturas relevantes?

Creo que esto suena realmente interesante, es casi como un procesamiento de lenguaje natural "natural". La PNL podría darle algo de qué pensar sobre qué características podrían ser más destacadas para un lector humano en función de lo que funciona estadísticamente para la computadora.

Respuestas (1)

Parece que estás hablando de análisis semántico latente . Aquí está su resumen de lo que es.

Sin embargo, LSA como se practica actualmente tiene algunas limitaciones adicionales. No hace uso del orden de las palabras, por lo tanto de las relaciones sintácticas o la lógica, o de la morfología. Sorprendentemente, se las arregla para extraer reflejos correctos de pasajes y significados de palabras bastante bien sin estas ayudas, pero aún debe sospecharse que está incompleto o es probable que tenga errores en algunas ocasiones.

Se utiliza en muchos programas de calificación automatizados o sistemas diseñados para otorgar una puntuación al papel en función de algunos criterios. Sin embargo, debido a que el orden no importa, hace que la coherencia sintáctica y gramatical sea mucho más difícil de medir, por lo que cuantificar el 'estilo' puede ser un poco difícil, a menos que por 'estilo' se refiera a algo como elección de palabras, elección de frases, etc.

Aquí hay una búsqueda de gscholar . Los primeros tres deben dar una buena visión general.

Bienvenido al sitio. Creo que el OP está más interesado en los estudios de los juicios de similitud de las personas, no tanto en las implementaciones de software de identificación de estilo (parece que solo las menciona en referencia a la formación de una línea de base). ¿Puede editar su respuesta para abordar la parte del juicio humano con mayor claridad?