Anoche estaba pensando en la posibilidad de un experimento que investigue los factores que contribuyen a los juicios de las personas sobre la "similitud estilística" entre dos muestras de escritura. Por ejemplo, un experimento de este tipo podría consistir en múltiples ensayos para cada sujeto, cada uno de los cuales presentaría un conjunto diferente de, digamos, 3 breves extractos de escritura (texto seleccionado al azar de un corpus de escritos de autores... tal vez no más de 500 palabras). cada). Se le pedirá a cada participante que haga un juicio de "¿Cuáles 2 de estos escritos son más similares en estilo?" O '¿Cuáles 2 de estos escritos probablemente fueron creados por la misma persona?'.
Parte del análisis e interpretación de datos puede implicar el uso de programas similares a este: http://www.hackerfactor.com/GenderGuesser.php . Los investigadores podrían formular hipótesis sobre factores de nivel relativamente bajo que podrían ser importantes en los juicios de similitud estilística de las personas, y luego escribir programas que harían juicios basados en estos factores de bajo nivel.
Supongo que en el pasado se han realizado investigaciones que se asemejan o incluso coinciden perfectamente con lo que he descrito anteriormente. Después de leer lo que he escrito anteriormente, ¿alguien tiene alguna sugerencia para lecturas relevantes?
Parece que estás hablando de análisis semántico latente . Aquí está su resumen de lo que es.
Sin embargo, LSA como se practica actualmente tiene algunas limitaciones adicionales. No hace uso del orden de las palabras, por lo tanto de las relaciones sintácticas o la lógica, o de la morfología. Sorprendentemente, se las arregla para extraer reflejos correctos de pasajes y significados de palabras bastante bien sin estas ayudas, pero aún debe sospecharse que está incompleto o es probable que tenga errores en algunas ocasiones.
Se utiliza en muchos programas de calificación automatizados o sistemas diseñados para otorgar una puntuación al papel en función de algunos criterios. Sin embargo, debido a que el orden no importa, hace que la coherencia sintáctica y gramatical sea mucho más difícil de medir, por lo que cuantificar el 'estilo' puede ser un poco difícil, a menos que por 'estilo' se refiera a algo como elección de palabras, elección de frases, etc.
Aquí hay una búsqueda de gscholar . Los primeros tres deben dar una buena visión general.
mandril sherrington