¿Herramienta fuera de línea para encontrar frases idénticas/similares en un texto?

Estoy buscando una herramienta que encuentre y enumere frases idénticas en un texto largo como una disertación.

El objetivo es encontrar textos repetitivos que hayan sido creados accidentalmente al copiar/pegar.

Tiene que ser necesariamente una herramienta fuera de línea , ya que no quiero usar una herramienta en línea, donde mi texto se procesa y posiblemente se almacena en un servidor bajo el control de otra persona.

Posible duplicado de Word Clouds y Phrase Clouds . Mire mi respuesta debajo de esa pregunta ( writers.stackexchange.com/a/14302/5645 ).
@what: Gracias, esta otra pregunta tiene el mismo objetivo. Sin embargo, no quiero usar una herramienta en línea, donde mi texto se procesa y posiblemente se almacena en un servidor bajo el control de otra persona.
Creo que los verificadores de plagio también pueden encontrar duplicados dentro de un archivo, pero tendrá que intentarlo. Aparte de eso, puede escribir su propia herramienta (el código está disponible en línea), o si desea verificar solo oraciones completas, use expresiones regulares en un editor de texto que las admita (como Vi (m)) o desde la línea de comando (por ejemplo, usando awk), nuevamente hay ejemplos en línea.

Respuestas (3)

Depende de cuánto quieras involucrarte y qué tan grande sea el proyecto. Si solo busca frases o texto idénticos, la mayoría de los procesadores de texto lo admiten y, finalmente, muchos ide de programación admiten la búsqueda de expresiones regulares ( http://en.wikipedia.org/wiki/Regular_expression ). Por otro lado, si está buscando párrafos y/o extractos reformulados o similares y quiere automatizar esto (en lugar de subcadenar y buscar variaciones manualmente), le recomiendo que consulte http://www.nltk.org /

NLTKes un conjunto de herramientas que integra una amplia gama de herramientas de manipulación, clasificación y etiquetado del lenguaje. Me doy cuenta de que puede ser más profundo de lo que desea (pero es bastante fácil de aprender y tiene una muy buena documentación para principiantes http:// www.nltk.org/book/ ).

Dejaré que otros comenten sobre herramientas más genéricas y tal vez más 'útiles listas para usar', ya que no tengo experiencia con ellas.

Esta es una de las funciones principales del programa, ClicheCleaner , que resalta pasajes en su texto que son clichés, otras expresiones comunes usadas en exceso o frases propias que ha usado repetidamente dentro del mismo documento. ClicheCleaner incluye una lista de casi 7000 clichés únicos y expresiones comunes que se comparan con su texto.

Actualmente solo funciona en archivos de texto; una nueva versión actualmente en curso permitirá la edición de archivos de texto, Word y PDF dentro del documento.

Se ejecuta en todas las versiones de Windows.

Divulgación: soy el autor de este programa.

Gracias por esta información (y por ser claro acerca de su relación con el producto). ¿Te permite añadir también al diccionario de clichés? Si sé que tengo la mala costumbre de usar cierta expresión que no es una de las 7000 que ya detecta, ¿puedo agregarla?
@MonicaCellio Actualmente no puede agregar a la lista de clichés, ya que el diccionario original está muy comprimido; por ejemplo, al verificar el cliché "perder la camisa", se verifican las diversas formas verbales perder, perder y perder. , así como su, ella, mi y tu ser sustituido por "uno". Son 15 versiones diferentes de este cliché. Pero en la próxima versión, planeo agregar esta capacidad, sin embargo, el usuario tendrá que ingresar manualmente todas las formas del cliché que desea verificar.

Como dice @ user3467349, las expresiones regulares (regexes) son su amigo (complicado). Hay una gran curva de aprendizaje involucrada, pero vale la pena si tiene que hacer una cantidad significativa de búsqueda o modificación de texto. Muchas herramientas admiten su uso (y algunas usan dialectos ligeramente diferentes para su sintaxis).

Si tiene acceso a un sistema Linux (donde casi siempre se instalará de forma predeterminada; espero que también deba instalarse en OS X, pero no uso ese sistema operativo) o a un paquete de herramientas para su sistema operativo (como como Cygwin para Windows), entonces el lugar para comenzar es con el grepcomando (impresión de expresión regular global). Puede encontrar casi cualquier cosa una vez que conozca los conceptos básicos de las expresiones regulares. También hay un comando más oscuro agrep, que se especializa en encontrar cosas "como" otras cosas, pero aún no lo he usado.

Otra alternativa es si tiene o puede instalar el lenguaje de programación perlen su sistema (debería estar disponible para casi todos los sistemas operativos), admite su propio dialecto de expresiones regulares, que creo que es la versión más poderosa. Es fácil acceder a la función de expresiones regulares de perl sin saber mucho sobre el resto del lenguaje.

Si tiene acceso a un sistema Linux, entonces el comando

info sed

mostrará instrucciones para usar la sedherramienta (que no necesita en este momento). Pero, si se desplaza hacia abajo en este archivo de ayuda, hay una sección bastante detallada que explica cómo usar expresiones regulares. Esto se transferirá directamente a usarlos greptambién.