Estoy buscando una herramienta que encuentre y enumere frases idénticas en un texto largo como una disertación.
El objetivo es encontrar textos repetitivos que hayan sido creados accidentalmente al copiar/pegar.
Tiene que ser necesariamente una herramienta fuera de línea , ya que no quiero usar una herramienta en línea, donde mi texto se procesa y posiblemente se almacena en un servidor bajo el control de otra persona.
Depende de cuánto quieras involucrarte y qué tan grande sea el proyecto. Si solo busca frases o texto idénticos, la mayoría de los procesadores de texto lo admiten y, finalmente, muchos ide de programación admiten la búsqueda de expresiones regulares ( http://en.wikipedia.org/wiki/Regular_expression ). Por otro lado, si está buscando párrafos y/o extractos reformulados o similares y quiere automatizar esto (en lugar de subcadenar y buscar variaciones manualmente), le recomiendo que consulte http://www.nltk.org /
NLTK
es un conjunto de herramientas que integra una amplia gama de herramientas de manipulación, clasificación y etiquetado del lenguaje. Me doy cuenta de que puede ser más profundo de lo que desea (pero es bastante fácil de aprender y tiene una muy buena documentación para principiantes http:// www.nltk.org/book/ ).
Dejaré que otros comenten sobre herramientas más genéricas y tal vez más 'útiles listas para usar', ya que no tengo experiencia con ellas.
Esta es una de las funciones principales del programa, ClicheCleaner , que resalta pasajes en su texto que son clichés, otras expresiones comunes usadas en exceso o frases propias que ha usado repetidamente dentro del mismo documento. ClicheCleaner incluye una lista de casi 7000 clichés únicos y expresiones comunes que se comparan con su texto.
Actualmente solo funciona en archivos de texto; una nueva versión actualmente en curso permitirá la edición de archivos de texto, Word y PDF dentro del documento.
Se ejecuta en todas las versiones de Windows.
Divulgación: soy el autor de este programa.
Como dice @ user3467349, las expresiones regulares (regexes) son su amigo (complicado). Hay una gran curva de aprendizaje involucrada, pero vale la pena si tiene que hacer una cantidad significativa de búsqueda o modificación de texto. Muchas herramientas admiten su uso (y algunas usan dialectos ligeramente diferentes para su sintaxis).
Si tiene acceso a un sistema Linux (donde casi siempre se instalará de forma predeterminada; espero que también deba instalarse en OS X, pero no uso ese sistema operativo) o a un paquete de herramientas para su sistema operativo (como como Cygwin para Windows), entonces el lugar para comenzar es con el grep
comando (impresión de expresión regular global). Puede encontrar casi cualquier cosa una vez que conozca los conceptos básicos de las expresiones regulares. También hay un comando más oscuro agrep
, que se especializa en encontrar cosas "como" otras cosas, pero aún no lo he usado.
Otra alternativa es si tiene o puede instalar el lenguaje de programación perl
en su sistema (debería estar disponible para casi todos los sistemas operativos), admite su propio dialecto de expresiones regulares, que creo que es la versión más poderosa. Es fácil acceder a la función de expresiones regulares de perl sin saber mucho sobre el resto del lenguaje.
Si tiene acceso a un sistema Linux, entonces el comando
info sed
mostrará instrucciones para usar la sed
herramienta (que no necesita en este momento). Pero, si se desplaza hacia abajo en este archivo de ayuda, hay una sección bastante detallada que explica cómo usar expresiones regulares. Esto se transferirá directamente a usarlos grep
también.
usuario5645
Sobre todo inofensivo
usuario5645