¿Herramienta fuera de línea para encontrar frases idénticas/similares en un texto?

Question

¿Herramienta fuera de línea para encontrar frases idénticas/similares en un texto?

herramientas
Escribiendo
Software
análisis de texto

Sobre todo inofensivo

Estoy buscando una herramienta que encuentre y enumere frases idénticas en un texto largo como una disertación.

El objetivo es encontrar textos repetitivos que hayan sido creados accidentalmente al copiar/pegar.

Tiene que ser necesariamente una herramienta fuera de línea , ya que no quiero usar una herramienta en línea, donde mi texto se procesa y posiblemente se almacena en un servidor bajo el control de otra persona.

usuario5645

Posible duplicado de Word Clouds y Phrase Clouds . Mire mi respuesta debajo de esa pregunta ( writers.stackexchange.com/a/14302/5645 ).

Sobre todo inofensivo

@what: Gracias, esta otra pregunta tiene el mismo objetivo. Sin embargo, no quiero usar una herramienta en línea, donde mi texto se procesa y posiblemente se almacena en un servidor bajo el control de otra persona.

usuario5645

Creo que los verificadores de plagio también pueden encontrar duplicados dentro de un archivo, pero tendrá que intentarlo. Aparte de eso, puede escribir su propia herramienta (el código está disponible en línea), o si desea verificar solo oraciones completas, use expresiones regulares en un editor de texto que las admita (como Vi (m)) o desde la línea de comando (por ejemplo, usando awk), nuevamente hay ejemplos en línea.

Respuestas (3)

¿Herramienta fuera de línea para encontrar frases idénticas/similares en un texto?

Posible duplicado de Word Clouds y Phrase Clouds . Mire mi respuesta debajo de esa pregunta ( writers.stackexchange.com/a/14302/5645 ).
@what: Gracias, esta otra pregunta tiene el mismo objetivo. Sin embargo, no quiero usar una herramienta en línea, donde mi texto se procesa y posiblemente se almacena en un servidor bajo el control de otra persona.
Creo que los verificadores de plagio también pueden encontrar duplicados dentro de un archivo, pero tendrá que intentarlo. Aparte de eso, puede escribir su propia herramienta (el código está disponible en línea), o si desea verificar solo oraciones completas, use expresiones regulares en un editor de texto que las admita (como Vi (m)) o desde la línea de comando (por ejemplo, usando awk), nuevamente hay ejemplos en línea.

usuario3467349 · Answer 1

Depende de cuánto quieras involucrarte y qué tan grande sea el proyecto. Si solo busca frases o texto idénticos, la mayoría de los procesadores de texto lo admiten y, finalmente, muchos ide de programación admiten la búsqueda de expresiones regulares ( http://en.wikipedia.org/wiki/Regular_expression ). Por otro lado, si está buscando párrafos y/o extractos reformulados o similares y quiere automatizar esto (en lugar de subcadenar y buscar variaciones manualmente), le recomiendo que consulte http://www.nltk.org /

NLTKes un conjunto de herramientas que integra una amplia gama de herramientas de manipulación, clasificación y etiquetado del lenguaje. Me doy cuenta de que puede ser más profundo de lo que desea (pero es bastante fácil de aprender y tiene una muy buena documentación para principiantes http:// www.nltk.org/book/ ).

Dejaré que otros comenten sobre herramientas más genéricas y tal vez más 'útiles listas para usar', ya que no tengo experiencia con ellas.

crosley · Answer 2

Esta es una de las funciones principales del programa, ClicheCleaner , que resalta pasajes en su texto que son clichés, otras expresiones comunes usadas en exceso o frases propias que ha usado repetidamente dentro del mismo documento. ClicheCleaner incluye una lista de casi 7000 clichés únicos y expresiones comunes que se comparan con su texto.

Actualmente solo funciona en archivos de texto; una nueva versión actualmente en curso permitirá la edición de archivos de texto, Word y PDF dentro del documento.

Se ejecuta en todas las versiones de Windows.

Divulgación: soy el autor de este programa.

Gracias por esta información (y por ser claro acerca de su relación con el producto). ¿Te permite añadir también al diccionario de clichés? Si sé que tengo la mala costumbre de usar cierta expresión que no es una de las 7000 que ya detecta, ¿puedo agregarla?
@MonicaCellio Actualmente no puede agregar a la lista de clichés, ya que el diccionario original está muy comprimido; por ejemplo, al verificar el cliché "perder la camisa", se verifican las diversas formas verbales perder, perder y perder. , así como su, ella, mi y tu ser sustituido por "uno". Son 15 versiones diferentes de este cliché. Pero en la próxima versión, planeo agregar esta capacidad, sin embargo, el usuario tendrá que ingresar manualmente todas las formas del cliché que desea verificar.

José · Answer 3

Como dice @ user3467349, las expresiones regulares (regexes) son su amigo (complicado). Hay una gran curva de aprendizaje involucrada, pero vale la pena si tiene que hacer una cantidad significativa de búsqueda o modificación de texto. Muchas herramientas admiten su uso (y algunas usan dialectos ligeramente diferentes para su sintaxis).

Si tiene acceso a un sistema Linux (donde casi siempre se instalará de forma predeterminada; espero que también deba instalarse en OS X, pero no uso ese sistema operativo) o a un paquete de herramientas para su sistema operativo (como como Cygwin para Windows), entonces el lugar para comenzar es con el grepcomando (impresión de expresión regular global). Puede encontrar casi cualquier cosa una vez que conozca los conceptos básicos de las expresiones regulares. También hay un comando más oscuro agrep, que se especializa en encontrar cosas "como" otras cosas, pero aún no lo he usado.

Otra alternativa es si tiene o puede instalar el lenguaje de programación perlen su sistema (debería estar disponible para casi todos los sistemas operativos), admite su propio dialecto de expresiones regulares, que creo que es la versión más poderosa. Es fácil acceder a la función de expresiones regulares de perl sin saber mucho sobre el resto del lenguaje.

Si tiene acceso a un sistema Linux, entonces el comando

info sed

mostrará instrucciones para usar la sedherramienta (que no necesita en este momento). Pero, si se desplaza hacia abajo en este archivo de ayuda, hay una sección bastante detallada que explica cómo usar expresiones regulares. Esto se transferirá directamente a usarlos greptambién.

¿Herramienta fuera de línea para encontrar frases idénticas/similares en un texto?

Sobre todo inofensivo

usuario5645

Sobre todo inofensivo

usuario5645

Respuestas (3)

usuario3467349

crosley

Mónica Celio

crosley

José

¿Cuáles son algunos buenos programas de software de análisis de escritura?

Software para dibujar diagramas de estructura de parcelas

¿Programas que analizan la frecuencia de palabras?

¿Software para analizar un manuscrito?

¿Qué herramientas de análisis de texto libre utilizan los autores?

Software para libro instructivo.

¿Herramientas para la construcción del mundo basada en la ciencia?

¿El mejor flujo de trabajo de dictáfono/transcripción?

Múltiples referencias continuas en Microsoft Office Word 2013

Herramientas para generar nombres de personajes