Formateador de texto que entiende la gramática

He convertido algunos documentos PDF que contenían JPEG en texto ASCII.

Desafortunadamente, hay muchos saltos
de línea
en medio de
las oraciones, lo que deja algunas líneas con solo unas pocas palabras y,
en general, el texto es difícil de leer.

¿Existe alguna
herramienta que reformatee el
texto, teniendo en cuenta las oraciones y
los párrafos
que podrían dividirse de
esta manera? Debe
reconocer la estructura de las oraciones en inglés, que generalmente
terminan con
punto,
signo de interrogación
, punto final, etc.

¿En qué tipo de estructura de oración (por ejemplo, punto) le gustaría tener una interrupción?
Me gustaría que el programa comprendiera la gramática del idioma inglés.

Respuestas (1)

Puede hacer esto en la mayoría de los programas de edición (procesadores de texto/editores de texto) que le permiten buscar/reemplazar marcas de párrafo o saltos de línea. Aquí hay una estrategia de ejemplo descrita en la sintaxis de Word donde ^phay un salto de párrafo, suponiendo que no hay distinción entre caracteres de nueva línea y saltos de página (que es el caso de los archivos de texto), y en el que usaré _ para caracteres de espacio.

Primero inserte marcas de párrafo adicionales después de la puntuación de la oración:

  • Reemplazar .con.^p
  • Reemplazar ?con?^p
  • Reemplazar !con!^p

Elimine los espacios iniciales y finales, siga repitiendo hasta que no se encuentren más:

  • Reemplazar _^pcon^p
  • Reemplazar ^p_con^p

Reduzca el número de saltos de párrafo consecutivos a dos como máximo. Sigue repitiendo hasta que no se encuentre más:

  • Reemplazar ^p^p^pcon^p^p

Pasos adicionales si desea unir oraciones en un solo párrafo:

  • Reemplace ^p^pcon $$##$$(o cualquier cadena que no esté en su documento)
  • Reemplazar ^pcon_
  • Reemplazar $$##$$con^p

Notas adicionales:

  • Ponga todo esto en una macro de teclado si necesita hacerlo en varios documentos.
  • Es posible que desee reducir a un solo salto de párrafo. Entonces necesitas una variación de esta estrategia.
  • También puedes usar expresiones regulares, pero no soy fluido con ellas.
  • Para ese paso adicional, su software debe poder manejar líneas muy largas, porque tendrá un resultado intermedio que es básicamente una sola línea.
  • Haz todo esto en copias de tus archivos para que tengas una copia de seguridad.
Por mucho que preferiría un programa para hacerlo, había considerado esto, así que +1. Necesitaría usar un editor de texto que permita macros, para poder almacenar esa secuencia y repetirla para muchos archivos. Afortunadamente, NotePad++ me permitirá hacerlo.