He convertido algunos documentos PDF que contenían JPEG en texto ASCII.
Desafortunadamente, hay muchos saltos
de línea
en medio de
las oraciones, lo que deja algunas líneas con solo unas pocas palabras y,
en general, el texto es difícil de leer.
¿Existe alguna
herramienta que reformatee el
texto, teniendo en cuenta las oraciones y
los párrafos
que podrían dividirse de
esta manera? Debe
reconocer la estructura de las oraciones en inglés, que generalmente
terminan con
punto,
signo de interrogación
, punto final, etc.
Puede hacer esto en la mayoría de los programas de edición (procesadores de texto/editores de texto) que le permiten buscar/reemplazar marcas de párrafo o saltos de línea. Aquí hay una estrategia de ejemplo descrita en la sintaxis de Word donde ^p
hay un salto de párrafo, suponiendo que no hay distinción entre caracteres de nueva línea y saltos de página (que es el caso de los archivos de texto), y en el que usaré _ para caracteres de espacio.
Primero inserte marcas de párrafo adicionales después de la puntuación de la oración:
.
con.^p
?
con?^p
!
con!^p
Elimine los espacios iniciales y finales, siga repitiendo hasta que no se encuentren más:
_^p
con^p
^p_
con^p
Reduzca el número de saltos de párrafo consecutivos a dos como máximo. Sigue repitiendo hasta que no se encuentre más:
^p^p^p
con^p^p
Pasos adicionales si desea unir oraciones en un solo párrafo:
^p^p
con $$##$$
(o cualquier cadena que no esté en su documento)^p
con_
$$##$$
con^p
Notas adicionales:
Tomás
Mawg dice que reincorpore a Monica