Reemplazos rápidos de caracteres corruptos para páginas escaneadas

1. Resumen

Tengo archivos PDF escaneados de baja calidad de terceros, donde los caracteres iniciales de las líneas están resaltados.

Tengo numerosos archivos PDF escaneados defectuosos, la alineación manual de los caracteres para los reemplazos me lleva mucho tiempo. No encuentro cómo puedo sobrescribir/reemplazar/reparar rápidamente caracteres de mala calidad.


2. Resultado esperado

  • Antes:

Antes

  • Después:

Después


3. Datos de ejemplo

Sería bueno obtener el resultado esperado para cualquiera de estos archivos.

Caracteres de inicio dañados:

Texto de mala calidad


4. Límites

  1. No puedo volver a escanear páginas de mala calidad ni hacer fotos porque no tengo acceso a los libros.
  2. Por favor, cualquier software gratuito de Windows. No Photoshop, FineReader o Acrobat.

5. Ejemplos de comportamiento esperado

he corrompido los símbolos; No creo que sea posible repararlos a través de funciones como " Dodge/Burn ".

5.1. Comportamiento de los editores de texto

Elimino texto anterior → imprimo texto nuevo como en cualquier editor de texto:

Editor de texto

5.2. Alinear por línea

Elimino los caracteres corruptos en el editor de imágenes, uso " Relleno de cubeta " → obtengo la fuente y el tamaño de fuente, uso fuentes pdf → las configuro en la configuración del editor de imágenes → escribo el texto:

no alineado

→ Presiono el botón mágico “Alinear por línea” → el texto se alinea entre líneas rojas imaginarias:

Alineado

No puedo encontrar una función similar a "Alinear por línea" en ningún editor de imágenes (consulte la sección "Editores de imágenes"); Necesito alinear el texto manualmente, eso lleva mucho tiempo.


6. No ayudó

No puedo encontrar las características esperadas en estos programas. Además, traté de usar alternativas de FineReader como NAPS2 y GImageEditor → sin éxito.

6.1. editores de PDF

Busqué software aquí :

  • Editor PDF-XChange
  • LibreOffice Draw: encontré cómo puedo editar la capa OCR, no el PDF original:

    Sorteo de LibreOffice

  • PDFEdit: la edición de texto no funciona para mí:

    PDFEditar

  • Editor PDF Helado

6.2. Editores de imágenes

Busqué software aquí :

  • CAÑUTILLO
  • paisaje de tinta
  • Paint.NET
  • Krita
No creo que exista una solución automatizada "rápida" o "fácil" para esto.

Respuestas (1)

No existe ningún software que pueda reparar los escaneos de trama de texto incorrectos automáticamente. No existe una forma sencilla de alinear el texto vuelto a escribir con líneas de texto de trama, excepto a simple vista o mediante el uso de guías. Las imágenes rasterizadas no son texto editable, por lo que no hay nada con lo que alinear el texto escrito, excepto los píxeles.

El software OCR no funcionará correctamente si hay caracteres desordenados. Sin embargo, si puede ejecutarlo a través de algún software de OCR de todos modos, podría volver a escribir los bits que se estropearon.

Usé este servicio en línea en una de tus imágenes. https://onlineocr.net/ . Tiene una opción de idioma ruso. En su mayoría, se ve bien, aunque tiene errores debido a los caracteres en mal estado, y será necesario volver a escribirlos manualmente. No tengo ninguna afiliación con el sitio o sus desarrolladores.

Aquí está el resultado:

АРИСТОТЕЛЬ , L (384-322 до н.э.) древнегреческий философ' и ученый

л 335 году до н.э. Аристотель, закончив воспитание с�оro Александра Македонского, основал в Афинах свою о� -хофскую школу. когда Александр неожиданно умер, в Афинах взяли верх *х:.нвники Македонии. Аристотеля, как прежде Анаксаго-л Сократа, обвинили в нечестии, то есть в неуважении s �•згач. Он оставил Афины, «чтобы афиняне, - как он ска-г= — вторично не совершили преступления против фило--:.лии ,. казнив его, как некогда казнили Сократа. Философ гхелился на родине своей матери, в городе Халкида на :сове Эвбея. Здесь он и умер от болезни желудка. Много веков спустя появилась легенда о смерти фило-:_а из-за неудовлетворенного научного любовы. Халкида расположена на берегу пролива Эврип, отделя-:• :его остров Эвбею от материковой Греции. Пролив этот -=- оычайно узок: его минимальная ширина всего 38 ме--+,в. Каждые б часов направление течения в проливе ме -ется. Аристотель долго пытался разгадать причину такой ь -оиаiии; когда же ему это не удалось, он от отчаяния бро-хтся в море, воскликнув: — Аристотель не смог охватить умом Эврип, так вгть же Эврип охватит Аристотеля! Эти слова привел византиец VIII века Косма Маюмский комментарии к «Стихотворениям Григория Богослова. 39