Software de OCR gratuito que hace que un PDF se pueda buscar (con texto que se puede buscar en el lugar correcto)

¿Existe algún software de OCR gratuito (para Linux y/o Windows) que pueda tomar un documento escaneado en PDF como entrada y generar un PDF con capacidad de búsqueda como lo hace Adobe Acrobat?

Con PDF con capacidad de búsqueda quise decir que el texto OCR es invisible sobre el texto original y se puede seleccionar con el mouse y copiar.

Sé que gscan2pdf en Linux puede hacer algo como esto, pero el texto se coloca en la esquina superior izquierda de la página y es demasiado pequeño, no sincronizado en absoluto con el texto en la página escaneada de fondo. Esto se debe a que gscan2pdf alimenta la página completa a un motor OCR. Debe descomponer la imagen en pequeñas imágenes con una sola línea de texto o pequeños párrafos para enviar al software OCR.

¿En qué idioma desea OCR? ¿Inglés? ¿Francés? ¿Japonés?
rumano e inglés. Tesseract puede hacer eso, pero no puedo incrustar el texto en PDF.
Lios debería hacer eso, pero no tengo ninguna experiencia personal con el software suave.
@VicAche Probé Lios con Tesseract pero falla al exportar a PDF. La interfaz se parece a OCR Feeder pero es más compleja. De todos modos, gracias por tu sugerencia. Nunca había oído hablar de Lios antes.
@Cornelius es FLOSS, es posible que desee informar los errores que encuentre.
Eche un vistazo a esta pregunta en AskUbuntu: askubuntu.com/questions/16268/…

Respuestas (11)

Una herramienta que te permite hacer eso es PDF-XChange Viewer . La versión gratuita le permitirá OCR su documento en una variedad de idiomas (puede descargar paquetes de idiomas adicionales de forma gratuita) y agregar el texto OCR como una capa de texto superpuesta que puede copiar y buscar con CTRL+F.

  • visor de PDF rápido con muchas características
  • Motor OCR rápido (a menos que elija la mejor precisión)
  • muchas opciones tienen el PROícono junto a ellas (disponible solo en la versión Pro) pero puedes ocultarlas
  • administración de color y configuración de DPI de pantalla personalizada
  • Aplicación solo para Windows, que no parece funcionar en Wine (el visor funciona, pero la función OCR hace que se bloquee)

Lo que no:

  • el OCR no aprovecha múltiples núcleos
  • OCR no detecta estilos de caracteres (negrita, cursiva) o la función de copia los pierde
  • no usa diacríticos rumanos correctos , pero se puede arreglar si copia el texto en un editor y realiza una búsqueda y reemplaza:

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

buen programa Actualicé tu respuesta con mi experiencia hasta ahora.
De hecho, funciona con Wine 1.5.28... No con otras versiones. Afortunadamente, PlayOnLinux te permite usar múltiples versiones de Wine.
@AndreaLazzarotto para mí funcionó perfectamente en Wine 1.8.
@Cornelius, tienes razón. Recientemente probé la nueva versión de PDF Xchange Viewer con Wine 1.9 y ahora parece funcionar. Pero no fue así en el pasado, supongo que también actualizaron el programa y no es solo por un mejor Wine.
El visor ha sido descontinuado, pero todavía se puede descargar a través de tracker-software.com/product/pdf-xchange-viewer/…
Parece funcionar con la versión portátil 2.5.0322.7 y vino 2.0.3. Ruta de OCRC:\Program Files\Tracker Software\PDF Viewer\ocrdats

Prueba pdfsandwich_ De la página del manual:

pdfsandwich genera archivos pdf OCR "sándwich", es decir, los archivos pdf que contienen solo imágenes (sin texto) se procesarán mediante reconocimiento óptico de caracteres (OCR) y el texto se agregará a cada página de forma invisible "detrás" de las imágenes.

pdfsandwich es una utilidad de línea de comandos. Si tiene un archivo pdf escaneado, por ejemplo este: alice.pdf(que es el primer capítulo de una novela de la que quizás haya oído hablar), invoque pdfsandwich así:

pdfsandwich alice.pdf

Esto generará un archivo alice_ocr.pdfque se parece al archivo original, pero el texto reconocido se colocará detrás de las imágenes escaneadas. Puede realizar búsquedas de texto completo ahora o seleccionar áreas de texto.

Otra opción podría ser OCRmyPDF.

La versión más nueva de Tesseract (3.03 RC al momento de escribir esto , en 2014) puede hacer esto:

  • gratuito, de código abierto y multiplataforma
  • a partir de la versión 3.03, la salida en PDF está disponible
  • software CLI
  • soporte de múltiples idiomas
  • desafortunadamente, la entrada de una sola imagen, por lo que para hacer un documento completo, se debe crear un script por lotes para convertir cada imagen de página en PDF con capacidad de búsqueda. Después de eso, las páginas PDF deben combinarse en un solo PDF usando herramientas como pdftk .

Este es el comando:

tesseract -l <lang> input.tif output pdf
Tenga en cuenta que para usar este enfoque, el PDF de entrada debe rasterizarse primero, ya que tesseract no obtendrá PDF como entrada.

pypdfocres lo que funcionó para mí. Es un script de Python que simplifica todo el uso de Tesseract. Después de instalar las dependencias (en Linux es un proceso mucho más simple), es tan simple como escribir:

pypdfocr myfile.pdf

Y abriendo myfile_ocr.pdfun rato después.

Uso Microsoft OneNote como herramienta de OCR. Al hacer clic con el botón derecho en una imagen, puede copiar el texto completo en imágenes y también tiene la capacidad de buscar texto en la imagen. Es gratuito y preciso, se ejecuta en Windows y es compatible con casi todos los formatos de imagen.

También puede buscar a través de archivos PDF e imágenes en archivos PDF.

El punto extra es que admite varios idiomas :) Inglés, francés, español también

https://www.microsoft.com/en-us/store/p/leadtools-ocr/9wzdncrdr0d5 es una aplicación pequeña y sencilla de WinRT (también funciona bien en Win10) que no hace más que tomar una imagen o un pdf y generar un sándwich PDF o texto. Es un poco feo y no tiene absolutamente ninguna configuración, pero hace esta pequeña tarea a la perfección.

Puede obtener texto de búsqueda con Google Drive.

Primero, elija una configuración clave. En "general" en la configuración de Google Drive, marque la casilla junto a "Convertir cargas: Convierta los archivos cargados al formato del editor de Google Docs".

Ahora cargue el pdf en su Google Drive (haga clic en "nuevo", luego "cargar archivo"). Cuando se complete la carga (puede tomar uno o dos minutos), haga clic con el botón derecho. (Si tiene problemas para encontrarlo, intente presionar "Reciente" en la barra lateral izquierda). Como estaba diciendo, haga clic derecho en el pdf que cargó y elija "Abrir con... Google Docs". Ahora tendrá texto de búsqueda.

Otra opción es pdf2pdfocr ( https://github.com/LeoFCardoso/pdf2pdfocr ) que se basa en Tesseract-OCR y puede ejecutarse de forma nativa en los sistemas operativos Windows, MacOS y Linux.

Descargo de responsabilidad: soy el desarrollador de pdf2pdfocr.

Mientras que las otras respuestas en este hilo se centran en el software de escritorio, he tenido mucho éxito con este servicio web: http://www.searchablepdfs.org/

Le permite cargar un PDF de un documento escaneado y genera un "PDF sándwich" con texto OCR incrustado que puede copiar/pegar.

Ventajas:

  • Rápido
  • Reconocimiento de texto OCR de alta calidad (los resultados que obtuve fueron al menos tan buenos como los que pude obtener al usar tesseract, que mencionó Cornelius)
  • Multiplataforma (es una aplicación web, por lo que no necesita instalar ningún software usted mismo)
  • Libre

Contras:

  • Solo admite documentos en inglés
  • Solo procesa hasta 10 páginas por archivo

Dos opciones más:

1) En línea: www.sandwichpdf.com

2) Escritorio (múltiples sistemas operativos): NAPS2 - https://www.naps2.com/

Echa un vistazo a OCRvision . OCRvision es un software de búsqueda de PDF . Puede convertir cualquier documento escaneado en una carpeta a PDF con capacidad de búsqueda automáticamente. Es compatible con OCR multilingüe. Se puede configurar tanto para escanear PDF como para archivos de imagen y luego convertirlos a PDF con capacidad de búsqueda .

Descargo de responsabilidad: estoy asociado con OCRvision como desarrollador

Captura de pantalla1 captura de pantalla2