¿Existe algún software de OCR gratuito (para Linux y/o Windows) que pueda tomar un documento escaneado en PDF como entrada y generar un PDF con capacidad de búsqueda como lo hace Adobe Acrobat?
Con PDF con capacidad de búsqueda quise decir que el texto OCR es invisible sobre el texto original y se puede seleccionar con el mouse y copiar.
Sé que gscan2pdf en Linux puede hacer algo como esto, pero el texto se coloca en la esquina superior izquierda de la página y es demasiado pequeño, no sincronizado en absoluto con el texto en la página escaneada de fondo. Esto se debe a que gscan2pdf alimenta la página completa a un motor OCR. Debe descomponer la imagen en pequeñas imágenes con una sola línea de texto o pequeños párrafos para enviar al software OCR.
Una herramienta que te permite hacer eso es PDF-XChange Viewer . La versión gratuita le permitirá OCR su documento en una variedad de idiomas (puede descargar paquetes de idiomas adicionales de forma gratuita) y agregar el texto OCR como una capa de texto superpuesta que puede copiar y buscar con CTRL+F.
PRO
ícono junto a ellas (disponible solo en la versión Pro) pero puedes ocultarlasLo que no:
C:\Program Files\Tracker Software\PDF Viewer\ocrdats
Prueba pdfsandwich
_ De la página del manual:
pdfsandwich genera archivos pdf OCR "sándwich", es decir, los archivos pdf que contienen solo imágenes (sin texto) se procesarán mediante reconocimiento óptico de caracteres (OCR) y el texto se agregará a cada página de forma invisible "detrás" de las imágenes.
pdfsandwich es una utilidad de línea de comandos. Si tiene un archivo pdf escaneado, por ejemplo este:
alice.pdf
(que es el primer capítulo de una novela de la que quizás haya oído hablar), invoque pdfsandwich así:pdfsandwich alice.pdf
Esto generará un archivo
alice_ocr.pdf
que se parece al archivo original, pero el texto reconocido se colocará detrás de las imágenes escaneadas. Puede realizar búsquedas de texto completo ahora o seleccionar áreas de texto.
Otra opción podría ser OCRmyPDF
.
La versión más nueva de Tesseract (3.03 RC al momento de escribir esto , en 2014) puede hacer esto:
Este es el comando:
tesseract -l <lang> input.tif output pdf
pypdfocr
es lo que funcionó para mí. Es un script de Python que simplifica todo el uso de Tesseract. Después de instalar las dependencias (en Linux es un proceso mucho más simple), es tan simple como escribir:
pypdfocr myfile.pdf
Y abriendo myfile_ocr.pdf
un rato después.
Uso Microsoft OneNote como herramienta de OCR. Al hacer clic con el botón derecho en una imagen, puede copiar el texto completo en imágenes y también tiene la capacidad de buscar texto en la imagen. Es gratuito y preciso, se ejecuta en Windows y es compatible con casi todos los formatos de imagen.
También puede buscar a través de archivos PDF e imágenes en archivos PDF.
El punto extra es que admite varios idiomas :) Inglés, francés, español también
https://www.microsoft.com/en-us/store/p/leadtools-ocr/9wzdncrdr0d5 es una aplicación pequeña y sencilla de WinRT (también funciona bien en Win10) que no hace más que tomar una imagen o un pdf y generar un sándwich PDF o texto. Es un poco feo y no tiene absolutamente ninguna configuración, pero hace esta pequeña tarea a la perfección.
Puede obtener texto de búsqueda con Google Drive.
Primero, elija una configuración clave. En "general" en la configuración de Google Drive, marque la casilla junto a "Convertir cargas: Convierta los archivos cargados al formato del editor de Google Docs".
Ahora cargue el pdf en su Google Drive (haga clic en "nuevo", luego "cargar archivo"). Cuando se complete la carga (puede tomar uno o dos minutos), haga clic con el botón derecho. (Si tiene problemas para encontrarlo, intente presionar "Reciente" en la barra lateral izquierda). Como estaba diciendo, haga clic derecho en el pdf que cargó y elija "Abrir con... Google Docs". Ahora tendrá texto de búsqueda.
Otra opción es pdf2pdfocr ( https://github.com/LeoFCardoso/pdf2pdfocr ) que se basa en Tesseract-OCR y puede ejecutarse de forma nativa en los sistemas operativos Windows, MacOS y Linux.
Descargo de responsabilidad: soy el desarrollador de pdf2pdfocr.
Mientras que las otras respuestas en este hilo se centran en el software de escritorio, he tenido mucho éxito con este servicio web: http://www.searchablepdfs.org/
Le permite cargar un PDF de un documento escaneado y genera un "PDF sándwich" con texto OCR incrustado que puede copiar/pegar.
Ventajas:
tesseract
, que mencionó Cornelius)Contras:
Dos opciones más:
1) En línea: www.sandwichpdf.com
2) Escritorio (múltiples sistemas operativos): NAPS2 - https://www.naps2.com/
Echa un vistazo a OCRvision . OCRvision es un software de búsqueda de PDF . Puede convertir cualquier documento escaneado en una carpeta a PDF con capacidad de búsqueda automáticamente. Es compatible con OCR multilingüe. Se puede configurar tanto para escanear PDF como para archivos de imagen y luego convertirlos a PDF con capacidad de búsqueda .
Descargo de responsabilidad: estoy asociado con OCRvision como desarrollador
Nicolás Raúl
Cornelio
vicache
Cornelio
vicache
madtux