Software OCR de imágenes .TIFF con soporte de rotación automática

Estoy trabajando con una persona que tiene aproximadamente 30 000 esquemas eléctricos escaneados que contienen texto impreso (no escrito a mano) en formato .TIFF. Muchos de los esquemas fueron escaneados fuera de orientación, pero en ningún patrón particular (es decir, algunos están fuera de orientación por 90 grados, otros por 180 grados). Pasa 30 minutos todos los días rotando las imágenes.

¿Hay alguna aplicación (por ejemplo, Adobe Acrobat Pro) que pueda rotarlos automáticamente usando OCR para asegurarse de que el texto esté boca arriba? Sé que hay una manera de hacerlo a través de la interfaz de línea de comandos, pero me gustaría encontrar una aplicación con una GUI. La aplicación también tendría que funcionar por lotes (es decir, para no tener que revisar cada archivo uno por uno). Trabajo para una gran corporación, por lo que el costo no es una preocupación tan grande como lo sería normalmente. La aplicación sería ejecutable en Windows 7.

Gracias por su ayuda.

Respuestas (3)

Si desea desarrollar su propia aplicación, puede consultar el SDK LEADTOOLS OCR . Usando las bibliotecas LEADTOOLS, podrá rotar automáticamente todas las páginas que necesitan rotarse. Durante la operación de OCR, puede llamar al método AutoPreProcess()

AutoPreprocess(OcrAutoPreprocessPageCommand.Rotate, null); 

en cada página Ocr que se agrega al documento. Aquí hay algunas líneas de código que le mostrarán cómo puede rotar automáticamente una página.

// Create an instance of the engine
using (IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.Advantage, false))
{
  // Start the engine using default parameters
  ocrEngine.Startup(null, null, null, LEAD_VARS.OcrAdvantageRuntimeDir);

  // Create an OCR document
  using (IOcrDocument ocrDocument = ocrEngine.DocumentManager.CreateDocument())
  {
     // Add this image to the document
     IOcrPage ocrPage = ocrDocument.Pages.AddPage(tifFileName, null);

     // Auto-preprocess it
     ocrPage.AutoPreprocess(OcrAutoPreprocessPageCommand.Rotate, null);

     // Recognize it and save it as PDF
     ocrPage.Recognize(null);
     ocrDocument.Save(pdfFileName, DocumentFormat.Pdf, null);
   }
  }

Descargo de responsabilidad: soy un empleado de este producto

Acrobat girará automáticamente el documento durante el OCR para corregir la orientación independientemente de la orientación actual (incluso si algunos están 90, 180 o 270 fuera de orientación). Es posible que no corrija la orientación en los siguientes casos 1) Si no reconoce ningún texto en el documento 2) Si hay texto en el documento de múltiples orientaciones

Puede usar la versión de prueba de Acrobat DC https://acrobat.adobe.com/in/en/free-trial-download.html
Pasos para usar:

  1. Herramientas> Exploración mejorada> En varios archivos
  2. Seleccionar todos los archivos
  3. Especifique la configuración para ejecutar OCR y dónde guardar todos los documentos

Pruebe pdf2pdfocr ( https://github.com/LeoFCardoso/pdf2pdfocr ) con la opción '-u' para un solo archivo.

Puede obtener la ejecución por lotes con algún script CMD o BASH.

Descargo de responsabilidad: soy el desarrollador de pdf2pdfocr.