Herramienta de reconocimiento óptico de caracteres (OCR)

¿Existe alguna herramienta que pueda reconocer texto en un documento escaneado (PNG, JPG) y convertirlo en un archivo de texto normal (DOC, TXT)?

Debería

  • Trabaja en Ubuntu y Mac OS X
  • Se libre
  • Trabaja con los tipos de imágenes más comunes

Respuestas (6)

He usado con éxito Tesseract para el reconocimiento óptico de caracteres en Ubuntu.

Es gratuito, de código abierto y mantenido por Google.

Si bien no está mal con los caracteres y números latinos, tiene problemas con los caracteres japoneses, por ejemplo. Es posible que primero deba alimentarlo con datos de entrenamiento según lo que desee que se reconozca.

Puede leer muchos formatos de imagen diferentes.

Interfaz de usuario de Tesseract

¡Buena recomendación! Yo también uso eso. Cambié de Cuneiform , lo cual no estuvo mal, pero Tesseract funciona mucho mejor para mí. Sin embargo, usándolo desde la línea de comandos :) ¿Tal vez podría señalar de dónde proviene esa GUI y qué paquetes instalar ( apt-getetc.)?
La captura de pantalla no es mía, en realidad, pero muestra la idea. Utilizo Tesseract como biblioteca de Alfresco para realizar búsquedas de texto completo en grandes cantidades de documentos.
Ya veo. Gracias por la respuesta; Pensé que podría haberme perdido algo, ya que no vi ninguna GUI mencionada por apt-cache search tesseract:)
+1 Tesseract es el motor OCR de código abierto más preciso (por ejemplo , splitbrain.org/blog/2010-06/15-linux_ocr_software_comparison )
Las palabras "mantenido por Google" dan bastante miedo, considerando el récord no tan estelar del gigante de mantener proyectos pasados.
@DeerHunter: Es posible que lo descarguen cuando terminen de escanear todas las bibliotecas :-)
@NicolasRaoul, en realidad es probable que tengan una versión interna cerrada que ellos mismos usan; El código abierto es la forma en que Google absorbe, no devuelve. Al igual que el baile Chrome--Chromium.

Yo uso OCRfeeder para esto. Es gratuito, de código abierto y se ejecuta en Linux (desafortunadamente, no hay un ejecutable precompilado para OSX, aunque es posible que pueda compilarlo desde la fuente). De forma predeterminada, se ejecuta en el motor Tesseract, aunque esto se puede cambiar.

captura de pantalla captura de pantalla
Capturas de pantalla (haz clic en ellas para ver imágenes más grandes)

No tengo mucha experiencia con nada que no sea inglés simple, pero funciona bien para mí y puede leer la mayoría de los formatos de imagen. También puede abrir archivos PDF leídos.

  • admite la importación de archivos PDF o gráficos (este último en diferentes formatos, como JPG, PNG, PPM, PNM y más)
  • soporte de escáner directo (sin embargo, no hay alimentación automática, por lo que cada página debe agregarse por separado)
  • admite unpaper para el procesamiento posterior de imágenes escaneadas (para ajustarlas)
  • admite múltiples backends de OCR, como Tesseract , CuneiForm , GOCR , Ocrad
  • Puede editar el texto reconocido directamente, mientras se muestra la imagen correspondiente. Admite diccionarios para la corrección automática (al menos en Linux; no se pudo probar en otros sistemas): consulte el panel de la derecha en las dos capturas de pantalla anteriores
  • Exporta a PDF (¡con capacidad de búsqueda!), ODT (Texto de OpenDocument para, por ejemplo, LibreOffice/OpenOffice, que luego puede usar para convertir .doccuando sea necesario), texto sin formato ( .txt), y más
¡Gracias por mencionar eso! Ya estoy usando tesseract desde la línea de comandos (y me gusta). Le daré una oportunidad a OCRfeeder. Tal vez pueda decir algo sobre cómo funciona con documentos de varias páginas (¿verdad?), y si es compatible con el escáner directo (es decir, podría poner una pila de papel en el alimentador automático, presionar un botón y sale un PDF de varias páginas)?
@Izzy Acabo de recordar tu comentario. No lo he usado en documentos de varias páginas (no tengo mucho que escanear), así que YMMV. Gracias por la edición.
¡De nada! Acabo de probarlo en uno hasta ahora. Como la forma en que uno puede hacer las correcciones (lado a lado). Los archivos PDF exportados son bastante grandes; tal vez me he perdido una opción de "comprimir" para las imágenes allí.

Uso Microsoft OneNote como herramienta de OCR. Al hacer clic con el botón derecho en una imagen, puede copiar el texto completo en imágenes y también tiene la capacidad de buscar texto en la imagen. Es gratuito y preciso, se ejecuta en Windows y es compatible con casi todos los formatos de imagen.

Puede copiar el texto del interior y pegarlo en un documento de texto.

No estoy seguro de si funciona en Ubuntu o no a través de Wine, ya que Microsoft Office ahora está disponible para Mac OS, OneNote funcionará en él.

El punto extra es que admite varios idiomas :) Inglés, francés, español también

Hay algunas herramientas populares de línea de comandos de OCR que puede usar (no estoy seguro de si tienen GUI):

  • GOCR

    Reconocimiento de caracteres de código abierto. Convierte imágenes escaneadas de texto en archivos de texto. GOCR se puede usar con diferentes interfaces, lo que facilita la migración a diferentes sistemas operativos y arquitecturas. Puede abrir muchos formatos de imagen diferentes, y su calidad ha ido mejorando día a día.

  • OCRopus ™ ( Preguntas frecuentes ) (escrito en Python, NumPy y SciPy)

    Sistema OCR que se centra en el uso de aprendizaje automático a gran escala para abordar problemas en el análisis de documentos, con análisis de diseño conectable, reconocimiento de caracteres conectable, modelado estadístico de lenguaje natural y capacidades multilingües.

    El motor OCRopus se basa en dos proyectos de investigación: un reconocedor de escritura a mano de alto rendimiento desarrollado a mediados de los 90 e implementado por la oficina del censo de EE. UU. y nuevos métodos de análisis de diseño de alto rendimiento.

    El desarrollo de OCRopus está patrocinado por Google e inicialmente está destinado a esfuerzos de conversión de documentos de alto rendimiento y gran volumen. Esperamos que también sea un excelente sistema OCR para muchas otras aplicaciones.

  • Tessnet2 (código abierto, OCR, Tesseract, .NET, DOTNET, C#, VB.NET, C++/CLI)

    Tesseract es un motor OCR de código abierto C++. Tessnet2 es un ensamblado .NET que expone métodos muy simples para hacer OCR. Tessnet2 está bajo licencia Apache 2 (como tesseract), lo que significa que puede usarlo como quiera, incluido en productos comerciales.

Algunos otros: ABBYY CLI OCR para Linux , Asprise OCR

Para obtener una lista más completa, consulte: Lista de software de reconocimiento óptico de caracteres en Wikipedia

Consulte también: wanghaisheng/awesome-ocr- Una lista seleccionada de recursos prometedores de OCR en GitHub.

Hilo relacionado: ¿Cuál es la mejor y más simple solución de OCR?

Screenotate es una aplicación para macOS y Windows.

Utiliza el motor Tesseract OCR bien desarrollado de Google.
Cada captura de pantalla es un archivo HTML independiente.

La herramienta OCR de nuestra dhurvaa transforma cualquier imagen, documento escaneado o PDF impreso en texto editable:

https://dhurvaa.com/online_ocr_tool

Funciona en segundos.