¿Existe alguna herramienta que pueda reconocer texto en un documento escaneado (PNG, JPG) y convertirlo en un archivo de texto normal (DOC, TXT)?
Debería
He usado con éxito Tesseract para el reconocimiento óptico de caracteres en Ubuntu.
Es gratuito, de código abierto y mantenido por Google.
Si bien no está mal con los caracteres y números latinos, tiene problemas con los caracteres japoneses, por ejemplo. Es posible que primero deba alimentarlo con datos de entrenamiento según lo que desee que se reconozca.
Puede leer muchos formatos de imagen diferentes.
Yo uso OCRfeeder para esto. Es gratuito, de código abierto y se ejecuta en Linux (desafortunadamente, no hay un ejecutable precompilado para OSX, aunque es posible que pueda compilarlo desde la fuente). De forma predeterminada, se ejecuta en el motor Tesseract, aunque esto se puede cambiar.
Capturas de pantalla (haz clic en ellas para ver imágenes más grandes)
No tengo mucha experiencia con nada que no sea inglés simple, pero funciona bien para mí y puede leer la mayoría de los formatos de imagen. También puede abrir archivos PDF leídos.
.doc
cuando sea necesario), texto sin formato ( .txt
), y másUso Microsoft OneNote como herramienta de OCR. Al hacer clic con el botón derecho en una imagen, puede copiar el texto completo en imágenes y también tiene la capacidad de buscar texto en la imagen. Es gratuito y preciso, se ejecuta en Windows y es compatible con casi todos los formatos de imagen.
Puede copiar el texto del interior y pegarlo en un documento de texto.
No estoy seguro de si funciona en Ubuntu o no a través de Wine, ya que Microsoft Office ahora está disponible para Mac OS, OneNote funcionará en él.
El punto extra es que admite varios idiomas :) Inglés, francés, español también
Hay algunas herramientas populares de línea de comandos de OCR que puede usar (no estoy seguro de si tienen GUI):
Reconocimiento de caracteres de código abierto. Convierte imágenes escaneadas de texto en archivos de texto. GOCR se puede usar con diferentes interfaces, lo que facilita la migración a diferentes sistemas operativos y arquitecturas. Puede abrir muchos formatos de imagen diferentes, y su calidad ha ido mejorando día a día.
OCRopus ™ ( Preguntas frecuentes ) (escrito en Python, NumPy y SciPy)
Sistema OCR que se centra en el uso de aprendizaje automático a gran escala para abordar problemas en el análisis de documentos, con análisis de diseño conectable, reconocimiento de caracteres conectable, modelado estadístico de lenguaje natural y capacidades multilingües.
El motor OCRopus se basa en dos proyectos de investigación: un reconocedor de escritura a mano de alto rendimiento desarrollado a mediados de los 90 e implementado por la oficina del censo de EE. UU. y nuevos métodos de análisis de diseño de alto rendimiento.
El desarrollo de OCRopus está patrocinado por Google e inicialmente está destinado a esfuerzos de conversión de documentos de alto rendimiento y gran volumen. Esperamos que también sea un excelente sistema OCR para muchas otras aplicaciones.
Tessnet2 (código abierto, OCR, Tesseract, .NET, DOTNET, C#, VB.NET, C++/CLI)
Tesseract es un motor OCR de código abierto C++. Tessnet2 es un ensamblado .NET que expone métodos muy simples para hacer OCR. Tessnet2 está bajo licencia Apache 2 (como tesseract), lo que significa que puede usarlo como quiera, incluido en productos comerciales.
Algunos otros: ABBYY CLI OCR para Linux , Asprise OCR
Para obtener una lista más completa, consulte: Lista de software de reconocimiento óptico de caracteres en Wikipedia
Consulte también: wanghaisheng/awesome-ocr
- Una lista seleccionada de recursos prometedores de OCR en GitHub.
Hilo relacionado: ¿Cuál es la mejor y más simple solución de OCR?
Screenotate es una aplicación para macOS y Windows.
Utiliza el motor Tesseract OCR bien desarrollado de Google.
Cada captura de pantalla es un archivo HTML independiente.
La herramienta OCR de nuestra dhurvaa transforma cualquier imagen, documento escaneado o PDF impreso en texto editable:
https://dhurvaa.com/online_ocr_tool
Funciona en segundos.
izzy
apt-get
etc.)?Nicolás Raúl
izzy
apt-cache search tesseract
:)franck dernoncourt
Cazador de ciervos
Nicolás Raúl
marcapasos