¿Existen herramientas más robustas que Automator para extraer texto de múltiples PDF?

Hay una acción en Automator que le permite " Extraer texto PDF " mediante programación, pero falla cuando se alimenta una cantidad moderada de archivos (25 a 100). Peor aún, falla sin registrar nada útil, excepto un mensaje que dice "Automator Quit Unexpectedly".

¿Alguien sabe de un comando equivalente para hacer esto en Applescript? Estoy buscando herramientas en las que tenga más control sobre cosas como el registro y el manejo de errores para poder ser más eficiente en el procesamiento de archivos PDF en formato de texto.

Para evitar respuestas triviales como "sí" y "no" y quizás usar Applescript para llamar a una aplicación de Automator para realizar la extracción, considere explicar por qué Automator no es la herramienta para usted. Cuanto más "por qué" pueda agregar, más fácil será para alguien responder. Sin embargo, no necesita hacer nada; es posible que alguien tenga la respuesta que busca con los detalles proporcionados.
@bmike, parte del problema es que Automator sigue fallando cuando intento implementar el flujo de trabajo de extracción de texto... y los bloqueos parecen "aleatorios". es decir, el flujo de trabajo iterará a través de un número diferente de archivos PDF, extrayendo el texto correctamente y luego Automator morirá con "Automator Quit Inesperadamente"... Así que... Automator no está funcionando... Es posible que pueda agregue el manejo de errores si los archivos PDF específicos están causando los bloqueos (lo que no parece probable), pero al final, Applescript me da un control más preciso sobre lo que estoy haciendo.
@ user141146 Podrías probar sejda.com

Respuestas (1)

No sé cómo se compara con otras opciones, pero podría usar pdfotext. Se puede instalar con brew install xpdf.

do shell script "/usr/local/bin/pdftotext /usr/share/doc/bash/bash.pdf -" without altering line endings

Calibre también viene con algunas utilidades de línea de comandos:

/Applications/calibre.app/Contents/MacOS/ebook-convert /usr/share/doc/bash/bash.pdf /tmp/output.txt

Preguntas relacionadas: