¿Cómo extraer imágenes y texto de un archivo pdf?

Question

¿Cómo extraer imágenes y texto de un archivo pdf?

pdf
xml
json
Software

gabitzish

Necesito crear una herramienta que tome texto e imágenes de pdf y los represente en un archivo HTML receptivo. No necesito mantener el posicionamiento de los elementos, pero el orden es importante.

El problema al que me enfrento es la extracción de texto e imágenes de archivos pdf.

He probado algunas herramientas que transforman pdf a html, pero están más orientadas a la reproducción visual del archivo (posicionamiento absoluto, párrafos divididos en líneas). Necesito algo que me proporcione un feed de párrafos e imágenes.

¿Alguna idea para eso? No me importa buscar herramientas pagas también.

¡Gracias!

Ryan

¿Con qué tipo de contenido estás lidiando? ¿Revistas, diarios académicos, libros de texto, periódicos, estados financieros? La razón por la que está teniendo dificultades para encontrar una solución es que, ¿cómo se hace un HTML ajustable a partir de un libro de texto de geografía escolar? ¿O una revista? Las imágenes, la fuente y el tamaño del texto, a menudo están estrechamente acoplados, y si se rompen, eso sería un galimatías. Por otro lado, un trabajo académico es mucho más simple, aunque aún necesita descifrar columnas y párrafos, por lo que no es trivial.

Respuestas (4)

¿Cómo extraer imágenes y texto de un archivo pdf?

¿Con qué tipo de contenido estás lidiando? ¿Revistas, diarios académicos, libros de texto, periódicos, estados financieros? La razón por la que está teniendo dificultades para encontrar una solución es que, ¿cómo se hace un HTML ajustable a partir de un libro de texto de geografía escolar? ¿O una revista? Las imágenes, la fuente y el tamaño del texto, a menudo están estrechamente acoplados, y si se rompen, eso sería un galimatías. Por otro lado, un trabajo académico es mucho más simple, aunque aún necesita descifrar columnas y párrafos, por lo que no es trivial.

villalobos · Answer 1

Si un SDK comercial es una opción para usted, puede consultar LEADTOOLS Document Converter. Descargo de responsabilidad: soy un empleado de este producto

El SDK de Document Converter de LEADTOOLS le permite convertir desde y hacia cualquier documento o formato de imagen ráster como:

Adobe Acrobat PDF y PDF/A Microsoft Office DOC/DOCX, XLS/XLSX,
Formatos PPT/PPTX, PST, EML, MSG y XPS Formatos CAD como DXF,
DWG y DWF TIFF, JPEG, PNG, EXIF, BMP y cientos de tramas más
formatos de imagen Texto sin formato, RTF, HTML, MOBI, ePUB y más IBM AFP,
MO:DCA, IOCA y PTOCA

También hay una evaluación gratuita de 60 días para que pueda probarlo antes de comprarlo.

Descargo de responsabilidad: soy un empleado de este producto

Andreas F. · Answer 2

La aplicación Apache pdfbox puede extraer pruebas e imágenes de documentos PDF. Es un software gratuito y fácil de usar.

https://pdfbox.apache.org/1.8/commandline.html

joe gromny · Answer 3

PDFMate PDF Converter Free puede hacer eso. Inicie el programa, elija TXT como formato de salida y luego haga clic en el botón "Convertir".

Brandon Haugen · Answer 4

Descargo de responsabilidad: trabajo para Datalogics como Gerente de Producto responsable de crear productos como este.

Hay una serie de herramientas que ya están diseñadas para convertir PDF a HTML, ¿realmente necesita crear una usted mismo? ¿O estás buscando algo que haga exactamente lo que quieres? Los requisitos son un poco vagos.

Sin embargo, si está buscando crear algo, hágase un favor y obtenga un SDK confiable para trabajar con archivos PDF y extraiga el texto y las imágenes. Hay una serie de SDK que pueden ayudarlo con esto (en orden alfabético por nombre de empresa)

BCL Technologies easyPDF SDK
Datalogics
- Biblioteca de Adobe PDF
- Kit de herramientas de Java en PDF
yo texteo
Documentos Sólidos

Si está buscando una herramienta que haga la conversión de PDF a HTML por usted, que debería ayudarlo a llegar al 90% del camino en función de lo que preguntó, eche un vistazo a nuestro producto PDF Alchemist . No utiliza posicionamiento absoluto y reconstruye el texto en orden de lectura (incluso si no es así como se almacena en el PDF). La otra opción es PDFix , no recuerdo si usan posicionamiento absoluto o no (o si hay una opción para desactivar el posicionamiento absoluto).

¿Cómo extraer imágenes y texto de un archivo pdf?

gabitzish

Ryan

Respuestas (4)

villalobos

Andreas F.

joe gromny

Brandon Haugen

Fuente de datos que cambia rápidamente para demostración de software (datos)

Software de currículum vitae académico con salida PDF y HTML

Generación de archivos PDF a partir de comentarios XML

Buscando un marco de JavaScript para dibujar paneles basados en la descripción XML o JSON

¿Existe algún software gratuito de modelado de datos que exporte el esquema a un formato legible por máquina que no sea SQL?

En iBooks de iPad, ¿cómo hacer que aparezca resaltado para archivos PDF?

¿Cómo deshabilitar la edición de PDF en la aplicación de vista previa?

¿Puedo eliminar los saltos de página (o reajustar documentos postscript) en archivos PDF?

herramienta de inspección XML

Una impresora virtual que imprimirá en un diseño y luego lo guardará en una computadora en Windows