¿Cómo extraer imágenes y texto de un archivo pdf?

Necesito crear una herramienta que tome texto e imágenes de pdf y los represente en un archivo HTML receptivo. No necesito mantener el posicionamiento de los elementos, pero el orden es importante.

El problema al que me enfrento es la extracción de texto e imágenes de archivos pdf.

He probado algunas herramientas que transforman pdf a html, pero están más orientadas a la reproducción visual del archivo (posicionamiento absoluto, párrafos divididos en líneas). Necesito algo que me proporcione un feed de párrafos e imágenes.

¿Alguna idea para eso? No me importa buscar herramientas pagas también.

¡Gracias!

¿Con qué tipo de contenido estás lidiando? ¿Revistas, diarios académicos, libros de texto, periódicos, estados financieros? La razón por la que está teniendo dificultades para encontrar una solución es que, ¿cómo se hace un HTML ajustable a partir de un libro de texto de geografía escolar? ¿O una revista? Las imágenes, la fuente y el tamaño del texto, a menudo están estrechamente acoplados, y si se rompen, eso sería un galimatías. Por otro lado, un trabajo académico es mucho más simple, aunque aún necesita descifrar columnas y párrafos, por lo que no es trivial.

Respuestas (4)

Si un SDK comercial es una opción para usted, puede consultar LEADTOOLS Document Converter. Descargo de responsabilidad: soy un empleado de este producto

El SDK de Document Converter de LEADTOOLS le permite convertir desde y hacia cualquier documento o formato de imagen ráster como:

  • Adobe Acrobat PDF y PDF/A Microsoft Office DOC/DOCX, XLS/XLSX,
  • Formatos PPT/PPTX, PST, EML, MSG y XPS Formatos CAD como DXF,
  • DWG y DWF TIFF, JPEG, PNG, EXIF, BMP y cientos de tramas más
  • formatos de imagen Texto sin formato, RTF, HTML, MOBI, ePUB y más IBM AFP,
  • MO:DCA, IOCA y PTOCA

También hay una evaluación gratuita de 60 días para que pueda probarlo antes de comprarlo.

Descargo de responsabilidad: soy un empleado de este producto

La aplicación Apache pdfbox puede extraer pruebas e imágenes de documentos PDF. Es un software gratuito y fácil de usar.

https://pdfbox.apache.org/1.8/commandline.html

PDFMate PDF Converter Free puede hacer eso. Inicie el programa, elija TXT como formato de salida y luego haga clic en el botón "Convertir".

Descargo de responsabilidad: trabajo para Datalogics como Gerente de Producto responsable de crear productos como este.

Hay una serie de herramientas que ya están diseñadas para convertir PDF a HTML, ¿realmente necesita crear una usted mismo? ¿O estás buscando algo que haga exactamente lo que quieres? Los requisitos son un poco vagos.

Sin embargo, si está buscando crear algo, hágase un favor y obtenga un SDK confiable para trabajar con archivos PDF y extraiga el texto y las imágenes. Hay una serie de SDK que pueden ayudarlo con esto (en orden alfabético por nombre de empresa)

Si está buscando una herramienta que haga la conversión de PDF a HTML por usted, que debería ayudarlo a llegar al 90% del camino en función de lo que preguntó, eche un vistazo a nuestro producto PDF Alchemist . No utiliza posicionamiento absoluto y reconstruye el texto en orden de lectura (incluso si no es así como se almacena en el PDF). La otra opción es PDFix , no recuerdo si usan posicionamiento absoluto o no (o si hay una opción para desactivar el posicionamiento absoluto).