¿Existe un software gratuito o de código abierto para verificar el cumplimiento de PDF/A?

PDF/A es una versión estandarizada por ISO del formato de documento portátil (PDF) especializada para la preservación digital de documentos electrónicos.

( https://en.wikipedia.org/wiki/PDF/A )

Esto es excelente, pero ¿existen herramientas gratuitas para verificar el cumplimiento de un solo archivo PDF con cualquiera de los subestándares de PDF/A (PDF/A-1, PDF/A-2, PDF/A-3)?

En este (antiguo) sitio web he encontrado una lista de herramientas disponibles comercialmente:

  • Acrobat 8 ​​Preflight (desarrollado por callas software)
  • PDF Tools AG: Validador de PDF de 3 alturas
  • LuraTech: Validador de PDF de LuraDocument
  • Sistemas de sellado: Comprobador de PDF
  • Intarsys: PDF/A Live!
  • callas: pdfaPilot
  • Apago: Tasador de PDF (vendido por Actino)

Sin embargo, dada la importancia de este tema, espero que haya algún tipo de herramienta disponible gratuitamente. Como visión, sería bueno si un conjunto de herramientas de PDF de código abierto establecido, como poppler , respaldara dicho análisis.

¿Desea verificar si el documento afirma ser compatible con PDF/A o realmente desea verificar si es compatible con PDF/A? En el primer caso, necesitaría una herramienta para mostrar los metadatos, como Adobe Reader. En el segundo caso, lo más probable es que no evite una herramienta comercial (porque determinar el cumplimiento no es una tarea trivial).
Quiero comprobar el cumplimiento. Soy consciente de que esto no es una tarea baladí. Aún así, existen muchos códigos PDF altamente complejos y de alta calidad que son de código abierto (ghostscript y poppler, solo por nombrar dos), por lo que creo que no es una suposición justa inferir la disponibilidad de software gratuito o de sistema operativo de la complejidad de la tarea :-). Pero supongo que también tiene algo de experiencia en el campo e hizo una búsqueda en Internet. :)
No existe tal cosa como un validador de PDF/A gratuito. La Comisión Europea ha iniciado un proyecto para crear dicho validador. Puedes leer más al respecto aquí: pdfa.org/news/… Como no es una tarea trivial, puedes imaginar que este proyecto está lejos de completarse. No tengo conocimiento de ningún entregable que ya esté disponible.

Respuestas (3)

Hay JHove. JHove es una herramienta de código abierto para "validar" el cumplimiento de PDF/A, hasta cierto punto. Muchas bibliotecas/instituciones lo usan, por lo que desde este punto de vista es una buena respuesta a mi pregunta.

Recientemente, se ha publicado un artículo sobre JHove en el contexto de los modernos sistemas de almacenamiento de documentos: http://www.pdfa.org/wp-content/uploads/2014/12/PDF_A_JHOVE_Friese_28112014_en1.pdf

Para citar de él:

JHOVE es una herramienta de código abierto para identificar, caracterizar y validar formatos comunes como pdf, tiff, jpeg, aiff y wave. JHOVE incluye módulos de validación para doce formatos de archivo diferentes, incluido PDF.

y

Como muchas instituciones de memoria utilizan principalmente el formato PDF y la calidad de sus archivos no siempre es un argumento suficiente para convertirlos a PDF/A, creo que un validador de PDF estándar sigue siendo tan necesario como siempre lo ha sido. En general, se seguirá utilizando JHOVE, a pesar de sus limitaciones, y las decisiones relativas a la archivabilidad de un archivo determinado dependerán de los resultados que proporcione JHOVE.

JHOVE aún puede ser útil, siempre que los usuarios comprendan sus informes de errores y conozcan las formas de resolverlos. Hasta el momento no existe una gran cantidad de documentación sobre este tema. Tanto nestor (AG Format Recognition) como Open Preservation Foundation pretenden poner de su parte para mejorar esta situación pronto.

Aquí hay una lista de mensajes de error de JHove: http://wiki.opf-labs.org/display/KB/JHOVE+Error+Messages

Alguien debería intentar ver qué tan bien funciona la validación basada en iText: api.itextpdf.com/pdfa
Tenga en cuenta que el módulo JHOVE PDF no se admite activamente y ahora está muy desactualizado. Yo recomendaría veraPDF en su lugar.

Puedes usar veraPDF :

  • código abierto (veraPDF tiene doble licencia bajo la Licencia Pública General GNU v3 o posterior (GPLv3+) y la Licencia Pública Mozilla v2 o posterior (MPLv2+).)
  • Linux, Mac OS X, Microsoft Windows
  • escrito en Java
  • CLI o GUI

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquíingrese la descripción de la imagen aquí

Usage: veraPDF [options] FILES
  Options:
    -x, --extract
       Extracts and reports PDF features.
       Default: false
    --fixmetadata
       Performs metadata fixes.
       Default: false
    -f, --flavour
       Chooses built-in Validation Profile flavour, e.g. '1b'. Alternatively,
       supply '0' or no argument for automatic flavour detection based on a file
's
       metadata.
       Default: 0
       Possible Values: [0, 1a, 1b, 2a, 2b, 2u, 3a, 3b, 3u]
    --format
       Chooses output format.
       Default: mrr
       Possible Values: [xml, mrr, text]
    -h, --help
       Shows this message and exits.
       Default: false
    -l, --list
       Lists built-in Validation Profiles.
       Default: false
    --maxfailures
       Sets maximum amount of failed checks.
       Default: -1
    --maxfailuresdisplayed
       Sets maximum amount of failed checks displayed for each rule.
       Default: 100
    -o, --off
       Turns off PDF/A validation
       Default: false
    --policyfile
       Select a policy schematron or XSL file.
    --prefix
       Sets file name prefix for any fixed files.
       Default: veraFixMd_
    -p, --profile
       Loads a Validation Profile from given path and exits if loading fails.
       This overrides any choice or default implied by the -f / --flavour option
.
    -r, --recurse
       Recurses through directories. Only files with .pdf extensions are
       processed.
       Default: false
    --savefolder
       Sets output directory for any fixed files.
       Default: <empty string>
    --success, --passed
       Logs successful validation checks.
       Default: false
    -v, --verbose
       Adds failed test information to text output.
       Default: false
    --version
       Displays veraPDF version information.
       Default: false

veraPDF is processing STDIN and is expecting an EOF marker.
If this isn't your intention you can terminate by typing an EOF equivalent:
 - Linux or Mac users should type CTRL-D
 - Windows users should type CTRL-Z

PDFBox

Es posible que desee consultar la biblioteca Apache PDFBox (de código abierto):

https://pdfbox.apache.org

Esto incluye un validador de PDF/A (solo PDF/A-1b) que es bastante bueno. Recomendaría revisar PDFBox 2.0.0 (que actualmente es una versión candidata); Lo puedes encontrar aquí:

https://pdfbox.apache.org/download.cgi#20x

Luego, descargue el binario independiente Preflight preconstruido (actualmente preflight-app-2.0.0-RC1.jar ).

La siguiente publicación de blog resume parte del trabajo que hicimos con Apache Preflight como parte de un proyecto de investigación (contiene enlaces a otros recursos que pueden resultarle útiles):

https://www.bitsgalore.org/2015/07/08/why-pdfa-validation-matters-part-2

VeraPDF

En una nota al margen, Bruno Lowagie mencionó un nuevo validador financiado por la UE. Esto ahora se conoce como VeraPDF ; acaban de publicar (octubre de 2015) una versión anticipada que cubre completamente PDF/a1b (y soporte parcial de PDF/A-1a, PDF/A-2 y PDF/A-3). Más información aquí:

http://verapdf.org/2015/11/02/complete-pdfa-1b-coverage-now-disponible-in-0-6-release-of-verapdf/

Esto todavía está en sus primeras etapas, pero parece que están progresando rápidamente, por lo que definitivamente es algo a lo que hay que estar atento.