PDF/A es una versión estandarizada por ISO del formato de documento portátil (PDF) especializada para la preservación digital de documentos electrónicos.
( https://en.wikipedia.org/wiki/PDF/A )
Esto es excelente, pero ¿existen herramientas gratuitas para verificar el cumplimiento de un solo archivo PDF con cualquiera de los subestándares de PDF/A (PDF/A-1, PDF/A-2, PDF/A-3)?
En este (antiguo) sitio web he encontrado una lista de herramientas disponibles comercialmente:
Sin embargo, dada la importancia de este tema, espero que haya algún tipo de herramienta disponible gratuitamente. Como visión, sería bueno si un conjunto de herramientas de PDF de código abierto establecido, como poppler , respaldara dicho análisis.
Hay JHove. JHove es una herramienta de código abierto para "validar" el cumplimiento de PDF/A, hasta cierto punto. Muchas bibliotecas/instituciones lo usan, por lo que desde este punto de vista es una buena respuesta a mi pregunta.
Recientemente, se ha publicado un artículo sobre JHove en el contexto de los modernos sistemas de almacenamiento de documentos: http://www.pdfa.org/wp-content/uploads/2014/12/PDF_A_JHOVE_Friese_28112014_en1.pdf
Para citar de él:
JHOVE es una herramienta de código abierto para identificar, caracterizar y validar formatos comunes como pdf, tiff, jpeg, aiff y wave. JHOVE incluye módulos de validación para doce formatos de archivo diferentes, incluido PDF.
y
Como muchas instituciones de memoria utilizan principalmente el formato PDF y la calidad de sus archivos no siempre es un argumento suficiente para convertirlos a PDF/A, creo que un validador de PDF estándar sigue siendo tan necesario como siempre lo ha sido. En general, se seguirá utilizando JHOVE, a pesar de sus limitaciones, y las decisiones relativas a la archivabilidad de un archivo determinado dependerán de los resultados que proporcione JHOVE.
JHOVE aún puede ser útil, siempre que los usuarios comprendan sus informes de errores y conozcan las formas de resolverlos. Hasta el momento no existe una gran cantidad de documentación sobre este tema. Tanto nestor (AG Format Recognition) como Open Preservation Foundation pretenden poner de su parte para mejorar esta situación pronto.
Aquí hay una lista de mensajes de error de JHove: http://wiki.opf-labs.org/display/KB/JHOVE+Error+Messages
Puedes usar veraPDF :
Usage: veraPDF [options] FILES
Options:
-x, --extract
Extracts and reports PDF features.
Default: false
--fixmetadata
Performs metadata fixes.
Default: false
-f, --flavour
Chooses built-in Validation Profile flavour, e.g. '1b'. Alternatively,
supply '0' or no argument for automatic flavour detection based on a file
's
metadata.
Default: 0
Possible Values: [0, 1a, 1b, 2a, 2b, 2u, 3a, 3b, 3u]
--format
Chooses output format.
Default: mrr
Possible Values: [xml, mrr, text]
-h, --help
Shows this message and exits.
Default: false
-l, --list
Lists built-in Validation Profiles.
Default: false
--maxfailures
Sets maximum amount of failed checks.
Default: -1
--maxfailuresdisplayed
Sets maximum amount of failed checks displayed for each rule.
Default: 100
-o, --off
Turns off PDF/A validation
Default: false
--policyfile
Select a policy schematron or XSL file.
--prefix
Sets file name prefix for any fixed files.
Default: veraFixMd_
-p, --profile
Loads a Validation Profile from given path and exits if loading fails.
This overrides any choice or default implied by the -f / --flavour option
.
-r, --recurse
Recurses through directories. Only files with .pdf extensions are
processed.
Default: false
--savefolder
Sets output directory for any fixed files.
Default: <empty string>
--success, --passed
Logs successful validation checks.
Default: false
-v, --verbose
Adds failed test information to text output.
Default: false
--version
Displays veraPDF version information.
Default: false
veraPDF is processing STDIN and is expecting an EOF marker.
If this isn't your intention you can terminate by typing an EOF equivalent:
- Linux or Mac users should type CTRL-D
- Windows users should type CTRL-Z
Es posible que desee consultar la biblioteca Apache PDFBox (de código abierto):
Esto incluye un validador de PDF/A (solo PDF/A-1b) que es bastante bueno. Recomendaría revisar PDFBox 2.0.0 (que actualmente es una versión candidata); Lo puedes encontrar aquí:
https://pdfbox.apache.org/download.cgi#20x
Luego, descargue el binario independiente Preflight preconstruido (actualmente preflight-app-2.0.0-RC1.jar ).
La siguiente publicación de blog resume parte del trabajo que hicimos con Apache Preflight como parte de un proyecto de investigación (contiene enlaces a otros recursos que pueden resultarle útiles):
https://www.bitsgalore.org/2015/07/08/why-pdfa-validation-matters-part-2
En una nota al margen, Bruno Lowagie mencionó un nuevo validador financiado por la UE. Esto ahora se conoce como VeraPDF ; acaban de publicar (octubre de 2015) una versión anticipada que cubre completamente PDF/a1b (y soporte parcial de PDF/A-1a, PDF/A-2 y PDF/A-3). Más información aquí:
http://verapdf.org/2015/11/02/complete-pdfa-1b-coverage-now-disponible-in-0-6-release-of-verapdf/
Esto todavía está en sus primeras etapas, pero parece que están progresando rápidamente, por lo que definitivamente es algo a lo que hay que estar atento.
max wyss
Jan Philip Gehrcke
bruno lowagie