Comparar PDF con la imagen escaneada del PDF

Supongo que esto es una posibilidad remota, pero aquí va.

Enviamos un PDF por correo electrónico a un cliente, lo imprimen, lo firman y quizás lo anotan, lo escanean nuevamente y luego nos lo envían por correo electrónico. Entonces, el PDF que regresa no tiene un buen formato, sino una imagen guardada como PDF. Necesito comparar los dos PDF y encontrar las anotaciones.

¿Hay bibliotecas preferiblemente en C# (de pago y gratuitas) que serían útiles en esto?

Gracias

Respuestas (1)

La empresa para la que trabajo tiene un SDK de imágenes que podría ayudarlo con esto. La idea que tengo en mente es la siguiente:

  1. Cargue las páginas PDF originales y modificadas como imágenes con la misma resolución. El código para eso es simple:

    RasterCodecs _codecs = new RasterCodecs();
    RasterImage imageBefore = _codecs.Load(pdf1);
    RasterImage imageAfter = _codecs.Load(pdf2);

  2. Alinee ambas imágenes para que las áreas correspondientes tengan las mismas coordenadas. Esta parte necesita algo de trabajo, pero ya se ha hecho en esta publicación del foro . Deberá identificar ciertas palabras clave de búsqueda en ubicaciones aproximadas cuando esté diseñando su programa, pero después de eso, el proceso de alineación se automatiza mediante OCR.

  3. Una vez que tenga las 2 imágenes alineadas, puede restar (o XOR) una de la otra para obtener áreas donde son diferentes. Esto se hace usando la clase CombineFastCommand

Si desea probar nuestro SDK, tenemos una evaluación gratuita completamente funcional que puede encontrar aquí . La evaluación incluye soporte gratuito por correo electrónico y chat en línea, y puede ponerse en contacto con el soporte antes y durante la evaluación con cualquier pregunta que tenga, incluidas preguntas técnicas sobre nuestras funciones y programas de código de muestra.