Software para extraer y organizar texto de Docx

Tengo una afluencia de informes que me llegan, y necesito extraer algunos de los datos y ponerlos en un mejor formato (una hoja de cálculo de Excel). Los informes vienen en docx o pdf y se parecen a esto.

Miscellaneous data...................    
Unneeded data.......        
             North               South            West
Name         Lakeview Church     Lakeview Church  
Making       Brick               Wood  
Status       Gone                "small checkmark"
unneeded data.......    
Name         Baxter Building                      Baxter Building
Making       Brick                                Brick
Making       Gone                                 Great

Pero, el texto no está todo en tablas. Algunos son, algunos son simplemente en cuadros de texto colocados apropiadamente.

Me estoy arriesgando un poco aquí, pero esperaba que hubiera algo que me permitiera hacer algún tipo de plantilla que extrajera los datos apropiados y los reorganizara de la siguiente manera:

Name               Direction        Making          Status
Lakeview Church    North            Brick           Gone
Lakeview Church    South            Wood            Good

Además, hay algunas imágenes pequeñas en los informes. No necesito extraer las imágenes, pero si pudieran traducirse en algo para mostrar que una imagen estaba presente, sería genial. Y, si pudiera decirle que hiciera cosas como ignorar todas las cosas con "Iglesia" en el nombre en el lado norte, sería perfecto.

Respuestas (1)

Para una solución basada en codificación: Essential PDF , Essential DocIO se puede usar para analizar archivos PDF y Doc/Docx respectivamente. Essential XlsIO se puede utilizar para exportar los datos estructurados a Excel.

Ejemplo de extracción de texto PDF

Tablas en Word

El producto completo está disponible de forma gratuita sin limitaciones a través de la licencia comunitaria si califica (menos de 1 millón de dólares en ingresos).

Nota: trabajo para Syncfusion