Tengo una afluencia de informes que me llegan, y necesito extraer algunos de los datos y ponerlos en un mejor formato (una hoja de cálculo de Excel). Los informes vienen en docx o pdf y se parecen a esto.
Miscellaneous data...................
Unneeded data.......
North South West
Name Lakeview Church Lakeview Church
Making Brick Wood
Status Gone "small checkmark"
unneeded data.......
Name Baxter Building Baxter Building
Making Brick Brick
Making Gone Great
Pero, el texto no está todo en tablas. Algunos son, algunos son simplemente en cuadros de texto colocados apropiadamente.
Me estoy arriesgando un poco aquí, pero esperaba que hubiera algo que me permitiera hacer algún tipo de plantilla que extrajera los datos apropiados y los reorganizara de la siguiente manera:
Name Direction Making Status
Lakeview Church North Brick Gone
Lakeview Church South Wood Good
Además, hay algunas imágenes pequeñas en los informes. No necesito extraer las imágenes, pero si pudieran traducirse en algo para mostrar que una imagen estaba presente, sería genial. Y, si pudiera decirle que hiciera cosas como ignorar todas las cosas con "Iglesia" en el nombre en el lado norte, sería perfecto.
Para una solución basada en codificación: Essential PDF , Essential DocIO se puede usar para analizar archivos PDF y Doc/Docx respectivamente. Essential XlsIO se puede utilizar para exportar los datos estructurados a Excel.
Ejemplo de extracción de texto PDF
El producto completo está disponible de forma gratuita sin limitaciones a través de la licencia comunitaria si califica (menos de 1 millón de dólares en ingresos).
Nota: trabajo para Syncfusion