Usé la biblioteca PyPDF2 y abrí el archivo pdf.
file = open("C:\\Users\\ZJ\\S40rooms.pdf",'rb')
¿Qué debo saber para leer el contenido del pdf? y necesito conocer todas las funciones en PyPDF2 para usarlo más tarde.
y también, sobre la búsqueda en pdf por python 2.7, tengo una tabla dentro del pdf... y necesito dividir cada columna por separado para buscar fácilmente.
PyPDF2 tiene un módulo llamado PdfFileReader , por lo que tendrá que importarlo . No estoy seguro de si conoce la sintaxis para importar desde un módulo existente, así que la incluiré.
desde PyPDF2 importar PdfFileReader
archivo = PdfFileReader(open("filePath", 'rb'))
Aquí hay una lista aproximada de métodos.
getOutlineRoot: obtiene el contorno de la raíz
pero puede encontrar una lista más exhaustiva aquí PyPDF2: la nueva bifurcación en pyPdf y código de muestra y código de demostración aquí Manipulación de archivos PDF con Python
Tenía más enlaces, pero mi reputación o la falta de ella me impidió publicarlos. ¡Buena suerte!
PD Casi me olvido de las mesas. Pruebe un módulo llamado PANDAS, ¡es un módulo muy poderoso!
izzy