¿Cómo leer e imprimir el contenido de PDF en python 2.7? [cerrado]

Usé la biblioteca PyPDF2 y abrí el archivo pdf.

file = open("C:\\Users\\ZJ\\S40rooms.pdf",'rb')

¿Qué debo saber para leer el contenido del pdf? y necesito conocer todas las funciones en PyPDF2 para usarlo más tarde.

y también, sobre la búsqueda en pdf por python 2.7, tengo una tabla dentro del pdf... y necesito dividir cada columna por separado para buscar fácilmente.

Tenga en cuenta que este sitio se trata de recomendar software, no activos o recursos como instrucciones, manuales, contenido multimedia .

Respuestas (1)

PyPDF2 tiene un módulo llamado PdfFileReader , por lo que tendrá que importarlo . No estoy seguro de si conoce la sintaxis para importar desde un módulo existente, así que la incluiré.

desde PyPDF2 importar PdfFileReader

archivo = PdfFileReader(open("filePath", 'rb'))

Aquí hay una lista aproximada de métodos.

  • addBlankPage-crear una nueva página
  • addBookmark-añadir un marcador al pdf
  • addLink- agrega un enlace en un área rectangular específica
  • addMetaData- agrega metadatos al pdf
  • insertPage: agrega una página en un índice específico
  • insertBlankPage: inserta una página en blanco en un índice específico
  • addNamedDestination: agregue un objeto de destino con nombre a la página
  • addNamedDestinationObject: agregue un destino con nombre creado a la página
  • cifrar-cifrar el pdf (configurar use_128bit en True crea un cifrado de 128 bits y False crea un cifrado de 40 bits con un valor predeterminado de 128 bits)
  • removeLinks-elimina enlaces por objeto
  • removeText-elimina texto por objeto de texto -setPageMode-establece el modo de página (por ejemplo, /FullScreen,/UseOutlines,/UseThumbs,/UseNone)
  • setPageLayout: establece el diseño (por ejemplo, NoLayout,/SinglePage,/OneColumn,/TwoColumnLeft)
  • getPage-obtener una página por índice
  • getLayout-obtener el diseño
  • getPageMode-obtiene el modo de página
  • getOutlineRoot: obtiene el contorno de la raíz

    pero puede encontrar una lista más exhaustiva aquí PyPDF2: la nueva bifurcación en pyPdf y código de muestra y código de demostración aquí Manipulación de archivos PDF con Python

Tenía más enlaces, pero mi reputación o la falta de ella me impidió publicarlos. ¡Buena suerte!

PD Casi me olvido de las mesas. Pruebe un módulo llamado PANDAS, ¡es un módulo muy poderoso!

muchas gracias :), pero sobre PANDAS ... ¿Es el mismo PyPDF2?
porque tengo una tabla que contiene información dentro del PDF, y lo único que quiero hacer es buscar en la tabla y mostrar la información.
Sí, para eso es exactamente Pandas;)
¿Puedes mostrarme cómo puedo usar los pandas? ¿Solo necesito importar pandas o debo usar pip para instalarlo?
Lo siento, te dejé con él :( Sí, usa pip y luego impórtalo como cualquier otro módulo. Una vez más, lo siento por dejarte con él, no era mi intención. Poca atención lol