logo

Extraiga texto de un archivo PDF usando Python

Todos ustedes deben estar familiarizados con lo que son los archivos PDF. De hecho, son uno de los medios digitales más importantes y utilizados. PDF significa Formato de Documento Portable . Usa .pdf extensión. Se utiliza para presentar e intercambiar documentos de forma fiable, independientemente del software, hardware o sistema operativo.

Extraeremos texto de archivos pdf usando dos bibliotecas de Python, pypdf y PyMuPDF , en este articulo.



Extraer texto de un archivo PDF usando la biblioteca pypdf.

Paquete de Python pypdf se puede utilizar para lograr lo que queremos (extracción de texto), aunque puede hacer más de lo que necesitamos. Este paquete también se puede utilizar para generar, descifrar y fusionar archivos PDF. Nota: Para obtener más información, consulte Trabajar con archivos PDF en Python

Instalación

Para instalar este paquete, escriba el siguiente comando en la terminal.

pip install pypdf>

Ejemplo: PDF de entrada: extraer-pdf-texto-python



Python3






ejemplo de mapa java

# importing required modules> from> pypdf>import> PdfReader> > # creating a pdf reader object> reader>=> PdfReader(>'example.pdf'>)> > # printing number of pages in pdf file> print>(>len>(reader.pages))> > # getting a specific page from the pdf file> page>=> reader.pages[>0>]> > # extracting text from page> text>=> page.extract_text()> print>(text)>

>

>

declaración de caso de java

Producción:

extraer-pdf-python

Intentemos comprender el código anterior en fragmentos:

reader = PdfReader('example.pdf')>
  • Creamos un objeto de Lector PDF clase de la pypdf módulo.
  • El Lector PDF La clase toma un argumento posicional requerido de la ruta al archivo pdf.
print(len(reader.pages))>
  • paginas La propiedad proporciona una lista de Objetos de página . Entonces, aquí podemos usar el incorporado solo() Función de Python para obtener el número de páginas del archivo pdf.
page = reader.pages[0]>
  • No fue lector.paginas es una lista de Objetos de página , podemos obtener un específico Página del pdf tocando el índice de la página. En Python, la indexación de listas comienza desde 0, por lo que lector.páginas[0] nos da la primera página del archivo pdf.
text = page.extract_text() print(text)>
  • El objeto de página tiene función extraer_texto() para extraer texto de la página pdf.

Extracción de texto de un archivo PDF utilizando la biblioteca PyMuPDF.

PyMuPDF es una biblioteca de Python que admite formatos de archivo como XPS, PDF, CBR y CBZ. Pero por ahora, en este artículo nos concentraremos en los archivos PDF (formato de documento portátil).

Instalación

pip install pymupdf pip install fitz>

Para extraer el texto del pdf, debemos seguir los siguientes pasos:

  1. Importando la biblioteca
  2. Documento de apertura
  3. Extrayendo texto

Nota: Estamos usando el archivo sample.pdf aquí; Para obtener el pdf, utilice el siguiente enlace.

muestra.pdf – Enlace

1. Importando la biblioteca

Python3




import> fitz>

>

>

2. Documento de apertura

Python3


lanzar int a cadena



doc>=> fitz.>open>(>'sample.pdf'>)>

>

>

Aquí creamos un objeto llamado doc y el nombre del archivo debe ser una cadena de Python.

3. Extraer texto

Python3

pruebas de rendimiento




for> page>in> doc:> >text>=> page.get_text()> >print>(text)>

>

>

Aquí, iteramos páginas en pdf y utilizamos el obtener_texto() método para extraer cada página del archivo.

Todo el Código para extraer el texto.

Python3


árbol b y árbol b



import> fitz> doc>=> fitz.>open>(>'sample.pdf'>)> text>=> ''> for> page>in> doc:> >text>+>=>page.get_text()> print>(text)>

>

>

Producción:

Conclusión

Hemos visto dos bibliotecas de Python, pypdf y PyMuPDF , que puede extraer texto de un archivo PDF. Comente sobre su biblioteca preferida de las dos bibliotecas anteriores.