Todos ustedes deben estar familiarizados con lo que son los archivos PDF. De hecho, son uno de los medios digitales más importantes y utilizados. PDF significa Formato de Documento Portable . Usa .pdf extensión. Se utiliza para presentar e intercambiar documentos de forma fiable, independientemente del software, hardware o sistema operativo.
Extraeremos texto de archivos pdf usando dos bibliotecas de Python, pypdf y PyMuPDF , en este articulo.
Extraer texto de un archivo PDF usando la biblioteca pypdf.
Paquete de Python pypdf se puede utilizar para lograr lo que queremos (extracción de texto), aunque puede hacer más de lo que necesitamos. Este paquete también se puede utilizar para generar, descifrar y fusionar archivos PDF. Nota: Para obtener más información, consulte Trabajar con archivos PDF en Python
Instalación
Para instalar este paquete, escriba el siguiente comando en la terminal.
pip install pypdf>
Ejemplo: PDF de entrada: 
Python3
ejemplo de mapa java
# importing required modules> from> pypdf>import> PdfReader> > # creating a pdf reader object> reader>=> PdfReader(>'example.pdf'>)> > # printing number of pages in pdf file> print>(>len>(reader.pages))> > # getting a specific page from the pdf file> page>=> reader.pages[>0>]> > # extracting text from page> text>=> page.extract_text()> print>(text)> |
>
>
declaración de caso de java
Producción:
Intentemos comprender el código anterior en fragmentos:
reader = PdfReader('example.pdf')> - Creamos un objeto de Lector PDF clase de la pypdf módulo.
- El Lector PDF La clase toma un argumento posicional requerido de la ruta al archivo pdf.
print(len(reader.pages))>
- paginas La propiedad proporciona una lista de Objetos de página . Entonces, aquí podemos usar el incorporado solo() Función de Python para obtener el número de páginas del archivo pdf.
page = reader.pages[0]>
- No fue lector.paginas es una lista de Objetos de página , podemos obtener un específico Página del pdf tocando el índice de la página. En Python, la indexación de listas comienza desde 0, por lo que lector.páginas[0] nos da la primera página del archivo pdf.
text = page.extract_text() print(text)>
- El objeto de página tiene función extraer_texto() para extraer texto de la página pdf.
Extracción de texto de un archivo PDF utilizando la biblioteca PyMuPDF.
PyMuPDF es una biblioteca de Python que admite formatos de archivo como XPS, PDF, CBR y CBZ. Pero por ahora, en este artículo nos concentraremos en los archivos PDF (formato de documento portátil).
Instalación
pip install pymupdf pip install fitz>
Para extraer el texto del pdf, debemos seguir los siguientes pasos:
- Importando la biblioteca
- Documento de apertura
- Extrayendo texto
Nota: Estamos usando el archivo sample.pdf aquí; Para obtener el pdf, utilice el siguiente enlace.
muestra.pdf – Enlace
1. Importando la biblioteca
Python3
import> fitz> |
>
>
2. Documento de apertura
Python3
lanzar int a cadena
doc>=> fitz.>open>(>'sample.pdf'>)> |
>
>
Aquí creamos un objeto llamado doc y el nombre del archivo debe ser una cadena de Python.
3. Extraer texto
Python3
pruebas de rendimiento
for> page>in> doc:> >text>=> page.get_text()> >print>(text)> |
>
>
Aquí, iteramos páginas en pdf y utilizamos el obtener_texto() método para extraer cada página del archivo.
Todo el Código para extraer el texto.
Python3
árbol b y árbol b
import> fitz> doc>=> fitz.>open>(>'sample.pdf'>)> text>=> ''> for> page>in> doc:> >text>+>=>page.get_text()> print>(text)> |
>
>
Producción:

Conclusión
Hemos visto dos bibliotecas de Python, pypdf y PyMuPDF , que puede extraer texto de un archivo PDF. Comente sobre su biblioteca preferida de las dos bibliotecas anteriores.