Ultimas do CanalQb

Python - Como Extrair Texto de um PDF Usando Python

Deixe um comentário, no fim do post
CanalQb Python - Como Extrair Texto de um PDF Usando Python
Canal Qb

Hoje, vamos explorar como extrair texto de um arquivo PDF usando Python. Às vezes, é necessário acessar o conteúdo de um PDF para realizar pesquisas, análises de dados ou qualquer outro propósito. Neste tutorial, você aprenderá como fazer isso de forma simples e eficaz.

Introdução:


A extração de texto de um PDF é uma tarefa comum em Python e pode ser realizada usando a biblioteca PyPDF2. Esta biblioteca permite que você acesse o conteúdo textual de um arquivo PDF e o utilize em seus projetos.

Passo 1: Instalação da Biblioteca PyPDF2


Antes de começar, certifique-se de que você tem a biblioteca PyPDF2 instalada no seu ambiente Python. Você pode instalá-la usando o pip:
pip install PyPDF2

Passo 2: Script Python para Extração de Texto


Aqui está um script Python que demonstra como extrair texto de um PDF e salvá-lo em um arquivo de texto. Este script é simples e eficaz:
import re
import PyPDF2

# Abra o arquivo PDF em modo binário
with open('seuarquivo.pdf', 'rb') as arquivo_pdf:
    
    # Crie um objeto PDFReader
    pdf_reader = PyPDF2.PdfReader(arquivo_pdf)

    # Obtenha o número de páginas do arquivo PDF
    num_paginas = len(pdf_reader.pages)

    # Crie um objeto TextIOWriter para escrever o texto extraído
    with open('seu_arquivo.txt', 'w') as arquivo_txt:

        # Loop pelas páginas do arquivo PDF e extraia o texto
        for pagina in range(num_paginas):
            pagina_atual = pdf_reader.pages[pagina]
            texto = pagina_atual.extract_text()
            if ' ...' in texto:
                print(texto) 
                texto = re.sub(r'[^\w\s]', ' ', texto)
                # Escreva o texto extraído no arquivo TXT
                arquivo_txt.write(texto)

Explicação:


Primeiro, o script importa as bibliotecas necessárias: re para manipulação de expressões regulares e PyPDF2 para trabalhar com PDFs.

Em seguida, ele abre o arquivo PDF especificado no modo de leitura binária.

Um objeto PDFReader é criado a partir do arquivo PDF, permitindo que você acesse suas páginas.

O número de páginas no PDF é obtido usando len(pdf_reader.pages).

Um arquivo de texto é criado para armazenar o texto extraído.

O script entra em um loop que percorre cada página do PDF e extrai o texto usando pagina_atual.extract_text().

O texto é verificado para conter ' ...' e, se encontrar, é impresso no console e, em seguida, qualquer caractere que não seja alfanumérico ou espaço em branco é removido usando expressões regulares.

Finalmente, o texto é gravado no arquivo de texto criado anteriormente.

Conclusão:


Este tutorial forneceu um script simples para extrair texto de um arquivo PDF usando Python. Você pode usá-lo para acessar o conteúdo de PDFs e usá-lo em suas análises, pesquisas ou projetos de automação de dados. Python oferece uma ampla gama de ferramentas para trabalhar com PDFs, e a biblioteca PyPDF2 é uma ótima opção para começar.

Espero que este tutorial tenha sido útil e que você possa aplicar esses conceitos em seus próprios projetos. Boa sorte!

Nenhum comentário

Comente só assim vamos crescer juntos!

Observação: somente um membro deste blog pode postar um comentário.