Este blog oferece artigos, tutoriais e dicas sobre Python, Windows, criptomoedas, airdrops de blockchain e empresas do setor.

Onde posso encontrar os artigos mais recentes?

Os artigos mais recentes estão disponíveis na página principal, organizados por categoria e data de publicação.

Com que frequência o blog é atualizado?

O blog é atualizado regularmente com novas publicações, tutoriais e notícias do setor de tecnologia e blockchain.

Posso me inscrever para receber atualizações?

Sim, algumas páginas oferecem assinatura por e-mail ou notificações, dependendo das ferramentas disponíveis.

O conteúdo é gratuito?

Sim, todo o conteúdo do blog é gratuito e acessível a todos os visitantes.

Que tipos de conteúdo posso esperar?

Tutoriais de Python, dicas de Windows, análises de criptomoedas, oportunidades de airdrops e informações sobre empresas de blockchain.

Python BeautifulSoup e PyExecJS: Como Executar Scripts JavaScript em Web Scraping

		Python - BeautifulSoup (bs4) usando PyExecJS para executar JavaScript
@CanalQb

Introdução ao uso de BeautifulSoup e PyExecJS

Este tutorial mostra como combinar a biblioteca BeautifulSoup com a execução de scripts JavaScript usando a biblioteca PyExecJS para aprimorar seus projetos de web scraping em Python.

Enquanto o BeautifulSoup é uma ferramenta poderosa para analisar o HTML estático das páginas, muitas páginas modernas carregam conteúdo dinâmico via JavaScript. Com o PyExecJS, é possível executar scripts JavaScript presentes na página para obter ou manipular informações que dependem de código dinâmico.

Exemplo básico de uso

A seguir, um exemplo simples que faz uma requisição HTTP, analisa o DOM da página com BeautifulSoup e executa os scripts JavaScript encontrados usando PyExecJS:

import requests
from bs4 import BeautifulSoup
import execjs

# Solicita a página da web
response = requests.get("https://www.example.com")

# Analisa o DOM da página
soup = BeautifulSoup(response.content, 'html.parser')

# Encontra todos os elementos <script> na página
scripts = soup.find_all('script')

# Executa cada script usando PyExecJS
for script in scripts:
    execjs.eval(script.string)

# Imprime o DOM da página
print(soup.prettify())

O que este código faz?

Faz a requisição HTTP para obter o conteúdo da página.
Usa BeautifulSoup para analisar o HTML e encontrar as tags <script>.
Executa o conteúdo de cada script com PyExecJS, que utiliza engines JavaScript como V8 ou Node.js.
Exibe o DOM estruturado com o método prettify().

Tratando erros comuns

Durante a execução, é possível encontrar erros como AttributeError: 'NoneType' object has no attribute 'strip' ou erros de sintaxe no JavaScript, como SyntaxError: ')' esperado. Para evitar esses problemas, é importante validar o conteúdo dos scripts antes da execução e tratar exceções.

Exemplo atualizado com verificações e tratamento de erros

import requests
from bs4 import BeautifulSoup
import execjs

# Solicita a página da web
response = requests.get("https://www.example.com")

# Analisa o DOM da página
soup = BeautifulSoup(response.content, 'html.parser')

# Encontra todos os elementos <script> na página
scripts = soup.find_all('script')

# Executa cada script usando PyExecJS com tratamento de erros
for script in scripts:
    # Verifica se o script tem conteúdo de texto
    if script.string is not None:
        try:
            execjs.eval(script.string)
        except execjs.ProgramError:
            # Ignora erros de sintaxe no código JavaScript
            pass

# Imprime o DOM da página
print(soup.prettify())

Por que é importante este cuidado?

Nem todos os scripts encontrados na página são válidos ou completos para serem executados fora do contexto original, o que pode causar erros. Esse código evita que o script quebre a execução do seu programa, garantindo maior estabilidade e robustez.

Considerações finais

O uso conjunto de BeautifulSoup e PyExecJS permite que você realize web scraping em páginas que dependem de JavaScript para renderizar conteúdo, aumentando muito o alcance dos seus projetos.

Lembre-se de sempre respeitar as políticas dos sites que você acessar e analisar se o scraping está permitido para evitar problemas legais.

Para mais informações sobre o PyExecJS, visite o repositório oficial no GitHub: https://github.com/doloopwhile/PyExecJS

Este conteúdo é educativo e recomenda que o leitor faça uma autoanálise antes de aplicar técnicas avançadas em seus projetos.

Formulário de contato

Este blog é um complemento do nosso canal no YouTube. Clique em @CanalQb para seguir e acompanhar nossos vídeos!

Python BeautifulSoup e PyExecJS: Como Executar Scripts JavaScript em Web Scraping

Introdução ao uso de BeautifulSoup e PyExecJS

Exemplo básico de uso

O que este código faz?

Tratando erros comuns

Exemplo atualizado com verificações e tratamento de erros

Por que é importante este cuidado?

Considerações finais

Comentários

Translate

+ vistos em 30 dias

CanalQb - Windows 10 - Sunix's UTS2009B - Resolvendo PL2303HXA phased out since 2012. PLEASE CONTACT YOUR SUPPLIER - Solved

Airdrop - Bitcoin - Enigma Esquecido de 0.2 BTC - 1KfZGvwZxsvSmemoCmEV75uqcNzYBHjkHZ

Evento ION Quest: Ganhe XP com Tarefas e Conheça ION Finance Alpha

Ferdyflip: Guia Completo para Jogar Gratuitamente e Lucrar com Segurança

Como Criar URLs Válidas Segundo o Padrão IETF STD 66

📢 Siga o CanalQb

Follow Us

Seguidores

Categorias

Café do André

💰 Cripto & Airdrops

More from our Blog

Como Criar URLs Válidas Segundo o Padrão IETF STD 66

CanalQb - Windows 10 - Sunix's UTS2009B - Resolvendo PL2303HXA phased out since 2012. PLEASE CONTACT YOUR SUPPLIER - Solved

Airdrop - Bitcoin - Enigma Esquecido de 0.2 BTC - 1KfZGvwZxsvSmemoCmEV75uqcNzYBHjkHZ

Evento ION Quest: Ganhe XP com Tarefas e Conheça ION Finance Alpha

Ferdyflip: Guia Completo para Jogar Gratuitamente e Lucrar com Segurança

Feito com café

📡 Validação de Feeds RSS/Atom

@CanalQb - Dados

Minha Planilha de Aplicativos

Análise SEO

Widget de Verificação SEO Avançada

validar ads e robots

Validador de ads.txt

Validador de robots.txt

Copia texto de elemento mostrando feedback visual.

Mostra post aleatório blog atualizando automaticamente.

Exibe vídeo YouTube popup aleatório móvel

Envia post para Web App e aplica otimizações HTML.

Analisa posts e sugere melhorias automáticas.

Rastrea e envia dados ao Google Tag Manager.

Adiciona ALT e otimiza imagens automaticamente.

Gerencia consentimento de cookies e Analytics.

Substitui iframes por thumbnails clicáveis YouTube.

Exibe modal e envia notificações push.

GDPR + AdSense

Corrige automaticamente hierarquia de cabeçalhos HTML

Formata datas para exibição amigável e SEO

Gera paginação e injeta anúncios dinamicamente

Carrega SDK do Facebook assincronamente

gemini

Gemini AI (via Puter.js – sem API)

Direciona ?c=

Melhora acessibilidade e semântica HTML

Copia texto e dá feedback visual

www-widgetapi.js

Verifica erros 404 no blog