Beautiful Soup è una libreria Python che semplifica l'estrazione di informazioni da pagine web HTML e XML. Permette di navigare nell'albero del documento, ricercare elementi specifici e modificare il documento. È uno strumento essenziale per il web scraping e l'analisi dati.
Funzionalità Principali:
html.parser
), lxml
(che offre performance superiori) e html5lib
(che è più tollerante rispetto ad HTML malformato). La scelta del parser dipende dalle esigenze di performance e dalla tolleranza necessaria per gestire HTML non valido.find()
, find_all()
, next_sibling
, previous_sibling
, parent
, children
, etc. Questi metodi permettono di raggiungere specifici elementi basandosi su tag name, attributi, testo contenuto e altre caratteristiche.find_all()
è particolarmente utile per estrarre una lista di elementi che soddisfano criteri specifici. È possibile utilizzare filtri per affinare le ricerche.Vantaggi:
Usi Comuni:
Esempio di codice (Python):
from bs4 import BeautifulSoup
import requests
url = "https://www.example.com"
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
# Trova il titolo della pagina
title = soup.title.text
print(f"Titolo della pagina: {title}")
# Trova tutti i link (tag <a>)
links = soup.find_all('a')
for link in links:
print(link.get('href'))
Questo semplice esempio dimostra come utilizzare Beautiful Soup per scaricare una pagina web, analizzarla e estrarre informazioni come il titolo e i link. La flessibilità di Beautiful Soup e la sua facilità d'uso lo rendono uno strumento prezioso per qualsiasi programmatore Python che lavori con dati web. Comprendere l'importanza della struttura%20del%20documento%20HTML è fondamentale per utilizzare Beautiful Soup efficacemente.