Cos'è cart?

CART (Classification and Regression Trees)

CART, acronimo di Classification and Regression Trees (Alberi di Classificazione e Regressione), è un algoritmo di machine learning supervisionato utilizzato sia per problemi di classificazione che di regressione. Sviluppato da Leo Breiman, Jerome Friedman, Richard Olshen e Charles Stone, è noto per la sua semplicità e interpretabilità.

Caratteristiche principali:

Struttura ad albero: CART crea un albero decisionale binario in cui ogni nodo interno rappresenta un test su un attributo (feature) e ogni ramo rappresenta il risultato del test. Le foglie dell'albero rappresentano le classi (nel caso di classificazione) o i valori predetti (nel caso di regressione).
Approccio non parametrico: CART è un algoritmo non parametrico, il che significa che non fa assunzioni sulla distribuzione dei dati sottostanti.
Gestione dei dati mancanti: CART può gestire dati mancanti in modo efficace utilizzando metodi come l'attribuzione surrogata.
Selezione delle variabili: CART esegue automaticamente la selezione delle variabili durante il processo di costruzione dell'albero. Le variabili più importanti per la predizione vengono selezionate e utilizzate nei nodi superiori dell'albero.
Pruning (Potatura): Per evitare l'overfitting, CART utilizza tecniche di pruning per semplificare l'albero e migliorare la sua capacità di generalizzazione su nuovi dati. Il pruning è una fase cruciale.

Funzionamento:

Selezione della variabile di split: L'algoritmo seleziona la variabile e il punto di split che massimizzano la riduzione dell'impurità (per la classificazione) o dell'errore (per la regressione). Per la selezione%20delle%20variabili si usano diverse metriche.
Suddivisione ricorsiva: Il processo di split viene ripetuto ricorsivamente su ciascun nodo figlio fino a quando non viene raggiunta una condizione di arresto (ad esempio, profondità massima dell'albero, numero minimo di campioni in un nodo).
Assegnazione delle foglie: Ogni foglia dell'albero viene assegnata a una classe (classificazione) o a un valore (regressione).
Pruning: L'albero viene potato per rimuovere rami non significativi e migliorare la sua accuratezza su nuovi dati.

Criteri di Impurità/Errore:

A seconda del tipo di problema (classificazione o regressione), CART utilizza diverse metriche per valutare la qualità di uno split:

Classificazione:
- Indice di Gini: Misura l'impurità di un nodo.
- Entropia: Misura la quantità di disordine o incertezza in un nodo.
Regressione:
- Errore quadratico medio (MSE): Misura la media dei quadrati degli errori tra i valori predetti e quelli reali.
- Errore assoluto medio (MAE): Misura la media dei valori assoluti degli errori tra i valori predetti e quelli reali.

Vantaggi:

Facile da interpretare e visualizzare.
Non richiede la normalizzazione dei dati.
Gestisce bene i dati mancanti.
Robusto rispetto agli outlier.
Esegue la selezione automatica delle variabili.

Svantaggi:

Suscettibile all'overfitting (necessario il pruning).
Può essere instabile (piccole variazioni nei dati possono portare a alberi diversi).
Difficile catturare relazioni non lineari complesse.

Utilizzo:

CART è ampiamente utilizzato in diversi settori, tra cui:

Medicina (diagnosi, prognosi).
Finanza (valutazione del rischio di credito).
Marketing (segmentazione dei clienti).
Ingegneria (controllo di processo).

carta di circolazione