Cos'è cart?

CART (Classification and Regression Trees)

CART, acronimo di Classification and Regression Trees (Alberi di Classificazione e Regressione), è un algoritmo di machine learning supervisionato utilizzato sia per problemi di classificazione che di regressione. Sviluppato da Leo Breiman, Jerome Friedman, Richard Olshen e Charles Stone, è noto per la sua semplicità e interpretabilità.

Caratteristiche principali:

  • Struttura ad albero: CART crea un albero decisionale binario in cui ogni nodo interno rappresenta un test su un attributo (feature) e ogni ramo rappresenta il risultato del test. Le foglie dell'albero rappresentano le classi (nel caso di classificazione) o i valori predetti (nel caso di regressione).

  • Approccio non parametrico: CART è un algoritmo non parametrico, il che significa che non fa assunzioni sulla distribuzione dei dati sottostanti.

  • Gestione dei dati mancanti: CART può gestire dati mancanti in modo efficace utilizzando metodi come l'attribuzione surrogata.

  • Selezione delle variabili: CART esegue automaticamente la selezione delle variabili durante il processo di costruzione dell'albero. Le variabili più importanti per la predizione vengono selezionate e utilizzate nei nodi superiori dell'albero.

  • Pruning (Potatura): Per evitare l'overfitting, CART utilizza tecniche di pruning per semplificare l'albero e migliorare la sua capacità di generalizzazione su nuovi dati. Il pruning è una fase cruciale.

Funzionamento:

  1. Selezione della variabile di split: L'algoritmo seleziona la variabile e il punto di split che massimizzano la riduzione dell'impurità (per la classificazione) o dell'errore (per la regressione). Per la selezione%20delle%20variabili si usano diverse metriche.

  2. Suddivisione ricorsiva: Il processo di split viene ripetuto ricorsivamente su ciascun nodo figlio fino a quando non viene raggiunta una condizione di arresto (ad esempio, profondità massima dell'albero, numero minimo di campioni in un nodo).

  3. Assegnazione delle foglie: Ogni foglia dell'albero viene assegnata a una classe (classificazione) o a un valore (regressione).

  4. Pruning: L'albero viene potato per rimuovere rami non significativi e migliorare la sua accuratezza su nuovi dati.

Criteri di Impurità/Errore:

A seconda del tipo di problema (classificazione o regressione), CART utilizza diverse metriche per valutare la qualità di uno split:

  • Classificazione:

    • Indice di Gini: Misura l'impurità di un nodo.
    • Entropia: Misura la quantità di disordine o incertezza in un nodo.
  • Regressione:

    • Errore quadratico medio (MSE): Misura la media dei quadrati degli errori tra i valori predetti e quelli reali.
    • Errore assoluto medio (MAE): Misura la media dei valori assoluti degli errori tra i valori predetti e quelli reali.

Vantaggi:

  • Facile da interpretare e visualizzare.
  • Non richiede la normalizzazione dei dati.
  • Gestisce bene i dati mancanti.
  • Robusto rispetto agli outlier.
  • Esegue la selezione automatica delle variabili.

Svantaggi:

  • Suscettibile all'overfitting (necessario il pruning).
  • Può essere instabile (piccole variazioni nei dati possono portare a alberi diversi).
  • Difficile catturare relazioni non lineari complesse.

Utilizzo:

CART è ampiamente utilizzato in diversi settori, tra cui:

  • Medicina (diagnosi, prognosi).
  • Finanza (valutazione del rischio di credito).
  • Marketing (segmentazione dei clienti).
  • Ingegneria (controllo di processo).