CART, acronimo di Classification and Regression Trees (Alberi di Classificazione e Regressione), è un algoritmo di machine learning supervisionato utilizzato sia per problemi di classificazione che di regressione. Sviluppato da Leo Breiman, Jerome Friedman, Richard Olshen e Charles Stone, è noto per la sua semplicità e interpretabilità.
Caratteristiche principali:
Struttura ad albero: CART crea un albero decisionale binario in cui ogni nodo interno rappresenta un test su un attributo (feature) e ogni ramo rappresenta il risultato del test. Le foglie dell'albero rappresentano le classi (nel caso di classificazione) o i valori predetti (nel caso di regressione).
Approccio non parametrico: CART è un algoritmo non parametrico, il che significa che non fa assunzioni sulla distribuzione dei dati sottostanti.
Gestione dei dati mancanti: CART può gestire dati mancanti in modo efficace utilizzando metodi come l'attribuzione surrogata.
Selezione delle variabili: CART esegue automaticamente la selezione delle variabili durante il processo di costruzione dell'albero. Le variabili più importanti per la predizione vengono selezionate e utilizzate nei nodi superiori dell'albero.
Pruning (Potatura): Per evitare l'overfitting, CART utilizza tecniche di pruning per semplificare l'albero e migliorare la sua capacità di generalizzazione su nuovi dati. Il pruning è una fase cruciale.
Funzionamento:
Selezione della variabile di split: L'algoritmo seleziona la variabile e il punto di split che massimizzano la riduzione dell'impurità (per la classificazione) o dell'errore (per la regressione). Per la selezione%20delle%20variabili si usano diverse metriche.
Suddivisione ricorsiva: Il processo di split viene ripetuto ricorsivamente su ciascun nodo figlio fino a quando non viene raggiunta una condizione di arresto (ad esempio, profondità massima dell'albero, numero minimo di campioni in un nodo).
Assegnazione delle foglie: Ogni foglia dell'albero viene assegnata a una classe (classificazione) o a un valore (regressione).
Pruning: L'albero viene potato per rimuovere rami non significativi e migliorare la sua accuratezza su nuovi dati.
Criteri di Impurità/Errore:
A seconda del tipo di problema (classificazione o regressione), CART utilizza diverse metriche per valutare la qualità di uno split:
Classificazione:
Regressione:
Vantaggi:
Svantaggi:
Utilizzo:
CART è ampiamente utilizzato in diversi settori, tra cui:
Ne Demek sitesindeki bilgiler kullanıcılar vasıtasıyla veya otomatik oluşturulmuştur. Buradaki bilgilerin doğru olduğu garanti edilmez. Düzeltilmesi gereken bilgi olduğunu düşünüyorsanız bizimle iletişime geçiniz. Her türlü görüş, destek ve önerileriniz için iletisim@nedemek.page