Cos'è rmse?

Root Mean Squared Error (RMSE)

Il Root Mean Squared Error (RMSE), in italiano Errore Quadratico Medio Radice, è una metrica ampiamente usata per valutare le prestazioni di un modello di regressione. Misura la differenza quadratica media tra i valori previsti da un modello e i valori effettivi osservati.

In altre parole, l'RMSE ci dice quanto sono lontani in media le previsioni del modello dai valori reali. Un RMSE inferiore indica una migliore aderenza dei dati e quindi prestazioni migliori del modello.

Formula:

RMSE = √[ Σ(yi - ŷi)² / n ]

Dove:

  • yi = valore effettivo dell'i-esimo punto dati
  • ŷi = valore previsto dal modello per l'i-esimo punto dati
  • n = numero totale di punti dati
  • Σ = sommatoria di tutti i punti dati

Come interpretare l'RMSE:

L'RMSE è espresso nelle stesse unità della variabile dipendente che si sta cercando di prevedere. Ad esempio, se si prevede il prezzo di una casa in euro, l'RMSE sarà espresso in euro.

  • Un RMSE di 0 indica una perfetta aderenza: Tutti i valori previsti corrispondono esattamente ai valori reali.
  • Un RMSE più alto indica una maggiore discrepanza: Le previsioni del modello sono, in media, più lontane dai valori reali.

Vantaggi dell'RMSE:

  • Facile da interpretare: Essendo espresso nelle stesse unità della variabile dipendente, è intuitivo e comprensibile.
  • Sensibile agli errori di grandi dimensioni: L'elevazione al quadrato degli errori fa sì che gli errori più grandi abbiano un impatto sproporzionatamente maggiore sull'RMSE. Questo può essere utile se si vuole penalizzare gli errori di grandi dimensioni.
  • Largamente utilizzato: È una metrica standard che permette di confrontare le prestazioni di diversi modelli.

Svantaggi dell'RMSE:

  • Sensibile ai valori anomali (outlier): Come accennato, l'elevazione al quadrato esaspera l'effetto degli outlier. Se i dati contengono molti outlier, l'RMSE potrebbe essere fuorviante.
  • Non fornisce informazioni sulla direzione dell'errore: L'RMSE indica solo l'ampiezza dell'errore, non se il modello tende a sovra- o sotto-stimare i valori.
  • Dipendente dalla scala dei dati: L'RMSE è direttamente influenzato dalla scala dei dati. Confrontare l'RMSE tra dataset con scale diverse può essere problematico. In questi casi, potrebbe essere utile utilizzare metriche normalizzate come il Root Mean Squared Percentage Error (RMSPE).

Quando usare l'RMSE:

  • Quando si desidera una metrica facile da interpretare e che sia espressa nelle stesse unità della variabile dipendente.
  • Quando si vuole penalizzare maggiormente gli errori di grandi dimensioni.
  • Quando si confrontano le prestazioni di diversi modelli sullo stesso dataset.

Alternative all'RMSE:

A seconda della situazione e delle caratteristiche dei dati, altre metriche possono essere più appropriate, tra cui: