Cos'è box plot?

Box Plot: Un Diagramma a Scatola e Baffi

Un box plot, chiamato anche diagramma a scatola e baffi, è una rappresentazione grafica dei dati che mostra la distribuzione e la variabilità di un set di dati attraverso i suoi quartili. Fornisce una visione sintetica e immediata di:

  • Mediana: Il valore centrale del dataset, rappresentato da una linea all'interno della scatola.
  • Quartili:
    • Primo Quartile (Q1) (o 25° percentile): Rappresenta il valore al di sotto del quale si trova il 25% dei dati. Definisce il limite inferiore della scatola.
    • Terzo Quartile (Q3) (o 75° percentile): Rappresenta il valore al di sotto del quale si trova il 75% dei dati. Definisce il limite superiore della scatola.
  • Intervallo Interquartile (IQR): La differenza tra Q3 e Q1 (IQR = Q3 - Q1). La larghezza della scatola rappresenta la dispersione del 50% centrale dei dati.
  • Baffi: Linee che si estendono dalla scatola per indicare la variabilità dei dati al di fuori dei quartili. La lunghezza dei baffi può essere determinata in vari modi, ma comunemente si estendono fino ai punti dati più estremi che rientrano in un intervallo specifico (spesso 1.5 volte l'IQR) dai quartili.
  • Outlier: Punti dati che si trovano al di fuori dei baffi. Sono spesso indicati come punti singoli o cerchi e rappresentano valori insolitamente alti o bassi nel set di dati.

Utilizzo:

I box plot sono particolarmente utili per:

  • Confrontare distribuzioni: Permettono di confrontare rapidamente la distribuzione di diverse serie di dati.
  • Identificare outlier: Aiutano a individuare valori anomali che potrebbero richiedere ulteriori indagini.
  • Valutare la simmetria: Indicano se i dati sono simmetrici o asimmetrici.
  • Visualizzare la dispersione: Forniscono un'indicazione della variabilità dei dati.

Vantaggi:

  • Sintesi efficace di grandi quantità di dati.
  • Facile identificazione di valori anomali.
  • Utile per il confronto di distribuzioni multiple.

Svantaggi:

  • Non mostra la forma precisa della distribuzione (es. unimodale, bimodale).
  • Non fornisce informazioni sulla frequenza dei valori.