Cos'è correlazione?

Correlazione

La correlazione è una misura statistica che esprime il grado in cui due variabili sono linearmente correlate. In altre parole, indica quanto i valori di una variabile tendono a cambiare in modo prevedibile in relazione ai cambiamenti dei valori di un'altra variabile.

Aspetti chiave:

  • Tipo di relazione: La correlazione misura solo relazioni lineari. Se la relazione tra le variabili è non lineare (ad esempio, una curva), la correlazione potrebbe non riflettere accuratamente la forza dell'associazione.

  • Non implica causalità: Una correlazione tra due variabili non significa necessariamente che una variabile causi l'altra. Potrebbe esserci una terza variabile, detta variabile confondente, che influenza entrambe. Si veda a proposito https://it.wikiwhat.page/kavramlar/causalità%20vs%20correlazione.

  • Forza e direzione: La correlazione è espressa da un coefficiente, generalmente indicato con r (coefficiente di correlazione di Pearson), che varia da -1 a +1.

    • r = +1 indica una correlazione positiva perfetta: quando una variabile aumenta, anche l'altra aumenta in modo prevedibile e lineare.
    • r = -1 indica una correlazione negativa perfetta: quando una variabile aumenta, l'altra diminuisce in modo prevedibile e lineare.
    • r = 0 indica nessuna correlazione lineare: non c'è una relazione lineare prevedibile tra le due variabili.
    • Valori intermedi (ad esempio, r = 0.5 o r = -0.8) indicano una correlazione positiva o negativa più o meno forte. L'interpretazione della forza della correlazione è soggettiva e dipende dal contesto.

Tipi di correlazione (e coefficienti):

  • Correlazione di Pearson: Misura la relazione lineare tra due variabili continue e si basa sulla covarianza. È il tipo di correlazione più comunemente utilizzato. Ulteriori dettagli sono reperibili qui: https://it.wikiwhat.page/kavramlar/correlazione%20di%20Pearson.
  • Correlazione di Spearman: Misura la relazione monotonica tra due variabili, ovvero se le variabili tendono ad aumentare o diminuire insieme, ma non necessariamente in modo lineare. Si basa sul rango dei dati e può essere utilizzata anche con variabili ordinali. Si veda https://it.wikiwhat.page/kavramlar/correlazione%20di%20Spearman.
  • Correlazione di Kendall (tau): Un'altra misura di correlazione non parametrica, simile alla correlazione di Spearman, ma spesso preferita quando i dati contengono molti valori a pari merito. Maggiori informazioni si trovano qui: https://it.wikiwhat.page/kavramlar/correlazione%20di%20Kendall.
  • Correlazione puntuale biseriale: Utilizzata quando una variabile è continua e l'altra è dicotomica (binaria).

Considerazioni importanti:

  • Outlier: I valori anomali (outlier) possono influenzare significativamente il coefficiente di correlazione.
  • Dimensione del campione: Un campione più grande fornisce una stima più precisa della correlazione nella popolazione.
  • Visualizzazione: È sempre utile visualizzare i dati con un grafico a dispersione (scatterplot) per avere un'idea della relazione tra le variabili prima di calcolare il coefficiente di correlazione.

La scelta del coefficiente di correlazione appropriato dipende dal tipo di dati e dalla natura della relazione che si sta indagando.