Cos'è correlazione di pearson?

La correlazione di Pearson, anche nota come coefficiente di correlazione prodotto-momento di Pearson (PMCC), è una misura statistica che quantifica la forza e la direzione della relazione lineare tra due variabili continue. Assume valori tra -1 e +1, dove:

  • +1 indica una correlazione positiva perfetta (all'aumentare di una variabile, anche l'altra aumenta in modo proporzionale).
  • -1 indica una correlazione negativa perfetta (all'aumentare di una variabile, l'altra diminuisce in modo proporzionale).
  • 0 indica nessuna correlazione lineare (non c'è una relazione lineare tra le due variabili).

Formula:

La formula per calcolare il coefficiente di correlazione di Pearson (r) è:

r = Σ[(xi - x̄)(yi - ȳ)] / √[Σ(xi - x̄)² Σ(yi - ȳ)²]

dove:

  • xi è il valore di x per l'i-esimo punto dati
  • x̄ è la media dei valori di x
  • yi è il valore di y per l'i-esimo punto dati
  • ȳ è la media dei valori di y

Interpretazione:

L'interpretazione del coefficiente di correlazione di Pearson è cruciale:

  • Forza: Il valore assoluto di r indica la forza della correlazione. Più vicino a 1, più forte è la relazione. Valori comunemente usati come soglie sono:

    • |r| < 0.3: correlazione debole
    • 0.3 ≤ |r| < 0.7: correlazione moderata
    • |r| ≥ 0.7: correlazione forte
  • Direzione: Il segno di r indica la direzione della correlazione (positiva o negativa).

Assunzioni:

La correlazione di Pearson ha diverse assunzioni:

  • Linearità: La relazione tra le variabili deve essere approssimativamente lineare. Se la relazione non è lineare, la correlazione di Pearson potrebbe non essere una misura appropriata.

  • Normalità Bivariata: Le variabili devono avere una distribuzione normale bivariata. Questo implica che ogni variabile singolarmente deve essere approssimativamente normale e che la loro distribuzione congiunta sia anche normale.

  • Omoschedasticità: La varianza dei residui (la differenza tra i valori osservati e i valori predetti) deve essere costante lungo tutta la gamma dei valori di x.

  • Assenza di Outlier Influenti: La presenza di outlier può influenzare significativamente il valore del coefficiente di correlazione. È importante identificare ed eventualmente trattare gli outlier.

  • Variabili Continue: La correlazione di Pearson è adatta solo per variabili continue.

Limitazioni:

È importante ricordare che la correlazione non implica causalità. Anche se due variabili sono fortemente correlate, non significa necessariamente che una causi l'altra. Potrebbe esserci una terza variabile (una variabile confondente) che influenza entrambe. Ulteriori analisi sono necessarie per stabilire la causalità.

Inoltre, la correlazione di Pearson misura solo le relazioni lineari. Se la relazione tra le variabili è non lineare, la correlazione di Pearson potrebbe non rilevare la relazione, o potrebbe sottostimare la sua forza. In questi casi, altre misure di associazione, come la correlazione di Spearman, potrebbero essere più appropriate.

Argomenti Importanti: