Cos'è probit?

Probit (Modello Probit)

Il modello Probit è un modello statistico utilizzato per modellare la probabilità di un esito binario. È un tipo di modello di regressione in cui la variabile dipendente è binaria (cioè, può assumere solo due valori, solitamente codificati come 0 e 1) e le variabili indipendenti sono utilizzate per prevedere la probabilità che la variabile dipendente assuma il valore 1.

Funzionamento:

Il modello Probit assume che esiste una variabile latente sottostante, $y^*$, che determina l'esito osservato. Questa variabile latente è modellata come una funzione lineare delle variabili indipendenti più un termine di errore:

$y^* = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_nx_n + \epsilon$

Dove:

  • $y^*$ è la variabile latente (non osservabile).
  • $\beta_0, \beta_1, ..., \beta_n$ sono i coefficienti da stimare.
  • $x_1, x_2, ..., x_n$ sono le variabili indipendenti.
  • $\epsilon$ è il termine di errore.

La differenza fondamentale tra Probit e altri modelli come la regressione lineare sta nel modo in cui si collega la variabile latente all'esito osservato. Nel modello Probit, si assume che il termine di errore $\epsilon$ segua una distribuzione normale standard. L'esito osservato $y$ è determinato da una regola di soglia:

$y = \begin{cases} 1 & \text{se } y^* > 0 \ 0 & \text{se } y^* \le 0 \end{cases}$

Questo significa che $y = 1$ se la variabile latente è superiore a 0 e $y = 0$ altrimenti.

Funzione di Distribuzione Cumulativa Normale (CDF):

La probabilità che $y=1$ dato $x$ è quindi data dalla funzione di distribuzione cumulativa normale standard (CDF) valutata in $\beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_nx_n$:

$P(y=1|x) = \Phi(\beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_nx_n)$

Dove $\Phi$ è la CDF normale standard.

Stima dei Parametri:

I parametri del modello Probit (i coefficienti $\beta$) sono tipicamente stimati utilizzando il metodo della massima verosimiglianza (Maximum Likelihood Estimation - MLE). Questo metodo cerca i valori dei parametri che massimizzano la probabilità di osservare i dati effettivamente osservati.

Interpretazione dei Coefficienti:

A differenza dei modelli lineari, i coefficienti del modello Probit non possono essere interpretati direttamente come la variazione nell'esito per una variazione unitaria della variabile indipendente. Invece, i coefficienti indicano la variazione nella variabile latente $y^*$ per una variazione unitaria della variabile indipendente.

Per interpretare l'effetto di una variabile indipendente sulla probabilità di $y=1$, è necessario calcolare l'effetto marginale. L'Effetto Marginale indica la variazione della probabilità di $y=1$ per una variazione infinitesimale di una variabile indipendente, mantenendo costanti tutte le altre variabili. Il valore dell'effetto marginale varia a seconda dei valori delle altre variabili indipendenti.

Vantaggi:

  • Appropriato per variabili dipendenti binarie.
  • Si basa su una solida base teorica.
  • Produce probabilità comprese tra 0 e 1.

Svantaggi:

  • Non così semplice da interpretare come i modelli lineari.
  • L'assunzione di normalità del termine di errore potrebbe non essere sempre valida.
  • Richiede metodi di stima più complessi rispetto ai modelli lineari.

Applicazioni:

Il modello Probit è ampiamente utilizzato in diverse aree, tra cui:

  • Economia: Modellazione delle decisioni di acquisto, partecipazione al mercato del lavoro, scelta dell'occupazione.
  • Medicina: Previsione della probabilità di successo di un trattamento, rischio di sviluppare una malattia.
  • Scienze sociali: Modellazione del voto, opinione pubblica.
  • Marketing: Previsione della probabilità di acquisto di un prodotto.

Concetti correlati: