Cos'è sigmoide?

Sigmoide

La funzione sigmoide, chiamata anche funzione logistica, è una funzione matematica definita come:

σ(x) = 1 / (1 + e^(-x))

Dove:

  • x è il valore di input
  • e è la base del logaritmo naturale (circa 2.71828)

Caratteristiche principali:

  • Dominio: (-∞, +∞) - Accetta qualsiasi numero reale come input.
  • Intervallo: (0, 1) - Restituisce valori compresi tra 0 e 1 (esclusi 0 e 1).
  • Monotona crescente: La funzione è sempre crescente.
  • Derivabile: Ha una derivata semplice: σ'(x) = σ(x) * (1 - σ(x)). Questo è cruciale per l'apprendimento tramite backpropagation nelle reti neurali.
  • Simmetrica rispetto al punto (0, 0.5): σ(-x) = 1 - σ(x)

Utilizzi principali:

  • Reti Neurali Artificiali: Principalmente nello strato di output delle reti di classificazione binaria. Trasforma l'output di un neurone in una probabilità compresa tra 0 e 1, indicando la probabilità che l'input appartenga a una determinata classe. Consulta https://it.wikiwhat.page/kavramlar/reti%20neurali%20artificiali.
  • Regressione Logistica: Utilizzata per modellare la probabilità di un evento. Simile all'uso nelle reti neurali, trasforma un valore continuo in una probabilità. Consulta https://it.wikiwhat.page/kavramlar/regressione%20logistica.
  • Statistica: Come funzione di distribuzione cumulativa (CDF) per alcune distribuzioni di probabilità.
  • Biologia: Modellizzazione della crescita della popolazione (curva logistica).

Vantaggi:

  • Output normalizzato: Restringe i valori a un intervallo utile per la probabilità.
  • Derivata semplice: Facilita l'ottimizzazione nelle reti neurali.

Svantaggi:

  • Problema della scomparsa del gradiente: Per valori di input molto grandi o molto piccoli, la derivata della funzione sigmoide si avvicina a zero. Questo può rallentare significativamente l'apprendimento nelle reti neurali, in particolare quelle profonde. Consulta https://it.wikiwhat.page/kavramlar/problema%20della%20scomparsa%20del%20gradiente. Alternative come ReLU o tanh sono spesso preferite negli strati nascosti per mitigare questo problema.
  • Non centrata intorno allo zero: L'output non è centrato intorno allo zero, il che può influenzare la velocità di apprendimento.