discesa del gradiente (gradient descent)
Definizione
Algoritmo di ottimizzazione iterativo per trovare minimi di funzioni.
Idea Principale
- Gradiente = vettore che punta verso la massima salita
- Ci muoviamo nella direzione opposta al gradiente per trovare minimi
Algoritmo Base
- inizializza i pesi (pesi iniziali)
- WHILE (non converge):
a. calcola il gradiente:
b. aggiorna i pesi:
Parametri Critici
Learning Rate (γ)
- Troppo alto: oscillazioni, non converge
- Troppo basso: convergenza lenta
- Tipico: 0.001, 0.01, 0.1
Inizializzazione
- Punto di partenza critico
- Metodo locale: diversi minimi locali
Condizioni di Fermata
- Numero massimo iterazioni
- Loss < soglia
- Variazione loss
- Norma gradiente
- Early stopping