discesa del gradiente (gradient descent)

Definizione

Algoritmo di ottimizzazione iterativo per trovare minimi di funzioni.

Idea Principale

  • Gradiente = vettore che punta verso la massima salita
  • Ci muoviamo nella direzione opposta al gradiente per trovare minimi

gradiente

Algoritmo Base

  1. inizializza i pesi (pesi iniziali)
  2. WHILE (non converge):
    a. calcola il gradiente:
    b. aggiorna i pesi:

Parametri Critici

Learning Rate (γ)

  • Troppo alto: oscillazioni, non converge
  • Troppo basso: convergenza lenta
  • Tipico: 0.001, 0.01, 0.1

Inizializzazione

  • Punto di partenza critico
  • Metodo locale: diversi minimi locali

Condizioni di Fermata

  • Numero massimo iterazioni
  • Loss < soglia
  • Variazione loss
  • Norma gradiente
  • Early stopping

Risorse