underfitting vs overfitting

Definizione

Underfitting

Si verifica quando il modello è troppo semplice e non cattura la struttura sottostante dei dati.

Overfitting

Si verifica quando il modello è troppo complesso e impara anche il rumore presente nei dati di training.

Sintomi e Caratteristiche

Underfitting

  • Alto errore di training
  • Alto errore di test
  • Training error ≈ Test error (entrambi alti)
  • High bias
  • Modello troppo semplice

Overfitting

  • Basso errore di training
  • Alto errore di test
  • Training error ≪ Test error
  • High variance
  • Modello troppo complesso

Bias-Variance Tradeoff

Bias

  • Errore dovuto a presupposti errati nel modello
  • Underfitting High bias

Variance

  • Sensibilità del modello a piccole fluttuazioni nei dati di training
  • Overfitting High variance

Diagnosi Errori

# Underfitting
training_error = 0.85
test_error = 0.83
 
# Overfitting  
training_error = 0.05
test_error = 0.45
 
# Giusto
training_error = 0.15
test_error = 0.18

Rimedi

Per Underfitting (High Bias)

  • Aumentare complessità modello
  • Aggiungere features
  • Ridurre la regolarizzazione
  • Train più lungo

Per Overfitting (High Variance)

  • Ridurre complessità modello
  • Aggiungere più dati training
  • Aumentare regolarizzazione
  • Feature selection
  • Early stopping

Risorse