linear regression (regressione lineare)

Definizione

La regressione lineare è un modello di machine learning supervisionato utilizzato per prevedere valori numerici continui. Modella la relazione tra una variabile dipendente (target) e una o più variabili indipendenti (features) assumendo una relazione lineare tra di esse.

Formulazione Matematica

Caso Semplice (Una Variabile)

Per una singola feature:
$y = w_{0} + w_{1} x + ϵ$
dove:

$y$ : variabile dipendente (target)
$x$ : variabile indipendente (feature)
$w_{0}$ : intercetta (bias)
$w_{1}$ : coefficiente angolare
$ϵ$ : termine di errore

Caso Multivariato

Per multiple features:
$y = w_{0} + w_{1} x_{1} + w_{2} x_{2} + \dots + w_{n} x_{n} + ϵ$
In forma vettoriale:
$y = w^{T} x + w_{0} + ϵ$
dove $w = [w_{1}, w_{2}, ..., w_{n}]^{T}$ e $x = [x_{1}, x_{2}, ..., x_{n}]^{T}$

Funzione di Costo

Mean Squared Error (MSE)

La funzione obiettivo più comune è l’errore quadratico medio:
$J (w) = \frac{1}{N} \sum_{i = 1}^{N} (y_{i} - \overset{y}{^}_{i})^{2}$
dove $\overset{y}{^}_{i} = w^{T} x_{i} + w_{0}$ è la predizione del modello.

In forma matriciale:
$J (w) = \frac{1}{N} (y - Xw)^{T} (y - Xw)$

Metodi di Ottimizzazione

Soluzione Analitica (Equazioni Normali)

$w = (X^{T} X)^{- 1} X^{T} y$

Discesa del Gradiente

Aggiornamento iterativo dei pesi:
$w^{(t + 1)} = w^{(t)} - η \nabla J (w^{(t)})$
dove $η$ è il learning rate.

Implementazione in Python

...

Assunzioni del Modello

Linearità: La relazione tra features e target è lineare
Indipendenza degli errori: Gli errori sono indipendenti tra loro
Omoschedasticità: Varianza costante degli errori
Normalità degli errori: Gli errori seguono una distribuzione normale
Assenza di multicollinearità: Le features non sono altamente correlate

Valutazione del Modello

Metriche Principali

Mean Squared Error (MSE): $\frac{1}{N} \sum_{i = 1}^{N} (y_{i} - \overset{y}{^}_{i})^{2}$
Root Mean Squared Error (RMSE): $MSE$
Mean Absolute Error (MAE): $\frac{1}{N} \sum_{i = 1}^{N} ∣ y_{i} - \overset{y}{^}_{i} ∣$
R-squared ( $R^{2}$ ): $1 - \frac{\sum ( y _{i} - y ^ _{i} ) ^{2}}{\sum ( y _{i} - y ˉ ) ^{2}}$

Estensioni e Varianti

Regressione Ridge (L2 Regularization)

$J (w) = \frac{1}{N} \sum_{i = 1}^{N} (y_{i} - \overset{y}{^}_{i})^{2} + α \sum_{j = 1}^{p} w_{j}^{2}$

Regressione Lasso (L1 Regularization)

$J (w) = \frac{1}{N} \sum_{i = 1}^{N} (y_{i} - \overset{y}{^}_{i})^{2} + α \sum_{j = 1}^{p} ∣ w_{j} ∣$

Regressione Elastic Net

Combina L1 e L2 regularization.

Applicazioni Pratiche

Previsione di prezzi (immobili, azioni)
Analisi di trend (vendite, crescita)
Stime economiche (PIL, inflazione)
Modelli scientifici (relazioni fisiche, chimiche)

Vantaggi e Svantaggi

Vantaggi

Semplice da implementare e interpretare
Computazionalmente efficiente
Base per modelli più complessi
Buone performance con relazioni lineari

Svantaggi

Sensibile a outliers
Assume relazione lineare
Può underfittare con relazioni complesse
Sensibile a multicollinearità

Best Practices

Feature Scaling: Standardizzare o normalizzare le features
Feature Engineering: Creare features polinomiali per relazioni non lineari
Cross-Validation: Valutare le performance del modello
Residual Analysis: Analizzare gli errori per verificare le assunzioni
Regularization: Usare Ridge/Lasso per prevenire overfitting

Risorse

scikit-learn: LinearRegression, Ridge, Lasso
statsmodels: Regressione con analisi statistica completa
NumPy: Implementazione manuale

Kaggle linear regression datasets

2brain

Esplora

linear regression (regressione lineare)

linear regression (regressione lineare)

Definizione

Formulazione Matematica

Caso Semplice (Una Variabile)

Caso Multivariato

Funzione di Costo

Mean Squared Error (MSE)

Metodi di Ottimizzazione

Soluzione Analitica (Equazioni Normali)

Discesa del Gradiente

Implementazione in Python

Assunzioni del Modello

Valutazione del Modello

Metriche Principali

Estensioni e Varianti

Regressione Ridge (L2 Regularization)

Regressione Lasso (L1 Regularization)

Regressione Elastic Net

Applicazioni Pratiche

Vantaggi e Svantaggi

Vantaggi

Svantaggi

Best Practices

Risorse

Vista grafico

Tabella dei contenuti

Link entranti