Regressione

Considera un diagramma di dispersione (punti di coordinate x, y).
I punti descrivono grossolanamente una certa curva?

Tra le due variabili statistiche X e Y è possibile riconoscere una correlazione?
La regressione cerca la relazione esistente tra le due variabili.

  • Curva di regressione
  • Equazione di regressione: y = f(x)
    • Regressione lineare
    • Regressione quadratica
    • Regressione esponenziale
    • Vedi Comandi Geogebra

Funzione interpolatrice lineare

  • y = mx+q
  • m, coefficiente di regressione
  • q, costante di regressione

Interpolazione / Estrapolazione

Interpolazione: un’attività per individuare nuovi punti del piano cartesiano a partire da un insieme finito di punti dati.
Per valori della x che sono all’interno dell’intervallo dell’asse reale che contiene i punti nei quali sono noti i valori che essa assume.

Estrapolazione: un’attività per trovare valori di una funzione reale per valori della x che sono al di fuori dell’intervallo dell’asse reale che contiene i punti nei quali sono noti i valori che essa assume.


Errore, differenza tra l’ordinata di un punto e l’ordinata della funzione

d_i = y_i - f(x_i)

Somma dei quadrati degli errori

\displaystyle {d_1}^2 + {d_2}^2+\ \dots\ +{d_n}^2

= \displaystyle \sum_{i=1}^n {d_i}^2

= \displaystyle \sum_{i=1}^n (y_i-(mx_i+q))^2


Considerazioni matematiche…

Se le derivate parziali si annullano allora è presente un punto notevole (minimo)

F(m, q) = \displaystyle \sum_{i=1}^n (y_i-(mx_i+q))^2

\begin{cases}\displaystyle \frac{\partial F}{\partial m} = 0\\\, \\\displaystyle\frac{\partial F}{\partial q} = 0\end{cases}

Calcoli…

\displaystyle \frac{\partial F}{\partial m} = 0

\displaystyle \frac{\partial}{\partial m} \sum_{i=1}^n (y_i-(mx_i+q))^2 = 0

\displaystyle -2\sum_{i=1}^n (y_i-(mx_i+q))\cdot x_i = 0

\displaystyle \sum_{i=1}^n x_i y_i -m\sum_{i=1}^n x_i^2 -q \sum_{i=1}^n x_i = 0

\displaystyle m\sum_{i=1}^n x_i^2 +q\sum_{i=1}^n x_i = \sum_{i=1}^n x_i y_i

\displaystyle q = \displaystyle \frac{\displaystyle\sum_{i=1}^n {x_i y_i} -\displaystyle m\sum_{i=1}^n x_i^2} {\displaystyle\sum_{i=1}^n x_i}

\displaystyle \frac{\partial F}{\partial q} = 0

\displaystyle \frac{\partial }{\partial q} \sum_{i=1}^n (y_i-(mx_i+q))^2 = 0

\displaystyle -2\sum_{i=1}^n (y_i-(mx_i+q)) = 0

\displaystyle \sum_{i=1}^n y_i -m\sum_{i=1}^n x_i -q \sum_{i=1}^n 1 = 0

\displaystyle m\sum_{i=1}^n x_i +q n = \sum_{i=1}^n y_i

\displaystyle q = \displaystyle \frac{\displaystyle\sum_{i=1}^n y_i -\displaystyle m\sum_{i=1}^n x_i} {n}

La soluzione del sistema è

\begin{cases}\displaystyle m=\frac {\displaystyle n\sum_{i=1}^{n} x_i y_i -\displaystyle \sum_{i=1}^{n} x_i \cdot \sum_{i=1}^{n} y_i}{\displaystyle n\sum_{i=1}^{n} x_i^2 -\displaystyle \left(\sum_{i=1}^{n} x_i\right)^2}\\\, \\\displaystyle q=\frac {\displaystyle \sum_{i=1}^{n} x_i\cdot \sum_{i=1}^{n} y_i -\displaystyle \sum_{i=1}^{n} x_i \cdot \sum_{i=1}^{n} x_i y_i}{\displaystyle n\sum_{i=1}^{n} x_i^2 -\displaystyle \left(\sum_{i=1}^{n} x_i\right)^2}}\end{cases}

Formulazioni alternative

\displaystyle m=\frac{\displaystyle \sum_{i=1}^{n} {x_i\cdot y_i-n\cdot \overline{x}\cdot \overline{y}}}{\displaystyle \sum_{i=1}^{n} {{x_i}^2-n\cdot {\overline{x}}^2}}

\begin{cases}\displaystyle m=\frac {\displaystyle \sum_{i=1}^{n} (x_i-\overline{x}) (y_i-\overline{y})}{\displaystyle \sum_{i=1}^{n} (x_i-\overline{x})(x_i-\overline{x})}\\\, \\\displaystyle q=\overline{y}-m\overline{x}\end{cases}

m = \displaystyle\frac{\sigma_{XY}}{\sigma_{XX}}


Osservazione 1

La retta di regressione passa per il baricentro dei punti

  • \displaystyle \overline{x} \ = \ \frac{1}{n} \sum_{i=1}^n x_i, media aritmetica
  • \displaystyle \overline{y} \ = \ \frac{1}{n} \sum_{i=1}^n y_i, media aritmetica
  • G(\overline{x}, \overline{y}), baricentro dei punti
  • y- \overline{y} = m(x- \overline{x})

Osservazione 2

Dimostrazioni

\displaystyle \sum_{i=1}^{n} (x_i-\overline{x}) (y_i-\overline{y})

=\displaystyle \sum_{i=1}^{n} \left(x_i\cdot x_i-x_i \cdot \overline{y}-\overline{x} \cdot y_i +\overline{x}\cdot \overline{y} \right)

= \displaystyle \sum_{i=1}^{n} x_i\cdot y_i - \overline{y} \cdot \sum_{i=1}^{n} x_i -\overline{x} \cdot \sum_{i=1}^{n} y_i +\overline{x}\cdot \overline{y} \sum_{i=1}^{n} 1 \right)

= \displaystyle \sum_{i=1}^{n} {x_i\cdot y_i-n\cdot \overline{x}\cdot \overline{y}}-n\cdot \overline{x}\cdot \overline{y}}+n\cdot \overline{x}\cdot \overline{y}}

= \displaystyle \sum_{i=1}^{n} {x_i\cdot y_i-n\cdot \overline{x}\cdot \overline{y}}

\displaystyle \sum_{i=1}^{n} (x_i-\overline{x})^2

=\displaystyle \sum_{i=1}^{n} {\left(x_i^2 -2\cdot x_i \cdot \overline{x} + \overline{x}^2\right)}

= \displaystyle \sum_{i=1}^{n} x_i^2 -2\cdot \overline{x} \cdot \sum_{i=1}^{n} x_i+\overline{x}^2 \sum_{i=1}^{n} 1 \right)

= \displaystyle \sum_{i=1}^{n} {x_i}^2 -2\cdot n \cdot {\overline{x}}^2 + n \cdot {\overline{x}}^2

= \displaystyle \sum_{i=1}^{n} {x_i}^2 -n \cdot {\overline{x}}^2


Osservazione 3

m e \sigma_{XY} hanno lo stesso segno


Osservazione 4

Errore standard di stima: \displaystyle S{y,x} \ =\ \sqrt{\frac{1}{n} \sum_{i=1}^n { \left(y_i - f(x_i)\right)}^2 }