You are on page 1of 20

ANALISIS DE DATOS

ICI2202
Clase 1: Modelos de Regresión Lineal

JOHN HENRY RIOS GRIEGO


Modelo de Regresión Lineal (Con dos variables)

Gasto
Año PIB (X)
Personal (Y) Gasto de Personal vs PIB
4800
1982 4620.3 3081.5 y = 0.7064x - 184.08
4600
R² = 0.9984
1983 4803.7 3240.6 4400

Gastos personal
1984 5140.1 3407.6 4200
4000
1985 5323.5 3566.5 3800
1986 5487.7 3708.7 3600
1987 5649.5 3822.3 3400
1988 5865.2 3972.7 3200
3000
1989 6062 4064.6 4000 4500 5000 5500 6000 6500 7000 7500
1990 6136.3 4132.2 PIB
1991 6079.4 4105.8
1992 6244.4 4219.8 Pendiente
1993 6389.6 4343.6
y - y0
1994 6610.7 4486 m=
1995 6742.1 4595.3 x - x0
1996 6928.4 4714.1
Coeficiente de correlación
(1 / n) å( x - x ) ( y - y)
i i

r= i

ææ 2 öæ 2 öö
1/2

( ) (
ççç1 / n × å xi - x ÷ç1 / n × å yi - y ÷÷÷
èè øè øø
)
i i
Modelo de Regresión Lineal
Modelos de Regresión Lineal

Gráfico de Dispersión
36

35

34
Peso en kg

33

32

31

30

29
1.2 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.3 1.31
Estatura en mts

Series1
Modelo de Regresión Lineal

Gráfico de Dispersión
36

35
y = 40.265x - 17.714
R² = 0.6859
34
Peso en kg

33

32

31

30

29
1.2 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.3 1.31
Estatura en mts

Series1 Linear (Series1)


MODELO DE REGRESION LINEAL MULTIPLE

yi = b0 + b1 xi1 + b 2 xi2 +... + b k xik + ei i = 1,..., n

Y = Xb + E

Donde:
yi = variable dependiente o explicada
x ik = variables independientes o explicativas
i = indica las n observaciones muestrales
k = indica el número de variables explicativas
e = perturbación aleatoria (residuos o errores)
Modelo de Regresión Lineal Múltiple (Representación Matricial)

yi = b0 + b1 xi1 + b2 xi2 +... + bk xik + ei i =1,..., n

Y = X b + E,
Modelo de Regresión Lineal Múltiple (Representación Matricial)

yi = b0 + b1 xi1 + b2 xi2 +... + bk xik + ei i =1,..., n

Y = X b + E,
Supuestos del Modelo de Regresión Lineal

1. Linealidad del Modelo

2. Rango Completo de los Regresores

3. Valor esperado de los Residuos en X es Cero

4. Perturbaciones Esféricas

5. Regresores no Estocásticos

6. Normalidad

Ù
• Los tres primeros supuestos permiten obtener los valores de b
Ù

• Los tres últimos supuestos permiten inferir sobre los valores de b


Linealidad del Modelo de Regresión (Supuesto 1)
yi = b0 + b1 xi1 + b2 xi2 +... + bk xik + ei i =1,..., k

Y = X b + E,

• El anterior es un modelo de regresión lineal múltiple con k regresores.

• El modelo de regresión lineal establece una relación lineal entre los parámetros βi, no necesariamente entre las
variables xij.

• La linealidad hace referencia a la manera en que los parámetros y la perturbación entran a formar parte de la
ecuación, y no necesariamente a la relación entre las variables. Esto es:

• La variable observable es la suma de dos componentes:


• Un componente determinístico βX
• Un componente aleatorio ε

• Ejemplos de modelos lineales en donde sólo se ha modificado X.

y = a + bx +e y = a + b cos ( x ) + e
y = a + b x +e y = a + b Ln ( x ) + e

y = e b1 X 2b2 ...X kbk Þ y = b1 + b2 Ln ( X2 ) +... + b k Ln ( bk )


Linealidad del Modelo de Regresión (Supuesto 1)

E [ y] = 50 +10x1 + 7x2 E [ y] = 50 +10x1 + 7x2 + 5x1 x2


Gráfico

Curva de nivel con E[y] constante

Todo modelo de regresión que es lineal en los parámetros es un modelo de regresión lineal,
independiente de la forma de la superficie generada en los gráficos de curva de nivel
Rango Completo de la Matriz de Regresión (Supuesto 2)

• X es una matriz de n por k con rango k+1.

• La matriz X tiene k filas que son linealmente independientes (no existe relación exacta entre los regresores).
Media Condicional de los Residuos (Supuesto 3)

• Las observaciones en X no conllevan información sobre el valor esperado de la perturbación.

• Las perturbaciones (errores) no contienen información sobre las demás perturbaciones, en consecuencia se
asume que las perturbaciones tienen un comportamiento aleatorio.
E éëei e j ùû = 0 "i ¹ j

• Si la media condicional es cero, se tiene que la media no condicional, también es cero.


E [ei ] = Ex éëE éëei X ùûùû = Ex [ 0] = 0

• No existe dependencia entre la perturbación y las variables independientes.

Cov [ X, e ] = 0 Þ E éë y X ùû = b X
Perturbaciones Esféricas (Supuesto 4)

• Existe homoscedasticidad (varianza constante).

Var éëei X ùû = s 2 "i =1,..., n

• No existe autocorrelación (incorrelación entre las variables).

Cov éëei , e j X ùû = 0 "i ¹ j

• La no autocorrelación no implica que las observaciones yi e yj estén incorrelacionadas.

• El supuesto consiste en que las desviaciones de las observaciones de su valor esperado están incorrelacionadas.

• La dispersión es una matriz idénticas para todas las εi, por lo que su normalización es una esfera.
V éëe X ùû = E éëee ' X ùû = s 2 I
Regresores No-Estocásticos (Supuesto 5)

• En una situación experimental las variables independientes xi son estocásticas.


Perturbaciones Distribuidas Normalmente (Supuesto 6)

• Las perturbaciones están normalmente distribuidas, con media cero y varianza constante, pudiéndose aplicar el
Teorema del límite Central.

éëe X ùû ® N éë0, s 2 ùû
Estimación de Parámetros por MCO

Para cada observación de la muestra, se tiene la ecuación:


yi = b0 + b1xi1 + b2 xi2 +... + bk xik + ei i =1,..., n,
Se estima (no calcula):
b0, b1, b2,..., bk
Criterio: minimizar la suma de los errores al cuadrado:
n
b0 , min åei2
Ù
Û min
Ù
e 'e
b i=1 b
Este criterio penaliza a los errores más grandes.

Se tiene:
ESTIMACION DE PARAMETROS POR MCO

Teniendo en cuenta que:

¶a' b ¶b ' Ab
=a Ù = 2Ab
¶b ¶b

Entonces:
FECUNDIDAD Y OTROS DATOS DE 54 PAISES

Observa Observa
ción MI TAF PIBPC TFT ción MI TAF PIBPC TFT • MI: mortalidad infantil, el número de niños menores de 5
1 128 37 1870 6.66 33 142 50 8640 7.17 años en un año por cada 1,000 nacidos vivos.
2 204 22 130 6.15 34 104 62 350 6.6
3 202 16 310 7 35 287 31 230 7
4 197 65 570 7.25 36 41 66 1620 3.91 • TAF: tasa de alfabetismo femenino (porcentaje).
5 96 76 2050 3.81 37 312 11 190 6.7
6 209 26 200 6.44 38 77 88 2090 4.2
7 170 45 670 6.19 39 142 22 900 5.43 • PIBPC: PIB per cápita en 1980
8 240 29 300 5.89 40 262 22 230 6.5
9 241 11 120 5.89 41 215 12 140 6.25
10 55 55 290 2.36 42 246 9 330 7.1
• TFT: tasa de fecundidad total, 1980-1985, cantidad
11 75 87 1180 3.93 43 191 31 1010 7.1 promedio de hijos por mujer, con tasa de fecundidad para
12 129 55 900 5.99 44 182 19 300 7 edades especificas en un año determinado.
13 24 93 1730 3.5 45 37 88 1730 3.46
14 165 31 1150 7.41 46 103 35 780 5.66
15 94 77 1160 4.21 47 67 85 1300 4.82
16 96 80 1270 5 48 143 78 930 5
17 148 30 580 5.27 49 83 85 690 4.75
18 98 69 560 5.21 50 222 33 200 8.49
19 161 43 420 6.5 51 240 19 450 6.5
20 118 47 1080 6.12 52 312 21 280 6.5
21 269 17 290 6.19 53 12 79 4430 1.69
22 189 35 270 5.05 54 52 83 270 3.25
23 126 58 560 6.16 55 79 43 1340 7.17
24 12 81 4240 1.8 56 61 88 670 3.52
25 167 29 240 4.75 57 168 28 410 6.09
26 135 65 430 4.1 58 28 95 4370 2.86
27 107 87 3020 6.66 59 121 41 1310 4.88
28 72 63 1420 7.28 60 115 62 1470 3.89
29 28 49 420 8.12 61 186 45 300 6.9
30 27 63 19830 5.23 62 47 85 3630 4.1
31 152 84 420 5.79 63 178 45 220 6.09
32 224 23 530 6.5 64 142 67 560 7.2

MI = 261.79 - 2.2323×TAF - 0.0054× PIBPC

Gujarati D., Porter D., Econometría, Mc Graw Hill.


REGRESION LINEAL SIMPLE (MCO)

La estimación de mínimos cuadrados de la ordenada al origen y la pendiente del modelo de regresión lineal simple
son:

^ ^
b 0 = y - b1 x

æ n öæ n ö
n
çå yi ÷ç å xi ÷
è øè i=1 ø
^
å yi xi - i=1
n
b 1 = i=1
æ n ö
2

n
çå xi ÷
å xi2 - è i=1n ø
i=1

Donde:

n n
y = (1 n) å yi x = (1 n) å xi
i=1 i=1

You might also like