You are on page 1of 17

ANALISIS DE REGRESION LINEAL SIMPLE

El anlisis de regresin consiste en emplear mtodos que permitan determinar la


mejor relacin funcional entre dos variables concomitantes (o relacionadas). Es
decir, involucra el estudio de la relacin entre dos variables CUANTITATIVAS. En
general interesa:

Estudiar la forma de la relacin. Usando los datos propondremos un modelo


para la relacin y a partir de ella ser posible predecir el valor de una variable
a partir de la otra.

Estudiar la fuerza de la asociacin, a travs de una medida de asociacin


denominada coeficiente de correlacin.

Investigar si existe una asociacin entre las dos variables probando la


hiptesis de independencia estadstica.

Tipos de relacin
Determinista: Conocido el valor de X, el valor de Y queda perfectamente
establecido. Son del tipo:

y = f (x)
Si se considera que la relacin puede ser de tipo lineal, la formalizacin vendra
determinada por una ecuacin como la siguiente:

Y 0 1 X
Ejemplo: La relacin existente entre la temperatura en grados centgrados (X) y
grados Fahrenheit (Y) es:
y = 1,8x + 32

No determinista: Conocido el valor de X, el valor de Y no queda perfectamente


establecido. Son del tipo:

y = f (x) + e
Donde, e es una perturbacin desconocida (variable aleatoria).
Dado que las relaciones en las ciencias sociales no son exactas se incluye el
trmino de perturbacin aleatoria

Y 0 1 X
Ejemplo: Se tiene una muestra del volumen de produccin (X) y el costo total (Y)
asociado a un producto en un grupo de empresas.

Existe relacin pero no es exacta.


CASOS

1
Si

> 0 hay relacin lineal positiva.

1
Si

< 0 hay relacin lineal negativa.

Supongamos que se dispone de

n observaciones de las variable Y y X

Y1 0 1 X 1 1
Y2 0 1 X 2 2
------------------------------------

Yn 0 1 X n n
De forma abreviada el sistema de ecuaciones se puede escribir de la siguiente
manera:

Yi 0 1 X i i
i 1, 2, 3,..., n

0
El objetivo del anlisis de regresin es la estimacin de los parmetros,

0
(Denominados coeficientes de regresin, donde

: Intercepto y

a partir de datos muestrales observados, es decir deben hallarse


muestra que represente a

1
y

1
: Pendiente)

0
0

, respectivamente.

1
y

de la

Empleando el mtodo de los mnimos cuadrados, es decir minimizando la suma de

0 1
cuadrados de los errores, se determinan los valores de
n

Q yi 0 1 xi
i 1

2
i

, as:

i 1

Q
2 yi 0 1 xi 1 0

.
(1)

Q
2 yi 0 1 xi xi 0
1

..
(2)

Al sistema formado por las ecuaciones (1) y (2) se les denomina ecuaciones
normales. Resolviendo las ecuaciones normales, se tiene:

0 y 1 x
n

x y
i 1

x y
i 1

i 1

x
i

n
xi2 i 1

n
i 1
n

Luego la recta de regresin muestral es:

s xy
s x2

Y 0 1 X

1
El coeficiente de regresin ( ) Est expresado en las mismas unidades de
medida de la variable X e indica el nmero de unidades que vara Y cuando se
produce cambio en una unidad en X (pendiente de la recta de regresin).

1
Si
=0, se dice que no existe relacin lineal entre las dos variables y que estas
son independientes.
El primer paso es la representacin grfica de las variables (y, x) en un diagrama
de dispersin.

y i

yi
La diferencia entre cada valor

de la variable y su estimacin

i yi y i
residuo:

Hiptesis del modelo de regresin lineal simple

Linealidad: La relacin existente entre x e y es lineal,

los datos deben de mostrar tendencia razonablemente rectos.

se llama

E i 0

Homogeneidad: El valor promedio del error es cero,

Homocedsticidad: la varianza de los errores es constante,

V i 2
.La

dispersin de los datos debe ser constante para que los datos sean
homocedsticos.

Si no se cumple, los datos son heterocedsticos.

E i j 0

Independencia: Las observaciones son independientes,


Los datos deben ser independientes.

Una observacin no debe dar informacin sobre los


dems.

Normalidad: Los errores siguen una distribucin normal,

N (0, ).

INTERVALOS DE CONFIANZA
En muchos casos es de inters conocer entre que valores se encuentra el

0
coeficiente de regresin de la poblacin

1
para un cierto grado de

confianza fijada, este procedimiento permite hallar los valores llamados lmites de
confianza, as:

0 t

1 t

sR

1 x2

n s xx

sR
s xx

La longitud del intervalo disminuir si:

Aumenta el tamao de la muestra.

Disminuye la varianza residual.

R2

sR2
El error cuadrado medio (
ecuacin:

) es el estimado de

. Se calcula mediante la

sR2

SSE
n2
SSE
n2

sR


y/x

Intervalo de Confianza para el valor medio


X = X0est dado por:

y 0 t

R
1 ;n 2
2

1 x0 x

n
s xx

de todos los valores Y dado que

Intervalo de Confianza para el valor predicho de Y dado que X = X0 es de la forma:

y 0 t

R
1 ;n 2
2

1 x x
1 0
n
s xx

Contraste sobre la pendiente


Es necesario evaluar que tan bien el modelo explica la relacin X e Y. Para ello se
plantea las siguientes hiptesis:

H 0 : 1 0
H 0 : 1 0
Anlisis de variancia para probar la significancia de la regresin.
Fuente de Variacin

Suma de Cuadrados

Grados de Libertad

Cuadrados Medios

Regresin

Error o Residual

SS R 1S xy
SSE S yy 1S xy

Total

i
y
n
2
i 1

S yy yi
n
i 1
n

n-2

MSR

MSR
MSE

MSE

n-1

El Coeficiente de Correlacin
Llamado tambin coeficiente de correlacin de Pearson, se representa por r y es
una medida que representa el grado de asociacin entre dos variables
cuantitativas X e Y.
Se calcula por:

s xy
s xx s yy

La correlacin vara entre -1 y 1


En la mayora de los problemas, una correlacin mayor que 0.70 o menor que
-0.70 es considerada bastante aceptable.

Una correlacin que cae entre -0.3 y 0.3 es considerada muy baja.

El Coeficiente de Determinacin
Es una medida de la bondad de ajuste del modelo de regresin hallado.

R2

SSR
SST

Dnde:
SSR representa la suma de cuadrados debido a la regresin y
SST representa la suma de cuadrados del total.
El coeficiente de determinacin es simplemente el cuadrado del coeficiente de
correlacin.
El coeficiente de Determinacin vara entre 0 y 1, aunque es bastante comn
expresarlo en porcentaje.
Un R2 mayor del 70 % indica una buena asociacin lineal entre las variables, luego
la variable X puede usarse para predecir Y.

R2 indica qu porcentaje de la variabilidad de la variable de respuesta Y es


explicada por su relacin lineal con X.

Modelos No Lineales y Transformaciones


Cuando se construyen modelos de regresin el objetivo es conseguir un modelo
con R2 alto que se aproxime a 100 %, asumiendo que no hay datos atpicos
presentes. Si no se desea incluir variables predictoras adicionales en el modelo,
hay dos alternativas:
Tratar de usar modelos polinmicos de grado mayor o igual a dos, y
Transformando las variables tanto la predictora como la de respuesta
Supongamos que al hacer la representacin grfica correspondiente la distribucin
bidimensional, se observa una clara relacin entre las dos variables, pero desde
luego, esa relacin no es lineal.
Por tanto, debemos buscar la funcin que ha de describir la dependencia entre las
dos variables.
Nos limitaremos al estudio de las ms utilizadas: la funcin parablica, la
logartmica, la exponencial y la potencial.

PARBOLA DE REGRESIN
En muchos casos, es una funcin de segundo grado la que se ajusta lo suficiente
a la situacin real dada.
La

expresin

general

de

y 0 1 x 2 x

un

polinomio

de

grado

es:

0 , 1 y 2
Donde

son los parmetros.

El problema consiste, por tanto, en determinar dichos parmetros para una


distribucin dada. Seguiremos para ello, similar al que hicimos en el caso del
modelo de regresin lineal simple, utilizando el procedimiento de ajuste de los
mnimos cuadrados, es decir, haciendo que la suma de los cuadrados de las
desviaciones con respecto a la curva de regresin sea mnima:

Donde, siguiendo la notacin habitual, y i son los valores observados de la


variable dependiente, e los valores estimados segn el modelo; por tanto,
podemos escribir D de la forma:

Para
encontrar los valores de a, b y
c que hacen mnima la expresin anterior, deberemos igualar las derivadas
parciales de D con respecto a dichos parmetros a cero y resolver el sistema
resultante. Las ecuaciones que forman dicho sistema se conocen
como ecuaciones normales de Gauss (igual que en el caso de la regresin lineal simple).

FUNCIN EXPONENCIAL, POTENCIAL


El problema de ajustar un modelo potencial, de la forma Y=AX b y uno exponencial
Y=ABX se reduce al de la funcin lineal, con solo tomar logaritmos.
Modelo potencial:
Si tomamos logaritmos en la expresin de la funcin potencial, obtendremos:
Log Y = LogA +b LogX
Como vemos es la ecuacin de una recta: Y=a+bX, donde ahora a = LogA. De
modo que el problema es sencillo, basta con transformar Y en LogYy X en LogX y
ajustar una recta a los valores transformados. El parmetro b del modelo potencial
coincide con el coeficiente de regresin de la recta ajustada a los datos
transformados, y A lo obtenemos mediante el anti log(a).
Modelo exponencial:
Tomando logaritmos en la expresin de la funcin exponencial, obtendremos:
Log Y = LogA + X LogB
Tambin se trata de la ecuacin de una recta Y=a+bX, pero ahora ajustndola a
logY y a X; de modo que, para obtener el parmetro A del modelo exponencial,
basta con hacer anti log(a), y el parmetro B se obtiene tomando anti log(b).

REGRESIN LINEAL MLTIPLE


En la regresin lineal mltiple vamos a utilizar ms de una variable explicativa;
esto nos va a ofrecer la ventaja de utilizar ms informacin en la construccin del
modelo y, consecuentemente, realizar estimaciones ms precisas.
Una cuestin de gran inters ser responder a la siguiente pregunta: de un vasto
conjunto de variables explicativas: x 1, x2 ,, xk, cules son las que ms influyen en
la variable dependiente Y.
En definitiva, vamos a considerar que los valores de la variable dependiente Y han
sido generados por una combinacin lineal de los valores de una o ms variables
explicativas y un trmino aleatorio:

y 1 2 x2 3 x3 ... k xk u
Esta ecuacin es conocida como funcin de regresin poblacional (FRP) o
hiperplano poblacional.
Ahora, supongamos que tenemos una muestra aleatoria de tamao n,

y ,x
i

2i

, x3i ,..., xki

, extrada de la poblacin estudiada. Si expresamos


el modelo poblacional para todas las observaciones de la muestra, se obtiene el
siguiente el sistema:

El anterior sistema de ecuaciones puede expresarse en la forma matricial. As,


vamos a denominar

El modelo de regresin lineal mltiple expresado en notacin matricial es el


siguiente:

Si se tiene en cuenta las denominaciones dadas a vectores y matrices, el modelo


de regresin lineal mltiple puede ser expresado de la siguiente manera:

y x u
Dnde:
y es un vector n1,
X es una matriz nk,
es un vector k 1 y
u es un vector n1.

Funcin de regresin muestral


La idea bsica de la regresin consiste en estimar los parmetros poblacionales

1 , 2 , 3 ,..., k
, a partir de una muestra dada.
La

FRM,

que

es

una

estimacin

de

la

FRP, que

viene

dada

nos

permite

calcular

el

por

y i 1 2 x2 i 3 x3i ... k xki


y i
ajustado (

valor

yi
) correspondiente a cada

La FRM puede expresarse de una forma ms compacta utilizando notacin


matricial. As, vamos a denotar:

El modelo ajustado correspondiente, para todas las observaciones de la muestra,


ser el siguiente:

y x
Obtencin de estimadores MCO
Denominando S a la suma de los cuadrados de los residuos,

Para aplicar el criterio de mnimos cuadrados en el modelo de regresin lineal

j
mltiple, calculamos la primera derivada de S con respecto a cada
expresin anterior:

en la

Los estimadores de mnimos cuadrticos se obtienen al igualar a 0 las derivadas


anteriores:

xx xy
, con notacin matricial,
o
Al sistema anterior se le denomina genricamente sistema de ecuaciones
normales del hiperplano. En notacin matricial ampliada, el sistema de ecuaciones
normales es el siguiente:

xx

x y

Interpretacin de los coeficientes

j
El coeficiente
regresores fijos.

mide el efecto parcial del regresor xi, manteniendo los otros

Ejemplo:Consideramos una muestra de personas como la que sigue a


continuacin:

En base a estos datos, vamos a construir un modelo para predecir el peso de una
persona (Y). Esto equivale a estudiar la relacin existente entre este conjunto de
variables x1, x2 ,, x5 y la variable peso (Y).
En la prctica deberemos de elegir cuidadosamente qu variables vamos a
considerar como explicativas. Algunos criterios que deben de cumplir sern los
siguientes:

Tener sentido numrico.

No deber de haber variables repetidas o redundantes.

Las variables introducidas en el modelo debern de tener una cierta


justificacin terica.

La relacin entre variables explicativas en el modelo y casos debe de ser


como mnimo de 1 a 10.

La relacin de las variables explicativas con la variable dependiente debe de


ser lineal, es decir, proporcional.