Analisis de Regresion Lineal Simple Ing. Sistemas

ANALISIS DE REGRESION LINEAL SIMPLE
El anlisis de regresin consiste en emplear mtodos que permitan determinar la

mejor relacin funcional entre dos variables concomitantes (o relacionadas). Es
decir, involucra el estudio de la relacin entre dos variables CUANTITATIVAS. En
general interesa:
Estudiar la forma de la relacin. Usando los datos propondremos un modelo

para la relacin y a partir de ella ser posible predecir el valor de una variable
a partir de la otra.
Estudiar la fuerza de la asociacin, a travs de una medida de asociacin

denominada coeficiente de correlacin.
Investigar si existe una asociacin entre las dos variables probando la

hiptesis de independencia estadstica.
Tipos de relacin
Determinista: Conocido el valor de X, el valor de Y queda perfectamente
establecido. Son del tipo:
y = f (x)
Si se considera que la relacin puede ser de tipo lineal, la formalizacin vendra
determinada por una ecuacin como la siguiente:
Y 0 1 X
Ejemplo: La relacin existente entre la temperatura en grados centgrados (X) y
grados Fahrenheit (Y) es:
y = 1,8x + 32
No determinista: Conocido el valor de X, el valor de Y no queda perfectamente

establecido. Son del tipo:
y = f (x) + e
Donde, e es una perturbacin desconocida (variable aleatoria).
Dado que las relaciones en las ciencias sociales no son exactas se incluye el
trmino de perturbacin aleatoria
Y 0 1 X
Ejemplo: Se tiene una muestra del volumen de produccin (X) y el costo total (Y)
asociado a un producto en un grupo de empresas.
Existe relacin pero no es exacta.

CASOS
1
Si
> 0 hay relacin lineal positiva.
1
Si
< 0 hay relacin lineal negativa.
Supongamos que se dispone de
n observaciones de las variable Y y X
Y1 0 1 X 1 1
Y2 0 1 X 2 2
------------------------------------
Yn 0 1 X n n
De forma abreviada el sistema de ecuaciones se puede escribir de la siguiente
manera:
Yi 0 1 X i i
i 1, 2, 3,..., n
0
El objetivo del anlisis de regresin es la estimacin de los parmetros,
0
(Denominados coeficientes de regresin, donde
: Intercepto y
a partir de datos muestrales observados, es decir deben hallarse

muestra que represente a
1
y
1
: Pendiente)
0
0
, respectivamente.
1
y
de la
Empleando el mtodo de los mnimos cuadrados, es decir minimizando la suma de
0 1
cuadrados de los errores, se determinan los valores de
n
Q yi 0 1 xi
i 1
2
i
, as:
i 1
Q
2 yi 0 1 xi 1 0
.
(1)
Q
2 yi 0 1 xi xi 0
1
..
(2)
Al sistema formado por las ecuaciones (1) y (2) se les denomina ecuaciones
normales. Resolviendo las ecuaciones normales, se tiene:
0 y 1 x
n
x y
i 1
x y
i 1
i 1
x
i

n
xi2 i 1
n
i 1
n
Luego la recta de regresin muestral es:
s xy
s x2
Y 0 1 X
1
El coeficiente de regresin ( ) Est expresado en las mismas unidades de
medida de la variable X e indica el nmero de unidades que vara Y cuando se
produce cambio en una unidad en X (pendiente de la recta de regresin).
1
Si
=0, se dice que no existe relacin lineal entre las dos variables y que estas
son independientes.
El primer paso es la representacin grfica de las variables (y, x) en un diagrama
de dispersin.
y i
yi
La diferencia entre cada valor
de la variable y su estimacin
i yi y i
residuo:
Hiptesis del modelo de regresin lineal simple
Linealidad: La relacin existente entre x e y es lineal,
los datos deben de mostrar tendencia razonablemente rectos.
se llama
E i 0
Homogeneidad: El valor promedio del error es cero,
Homocedsticidad: la varianza de los errores es constante,
V i 2
.La
dispersin de los datos debe ser constante para que los datos sean
homocedsticos.
Si no se cumple, los datos son heterocedsticos.
E i j 0
Independencia: Las observaciones son independientes,

Los datos deben ser independientes.
Una observacin no debe dar informacin sobre los

dems.
Normalidad: Los errores siguen una distribucin normal,
N (0, ).
INTERVALOS DE CONFIANZA
En muchos casos es de inters conocer entre que valores se encuentra el
0
coeficiente de regresin de la poblacin
1
para un cierto grado de
confianza fijada, este procedimiento permite hallar los valores llamados lmites de
confianza, as:
0 t
1 t
sR
1 x2
n s xx
sR
s xx
La longitud del intervalo disminuir si:
Aumenta el tamao de la muestra.
Disminuye la varianza residual.
R2
sR2
El error cuadrado medio (
ecuacin:
) es el estimado de
. Se calcula mediante la
sR2
SSE
n2
SSE
n2
sR

y/x
Intervalo de Confianza para el valor medio

X = X0est dado por:
y 0 t
R
1 ;n 2
2
1 x0 x
n
s xx
de todos los valores Y dado que
Intervalo de Confianza para el valor predicho de Y dado que X = X0 es de la forma:
y 0 t
R
1 ;n 2
2
1 x x
1 0
n
s xx
Contraste sobre la pendiente

Es necesario evaluar que tan bien el modelo explica la relacin X e Y. Para ello se
plantea las siguientes hiptesis:
H 0 : 1 0
H 0 : 1 0
Anlisis de variancia para probar la significancia de la regresin.
Fuente de Variacin
Suma de Cuadrados
Grados de Libertad
Cuadrados Medios
Regresin
Error o Residual
SS R 1S xy
SSE S yy 1S xy
Total
i
y
n
2
i 1
S yy yi
n
i 1
n
n-2
MSR
MSR
MSE
MSE
n-1
El Coeficiente de Correlacin
Llamado tambin coeficiente de correlacin de Pearson, se representa por r y es
una medida que representa el grado de asociacin entre dos variables
cuantitativas X e Y.
Se calcula por:
s xy
s xx s yy
La correlacin vara entre -1 y 1

En la mayora de los problemas, una correlacin mayor que 0.70 o menor que
-0.70 es considerada bastante aceptable.
Una correlacin que cae entre -0.3 y 0.3 es considerada muy baja.
El Coeficiente de Determinacin
Es una medida de la bondad de ajuste del modelo de regresin hallado.
R2
SSR
SST
Dnde:
SSR representa la suma de cuadrados debido a la regresin y
SST representa la suma de cuadrados del total.
El coeficiente de determinacin es simplemente el cuadrado del coeficiente de
correlacin.
El coeficiente de Determinacin vara entre 0 y 1, aunque es bastante comn
expresarlo en porcentaje.
Un R2 mayor del 70 % indica una buena asociacin lineal entre las variables, luego
la variable X puede usarse para predecir Y.
R2 indica qu porcentaje de la variabilidad de la variable de respuesta Y es

explicada por su relacin lineal con X.
Modelos No Lineales y Transformaciones

Cuando se construyen modelos de regresin el objetivo es conseguir un modelo
con R2 alto que se aproxime a 100 %, asumiendo que no hay datos atpicos
presentes. Si no se desea incluir variables predictoras adicionales en el modelo,
hay dos alternativas:
Tratar de usar modelos polinmicos de grado mayor o igual a dos, y
Transformando las variables tanto la predictora como la de respuesta
Supongamos que al hacer la representacin grfica correspondiente la distribucin
bidimensional, se observa una clara relacin entre las dos variables, pero desde
luego, esa relacin no es lineal.
Por tanto, debemos buscar la funcin que ha de describir la dependencia entre las
dos variables.
Nos limitaremos al estudio de las ms utilizadas: la funcin parablica, la
logartmica, la exponencial y la potencial.
PARBOLA DE REGRESIN
En muchos casos, es una funcin de segundo grado la que se ajusta lo suficiente
a la situacin real dada.
La
expresin
general
de
y 0 1 x 2 x
un
polinomio
de
grado
es:
0 , 1 y 2
Donde
son los parmetros.
El problema consiste, por tanto, en determinar dichos parmetros para una

distribucin dada. Seguiremos para ello, similar al que hicimos en el caso del
modelo de regresin lineal simple, utilizando el procedimiento de ajuste de los
mnimos cuadrados, es decir, haciendo que la suma de los cuadrados de las
desviaciones con respecto a la curva de regresin sea mnima:
Donde, siguiendo la notacin habitual, y i son los valores observados de la

variable dependiente, e los valores estimados segn el modelo; por tanto,
podemos escribir D de la forma:
Para
encontrar los valores de a, b y
c que hacen mnima la expresin anterior, deberemos igualar las derivadas
parciales de D con respecto a dichos parmetros a cero y resolver el sistema
resultante. Las ecuaciones que forman dicho sistema se conocen
como ecuaciones normales de Gauss (igual que en el caso de la regresin lineal simple).
FUNCIN EXPONENCIAL, POTENCIAL

El problema de ajustar un modelo potencial, de la forma Y=AX b y uno exponencial
Y=ABX se reduce al de la funcin lineal, con solo tomar logaritmos.
Modelo potencial:
Si tomamos logaritmos en la expresin de la funcin potencial, obtendremos:
Log Y = LogA +b LogX
Como vemos es la ecuacin de una recta: Y=a+bX, donde ahora a = LogA. De
modo que el problema es sencillo, basta con transformar Y en LogYy X en LogX y
ajustar una recta a los valores transformados. El parmetro b del modelo potencial
coincide con el coeficiente de regresin de la recta ajustada a los datos
transformados, y A lo obtenemos mediante el anti log(a).
Modelo exponencial:
Tomando logaritmos en la expresin de la funcin exponencial, obtendremos:
Log Y = LogA + X LogB
Tambin se trata de la ecuacin de una recta Y=a+bX, pero ahora ajustndola a
logY y a X; de modo que, para obtener el parmetro A del modelo exponencial,
basta con hacer anti log(a), y el parmetro B se obtiene tomando anti log(b).
REGRESIN LINEAL MLTIPLE

En la regresin lineal mltiple vamos a utilizar ms de una variable explicativa;
esto nos va a ofrecer la ventaja de utilizar ms informacin en la construccin del
modelo y, consecuentemente, realizar estimaciones ms precisas.
Una cuestin de gran inters ser responder a la siguiente pregunta: de un vasto
conjunto de variables explicativas: x 1, x2 ,, xk, cules son las que ms influyen en
la variable dependiente Y.
En definitiva, vamos a considerar que los valores de la variable dependiente Y han
sido generados por una combinacin lineal de los valores de una o ms variables
explicativas y un trmino aleatorio:
y 1 2 x2 3 x3 ... k xk u
Esta ecuacin es conocida como funcin de regresin poblacional (FRP) o
hiperplano poblacional.
Ahora, supongamos que tenemos una muestra aleatoria de tamao n,
y ,x
i
2i
, x3i ,..., xki
, extrada de la poblacin estudiada. Si expresamos

el modelo poblacional para todas las observaciones de la muestra, se obtiene el
siguiente el sistema:
El anterior sistema de ecuaciones puede expresarse en la forma matricial. As,

vamos a denominar
El modelo de regresin lineal mltiple expresado en notacin matricial es el

siguiente:
Si se tiene en cuenta las denominaciones dadas a vectores y matrices, el modelo

de regresin lineal mltiple puede ser expresado de la siguiente manera:
y x u
Dnde:
y es un vector n1,
X es una matriz nk,
es un vector k 1 y
u es un vector n1.
Funcin de regresin muestral

La idea bsica de la regresin consiste en estimar los parmetros poblacionales
1 , 2 , 3 ,..., k
, a partir de una muestra dada.
La
FRM,
que
es
una
estimacin
de
la
FRP, que
viene
dada
nos
permite
calcular
el
por
y i 1 2 x2 i 3 x3i ... k xki

y i
ajustado (
valor
yi
) correspondiente a cada
La FRM puede expresarse de una forma ms compacta utilizando notacin

matricial. As, vamos a denotar:
El modelo ajustado correspondiente, para todas las observaciones de la muestra,

ser el siguiente:
y x
Obtencin de estimadores MCO
Denominando S a la suma de los cuadrados de los residuos,
Para aplicar el criterio de mnimos cuadrados en el modelo de regresin lineal
j
mltiple, calculamos la primera derivada de S con respecto a cada
expresin anterior:
en la
Los estimadores de mnimos cuadrticos se obtienen al igualar a 0 las derivadas

anteriores:
xx xy
, con notacin matricial,
o
Al sistema anterior se le denomina genricamente sistema de ecuaciones
normales del hiperplano. En notacin matricial ampliada, el sistema de ecuaciones
normales es el siguiente:
xx
x y
Interpretacin de los coeficientes
j
El coeficiente
regresores fijos.
mide el efecto parcial del regresor xi, manteniendo los otros
Ejemplo:Consideramos una muestra de personas como la que sigue a

continuacin:
En base a estos datos, vamos a construir un modelo para predecir el peso de una
persona (Y). Esto equivale a estudiar la relacin existente entre este conjunto de
variables x1, x2 ,, x5 y la variable peso (Y).
En la prctica deberemos de elegir cuidadosamente qu variables vamos a
considerar como explicativas. Algunos criterios que deben de cumplir sern los
siguientes:
Tener sentido numrico.
No deber de haber variables repetidas o redundantes.
Las variables introducidas en el modelo debern de tener una cierta

justificacin terica.
La relacin entre variables explicativas en el modelo y casos debe de ser

como mnimo de 1 a 10.
La relacin de las variables explicativas con la variable dependiente debe de

ser lineal, es decir, proporcional.

Analisis de Regresion Lineal Simple Ing. Sistemas

Uploaded by

Document Information

Original Description:

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analisis de Regresion Lineal Simple Ing. Sistemas

Uploaded by

Copyright:

Available Formats

ANALISIS DE REGRESION LINEAL SIMPLE

El anlisis de regresin consiste en emplear mtodos que permitan determinar la

Estudiar la forma de la relacin. Usando los datos propondremos un modelo

Estudiar la fuerza de la asociacin, a travs de una medida de asociacin

Investigar si existe una asociacin entre las dos variables probando la

No determinista: Conocido el valor de X, el valor de Y no queda perfectamente

Existe relacin pero no es exacta.

> 0 hay relacin lineal positiva.

< 0 hay relacin lineal negativa.

Supongamos que se dispone de

n observaciones de las variable Y y X

a partir de datos muestrales observados, es decir deben hallarse

Empleando el mtodo de los mnimos cuadrados, es decir minimizando la suma de

Luego la recta de regresin muestral es:

Hiptesis del modelo de regresin lineal simple

Linealidad: La relacin existente entre x e y es lineal,

los datos deben de mostrar tendencia razonablemente rectos.

Homogeneidad: El valor promedio del error es cero,

Homocedsticidad: la varianza de los errores es constante,

Si no se cumple, los datos son heterocedsticos.

Independencia: Las observaciones son independientes,

Una observacin no debe dar informacin sobre los

Normalidad: Los errores siguen una distribucin normal,

La longitud del intervalo disminuir si:

Aumenta el tamao de la muestra.

Disminuye la varianza residual.

Intervalo de Confianza para el valor medio

de todos los valores Y dado que

Intervalo de Confianza para el valor predicho de Y dado que X = X0 es de la forma:

Contraste sobre la pendiente

La correlacin vara entre -1 y 1

R2 indica qu porcentaje de la variabilidad de la variable de respuesta Y es

Modelos No Lineales y Transformaciones

son los parmetros.

El problema consiste, por tanto, en determinar dichos parmetros para una

Donde, siguiendo la notacin habitual, y i son los valores observados de la

FUNCIN EXPONENCIAL, POTENCIAL

REGRESIN LINEAL MLTIPLE

, x3i ,..., xki

, extrada de la poblacin estudiada. Si expresamos

El anterior sistema de ecuaciones puede expresarse en la forma matricial. As,

El modelo de regresin lineal mltiple expresado en notacin matricial es el

Si se tiene en cuenta las denominaciones dadas a vectores y matrices, el modelo

Funcin de regresin muestral

y i 1 2 x2 i 3 x3i ... k xki

La FRM puede expresarse de una forma ms compacta utilizando notacin

El modelo ajustado correspondiente, para todas las observaciones de la muestra,

Para aplicar el criterio de mnimos cuadrados en el modelo de regresin lineal

Los estimadores de mnimos cuadrticos se obtienen al igualar a 0 las derivadas

Interpretacin de los coeficientes

mide el efecto parcial del regresor xi, manteniendo los otros

Ejemplo:Consideramos una muestra de personas como la que sigue a

Tener sentido numrico.

No deber de haber variables repetidas o redundantes.

Las variables introducidas en el modelo debern de tener una cierta

La relacin entre variables explicativas en el modelo y casos debe de ser

La relacin de las variables explicativas con la variable dependiente debe de

You might also like