You are on page 1of 40

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA

LINEAL MLTIPLE

REGRESIN

NDICE

Presentacin

Dedicatoria

Modelo de regresin lineal mltiple

Pruebas de significacin de los coeficientes de regresin.


9
Anlisis de varianza

Prueba t

13

Coeficiente de determinacin mltiple

17

Modelo de regresin lineal mediante matrices

20

Prueba de Durban Watson.

23

Modelo de correlacin polinomial

28

PRESENTACIN
El origen de la estadstica est ligado a Pdos ramas del inters
humano muy diferentes: los juegos de azar y la ciencia poltica.

FACULTAD DE INGENIERIA CIVIL

Pgina 1

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

Los estudios hechos sobre probabilidades condujeron a la teora


matemtica de los errores en las medidas y las leyes de los errores
derivadas de ella fueron la base de lo que hoy es la estadstica
matemtica. En el mismo ciclo, el anlisis de las unidades polticas
fue el punto de partida de la estadstica descriptiva. Al principio este
se limitaba simplemente a la presentacin de datos a la introduccin
de

datos

posteriormente

amplio

sus

objetivos

al

considerar

descripciones numricas.
Hay pocas actividades en que el impacto del reciente progreso
de la estadstica se haya dejado sentir con ms fuerza que en la
ingeniera y la direccin industrial.la estadstica se ha convertido en
una herramienta vital para el ingeniero.

FACULTAD DE INGENIERIA CIVIL

Pgina 2

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

DEDICATORIA

Este trabajo est dedicado a


nuestros padres por el esfuerzo
que hacen al
Ayudar que nuestra educacin
sea posible.

FACULTAD DE INGENIERIA CIVIL

Pgina 3

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

REGRESIN LINEAL MLTIPLE.


1.-MODELO DE REGRESIN LINEAL MLTIPLE
El anlisis de regresin mltiple es una tcnica estadstica que
consiste

en

la

extensin

del

anlisis

de

regresin

simple

aplicaciones que implican dos o ms variables independientes


Xl,X2,...,Xk

(k>2)

para

pronosticar

el

valor

de

la

variable

dependiente Y. Es una tcnica muy til empleada en diversas


disciplinas, como por ejemplo, en economa y finanzas. Con la
aplicacin de paquetes de cmputo se hace posible la solucin de
problemas en las que intervienen un gran nmero de variables.
En el modelo de la regresin lineal mltiple para k variables
independientes Xx,X2,..., Xk la media de Y se expresa por la ecuacin :
y/X1,X2.,Xk = o + 1 X1 + 2 X2 + + k Xk
En donde: 0, 1, k

son los coeficientes de regresin

poblacional.
La estimacin de la ecuacin de regresin poblacional es la ecuacin
de regresin lineal mltiple muestral cuya expresin es:

Y bo b1 X 1 b2 X 2 ... bk X k

En donde: bo, b1, , bk son los coeficientes de regresin


muestral.
Cada coeficiente de regresin poblacional i se estima mediante el
respectivo coeficiente de regresin muestral bi, utilizando el mtodo
de mnimos cuadrados.
Para k - 2 la grfica de la ecuacin de regresin es un plano que
intercepta a Y en 0. Los dems coeficientes de regresin parcial 0,
son las pendientes de la lnea de regresin de Y con la variable X i
mientras las otras variables independientes se mantienen constantes.

FACULTAD DE INGENIERIA CIVIL

Pgina 4

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

Estas pendientes indican el cambio promedio de Y correspondiente a


un incremento unitario en Xi cuando las dems X permanecen
constantes.
Para k variables independientes (k > 2), la grfica de la
ecuacin de regresin poblacional es un hiperplano en el espacio de k
+ 1 dimensiones.
Los supuestos en el anlisis de regresin mltiple son similares
a las del caso de regresin lineal simple.
Determinacin de la ecuacin de regresin muestral
Los coeficientes de regresin muestral b0,b1 ,...,bk se calculan a partir
de los datos de una muestra aleatoria. Los datos de la muestra
aleatoria de tamao n se pueden recopilar en la forma:
(x1.x2i,...,xki, yi),

i = 1,2,...,n

y n>k

En donde yi es la respuesta observada (valor de la variable


dependiente Y) para los valores x 1. x2i,...,xki de las k variables
independientes respectivas Xl, X2,...,Xk.
Para cada i = l, 2,...,n los datos de la muestra satisfacen la ecuacin
de regresin poblacional:
yi = o + 1 X1i + 2 X2i + + k Xki + i
Donde, ei, el trmino error, es una variable aleatoria que se
supone tiene media 0 y varianza 2.
Los datos de la muestra

satisfacen tambin, la ecuacin de

regresin
muestral:
yi = b0 + b1x2i + b2 x2i +... + bk xki + ei

ei = yi yi es el trmino residual.
Los coeficientes de regresin muestral b0, bx, b2,..., bk se
calculan por el mtodo de mnimos cuadrados. Este mtodo consiste

FACULTAD DE INGENIERIA CIVIL

Pgina 5

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

en determinar los coeficientes de manera que hagan mnima la suma


de los cuadrados de los residuales (SCE) expresada por:
n

SCE e ( yi y ) yi b0 b1 X 2i ... bk X ki ) 2
i 1

2
i

i 1

i 1

Derivando SCE cada vez con respecto a b 0 , b 1 , b 2 ,...,b k

igualando a cero, se obtienen las siguientes k +1 ecuaciones


normales:

nb0 b1 x1 b2 x2 bk xk y

b0 x1 b2 x12 b2 x1 x2 .... bk x1 xk x1 y

b0 x2 b1 x1 x2 b2 x22 .... bk x2 xk

b0 xk b1 xk x1 b2 xk x2 .... bk xk2

Donde,

x j x ji , para j = 1,2, , k.
i 1

Estas ecuaciones pueden ser resueltas para b0, bx, b2, ..., bk por
cualquier mtodo apropiado para resolver sistemas de ecuaciones
lineales. Sin embargo hay muchos paquetes de cmputo disponibles
para llevar a cabo estos clculos, como por ejemplo el paquete
estadstico didctico MCEST elaborado por el autor de este texto.
NOTA. En el modelo de regresin lineal mltiple, las variables
independientes pueden incluir variables cualitativas (o categricas),
como por ejemplo, sexo. En este caso, los valores de la variable
llamada tambin variable indicadora, deben ser codificados. La
codificacin de la variable sexo por ejemplo, puede ser 0 = mujer, l =
hombre (o viceversa).
EJEMPLO

FACULTAD DE INGENIERIA CIVIL

Pgina 6

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

Se realiza un estudio de asociacin entre las siguientes variables:


Y: Gastos mensuales expresados en cientos de dlares
X1: Ingreso mensual familiar en miles de dlares
X2: Tamao de la familia.
En una muestra de 10 familias escogidas al azar se han encontrado los
datos que presentan en la tabla que sigue:
Y
45
40
38
35
32
30
28
27
25
22

X1
10
9
8
7
7
6
6
4
3
2

X2
8
8
6
6
5
4
3
2
2
1

a) Determine la ecuacin de regresin muestral de los gastos


mensuales con respecto a las dos variables: Ingreso mensual y
nmero de hijos.
b) Estime el gasto mensual para una familia de 8 hijos y cuyo ingreso
mensual es $7,000.
SOLUCIN.
a) La ecuacin de regresin mltiple muestral a determinar es:
Y = b0 + b1 X1 + b2 X2.
De los datos de la muestra, resultan:
n = 10, x1 = 62, x2 = 45, x1 x2 = 335, x21 = 444, x22 =
259, y = 322, x1y = 2158, x2y = 1608.
El sistema de ecuaciones normales de mnimos cuadrados es:
10b0 + 62b1 + 45b2 = 322
62b0 + 444b1 + 335b2 = 2158
45b0 + 335b1 + 259b2 = 1608

FACULTAD DE INGENIERIA CIVIL

Pgina 7

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

Las soluciones nicas de este sistema son:


b0 = 17.8,

b1 = 0.978, b2 = 1.844

Por tanto, la ecuacin de regresin mltiple muestral es:


Y = 17.8 + 0.978 X1 + 1.844 X2
b) Si una familia tiene 8 hijos y si su ingreso mensual es $ 7,000,
esto es, si X1 = 7, X2 = 8, entonces, sus gasto mensual estimado es:
y = 17.8 + 0.978 (7) + 1.844 (8) = 39.4 o $ 3,940.
Nota
Un mtodo prctico para convertir el sistema de 3 ecuaciones aun
sistema de dos ecuaciones. Consiste en escribir:
b1 Sx1x1 + b Sx2x2 = Sxiy
b1 Sx1x2 + b2 Sx2x2 = Sx2y
En donde:
n x1 ,

Sx1x1 =

Sx1x2 =

x x

2
1

Sx2y =

n x1 x 2 ,

Sx2x2 =

2
2

n x 2 ,

Sx1x2 =

x y n x y ,
1

y n x 2 y ,

Del sistema reducido se obtienen b1 y b2 y luego se obtiene,


bo y b1 x1 b2 x 2

FACULTAD DE INGENIERIA CIVIL

Pgina 8

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

2.-PRUEBAS DE SIGNIFICACIN DE LOS COEFICIENTES


DE REGRESIN
Una

vez determinada la ecuacin

de

regresin

muestral

debemos de terminar si los coeficientes de esa ecuacin de regresin


son significativos o
coeficientes de

no.

Es decir,

se debe determinar si

los

regresin calculados a partir de la muestra implican

que los correspondientes coeficientes de regresin poblacional son o


no son distintos de cero.
Si todos los coeficientes de regresin poblacional son iguales a
cero no podremos predecir Y, es decir no habra regresin lineal. Si
slo uno de ellos igual a cero, por ejemplo,

2 = 0 ; podemos concluir

que no hay regresin de Y en X2.


El anlisis de la regresin debera comenzar con una prueba de
lignificacin global de los coeficientes de regresin muestral mediante
un Anlisis de varianza. Si se acepta que no todos los coeficientes de
regresin poblacional son iguales a cero, entonces, se debe analizar la
significacin

di

los

coeficientes

de

regresin

muestral

individualmente.
El proceso es el siguiente:
i) Anlisis de varianza
El anlisis de varianza se utiliza en este caso para determinar si
existe o no regresin lineal en la poblacin de la variable dependiente
Y con todas las variables independientes en conjunto (anlisis de
regresin lineal global de los coeficientes de regresin). La hiptesis
nula y alternativa de la prueba es respectivamente:
H0 = 1 = 2 = = k = 0

FACULTAD DE INGENIERIA CIVIL

Pgina 9

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

H1: al menos una de las 1 es distinto de cero


La estadstica F de la prueba de la hiptesis nula H0 contra H0 se
obtiene de la particin de varianza de Y en varianza residual (no
explicada) y varianza explicada por la regresin lineal, cuyas sumas
de cuadrados respectivos son:
n

(y
i 1

y i ) 2 ( y1 y ) 2 y i y ) 2
i 1

i 1

SCT = SCE + SCR


Donde, SCT es la suma de cuadrados total, SCE es la suma de
cuadrados de errores o residuales (varianza no explicada) y SCR es la
suma de cuadrados de la regresin (varianza explicada por la
regresin).
Los grados de libertad respectivos de las sumas de cuadrados son:
n- 1 = (n k - l) + k
Por otro lado, la estadstica

SCR/2, se distribuye segn una chi-

cuadrado con k grados de libertad, esto es:


SCR/ 2 ~X2 (K)
Tambin, la estadstica
SCR/ 2 ~X2 (n k 1) + k
Estas estadsticas son independientes. Por tanto, el cociente de
las dos chi2 divididos entre sus respectivos grados de libertad, tiene
distribucin F con grados de libertad k y n k 1, esto es:

( SCR / 2 ) / K
SCR / K
CMR

~ F ( K , n k 1)
2
( SCE / )(n k 1) SCE ( n k 1) CME

En donde:

FACULTAD DE INGENIERIA CIVIL

Pgina 10

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

CMR = SCR/k y CME = (n k 1)


Son

los

cuadros

medios

de

regresin

de

error

respectivamente.
Dado el nivel de significacin , para los grados de libertad k y
n k 1, en la tabla F se encuentra el valor crtico c = F1-,k,n-k-1 .
La regin de decisin es: rechazar H0 : 1 = 2 = = k = 0, si el
valor calculado de F es mayor que el valor crtico c. No rechazar H 0 en
caso contrario.

La prueba de hiptesis de anlisis global se resume en la siguiente


tabla anlisis de varianza (ANVA):
Fuente

de Suma de Grados

variacin

Cuadrados medios

F calculada

cuadrado de
s

libertad

Regresin

SCR

CMR = SCR/k

Error

SCE

nk1

CME = SCE/(n k 1)

Total

SCT

n-1

Las sumas de cuadrados

CMR
CME

SCT, SCR y SCE se calculan utilizando

las siguientes expresiones:


n

i 1

i 1

SCT ( y1 y ) 2 y12 n( y ) 2
n

SCT ( y1 y ) 2 b1 Sx1 y b2 Sx2 y


i 1

Donde Sx1y =

x y n( x)( y ), y Sx
i 1

x2 y n( x 2 )( y )
i 1

SCE = SCT SCR

FACULTAD DE INGENIERIA CIVIL

Pgina 11

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

EJEMPLO
Con los datos mustrales del ejemplo 13.10

y utilizando el

nivel de Dignificacin = 0.05, analice la existencia de regresin


mltiple global en la poblacin:
SOLUCIN.
La hiptesis nula y alternativa de esta prueba son:
H0:1=2=0
H1 : al menos una de las i es distinto de cero
De los datos del ejemplo 13.10, resultan:
n

SCT =

y
i 0

2
1

n ( y ) 2 = 10,840 -10(32.2)2 = 471.6

SX1Y =

x y n (x
i 0

SX2Y =

x
i 0

) ( y ) = 2158 -10 (6.2) (32.2) = 161.6

y n ( x 2 ) ( y ) = 1.068 10 (4.5) (32.2) = 159

SCR = b1Sx1y + b2Sx2y = 0.978 (161.6) + 1.844 (159) = 451.342


SCE = SCT SCR = 471.6 451.342 = 20.258
Los grados de libertad de SCT, SCE y SCR son respectivamente, 9, 2 y
7

FACULTAD DE INGENIERIA CIVIL

Pgina 12

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

CMR

451.342
225.671
2

CME

20.258
2.894,
7

REGRESIN

225.671
77.979
2.894

Las sumas de cuadrados, los grados de libertad, los cuadrados


medios y la estadstica F se resumen en la siguiente tabla de anlisis
de varianza.
ANVA para H0: 1 = 2 = 0
Fuente

de

Suma de

Grados

de

Cuadrados

variacin

cuadrado

libertad

medios

Calculada

Regresin

s451.342

225.671

Error
Total

20.258
471.600

7
9

2.894

=77.979

Al nivel de significacin 5%, y con los grados de libertad 2 y 7,


en la tabla de probabilidades de la F se encuentra el valor crtico F095, 2,
7

= 4.74. Dado que el valor calculado F = 77.53 > 4.74, no se debe

aceptar H0: 1 = 2 = 0. En consecuencia se puede afirmar que existe


regresin lineal poblacional global de Y con X1 y X2.
NOTA. Si se decide aceptar la hiptesis nula H0, se concluye que no
hay regresin de Y globalmente con X1 y X2 y el anlisis termina. Pero
si se rechaza H0 y aceptamos H1 (al menos una de las i es distinto

FACULTAD DE INGENIERIA CIVIL

Pgina 13

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

de cero) se debe continuar con el anlisis, determinando las variables


independientes que influyen en la regresin.
ii) Prueba t.
Hiptesis de contraste o nula Ho: u1-u2 = 0
Nivel de significacin del contraste: = 0,05

Muestra estadstica N1 que son los controles con los cuales se


obtuvieron

los

distintos

estadsticos

para

el

intervalo

de

aceptacin, grfico de control:


N

fech

UREA

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

a
20/1
21/1
22/1
23/1
24/1
28/1
30/1
31/1
3/2
4/2
5/2
6/2
7/2
10/2
11/2
12/2

[g/l]
0,22
0,21
0,23
0,22
0,21
0,22
0,20
0,21
0,18
0,18
0,21
0,24
0,22
0,18
0,23
0,21

FACULTAD DE INGENIERIA CIVIL

Pgina 14

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

17
18
19
20

13/2
14/2
17/2
18/2

REGRESIN

0,23
0,27
0,22
0,21

Muestra estadstica N2, que corresponden a los valores de los


controles graficados y que estn desplazados:
N de

fech

UREA [g/l]

control
1
2
3
4
5
6
7
8
9
10
11
12
13
14

a
19/2
20/2
21/2
24/2
25/2
25/2
27/2
28/2
28/2
4/3
5/3
6/3
7/3
7/3

0,24
0,25
0,22
0,34
0,27
0,25
0,30
0,26
0,24
0,25
0,24
0,25
0,27
0,24

FACULTAD DE INGENIERIA CIVIL

Pgina 15

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

Prueba t:

Estadsticos
Media
Varianza
Observaciones
Estadstico t
P(T<=t)
Valor crtico de t

test t student
valores muestra
1
0,22
0,00045
20

muestra 2
0,26
0,00091
14

-4,67
0,0001
-2,07

Como el valor t = -4,67 est fuera del rango +/-2,07, entonces


RECHAZAMOS LA HIPTESIS u1=u2 a un nivel de significacin =
0,05 ya que la diferencia entre las medias es estadsticamente
significativa.
Continuamos con la fase de bsqueda y deteccin de la
fuente de error:
1) Estado del instrumental: ANALIZADOR CLNICO, Bao Mara,
micropipetas: Ok.
2) Limpieza y estado del material de vidrio involucrado, es decir
tubos de Kahn, pipetas, etc.: Ok.
3) Estado de los reactivos: revisando la tabla de ingreso de los
controles, se encontr la anotacin que justo el da 19 de febrero
se reemplaz la UREASA por un frasco nuevo. Deducimos que no
es la ureasa nueva la fuente de error, sino lo que ocurri es que la
ureasa anterior tena una actividad menor a la debida por
envejecimiento, entonces al reemplazar sta por una nueva con
mayor actividad es lgico que todos los valores de concentracin
de urea fueran un poco mas elevados.

FACULTAD DE INGENIERIA CIVIL

Pgina 16

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

4) Factores externos tales como la temp. ambiente, humedad


excesiva, problemas con el personal tcnico, molestias de diversos
tipos hacia el operador que realizo la corrida, etc., Ok.
5) Operador: Ok.
Es por esta razn que hubo un desplazamiento en los controles
y el test de student confirma este cambio estadsticamente
significativo.
Adicionalmente hacemos la Prueba T, contrastando el t obtenido,
de 6.9647 con el valor crtico para n=18 (porque restamos 2 grados
de libertad), con una significacin de 5% e incluso de 1%.
El valor crtico arrojado es 2.101 y 2.878 respectivamente, ambos
mejores que el t obtenido. Por ende, rechazamos nuevamente la H 0 y
adoptamos el modelo de regresin planteado.
iii) Anlisis del Coeficiente de Determinacin (R2)
Como podemos apreciar en los datos mostrados arriba, el R 2
tiene un valor de 0.7294, por ende, consideramos que el modelo es
de buena calidad, ya que la variable independiente "Fertilizante" tiene
una capacidad explicativa de 72% del fenmeno.
Anlisis de los Residuos
Ahora procederemos al anlisis de los Residuos, para evaluar la
presencia

de

observaciones

inusuales

en

la

muestra

para

comprobar la validez de las hiptesis fundamentales del modelo,


como son: independencia, normalidad de las observaciones e
igualdad de varianzas de los errores ei (Homoescedasticidad).
Coeficiente De Determinacin Mltiple
Una

vez

hallada

la

ecuacin

de

regresin

muestral

debera

interesarnos conocer la bondad de ajuste a los datos de la muestra.


Para k = 2 variables independientes el plano ajustado a los puntos de

FACULTAD DE INGENIERIA CIVIL

Pgina 17

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

la muestra

REGRESIN

que sea horizontal y pase por la media

y, x1 , x2

puede

considerarse como un plano bsico con respecto al cual se mide la


mejora introducida por la regresin.

= b0 +b1 Xl + b2 X2

De la particin de la suma total de cuadrados en suma de


cuadrados no explicada y suma de cuadrados explicada por la
regresin, se obtiene el c o e fi c i e n t e de determinacin mltiple que
2
se denota por R2 o R y ,12... k ...k donde k es el nmero de variables

independientes.
El coeficiente de determinacin mltiple se define en forma
similar al
Coeficiente de determinacin simple, por ejemplo,

para

k = 2

variables independientes, se define por:

RY2.12 1

SCE
SCT

La suma total de cuadrados contienen las desviaciones de los


puntos Observados Y de un plano que se ajusta a estos puntos y que
es horizontal Y Miando por el punto

y, x1 , x2

y a partir del cual se

mide el mejoramiento producido por la regresin.


Al igual que el coeficiente de determinacin R2, el coeficiente
de determinacin mltiple mide el porcentaje de la varianza de Y que
queda explicada al conocer dos o ms variables independientes.
Cuanto mayor es el valor de RY2.12 menor es la dispersin y mayor el
ajuste del plano de regresin a los datos.
Por ejemplo, para los datos del ejemplo 13.10 el coeficiente de
determinacin mltiple es:

FACULTAD DE INGENIERIA CIVIL

Pgina 18

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

RY2.12 1

REGRESIN

SCE
20.6
1
0.96
SCT
471.6

Esto indica que el 96% de la varianza de los gastos mensuales


(Y) queda estadsticamente explicado por los ingresos familiares (X1) y
por el nmero de hijos de las familias (X2).
Cuando el tamao n de la muestra es pequeo, el ndice de
determinacin mltiple RY2.12 tiende a estar positivamente sesgada.
Para corregir este sesgo se utiliza el coeficiente o ndice de
determinacin mltiple corregido (o ajustado) que se denota por R2 o
por RY2.12 y se define por:
RY2.12 1

Aplicando

los

datos

del

CME
CMT

ejemplo

13.10

el coeficiente

de

determinacin mltiple corregido es:


RY2.12 1

CME
2.91
1
1 0.056 0.944
CMT
52.4

La raz cuadrada positiva del coeficiente de determinacin


mltiple se denomina coeficiente de correlacin mltiple que
denotamos por R o RY.12. Este nmero mide la relacin entre las
variables independientes consideradas como grupo y la variable
dependiente Y.
La prueba de la significacin del coeficiente correlacin
mltiple poblacional es la misma prueba F que se utiliza para
determinar si existe regresin global de Y con respecto a todas las
variables independientes en conjunto.
Es decir, si se acepta H0 : 1 = 2 =... = k = 0, entonces, se
concluye que no existe correlacin mltiple de Y con todas las
variables independientes Xl, X2,..., Xk.

FACULTAD DE INGENIERIA CIVIL

Pgina 19

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

Por ejemplo, el coeficiente de correlacin mltiple de Y con Xx y X2


para los datos del ejemplo 13.10 es:
RY ,12

0.96 0.98

Dado que el anlisis de varianza se encuentra que es


significativa la regresin global de Y con X 1 y X2, se concluye que
existe correlacin lineal mltiple en la poblacin.

3.-MATRIZ

DE

REGRESIN

LINEAL

MEDIANTE

MATRICES
Supngase que se tiene k variables independientes X 1, X2,, XK
y una variable dependiente Y, y que adems la muestra aleatoria de
tamao n: (X1i, X2i,, XKi, yi), i = 1, 2, . . . , n y n > k, satisface la
ecuacin de regresin poblacional:
yi: 0 + 1x1i + 2x2i + + xki + i
Con la notacin matricial estas n ecuaciones se pueden escribir
como el modelo poblacional.
Y = X +
Donde,

FACULTAD DE INGENIERIA CIVIL

Pgina 20

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

y1 1 1 21. xxx k1 0 1
y 1 . xxx
2 12 2 k2 1 2
. .... . .
Y , X , , ,
. .... . .
. .... .

yn 1 1n 2n. xxx kn k n
FACULTAD DE INGENIERIA CIVIL

Pgina 21

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

0

1

El vector de parmetros

.

.
.

k

REGRESIN

b0
b
1

, se estima por

.
b
.
.

bk

, el

valor de coeficiente de regresin muestral.


El vector b se encuentra por el mtodo de mnimos cuadrados,
para lo cual se minimiza la suma de cuadrados de errores:
SCE = (Y Xb) (Y - Xb)
El sistema de ecuaciones normales se obtiene de la ecuacin de
derivadas en vectores:

( SCE ) 0
b

No se presentaran aqu los detalles del mtodo de mnimo


cuadrados para llegar a la ecuacin normal en forma vectorial. En las
aplicaciones nos interesa saber que el vector b es la solucin de la
ecuacin en matrices:
(XX) b = XY

FACULTAD DE INGENIERIA CIVIL

Pgina 22

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

n
n x1i x2i . . xki y1
i1 i1 i1 i1
n n 2 n n n
x1i x1i x1i x2i. . x1i xki x1i y1
i1 i1 i1 i1 i1
X ' X . . . . , X 'Y .


. . . . .
. . . . .
n n n n n
x x x x x . . x2 x y
i1 ki i1 ki 1i i1 ki 2i i1 ko i1 ki i
n

Si la matriz XX es no singular, se puede escribir la solucin para


los coeficientes de regresin como:
b = (XX)-1 XY
Las tcnicas para invertir la matriz XX de orden k + 1 por k +
1 se explican en la mayor parte de los libros textos sobre
determinantes y matrices elementales. Hay muchos paquetes de
computadora para problemas de regresin mltiple entre ellos el
MCEST, paquete que no slo proporcionan los coeficientes de
regresin muestral sino que proporciona abundante informacin sobre
inferencias relativas a la ecuacin de regresin poblacional.

FACULTAD DE INGENIERIA CIVIL

Pgina 23

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

EJEMPLO
Se realiz un estudio de las relaciones entre las notas obtenidas en 4
materias

por

10

estudiantes

de

administracin

de

empresas

seleccionados aleatoriamente. Las 3 variables independientes X 1, X2,


X3 y la variable dependiente Y son:
Y = notas en estadsticas aplicada
X1 = nota de matemtica bsica
X2 = nota en lgica
X3 = nota en economa general
Los datos son los siguientes
Y
13

X1
12

X2
10

X3
18

15

14

12

15

17

16

10

18

16

15

11

20

13

11

13

15

17

15

16

18

16

16

10

19

14

14

14

16

18

17

13

15

11

11

11

13

a) Determine las ecuaciones normales (XX) b = XY


b) Determine b = (XX)-1 XY
c) Estime el modelo de regresin lineal mltiple
Solucin
Utilizando el paquete estadstico didctico MCEST se tiene:
a) Las ecuaciones normales (XX)b = XY cuya expresin es:

FACULTAD DE INGENIERIA CIVIL

Pgina 24

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

10 141 120 167 b0 153


141 2029 1694 2375 b 2 03

1
120 1694 1476 19 5 b2 1838


167 2375 19 5 283 b3 2584

b) La solucin de la ecuacin vectorial es b = (XX)-1 XY, donde,

FACULTAD DE INGENIERIA CIVIL

Pgina 25

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

b0 3.1 809 0.120 0.430 0.41 153 2.91069


b 0.120 0. 3 0. 06 0. 16 2 03 1.01726
1

b2 0.430 0. 06 0. 30 0. 09 183 0. 4826


b 3 0.41 0. 16 0. 09 0. 32 2584 0.196 0
De donde resulta
b0 = -2.91069, b1 = 1.01726, b2 = 0.04826, b3=0.19690,
La ecuacin de regresin muestral es:

y 2.91069 1.01726 X 1 0.04826 X 2 0.1969 X 3

4.-PRUEBA DE DURBIN WATSON


En el modelo de regresin mltiple:
k

yi j x ji i , i 1,2,..., n,
j 0

FACULTAD DE INGENIERIA CIVIL

Pgina 26

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

Se

ha

supuesto

que

los

REGRESIN

son

variables

aleatorias

independientes. En esta variable se incluye todos los efectos ajenos a


Xi que estn presentes en la funcin de regresin.
La

prueba

de

Durbin

Watson

nos

proporciona

un

procedimiento para determinar si los i estn correlacionados en serie.


El mtodo consiste en calcular a partir de los datos de la muestra, la
estadstica d definida por:
n

(e

i 2

ei 1 ) 2

(e )
i 1

Donde ei = Yi Yi, luego comparar el valor de d con valores


crticos dL y dU que se pueden encontrar en las tablas preparadas por
Durbin y Watson para los niveles de confianza del 5%, 2.5% y 1% .
Las hiptesis nula y alternativa son respectivamente:
H0 : No existe correlacin positiva en serie
H1 : Existe correlacin positiva en serie
La regla de decisin es:
Rechazar H0 si d < dL
No rechazar H0 si d > dU
Si dL < d < dU la prueba no es concluyente
Aplicando a los datos del ejemplo 13.12 la estadstica de Durbin
Watson es d = 2.488. De la tabla de Durbin Watson para n = 15
observaciones, K = 2 variables independiente y un nivel de confianza
del 5%, se encuentran los valores crticos dL = 0.95 y dU = 1.54.
Dado que d = 2.5 > dU = 1.54., concluimos que no hay
autocorrelacin en serie.
Matriz de correlaciones
La matriz de correlacin de k variables X1, X2,, Xk es:

FACULTAD DE INGENIERIA CIVIL

Pgina 27

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

r11 r12 . .
r r ..
21 22

r1k 1
r2k r21
R

. . . . . . . . ...


r k1 rk 2 . . rkk rk1

REGRESIN

r12 ... r1k


1 ... r2k
...

... ...
rk 2 ...

Donde rij son los coeficientes de correlacin simple o de orden


cero que se definen:
n

rij

Cov ( X i , X j )
Si S j

(x
k 1

ik

x i )( x jk x j )

( xik x) 2
k 1

(x
k 1

ik

x j )2

Adems, para probar la significacin de los coeficientes de correlacin


rij se utiliza la estadstica:
t rij

nk 2
1 rij2

Que tiene t-Student con n k 2 grados de libertad. Donde k es


el nmero de variables, y n el nmero de casos.
Para ejecutar esta prueba objetiva sobre la independencia de
los errores se asume que las observaciones y as los residuales tienen
un orden natural tal como el tiempo o espacio. La prueba de DurbinWatson tiene como estadstica de prueba

Se puede demostrar que:

FACULTAD DE INGENIERIA CIVIL

Pgina 28

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

1. El valor de esta siempre en el intervalo


2. Si los residuales son positivamente correlacionados, entonces
ser cercano a y los residuales tienden a ser parecidos.
3. Si los residuales son negativamente correlacionados, entonces
ser cercano a

y as

ser cercano a

. Adems los residuales

tienden a ser muy diferentes.


4. La distribucin de es simtrica alrededor de .
Cmo aplicar la prueba?
. Obtenga el valor calculado con los residuales.

2. Aplique la regla de decisin comparando el valor de

con los

valores crticos dados en la tabla 1. Esta regla depende del tipo de


hiptesis a plantear asi:
Hiptesis

Regla

de Decisin

Conclusin

decisin
vs

Si

FACULTAD DE INGENIERIA CIVIL

Rechace

al

Hay

correlacin

Pgina 29

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

Si

REGRESIN

nivel
No rechace
al nivel
No
se

concluye

vs

Si

Rechace

Si
S

al

nivel
No rechace

entre errores
No existe indicio de
una

correlacin

serial
.

Es

posible

correlacin

una
serial

positiva

al nivel
No
se
concluye
vs

Si

Rechace

Si
S

al

nivel
No rechace
al nivel
No
se
concluye

Es

posible

correlacin

una
serial

negativa
No existe indicio de
una

correlacin

serial
No
se

puede

concluir nada

Para evitar los casos inconclusos, se hace una prueba mdificada,


aunque con ello se pierde potencia
Prueba simplificada de una cola:
s

rechace

al nivel

en otro caso no rechace

Prueba simplificada de una cola:


si

rechace

al nivel

FACULTAD DE INGENIERIA CIVIL

en otro caso no rechace

Pgina 30

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

Prueba simplificada de dos colas :


s

rechace

Tabla 1. Puntos significativos de


1%

al nivel

en otro caso no rechace

y
2.5%

5%

15

0.8

1.0

0.9

1.2

1.0

1.3

20

1
0.9

7
1.1

5
1.0

3
1.2

8
1.2

6
1.4

25

5
1.0

5
1.2

8
1.1

8
1.3

0
1.2

1
1.4

30

5
1.1

1
1.2

8
1.2

4
1.3

9
1.3

5
1.4

40

3
1.2

6
1.3

5
1.3

8
1.4

5
1.4

9
1.5

50

5
1.3

4
1.4

5
1.4

5
1.5

4
1.5

4
1.5

70

2
1.4

0
1.4

2
1.5

0
1.5

0
1.5

9
1.6

10

3
1.5

9
1.5

1
1.5

7
1.6

8
1.6

4
1.6

0
15

2
1.6

6
1.6

9
___

3
___

5
1.7

9
1.7

0
20

1
1.6

4
1.6

___

2
1.7

5
1.7

___

5.-MODELO DE CORRELACIN POLINOMIAL


Modelo poblacional:
y / x 0 1 x 2 X 2 ... r X r

FACULTAD DE INGENIERIA CIVIL

Pgina 31

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

Modelo muestral:

= b0 + b1 X2 + br Xr

EJEMPLO
Se llevo a cabo un experimento para determinar la distancia de
frenado a diferentes velocidades de un modelo nuevo de automvil, se
registraron los siguientes datos:
Velocidad X (Km./h)
Distancia de frenado

30
15

40
25

50
35

60
65

(metros)

70
10

80
15

a) Estime la ecuacin de regresin cuadrtica.

Y 0 1 x 2 X 2

b) Estimar la distancia de frenado cuando el vehculo viaja a la


velocidad de 80 Km/h Y/80.
c) Solucin si el modelo propuesto es el adecuado.
Solucin
a) Se va a determinar la ecuacin muestral:

Y 0 1 x 2 X 2

De los daros, utilizando el paquete MCEST, se obtiene las ecuaciones


normales:
6b0 + 33b1 + 199000b2 = 390
330b0 + 19900b1 + 1287000b2 = 26100
19900b0 + 1287000b1 + 87550000b2 = 1825000

Las soluciones nicas de este sistema son:


b0 = 65.28434,

b1 = -3.23570, b2 = 0.05357

Luego, el polinomio es:

FACULTAD DE INGENIERIA CIVIL

Pgina 32

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

Y 65.28434 3.23570 X 0.05357 X 2

b) si X = 90, entonces y/80 = 207.99 metros


c) Utilizando la prueba t para la significacin de coeficientes se
tiene:
Pruebas t de ka hiptesis: 1 = 0, 2 = 0
Modelo

Coeficient

Error

es

estndar

Significaci
n
bilateral

b0

65.284

b1

-3.236

0.516

-6.276

0.011

b2

0.054

0.005

11.530

0.001

Se concluye que el modelo es adecuado.


Regresin polinomial
Supongamos que se conocen los datos
(xo, yo),(x1, y1),..(xn, yn) con x0, x1, .., xn
nmeros reales distintos, y se desea encontrar un polinomio
Pm(x) = a0 + a1x + a2x2 + .. + am xm,

con m<n

Tal que:

Sea mnima.
P1) El grado m del polinomio p m(x) se puede escoger previamente
con base en algn resultado terico, alguna expectativa o por la
aplicacin que se le pretenda dar al polinomio. En cualquier caso

FACULTAD DE INGENIERIA CIVIL

Pgina 33

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

estamos libres de elegir el grado que parezca mejor. En muchos


casos el grado ser uno y el polinomio obtenido se llamar la recta
que mejor se ajusta o la recta de mnimos cuadrados para la tabla de
datos.
P2) Volviendo a la funcin S(a0, a1, .., am), una condicin necesaria
para la existencia de un mnimo relativo de esta funcin es que las
derivadas parciales de S(a0, a1, .., am) con respecto a aj, j = 0, 1, 2,
,m sean cero.
Resultan entonces las siguientes m+1 ecuaciones lineales en las
incgnitas a0, a1, .., am :

P3) Si en las ecuaciones anteriores cancelamos el 2, desarrollamos


los parntesis y usamos que
, obtenemos:

FACULTAD DE INGENIERIA CIVIL

Pgina 34

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

P4) Este es un SEL de m+1 ecuaciones lineales en las m+1


incgnitas a0, a1, .., am, que se llama Sistema de Ecuaciones
Normales. Este sistema de ecuaciones normales se puede escribir en
forma simplificada como sigue:

P5) Estas ecuaciones se pueden reproducir a partir de:

P6) Multiplicando a ambos lados por

, j = 0, 1, , m,

P7) Sumando sobre k

Regresin Polinomial Utilizando las IMSL


Las rutinas de las IMSL de Fortran proveen de varias funciones
de

aproximacin

polinomial.

Con

respecto

la

aproximacin

utilizando el mtodo de los mnimos cuadrados, dicha librera tiene las


funciones RCURVE y DRCURV (tanto para precisin sencilla como
FACULTAD DE INGENIERIA CIVIL

Pgina 35

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

doble) para obtener los coeficientes del polinomio que se pretende


evaluar. Para este caso, slo nos limitaremos al caso de datos de
precisin sencilla.
La forma de llamar a dicha funcin es la siguiente:
CALL RCURV (NOBS, XDATA, YDATA, NDEG, B, SSPOLY, STAT)
Los argumentos que dicha funcin requiere son los siguientes:
NOBS Nmero de observaciones. (Dato de entrada)
XDATA Vector de longitud NOBS que contiene los valores de X (Dato
de entrada).
YDATA - Vector de longitud NOBS que contiene los valores de Y (Dato
de entrada).
NDEG Grado del polinomio que se requiere probar. (Dato de
entrada)
B - Vector de longitud NDEG + 1 que contiene los coeficientes del
polinomio (Dato de salida)
SSPOLY - Vector de longitud NDEG + 1 que contiene las sumas
secuenciales de los cuadrados de los datos (Dato de salida).
SSPOLY (1)- contiene la suma de los cuadrados atribuidos a la media.
Desde i = 1, 2, , NDEG,
SSPOLY (i + 1) -contiene la suma de los cuadrados atribuidos a xi
ajustados a la media,
x, x2, y xi-1.
STAT - Vector de longitud 10 que contiene los resultados estadsticos
siguientes (Dato de salida):
STAT (1) = La media de los datos X
STAT (2) = La media de los datos Y
STAT (3) =Varianza muestral de X
STAT (4) = Varianza muestral de Y
STAT (5) = R-cuadrada (en porcentaje)

FACULTAD DE INGENIERIA CIVIL

Pgina 36

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

STAT (6) = Grados de libertad de la regresin


STAT (7) = Suma de los cuadrados de la regresin
STAT (8) = Grados de libertad del error de la regresin
STAT (9) = Suma de los cuadrados del error de la regresin
STAT (10) = Nmero de puntos (x, y) que contienen valores NaN (not
a number) para x e y
Si al programa se le alimentan los datos del ejemplo de la
aproximacin spiline (

) y pidindole que lo aproxime a un

polinomio de grado 3, estos seran los coeficientes de dicho


polinomio:
COEFICIENTES DEL POLINOMIO:
1) 2.3264945E-02
2) 1.922223
3) -1.065270
4) 0.2241328
El polinomio resultante sera el siguiente:
F(X) = 0.2241328X3 -1.065270X2 +1.922223X +0.0232649

FACULTAD DE INGENIERIA CIVIL

Pgina 37

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

La

siguiente

tabla

muestra

cmo

se

REGRESIN

comporta

el

programa,

comparado con los resultados arrojados por una hoja de clculo:


PROGRAMA
X
YAPRO

(Excel)
YREAL DIFEREN

0.000

X
0.023

0.000

CIA
0.0233

0
0.062

3
0.139

0
0.250

0.1107

5
0.125

3
0.247

0
0.353

0.1062

0
0.187

3
0.347

6
0.433

0.0853

5
0.250

7
0.440

0
0.500

0.0593

0
0.312

7
0.526

0
0.559

0.0322

5
0.375

8
0.606

0
0.612

0.0063

0
0.437

1
0.679

4
0.661

0.0177

5
0.500

1
0.746

4
0.707

0.0390

0
1.750

1
1.326

1
1.322

0.0031

0
1.812

0
1.342

9
1.346

0.0040

5
1.875

3
1.359

3
1.369

0.0095

0
1.937

8
1.378

3
1.391

0.0131

5
2.000

8
1.399

9
1.414

0.0145

FACULTAD DE INGENIERIA CIVIL

Pgina 38

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

2.062

1.422

1.436

0.0134

5
2.125

8
1.448

1
1.457

0.0094

0
2.187

3
1.476

7
1.479

0.0023

5
2.250

8
1.508

0
1.500

0.0083

La siguiente grfica muestra como se aproximan los datos


predichos por el polinomio de 3er grado a los datos a interpolar del
ejemplo usado en el caso de la aproximacin spline:

Figura: Representacin de la funcin

. Los cuadros con la lnea

continua representan los valores tabulados utilizando el

polinomio

obtenido por el programa y las cruces son los datos interpolados


mediante una funcin del ejemplo

FACULTAD DE INGENIERIA CIVIL

Pgina 39

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA


LINEAL MLTIPLE

REGRESIN

BIBLIOGRAFA

Taro yamane estadstica

Spiegel Murcay Probabilidad y estadstica Mc. Graw Hill

Estadstica inferencial Manual Cordova Zamora

Manual de estadstica

http://www.monografias.com/trabajos21/regresionlineal/regresion-lineal.shtml#prueba

www.virtual.unal.edu.co/cursos/ciencias/2007315/lecciones_htm
l/capitulo_2/leccion4/indepen.html-32k

http://www.ingenieria.uady.mx/weblioteca/CompApp/aproximaci
on/poli/Regresionpolinomial.htm.

FACULTAD DE INGENIERIA CIVIL

Pgina 40

You might also like