You are on page 1of 22

ESTADSTICA III

UNIDAD 8 - MODELO REGRESIN MLTIPLE


INTRODUCCIN:
a) La regresin mltiple es una extensin de la metodologa vista en la unidad anterior, pero ahora el
 =  +   +   + 

+ +
b) Para el valor esperado, se debera escribir ( ,  , 
, pero como este smbolo puede volverse un
poco complicado, en esta unidad se utilizar, como simplificacin, ( = as:
( =  +   +   + 

+
Tambin tendremos,

 =  +   +   + 

+

c) Recordemos que el error aleatorio se distribuye normalmente con media 0 y varianza 2.


d) Observacin sobre el concepto de linealidad: Las siguientes ecuaciones son modelos tpicos para la
regresin mltiple:
 =  +   +   + 

+ +
 =  +   +   +
 =  +   +   + 
  +   +   +
Estos 3 ejemplos anteriores de modelos se llaman modelos estadsticos lineales ya que en sus
respectivas expresiones, el lado derecho resulta ser una funcin lineal en los parmetros .
Note que el modelo  =    + no es un modelo lineal porque el lado derecho de la ecuacin
de prediccin no es una funcin lineal de los parmetros desconocidos 0 y 1.
El anlisis de regresin mltiple que se har en esta unidad se basa en el supuesto de que y est
representada por un modelo estadstico lineal.

************************

MNIMOS CUADRADOS PARA UN MODELO DE PREDICCIN EN VARIAS VARIABLES


Ejemplo 1:
El dueo de una distribuidora de automviles piensa que la relacin entre el nmero y de automviles nuevos
vendidos por l en un mes dado y el nmero x de anuncios de su distribuidora en un peridico local durante
ese mes, est dada por el modelo
 =  +   +   +

Pgina 1 de 22

En donde  =  y  =  . En la tabla siguiente aparecen los datos correspondientes a los ltimos seis
meses:
Mes
1
10
0

y
x

2
10
1

3
15
2

4
20
2

5
30
3

6
40
4

Se debe ajustar el modelo  =  +   +   + a los datos resolviendo las ecuaciones de mnimos


cuadrados para as obtener los estimadores de los parmetros desconocidos 0, 1 y 2.
Solucin:
El modelo  =  +   +   + , equivalente al modelo  =  +   +   + , es un ejemplo
de un polinomio de segundo grado.
Requiere de la solucin de las siguientes tres ecuaciones de mnimos cuadrados con tres incgnitas,  ,    .
 

+   

   +   

+   

= 

+     =   

   +     +   

=   

Para obtener las sumatorias correspondientes a estas ecuaciones se elabora la siguiente tabla (a partir de los
datos originales):

1
2
3
4
5
6
SUMAS


10
10
15
20
30
40
125


0
1
2
2
3
4
12



0
1
4
4
9
16
34

 
0
1
4
4
9
16
34


 
0
1
16
16
81
256
370

  
0
1
8
8
27
64
108

 
0
10
30
40
90
160
330

  
0
10
60
80
270
640
1060

Reemplazando las sumas correspondientes en las ecuaciones de mnimos cuadrados se tiene:


6 + 12 + 34 = 125
12 + 34 + 108 = 330
34 + 108 + 370 = 1060

(1
(2
(3

Resolviendo el anterior sistema de tres ecuaciones con tres incgnitas se tiene:

Pgina 2 de 22

 = 9,096153878

 = 0,692307642

 = 1,826923089

Por lo que la ecuacin para predecir las ventas mensuales (y) a partir del nmero de anuncios en el peridico
local durante el mes en cuestin (x) y su cuadrado (x2) es:
(recordar que  =  y  =  )
 = 9,096153878 + 0,692307642  + 1,826923089 
Con redondeo a 2 decimales:

 = 9,10 + 0,69  + 1,83 

NOTA 1:  CONCEPTO DE RESIDUALES:


Los errores en la prediccin (usualmente llamados residuales) se pueden obtener sustituyendo las variables de
prediccin x1 y x2 en la ecuacin de prediccin y evaluando as las ventas estimadas ().
Para el mes 1 se hubiera estimado  = 9,10 + 0,69 (0 + 1,83 (0 = 9,10
Y el error de prediccin (residual) para el mes 1 sera: & =   = 10 9,10 = 0,9
Entonces, se puede elaborar la siguiente tabla para los residuales (redondeo con 2 decimales):


&

10
9,10
0,90

10
11,62
-1,62

15
17,80
-2,80

20
17,80
2,20

30
27,64
2,36

40
41,14
-1,14

(Recordar: residual = error de prediccin)


NOTA 2:  Suma de cuadrados de los errores de prediccin:
() = (   = & = (0,90 + (1,62 + = 22,9836

Se puede calcular

El procedimiento de mnimos cuadrados garantiza que ningunos otros valores de los parmetros desconocidos
0, 1 y 2 hubieran producido una SCE menor que 22,9836
NOTA 3:  Grfica de la ecuacin:
x
0
1
2
2
3
4

y
10
10
15
20
30
40

50
40
30
20
10
0
0

Pgina 3 de 22

El grfico anterior muestra los puntos correspondientes a los datos originales (y = ventas, x = anuncios) y la
ecuacin de prediccin  = 9,10 + 0,69  + 1,83  ( = ,  =  
Debe observarse que un modelo lineal simple  =  +   + habra proporcionado un ajuste muy
inferior al que result con el uso del polinomio.

NOTA 4:  Si fueran ms variables predictoras:


Para un modelo de prediccin con tres o ms variables independientes es prcticamente una obligacin emplear
un computador para estudiar los parmetros de regresin 0, 1, 2, 3, .. , k.
Hoy da es relativamente fcil conseguir paquetes que realicen anlisis de regresin para situaciones ms
complejas. Veamos el siguiente ejemplo:

**************************

Ejemplo 2:
Considere un estudio diseado para examinar el papel que juega la televisin en la vida de un grupo
preseleccionado de personas de edades superiores a los 65 aos. El propsito de dicho estudio es el de
proporcionar informacin que permita hacer una programacin adecuada a las necesidades de este grupo.
Una muestra de n = 25 personas mayores (edades mayores a 65 aos) fue seleccionada al azar y en la encuesta
se les solicit la siguiente informacin:
y = nmero promedio de horas diarias que pasa frente al televisor.
x1 = estado civil (x1 = 1 si vive con su cnyugue, x1 = 0 si no)
x2 = edad
x3 = escolaridad (nmero de aos de estudios)
Los datos de esta encuesta aparecen en la siguiente tabla.

INDIVIDUO

HORAS
y

ESTADO CIVIL
x1

EDAD
x2

ESCOLARIDAD
x3

1
2
3
4
5
6
7
8
9
10
11

0,5
0,5
0,7
0,8
0,8
0,9
1,1
1,6
1,6
2,0
2,5

1
1
0
0
1
1
1
1
1
0
1

73
66
65
65
68
69
82
83
81
72
69

14
16
15
16
9
10
12
12
12
10
8
Pgina 4 de 22

12
13
14
15
16
17
18
19
20
21
22
23
24
25

2,8
2,8
3,0
3,0
3,0
3,2
3,2
3,3
3,3
3,4
3,5
3,6
3,7
3,7

0
0
0
0
0
0
0
1
0
1
0
0
0
0

71
71
80
73
75
76
78
79
79
78
76
65
72
80

16
12
9
6
6
10
6
6
4
6
9
12
12
6

Solucin:
El propsito del enunciado puede escribirse (matemticamente) como el siguiente objetivo:
Relacionar el nmero promedio de horas diarias que pasa un entrevistado frente al televisor (y) con las
variables descriptivas estado civil (x1), edad (x2) y escolaridad (x3).
Por simplicidad acadmica, supongamos que escogemos el modelo de prediccin
 =  +   +   + 

+

Observacin terica:
La variable x1 es un ejemplo de una variable indicadora, que se usa con frecuencia para incluir el efecto de un
factor cualitativo en un modelo de regresin. Las variables indicadoras sirven para particionar un modelo de
regresin en varios (dos en este caso) componentes. En este ejemplo se tendra:
Cuando x1 = 1:  = + +  , +   + 


Cuando x1 = 0:  =  +   + 


Continuacin del ejemplo:


Entonces debemos encontrar la ecuacin de mnimos cuadrados para los datos anteriores.
Segn la teora deberemos resolver el siguiente conjunto de ecuaciones de mnimos cuadrados:

Pgina 5 de 22

 

+   

+    + 
 
=  

   +   

+     + 
  
=   

   +     +    + 
  
=   
  
+    
+    
+ 
 
=  


(Pregunta: sera usted capaz de llegar a las siguientes, calculando las sumas, sumas de cuadrados y sumas de productos cruzados?):
25  +

10 

1846 

254 

58,5

10  +

10 

748 

105 

16,2

+ 18509 

4376

1846  + 748 


254  + 105 

+ 137086 
+

18509 

2892 

= 533,4

Como usted podr ver, el hacer los clculos para encontrar las ecuaciones y el resolverlas despus, es una tarea,
no slo tediosa, sino muy demorada. Sin embargo, esta tarea la hace rpidamente un computador.

A continuacin, la salida en Excel para estos datos (otros programas estadsticos pueden hacer otra presentacin
un poco diferente):

Salida Excel-parte 1
Resumen

Estadsticas de la regresin
Coeficiente de correlacin mltiple

0,79097037

Coeficiente de determinacin R^2

0,625634126

R^2 ajustado

0,572153287

Error tpico
Observaciones

0,75363553
25

Pgina 6 de 22

ANLISIS DE VARIANZA
Grados de
libertad

Suma de
cuadrados

Promedio de los
cuadrados

Regresin

19,93270325

6,644234417

Residuos

21

11,92729675

0,567966512

Total

24

31,86

Valor crtico de
F

11,69828551

0,000101569

Salida Excel-parte 2
Coeficientes
Intercepcin

Error tpico

1,495261149

ESTADO CIVIL (x1)


EDAD (x2)
ESCOLARIDAD (X3)

Estadstico t

Probabilidad

2,637199468

0,566988264

0,576733156

-1,175728207

0,3155655

-3,725781832

0,001249187

0,038761796

0,031929729

1,213971989

0,238235013

-0,152277646

0,050105934

-3,039114003

0,006237575

Inferior 95,0%

Superior 95,0%

Salida Excel-parte 2 (Continuacin)


Inferior 95%

Superior 95%

Intercepcin

-3,989095355

6,979617653

-3,989095355

6,979617653

ESTADO CIVIL (x1)

-1,831982588

-0,519473827

-1,831982588

-0,519473827

EDAD (x2)

-0,027639709

0,105163301

-0,027639709

0,105163301

ESCOLARIDAD (X3)

-0,256478641

-0,048076652

-0,256478641

-0,048076652

En este ejemplo, por ahora, interesan solamente los estimadores de 0, 1, 2 y 3, que se repiten enseguida,
tomados de la columna Coeficientes:
 = 1,495261149

 = 1,175728207

 = 0,038761796


= 0,152277646

Se sigue entonces que la ecuacin de prediccin es (redondeo a 3 decimales):


 = 1,495 1,176  + 0,039 0,152

Interpretacin en palabras:
Para este modelo particular, 1, 2 y 3 representan el cambio en el valor esperado de y, E(y), por un cambio
unitario en x1, x2 y x3, respectivamente. Por ejemplo,  = 0,039 es el cambio medio estimado en el tiempo
que se pasa diariamente frente al televisor si la edad x2 del entrevistado aumenta un ao. Como la variable x1
tiene valores SI y NO, el coeficiente 1 de esta variable indicadora representa la diferencia en tiempos
medios pasados frente al televisor entre entrevistados que viven con su cnyuge y aquellos que viven solos. Este
estimador de 1 es 1,176 horas. Esto es, se estima que los entrevistados que viven solos ven en promedio
1,176 horas ms al da que los que viven con su cnyuge.

Pgina 7 de 22

**********************

INTERVALOS DE CONFIANZA Y PRUEBAS DE HIPTESIS PARA LOS PARMETROS


El procedimiento es idntico al empleado para la regresin lineal simple (unidad anterior) con excepcin de que
las frmulas para -. , -./ , -.0 son ahora mucho ms complejas, por lo que no se presentan en este curso
sino que sus correspondientes valores se toman de la salida en computador.

a) Intervalo de confianza del (1 - )100% para i:


 23 -.4
Los grados de libertad son n (nmero de datos) menos un grado de libertad por cada parmetro del modelo.

************************
Ejemplo 3:
En el ejemplo 2 encontrar el intervalo de confianza del 95% para 1 (la diferencia media en horas diarias pasadas
frente al televisor entre entrevistados que viven con su cnyuge y entrevistados que viven solos)
Solucin:
Observemos la columna denominada error tpico en la salida Excel del ejemplo 2 (Corresponde a la Desviacin
estndar del parmetro). All, para la variable x1 (estado civil) se tiene el valor 0,3155655. Entonces,
matemticamente corresponde a la siguiente expresin:
-. = 0,3155655
Ahora, el valor en la tabla para t0,025, basado en n = 25 4 = 21 g.l. es 2,080
(En Excel, para = 0,05 y 21 g.l. es 2,079613837)
(Note: g.l. = # de datos - # de parmetros del modelo)
Por tanto, el intervalo de confianza del 95% para 1 es:
 23 -. = 1, 175728207 (2,079613837(0,3155655 = 1, 175728207 0,65625438
Que es igual a [1,831982587 , 0,519473826]  NOTA: Observe las columnas tituladas
Inferior 95% y Superior 95% de
la salida del programa Excel
del ejemplo 2.
Redondeando con 2 decimales, [1,83 , 0,52]
Pgina 8 de 22

En palabras:
Se estima, con una confiabilidad del 95%, que el intervalo [1,83 , 0,52] cubre la diferencia promedio del
tiempo en que ven televisin los que viven solos y los que viven con su cnyuge.
****************
b) Prueba de hiptesis de que un parmetro particular i es igual a cero:
Se puede hacer mediante la siguiente estadstica t:
2=

 0
-.4

Y el procedimiento es idntico al de la unidad anterior, cuando se realizaron hiptesis acerca de la pendiente 1


en un modelo lineal simple. Lo aplicaremos en el siguiente ejemplo, pero antes:
NOTA: 
En la literatura usted puede encontrar un procedimiento un poco diferente:
Recordemos de su curso de inferencia estadstica, que una estadstica t (con g.l.) elevada al cuadrado es
igual a la estadstica F (con 1 g.l. en el numerador y g.l. en el denominador). Esto es,
27 89 = :,7
Algunos programas de computador para regresin mltiple utilizan la estadstica F, pero la aplicacin de Excel
maneja la estadstica t.
Veamos el ejemplo 4 con estadstica t y el ejemplo 5 con estadstica F:

Ejemplo 4:
Para los datos del ejemplo 2, probar la hiptesis nula de que 1 (la diferencia media entre el nmero de horas
diarias que pasan frente al televisor los entrevistados que viven con su cnyuge y el nmero de horas diarias que
pasan frente al televisor los entrevistados que viven solos) es igual a cero.
Pruebe con un nivel de significancia = 0,05.
Solucin:
; :  = 0
;= :  0
Primero buscamos el valor t crtico:

Pgina 9 de 22

De la tabla t, con 21 g.l. y (1 - ) = 95% (ver ejemplo anterior) se tiene que el t crtico es 2,080. Como es a
dos colas, t crtico tambin puede ser 2,080.
(Recordemos que, en Excel, para = 0,05 y 21 g.l. es 2,079613837)
El estadstico calculado, tomado de la salida Excel del ejemplo 2 para la variable x1 es - 3,725781832
Como el t calculado est a la izquierda del t crtico, se concluye que H0 se rechaza, o, en palabras, hay
evidencia que indica que existe una diferencia significativa entre la cantidad de tiempo que ven televisin los
entrevistados que viven con su cnyuge y la cantidad de tiempo que ven televisin aquellos que viven solos
**************
Ejemplo 5:
Repetir el ejemplo anterior utilizando la estadstica F
Solucin:
; :  = 0
;= :  0
Primero buscamos el valor F crtico.
En tablas (o en la hoja Excel) revisamos para
v1 = 1
v2 = 25 4 = 21 g.l. (Recordemos, n nmero de parmetros del modelo)
De tabla: F crtico = 4,32

De Excel: F crtico = 4,324793711

El estadstico calculado, considerando que 27 89 = :,7 es: (- 3,725781832)2 = 13,88145026


Notemos que la conclusin en este ejemplo (utilizando F) debe ser la misma que en el ejemplo anterior
(donde se utiliz t). Vamos a repetirla, acomodndola a los trminos de F:
Como el F calculado est a la derecha del F crtico, se concluye que H0 se rechaza, o, en palabras, hay
evidencia que indica que existe una diferencia significativa entre la cantidad de tiempo que ven televisin los
entrevistados que viven con su cnyuge y la cantidad de tiempo que ven televisin aquellos que viven solos
**************

Ejemplo 6:
Para una mejor comprensin de este tema de Pruebas de Hiptesis, supongamos que en la situacin de las
horas frente al televisor (ejemplos anteriores) se quiere ver si los datos proporcionan suficiente evidencia que
indique que, en promedio, los entrevistados solitarios ven ms televisin que los acompaados, al nivel de
significancia del 5%

Pgina 10 de 22

Solucin:
En este caso, las hiptesis a considerar son:
; :  = 0
;= :  < 0

(Pregunta: se entiende por qu?)

Como sta es una prueba de hiptesis con una sola cola, se asigna la totalidad del = 0,05 a la cola inferior de la
distribucin.
Primero buscamos el valor t crtico:
De la tabla t, con 21 g.l. y (1 - ) = 95% se tiene que el t crtico es 1,721. Como es a una cola a la izquierda,
t crtico ser 1,721.
(Note: En Excel, para = 0,10 y 21 g.l. se encuentra 1,720742871)
El estadstico calculado, tomado de la salida Excel del ejemplo 2 para la variable x1 es - 3,725781832
Como el t calculado (- 3,725781832) est a la izquierda del t crtico ( 1,721), se concluye que H0 se rechaza,
o, en palabras, parece ser que los solitarios entrevistados ven ms televisin que los que viven
acompaados.
*******************

DETERMINACIN DE LA BONDAD DEL AJUSTE DEL MODELO


Recordemos que finalizando la unidad anterior se present, sin mucho detalle, una propiedad muy importante
del anlisis de regresin, y es que el total de la suma de cuadrados de las desviaciones de los valores de y
respecto a su media, se particiona en dos cantidades (all se llam Aditividad de la suma de cuadrados, ver
pginas 21 y 22),
Recordemos:
B

()@ = ( A
C

= ( A
C

+ (  
C

Particin de la suma de cuadrados de y

Al trmino

Al trmino

()@ = BC( A


BC( A

tambin se lo llama Suma de cuadrados total, DEFGFHI


(variacin total)

tambin se lo llama SCR , Suma de cuadrados debida a la regresin.


(cantidad de la variacin total explicada por
la variable auxiliar x)
Pgina 11 de 22

Al trmino BC(  

tambin se lo llama SCE, Suma de cuadrados del error


(cantidad de la variacin total que no pudo ser
por la variable x)

Entonces, se escribe as:

()JKJ=9 = ()L + ()
Recordando tambin que

M = - =

NOP

BQ

(pgina 10)

Adems, de la pgina 24,

R =

NOS Q NOP
NOS

NOTUTVW Q NOP
NOTUTVW

NOX

NOTUTVW

En palabras, en un modelo lineal simple, r2 (llamado coeficiente de determinacin) mide la proporcin de SC


total que es explicada por la variable independiente x.
De ah que r2, que toma valores en el intervalo 0 r2 1, mida la bondad del ajuste de un modelo lineal simple.

Ahora, en el anlisis de regresin mltiple, la SC total, BC( A se particiona exactamente del mismo
modo, as:

()JKJ=9 = ()L + ()
Las SCR y SCE se definen exactamente de la misma manera que para un modelo lineal simple. La nica
diferencia aqu es que y es funcin de ms de una variable predictora.
Entonces, con esta breve introduccin, supongamos que se ajusta el modelo de regresin mltiple
 =  +   +   + 

+ + Z Z +
a un determinado conjunto de datos. La cantidad

L =

()JKJ=9 ()
()L
=
()JKJ=9
()JKJ=9

es la proporcin de la SC total explicada por las variables predictoras x1, x2, , xk. El resto de la SC total es
explicada por la posible omisin de otras variables que contribuiran con informacin al modelo, por una
formulacin incorrecta del modelo y por un error experimental.

Pgina 12 de 22

Al igual que r2, el coeficiente de determinacin simple, R2, el coeficiente de determinacin mltiple, toma
valores en un intervalo 0 R2 1 .
Un valor pequeo de R2 quiere decir que las variables predictoras x1, x2, , xk contribuyen con poca
informacin para la prediccin de y. Un valor de R2 cercano a 1 quiere decir que las variables predictoras x1,
x2, , xk proporcionan casi toda la informacin necesaria para la prediccin de y.
Entonces, del mismo modo que r2 proporciona una mediada del ajuste de un modelo lineal simple, R2
proporciona una medida del ajuste de un modelo mucho ms complejo.
Para ilustrar lo anterior, se transcribe a continuacin la parte pertinente en este momento del listado del
programa Excel correspondiente al ejemplo 2 (horas frente al televisor)
Salida Excel-parte 1
Resumen

Estadsticas de la regresin
Coeficiente de correlacin mltiple

0,79097037

Coeficiente de determinacin R^2

0,625634126

R^2 ajustado

0,572153287

Error tpico
Observaciones

0,75363553
25

El primer rengln da el coeficiente de correlacin mltiple, R. Este coeficiente mide la correlacin entre y y las
variables predictoras x1, x2, , xk. As, R es la generalizacin del coeficiente de correlacin simple, r.
Observemos que R = 0,79097037.
El segundo rengln de este listado se llama coeficiente de determinacin R2. El valor de 0,625634126 es de
ms fcil interpretacin para la bondad del ajuste del modelo. Nos dice que slo el 62,56% de la variacin total
de los valores de y en relacin a su promedio puede ser explicada por medio del modelo. El resto (37,44%)
queda no explicado. El ajuste relativamente pobre de este modelo puede deberse al hecho de que x1, x2 y x3 no
aparezcan como debieran en el modelo (quizs faltan trminos con  , 
,   ,  
,  
,etc.), o, quizs y,
el promedio de horas diarias pasadas frente al televisor, sea una funcin de otras variables diferentes de x1, x2 y
x3 . Por ejemplo, podra haberse incluido una variable x4 que mida la aficin del entrevistado a la lectura, y una
variable indicadora x5 que valga 1 si el entrevistado trabaja y 0 si no trabaja. Se podra pensar en otras
variables que podran afectar el tiempo que se pasa frente al televisor.
El tercer rengln, llamado R2 ajustado, corresponde a una frmula ms exigente para el coeficiente de
determinacin, que no veremos en este curso.
El cuarto rengln, llamado error tpico, corresponde a la desviacin estndar (s) para el anlisis de regresin, la
raz cuadrada de s2. Recordemos que s2 es el estimador de 2 (la varianza de los valores de y para valores fijos
(dados) de x1, x2, , xk. Y no olvidemos que s2 es igual a SCE dividido por los grados de libertad apropiados. En
el caso lineal simple (que tiene slo dos parmetros ), se divide SCE por (n 2). En el caso general, s2 se obtiene

Pgina 13 de 22

al dividir por (n un g.l. por cada parmetro que aparece en el modelo). En la salida Excel puede verse que s =
0,75363553 para los datos de la televisin.
La frmula es, entonces,
- =

()
 (\&R] ^& _`R\&2R]-  & &b \]^&b]

En algunos listados programas de computador aparece SCE, en otros s2, y en otros s. Desde luego que una vez
que se tiene una de estas cantidades, se puede calcular cualquiera de las otras dos. Para qu sirven? La
respuesta es, que al igual que en el modelo lineal simple, en el caso general s aparece tambin en todas las
frmulas para intervalos de confianza y para prueba de hiptesis.

***********************************

ANOVA (ANLISIS DE VARIANZA)


O PRUEBA DE LA UTILIDAD DE UN MODELO DE REGRESIN
El particionar la SC total en SCR y SCE es llamado anlisis de varianza. Este trmino es usado porque, en el caso
de que x1, x2, , xk no contribuyan con informacin para la prediccin de y (en otras palabras, el modelo no
sirve), las cantidades en SCR y SCE an son tiles porque proporcionan estimadores para 2 (recordemos que en
Regresin Mltiple es la varianza de y dado valores fijos de de x1, x2, , xk. En la literatura estadstica, estos
estimadores son llamados cuadrados medios, aunque la salida del programa Excel en espaol los llama
Promedio de los cuadrados. Veamos la salida correspondiente al ejercicio 2 (horas frente al televisor):

ANLISIS DE VARIANZA
Grados de
libertad

Suma de
cuadrados

Promedio de los
cuadrados

Regresin

19,93270325

6,644234417

Residuos

21

11,92729675

0,567966512

Total

24

31,86

Note que: 19,93270325/3 = 6,644234417

F
11,69828551

Valor crtico de
F
0,000101569

y 11,92729675/21 = 0,567966512

CMR = Cuadrado medio de Regresin (Promedio de los cuadrados de Regresin) =

CME = Cuadrado medio del error (Promedio de los cuadrados de los Residuos) =

NOX
7

NOP
7/

En donde:
1 = nmero de parmetros del modelo menos uno = k
2 = n nmero de parmetros del modelo = n (k + 1)
Note: k = nmero de variables predictoras.
Pgina 14 de 22

Uso de CMR y CME:


Para probar la hiptesis de que x1, x2, , xk no contribuyan con informacin para la prediccin de y (en
otras palabras, el modelo no sirve)
Esto es equivalente a la hiptesis 1 = 2 = . . . = k = 0
NOTA: Si los datos proporcionan evidencia suficiente para rechazar esta hiptesis, esto quiere decir que por lo
menos una de las variables predictoras x1, x2, , xk s contribuye con informacin para la prediccin de y.
Para esta prueba de hiptesis se usa la estadstica
:=

)cL
)cL
=
)c
-

Que tiene una distribucin F con 1 y 2 grados de libertad [recordemos, 1 = k y 2 = n (k + 1) ]


[Recuerde, si se rechaza H0, se concluye que el modelo s sirve (por lo menos una variable predictora es til)]

Veamos el siguiente ejemplo:

Ejemplo 7:
Probar la utilidad del modelo de regresin para predecir los hbitos de ver televisin (ejemplo de clase # 2)
usando la parte del listado del programa Excel de la pgina anterior que corresponde slo al Anlisis de
Varianza.
Solucin:
Aqu se quiere probar
; :  =  = 
= 0
Segn nuestra terminologa, SCR = 19,93270325 y SCE = 11,92729675.
Se tiene que CMR = 19,93270325/3 = 6,644234417 y CME = s2 = 11,92729675/21 = 0,567966512 (Note s2)
La estadstica de prueba (F calculado) ser:
:=

)cL
6,644234417
)cL
=
=
= 11,69828551

)c
0,567966512

Ahora, el mismo programa Excel nos proporciona el valor F crtico para 1 = 3 g.l. y 2 = 21 g.l. (Tambin se
puede consultar una tabla de distribucin F)
Pgina 15 de 22

Este valor, para = 0,05, es 3,072467001 (Una tabla puede mostrar 3,07)
Como F calculado > F crtico, cae en la regin crtica, por tanto se rechaza H0.
Se concluye que por lo menos una de las variables predictoras contribuye con informacin para la prediccin de
y. En otras palabras, el modelo es til.
*****************************

USO DE LA ECUACIN DE REGRESIN PARA ESTIMACIN Y PREDICCIN


Recuerde, la expresin ecuacin de regresin tambin se conoce como ecuacin de prediccin.
Adaptando de la unidad anterior (donde se estudi el caso de una variable predictora), que esta ecuacin se
puede utilizar para:
1. Estimar el valor medio de y [ lase E(y) ] para valores dados de x1, , xk.
2. Predecir valores especficos de y para valores dados de x1, , xk.
El valor puntual de  para las dos situaciones anteriores ser el mismo, pues se utiliza la misma ecuacin.
Pero al construir el intervalo de confianza para E(y) y el intervalo de confianza para y se obtienen
resultados diferentes (recuerda usted, de la unidad anterior, que las desviaciones estndar para las dos
situaciones es diferente?)  Revise los ejemplos 8 y 9 pginas 17 a 19 de la unidad anterior (regresin simple)
Sin embargo, para la regresin mltiple las frmulas para la construccin de estos intervalos son demasiado
complejas como para presentarlas en este curso. Por suerte, algunos paquetes de computador (lstima, el de
Excel no lo hace) presentan en la salida estos dos intervalos. Aqu se recomienda el paquete Minitab.

Pgina 16 de 22

ESTADSTICA III
UNIDAD 8 - MODELO REGRESIN MLTIPLE
EJERCICIOS PROPUESTOS:

1. El dueo de una distribuidora de automviles realiz un estudio para determinar las relaciones en un mes
determinado entre
y = nmero de automviles vendidos en el mes por su distribuidora.
x1 = nmero de comerciales de un minuto sobre su distribuidora, televisados localmente en ese mes.
x2 = nmero de anuncios sobre su distribuidora de pgina entera aparecidos en el peridico local ese
mes.
MES

y
x1
x2

1
10
0
1

2
10
1
0

3
20
2
2

4
30
2
3

5
40
3
3

6
40
4
3

Durante un perodo de 6 meses, el dueo anot los resultados que se muestran en la tabla. Usted debe
ajustar el modelo  =  +   +   + a los datos resolviendo las ecuaciones de mnimos
cuadrados para as obtener los estimadores de los parmetros desconocidos 0, 1 y 2.
+++++++++++++
Para los ejercicios 2 al 6 utilice la salida del programa Excel del ejemplo resuelto # 2 (horas frente al televisor)
+++++++++++++
2. Pruebe la hiptesis nula de que el incremento (o decremento) medio, en horas diarias pasado frente al
televisor, al aumentar un ao la edad de los entrevistados, es cero. Esto es, pruebe ; :  = 0 contra la
alternativa  0 . Pruebe con un nivel de significancia = 0,05. Use una prueba F.
3. Repita el ejercicio 2 pero ahora use una prueba t.
4. Encuentre un intervalo de confianza del 95% para el aumento medio, en horas diarias pasado frente al
televisor, al aumentar en un ao la edad de los entrevistados.
5. Encuentre un intervalo de confianza del 95% para el aumento medio, en horas diarias pasado frente al
televisor, al aumentar en un ao la escolaridad de los entrevistados (En otras palabras, encuentre un
intervalo de confianza del 95% para 3.)
6. Suponga que se tiene una teora que respalda el hecho de que al aumentar la edad de los entrevistados, el
tiempo medio en horas diarias pasado frente al televisor decrece.

Pgina 17 de 22

Pruebe la hiptesis nula ; : 


= 0 contra la alternativa de un solo lado ;= : 
< 0. Pruebe con un nivel
de significancia = 0,05.
7. En Cartagena, un urbanizador se interes en crear un modelo para ser utilizado en la estimacin del precio
de venta de terrenos en la costa atlntica. Para hacerlo, registr las siguientes caractersticas para cada uno
de 20 lotes vendidos recientemente:
y = valor de venta del terreno ($, en millones)
x1 = superficie del terreno (en metros cuadrados)
x2 = elevacin del terreno (sobre el nivel del mar)
x3 = inclinacin del terreno (pendiente)
El urbanizador emple un paquete de regresin mltiple de computador, y obtuvo el siguiente listado:
Resumen

Estadsticas de la regresin
Coeficiente de correlacin mltiple

0,8854

Coeficiente de determinacin R^2

0,7838

Error tpico

0,6065

ANLISIS DE VARIANZA
Grados
de
libertad

Suma de
cuadrados

Promedio de los
cuadrados

Regresin

21,409

7,136

Residuos

16

5,903

0,369

Total

19

27,312

Coeficientes
Intercepcin

Error tpico

Valor crtico de F

19,345

Estadstico t

-2,4911

SUPERFICIE (x1)

0,099

0,058

1,70689

ELEVACIN (x2)

0,029

0,006

4,833333

INCLINACIN (X3)

0,086

0,031

2,77419

a. Encuentre la ecuacin de prediccin para el modelo lineal que relaciona el valor de venta con la
superficie, la elevacin y la inclinacin del terreno.
b. Cules de las variables predictoras contribuyen con informacin para la prediccin de y? Determine
esto usando la prueba estadstica apropiada. Use = 0,05.
8. Suponga que antes de haber obtenido la informacin del ejercicio anterior, se acept la teora de que los
terrenos con mayor inclinacin se prefieren a los de menor inclinacin. Proporcionan los datos suficiente
evidencia como para afirmar que los precios aumentan si la inclinacin aumenta?. Use = 0,05. [Sugerencia:
Pruebe ; : 
= 0 contra la alternativa de un solo lado ;= : 
> 0 ]

Pgina 18 de 22

9. Refirase al ejercicio 7. Encuentre un intervalo de confianza del 90% para aquel parmetro de la regresin
que relaciona la superficie con el precio de venta del terreno.
10. Un representante de ventas de una compaa que vende soya como suplemento de la carne se interesa en
construir un modelo para predecir las ventas de soya en distintas zonas comerciales. Se obtuvieron datos
sobre ventas pasadas (en miles de $) para cada una de las 25 zonas comerciales de la compaa y se
relacionaron con los valores, en cada zona, de las siguientes variables:
x1 = coeficiente de elasticidad cruzada entre soya y carne de res.
x2 =ingreso per cpita (en miles de $)
x3 = ndice promedio de consumo con base en gasto familiar.
x4 = precio unitario de un paquete de soya.
x5 = proporcin de gasto dedicado a publicidad por la compaa en esa zona.
x6 = 1 si la zona es productora de carne de res, y 0 si no lo es.
El representante utiliz un paquete de computador de anlisis de regresin (diferente de Excel) que produjo
el listado de la pgina siguiente:
a. Calcule el cociente F que falta en la tabla y pruebe la hiptesis sobre si el modelo sirve para algo o no.
Use = 0,05.
b. Qu proporcin de la variacin en las ventas de soya se explica por las seis variables predictoras del
modelo?
c. D la ecuacin de regresin para la prediccin de las ventas de soya en cualquier zona comercial.
d. En presencia de las otras variables, cul es la ms significativa como predictora de las ventas? Cul es
la menos significativa?
e. Encuentre un intervalo de confianza del 90% para la diferencia en ventas entre zonas que sean
productoras de carne de res y zonas que no lo sean [Sugerencia, en otras palabras para 6].
R MULTIPLE
R CUADRADA
DESV. EST. ESTIM.

.9825
.9654
1.7098

ANLISIS DE VARIANZA
GL
REGRESIN
RESIDUAL

6
18

SUMA DE
CUADRADOS
1468.034
52.614

ANALISIS INDIVIDUAL DE LAS VARIABLES


VARIABLE
COEFICIENTE
CONSTANTE
-51.034
ELAST-CRUZ
57.600
ING. PER. CAP.
2.956
IND. CONSUMO
-.934
PRECIO
-46.542
GASTO PUB.
46.355
ZONARES
-1.805

CUADRADO
MEDIO
244.672
2.923

COCIENTE F

DESV. ESTANDAR
13.813
2.548
1.129
31.661
9.499
.775

VALOR F
17.356
1.347
.682
2.160
23.843
5.431

Pgina 19 de 22

11. La tabla siguiente lista los precios de venta y (en millones de $) y 7 variables predictoras supuestamente
relacionadas para cada una de 50 residencias en una vereda de Pereira, tomados con el objetivo de
desarrollar un modelo para estimar el valor de las residencias. El modelo sugerido fue  =  +   +
+ f f + . Utilizando el programa Excel discuta cada uno de los puntos que se vieron en clase en el
ejemplo # 2 (horas pasadas frente al televisor).

Residencia
i

Precio de
venta
y

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46

10,2
10,5
11,1
15,3
15,8
16,3
17,2
17,7
18,0
18,1
18,4
18,4
18,9
19,3
19,5
19,9
20,3
20,3
20,8
21,0
21,5
22,0
22,1
22,5
22,8
22,8
22,9
23,2
23,5
24,9
25,0
25,1
26,6
26,9
26,9
27,8
28,0
28,7
29,0
30,1
32,0
33,8
35,3
37,1
37,5
38,0

rea lote Dormitorios


x1
x2
8,0
9,5
9,1
9,5
12,0
10,0
11,8
10,0
13,8
12,5
15,0
12,0
16,0
16,5
16,0
16,8
15,0
17,8
17,9
19,0
17,6
18,5
18,0
17,0
18,7
20,0
20,0
21,0
20,5
19,9
21,5
20,5
22,0
22,0
21,8
22,5
24,0
23,5
25,0
25,6
25,0
25,0
26,8
22,1
27,5
25,0

2
2
3
3
3
3
3
2
3
3
3
3
3
3
3
2
3
3
3
2
3
3
3
2
3
3
3
3
2
3
2
3
3
3
2
3
3
3
3
3
4
2
3
3
3
4

Baos
x3

Total
cuartos
x4

Edad
x5

Garaje
1 = tiene
0 = no
x6

Vista
x7

1
1
1
1
2
1
2
1
2
2
2
2
2
2
2
2
1
2
2
2
1
2
2
3
1
2
2
2
2
1
2
1
2
2
1
2
2
2
2
2
2
2
2
2
2
2

5
5
6
6
7
6
7
7
7
7
7
7
7
7
7
7
7
8
7
7
6
8
7
8
6
7
7
7
7
7
7
7
7
7
6
7
7
8
7
7
8
8
7
8
8
8

5
8
2
6
5
11
8
15
10
11
12
8
9
15
11
12
8
13
18
22
17
11
5
2
6
16
12
10
11
13
8
9
10
6
15
11
17
12
11
15
12
8
6
18
12
10

0
0
0
0
0
0
0
1
0
0
0
0
1
0
1
0
1
1
1
0
0
1
0
1
0
0
0
1
1
1
0
1
0
1
1
1
0
0
1
1
1
0
1
1
1
1

0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
1
0
0
0
0
0
0
0
1
0
0
0
0

Pgina 20 de 22

47
48
49
50

38,4
39,0
43,0
55,0

24,0
31,0
21,0
40,0

3
4
4
5

2
3
2
3

8
9
9
12

13
25
18
22

1
1
1
1

1
0
0
0

12. Refirase al ejercicio anterior. Utilice el modelo encontrado para obtener estimaciones del valor de cada una
de las siguientes cinco residencias de esta vereda. Los datos que las describen se dan en la tabla siguiente:

Residencia
i
1
2
3
4
5

Precio de
venta
y

rea lote Dormitorios


x1
x2
22,4
15,3
17,2
31,7
20,0

4
3
4
5
4

Baos
x3

Total
cuartos
x4

Edad
x5

2
2
1
3
2

7
7
7
9
8

18
6
4
24
11

Garaje
1 = tiene
0 = no
x6
1
0
1
0
1

Vista
x7
1
0
0
0
1

13. Todos estamos concientes del efecto que tiene la inflacin en el valor de los bienes races; en general
tienden a aumentar su valor a la misma tasa que la inflacin. Lo anterior hace que se tengan que actualizar
los avalos de las propiedades peridicamente. El encargado de actualizar los avalos puede optar por
cualquiera de los tres caminos que se enuncian a continuacin:
i.
ii.
iii.

Cada actualizacin puede hacerse aplicando la tasa de inflacin al avalo previo.


Pueden obtenerse nuevos datos sobre la situacin comercial y juntarse con los disponibles en el
pasado para desarrollar un modelo de regresin para estimar el valor.
Puede hacerse un modelo de regresin para estimar el valor basado slo en datos nuevos sobre la
situacin comercial olvidando todos los datos anteriores.

Qu camino sugerira usted? Explique.


14. Existe una relacin consistente entre la prctica de administrar por presupuestos y los rendimientos
obtenidos? Si es as, la evidencia que se muestra a continuacin respalda la prctica de programas de
inversin apegados a una administracin por programas presupuestales. Los investigadores S.H. Kim y N.K.
Kwak escribieron un artculo (paper) titulado Capital Budgeting Practices and their Impact on Earnings
Performance en la revista indexada Proceedings of the American Institute for Decision Sciences en el que
explicaban un trabajo de regresin de la variable y = valor estimado de los rendimientos por accin sobre
las siguientes variables:
x1 = grado de sofisticacin del sistema de presupuesto (0 100)
x2 = tamao de la empresa (ventas anuales)
x3 = intensidad de capital (depreciacin/ventas anuales)
x4 = riesgo (desviacin estndar de los rendimientos anuales por accin)
x5 = capitalizacin (deuda/ventas totales)
x6 = cociente costo-beneficio

Pgina 21 de 22

Se obtuvieron datos de cada una de n = 114 empresas dedicadas a la elaboracin de maquinaria, con
ingresos superiores a los $ 50 millones de dlares. Los datos usados correspondieron al perodo
comprendido entre los aos 1999 y 2004. Los resultados del anlisis (en un programa diferente de Excel) se
presentan a continuacin:
R2 = .776
F = 61.991
VARIABLE
CONSTANTE X1
X2
COEFICIENTE -1,613
.040
.001
VALOR T
10.282
.464

X3
.090
2.232

X4
-.072
-.559

X5
.018
4.143

X6
.010
.806

a. Se concluye del estudio de Kim-Kwak que hay una relacin significativa entre la prctica de
presupuestar y los rendimientos para el tipo de empresas estudiadas?
b. Cules de las variables consideradas en el anlisis contribuyen con informacin para predecir el valor
del rendimiento?
c. Explique e interprete la cantidad R2 = 0,776
++++++++++++++++++++++++++++++
Respuestas
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
12.
13.
14.

 = 3,709677419 ,  = 5,161290323 ,  = 5,483870968


F = 1,47372799; no se rechaza H0
t = 1,213971989 F = 1,47372799;
0,038761796 0,066401506
0,152277646 0,104200993
t = -3,039114003; se rechaza H0
a. ( = 2,491 + 0,099 + 0,029 + 0,086
b. elevacin e inclinacin pero no
superficie
s; t = 2,77419
0,099 0,101261253
a. 83,7058 b. 0,9654 c. E(y) = - 51,034 + 57,600 x1 + 2,956 x2 0,934 x3 46,542 x4 + 46,355
x5 1,805 x6 d. proporcin de gasto de publicidad; ndice de consumo e. -1,805 1,34389928
(1) 27987,58 (2) 19444,01 (3) 28159,44 (4) 40938,09 (5) 28600,90
Se escoge iii.
a. s; F = 61,991 y R2 = 0,776 b. x1, x3 y x5

Pgina 22 de 22

You might also like