Professional Documents
Culture Documents
MODELO DE REGRESIN
LINEAL MLTIPLE.
MNIMOS CUADRADOS ORDINARIOS
INTRODUCCIN
RESUMEN Y CONCLUSIONES
CUESTIONES
2 MODELOS DE REGRESIN LINEAL
INTRODUCCIN
Uno de los principales problemas que pretende resolver la Econometra con los modelos
de regresin es el de cuantificar la relacin que liga a una determinada variable econmica
con los valores de otras variables, para poder predecir de esta forma su valor en ciertas
condiciones.
Algunos ejemplos:
El consumo de un producto (Y) depende del precio del mismo (X1), del nivel de renta
del comprador (X2), de la oferta (X3), del precio de otros productos sustitutivos (X4), del
precio de otros productos complementarios (X5), del mes del ao (X6), ...
El precio de una vivienda (Y) depende de la superficie til de la misma (X1), del nmero
de dormitorios (X2) y de baos (X3), de su ubicacin respecto al centro de la ciudad (X4),
de la existencia de ciertos elementos adicionales como una plaza garaje (X5), un
trastero (X6), instalaciones comunitarias (X7), o del ao de construccin (X8), de la
saturacin acstica nocturna (X9), ...
En el primer apartado se propondr un modelo que relacione a la variable explicada con las
variables explicativas, el modelo de regresin. En dicho modelo existirn una serie de
parmetros que cuantificarn la relacin existente entre la variable explicada y cada una de
las variables que la explican, parmetros que sern estimados en el segundo y tercer
apartados, primero de forma puntual y luego por intervalos de confianza. A continuacin, en
el cuarto apartado, se cuantificar la utilidad del modelo propuesto mediante el coeficiente
de determinacin, y en el quinto se presentarn las pruebas de hiptesis que determinarn
(desde varios puntos de vista) la adecuacin de las estimaciones realizadas de los parmetros.
Con el modelo as obtenido, se realizarn previsiones sobre los valores de la variable explicada
en el sexto apartado, y para terminar con la unidad temtica, en el sptimo y ltimo apartado,
se presentar un caso especial del modelo de regresin, la regresin por el origen de las
variables.
adicional y efecto del trabajador desanimado. En el primer caso, el efecto del trabajador
adicional, un incremento de la tasa de desempleo produce un incremento de la poblacin
activa femenina, y ms exactamente entre las mujeres casadas. Al producirse un aumento en
la tasa de desempleo, la aportacin de dinero a la familia que realizaba el esposo, ahora en
paro, debe realizarla la mujer, y por ello se produce un incremento de la poblacin activa de
las mujeres casadas. Por otra parte, un incremento en la tasa de desempleo puede tener como
consecuencia que una mujer activa sea pesimista respecto al futuro y deje de buscar de forma
activa el empleo, con lo que se tiene as el efecto del trabajador desanimado.
Ambos efectos son contrapuestos, y segn sea el caso, uno de ellos prevalecer sobre el otro.
Con los datos disponibles para la tasa de desempleo y de poblacin activa femenina en Espaa,
observada mensualmente desde marzo de 1977 a diciembre de 2000, cul es el efecto que
prevalece en la economa espaola?
=
La primera cuestin que hay que considerar en la formulacin del modelo de regresin es
que una variable explicada (Y), como el consumo anual de naranjas, es una variable aleatoria,
puesto que no se conoce su valor hasta que termina el ao y se realiza el recuento del
consumo. Como variable aleatoria, quedar completamente definida cuando se conozca la
distribucin que sigue y los parmetros que le corresponden. Lo habitual es que la distribucin
sea normal, con unas determinadas media y desviacin tpica. Esto es lo que se pretende
representar mediante la campana del eje de ordenadas en la Figura 1.
Ahora bien, es posible que la variable analizada dependa de otra variable que la ayude a
explicar sus valores.
Por lo tanto, conocer el valor del precio de venta de las naranjas ayuda a precisar el valor del
consumo de naranjas. Por ello queda claro que, para explicar de forma ms adecuada el
comportamiento de la variable estudiada Y, es necesario tener en cuenta el valor de la variable
explicativa X, y hay que pasar a trabajar con la distribucin de la variable Y condicionada al
valor de la variable X, en vez de con la variable y la distribucin original. Afortunadamente la
distribucin de la variable condicionada Y/X es tambin normal, aunque habr que determinar
cules son entonces sus parmetros.
= + + + + +
donde:
Y es la variable estudiada
Xj son las variables explicativas
j son los parmetros que acompaan a las variables explicativas
U es una perturbacin aleatoria que recoge la influencia sobre la variable estudiada (Y) de
otras variables explicativas no consideradas en el modelo
MNIMOS CUADRADOS ORDINARIOS 5
() = + + + + =
!"# = +
$%&'( +
Si se desea utilizar el modelo propuesto, se deben estimar tanto los valores de los
parmetros j del hiperplano de regresin como el valor de la varianza del error. Para ello hay
que apoyarse en los datos de que se dispone, la observacin de n valores de la variable
explicada y de las variables explicativas. Si se sustituye en el modelo se tiene
un sistema de n ecuaciones con n+k+1 incgnitas (k+1 incgnitas j y n incgnitas Uj), que no
tiene una nica solucin. Como es necesario tener ms ecuaciones para resolver el problema
(k+1 ecuaciones ms), habr que centrar la atencin en la perturbacin U para hallarlas.
( + + + + ) = ) =
donde ) es la estimacin de Y.
De acuerdo a esta ltima definicin, sera interesante que el error fuera lo ms pequeo
posible. Dado que el error es una variable aleatoria, lo ms pequeo posible se traduce en
que su valor medio sea cero, y en que su varianza sea (de nuevo) lo ms pequea posible. De
la minimizacin de esa varianza del error se obtendrn las k+1 ecuaciones que faltan, y de aqu
viene el nombre de mtodo de los mnimos cuadrados ordinarios.
6 MODELOS DE REGRESIN LINEAL
Para poder estimar los parmetros del modelo y la varianza del error es necesario
establecer algunas hiptesis simplificadoras respecto a la perturbacin, respecto a las
variables explicativas y la explicada, y respecto a los parmetros del modelo. De no hacerlo
as, obtener las estimaciones deseadas se convertira en una tarea bastante complicada, si no
imposible.
E(Uj) = 0 j
Var(Uj) = 2 j
Cov(UiUj) = 0 ij
4- Las perturbaciones tienen una distribucin conjunta normal, cuestin que, junto a la
hiptesis anterior, concluye que las perturbaciones son independientes.
Autoevaluacin 2: Qu significado tienen estas hiptesis establecidas? Cmo se pueden asociar los
conceptos de error sistemtico, misma importancia del error en todas las observaciones,
independencia del error entre observaciones y formulacin adecuada del modelo con las hiptesis
anteriores?
1- Las variables explicativas, Xi, y la explicada, Y, son obtenidas sin error de observacin.
2- Las variables explicativas Xi son no aleatorias, se puede fijar su valor a voluntad o son
controlables.
3- El valor de Yj es el observado de una variable aleatoria cuyo valor medio es una combinacin
lineal de los valores de Xi, y cuya varianza es constante.
MNIMOS CUADRADOS ORDINARIOS 7
1- Los parmetros i del modelo (tambin llamados parmetros estructurales) son constantes
y forman parte del modelo de forma lineal.
El modelo de regresin puede expresarse de forma matricial para poder trabajar con el
mismo, y obtener as las expresiones del estimador de los parmetros y de la varianza del
error. Se definen entonces los vectores correspondientes a la variable a explicar Y, los
parmetros del modelo y el error U, as como la matriz de datos X,
.
. .
. . .
Para poder estimar los parmetros del modelo y la varianza del error debemos realizar ciertas
simplificaciones, que ms tarde deberemos comprobar que se cumplen. Sobre todo las del error.
! " !
propuesto:
" es la estimacin de Y
donde:
e es valor aproximado de U, el error que se comete al tomar " como Y para cada observacin
b es la estimacin de
en particular en la muestra
8 MODELOS DE REGRESIN LINEAL
A las distancias medidas verticalmente del punto a la recta, o a las diferencias entre el valor
real de la variable y el valor previsto por el modelo (que es el error), se les denominan residuos
(ei). La expresin vectorial de los residuos se obtiene de despejar la ecuacin anterior:
! #
Se minimiza la suma de cuadrados de los residuos (SCR) porque es el error que se comete
en el ajuste, error que se mide como distancia vertical de cada observacin a la recta ajustada
(existen otros criterios). Al elevarlos al cuadrado se pierde el signo, y al sumarlos se acumulan
los errores en un solo valor. Es mucho ms manejable un solo valor que un vector de n valores
(residuos). Su expresin es la siguiente:
Los residuos son el error cometido, la diferencia entre el valor real de la variable y el valor propuesto
para ella mediante el modelo. El error se acumula en un solo nmero, la SCR, y permite as hacernos
una idea de lo adecuado del modelo, de lo "cerca" que pasa la recta de las observaciones.
Para que el sistema de ecuaciones tenga solucin nica (y no sea indeterminado) el producto
de matrices X'X debe ser invertible, y para ello debe cumplirse que:
Por otra parte, para estimar la varianza de la perturbacin (2) hay que utilizar la suma de
cuadrados de los residuos. Se puede demostrar que el estimador de la varianza de la
perturbacin tiene la expresin
* =
+,1
Dado que la SCR ha sido minimizada, es obvio que la varianza del error tambin es mnima, tal
y como se exigi anteriormente al decir que el error debera ser lo ms pequeo posible.
Aunque la desviacin tpica tiene las mismas unidades de medida que la variable explicada, al
estar transformada mediante logaritmos no tiene mucho sentido sealarlo en este caso.
10 MODELOS DE REGRESIN LINEAL
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 26,7514 2 13,3757 170,75 0,0000
Residual 4,77844 61 0,0783351
-----------------------------------------------------------------------------
Total (Corr.) 31,5298 63
Estimada la varianza del error, tan slo resta sealar que la matriz de varianzas-covarianzas
de las estimaciones de los parmetros del modelo se realiza con la siguiente expresin,
utilizada para obtener las estimaciones que aparecen en la columna correspondiente
(Standard Error) en el Cuadro 1:
Las expresiones anteriores son fundamentales para el ajuste de un modelo de regresin y estn
implementadas en todos los programas de ordenador que ofrecen este tipo de clculo. Sin embargo
jams las utilizaremos, pues no realizaremos clculos "a mano".
La estimacin realizada de los parmetros del modelo y de la varianza del error debe venir
acompaada del error que se comete al utilizar esa estimacin en vez del valor verdadero. La
forma habitual de expresar ese error es a travs de la varianza (o la desviacin tpica) de la
estimacin (matriz de varianzas-covarianzas), pero no es la nica forma de hacerlo. Existe una
forma ms elaborada de expresar ese error, y es a travs de los intervalos de confianza.
Para obtener las expresiones de los intervalos de confianza se tendr en cuenta la distribucin
de los estimadores y ese nivel de significacin escogido. En los siguientes apartados se
presentan los intervalos de confianza para los parmetros del modelo y para la varianza del
error.
MNIMOS CUADRADOS ORDINARIOS 11
-
.- - + /
/
-
/
,
ln0 = 2,17705 1,99*0,535389 = [1,10648;3,24763] = 2,17705 1,06542
,
1 = 0,73534 1,99*0,051039 = [0,63327;0,83739] = 0,73534 0,10157
,
2 = 0,17081 1,99*0,034847 = [0,10113;0,24049] = 0,17081 0,06935
Slo resta interpretar los resultados. Por ejemplo, cuando la plantilla aumenta en un 1% se espera que
los ingresos aumenten en un 0,1708%, si bien el valor real se supone que estar entre un 0,1011% y
un 0,2405% (con una probabilidad del 95%). Tambin podemos interpretarlo como que se espera dicho
0,1708% pero puede ser 0,0694% (1,99*0,051039) por arriba o por debajo de ese valor.
12 MODELOS DE REGRESIN LINEAL
$%&
*
+ , # - # 1 + , # - # 1
. .
* *
/ /
2 0,975
61
= 41,30 2 0,025
61
= 84,48 CMR = 0,0783351
Los intervalos de confianza nos ofrecen una idea del cuanto ms o menos es el valor verdadero y
desconocido del parmetro poblacional estimado, y complementa as al valor puntual estimado.
( 1)
* =
+1
= 2( 1)
= 2() 1)
Si un modelo explicara completamente su variable, la SCR debera ser cero, y las SCT y SCE
iguales. Si por el contrario no existiera relacin entre las variables, explicada y explicativa, la
SCE debera valer cero, y la SCR igual a SCT. Como la suma de cuadrados explicada, SCE, toma
por lo tanto valores entre 0 y SCT, el cociente SCE/SCT toma valores entre 0 y 1, con lo que se
tiene una escala de 0 a 1 (0 a 100%) que cuantifica lo adecuado del ajuste realizado.
14 MODELOS DE REGRESIN LINEAL
$%
&
$%/
El coeficiente de determinacin siempre toma valores entre cero y uno (0R21), por lo que
se trata de una escala que mide lo adecuado del ajuste, o ms exactamente, mide el porcentaje
de variabilidad de la variable analizada (Y) explicado por el modelo propuesto. Si el coeficiente
de determinacin toma el valor 1 (100%), entonces el modelo ajustado es capaz de explicar
completamente la variabilidad de la variable estudiada, mientras que si su valor es 0 (0%), esto
quiere decir que el modelo no es capaz de explicar en nada a la variable estudiada. Los valores
reales se encuentran, obviamente, entre ambos lmites, siendo deseable que sean lo ms
prximo a 1 posible.
$%&, # - # 1 ,#1
&0 1 # 1 # 1 # &
$%/, # 1 ,#-#1
26,7514
0,848447
31,5298
1 64 1
1 1 1 1 0,848447 0,843478
1 64 2 1
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 26,7514 2 13,3757 170,75 0,0000
Residual 4,77844 61 0,0783351
-----------------------------------------------------------------------------
Total (Corr.) 31,5298 63
El coeficiente de determinacin corregido sirve para escoger el mejor modelo entre los varios
modelos disponibles (adecuados) que explican a una misma variable.
La primera prueba se refiere a todos los parmetros del modelo, excepto el trmino
constante 0. La hiptesis nula es que todos los parmetros son iguales a cero, o lo que es lo
mismo, que el modelo no resulta adecuado. La hiptesis alternativa es que al menos uno de
los parmetros es distinto de cero, o que el modelo podra ser adecuado.
Autoevaluacin 11: Por qu la hiptesis nula se traduce en que el modelo no resulta adecuado?
Para realizar la prueba se calcula un estadstico Fcalc, cociente entre las sumas de cuadrados
explicada y residual, divididas por sus respectivos grados de libertad. Hay que recordar que el
cociente entre una suma de cuadrados y sus grados de libertad se denomina cuadrado medio,
por lo tanto el estadstico calculado es el cociente entre los cuadrados medios explicado y
residual. Se puede demostrar que este estadstico tiene distribucin F con grados de libertad
k y n-k-1.
H0 i=0 i1 , !
3
= = 3
H1 al menos uno es distinto de cero + , 1 !
Cuando se realiza esta prueba mediante algn programa informtico, resulta ms cmodo
utilizar una forma alternativa de la prueba de hiptesis, basada en el nivel de significacin,
tambin denominado P-Valor (P-Value). El nivel de significacin, para esta prueba, es la
probabilidad de que una variable con distribucin Fk n-k-1 sea mayor que el estadstico Fcalc
calculado.
'( = (3 3 )
Todo lo necesario para realizar esta prueba de hiptesis se encuentra recogido en lo que se
conoce como Tabla ANOVA (Tabla 1), que es la forma en la que suelen presentar los resultados
la inmensa mayora de los programas de ordenador.
SUMA DE CUADRADO
ORIGEN GDL F RATIO P-VALUE
CUADRADOS MEDIO
Modelo SCE k CME = SCE/k Fcalc = CME/CMR P-Valor
Residual SCR n-k-1 CMR = SCR / n-k-1 - -
Total SCT = SCE+SCR n-1 - - -
k nmero de variables explicativas, n nmero de datos
MNIMOS CUADRADOS ORDINARIOS 17
Autoevaluacin 12: Si una prueba sobre los parmetros incluyese al propio parmetro 0 en su
hiptesis nula, cul sera el significado de la hiptesis?
La prueba de hiptesis para el modelo que explica los ingresos en funcin de los costes y del
personal tiene como hiptesis nula H0 1 = 2 = 0, el modelo no resulta adecuado. La primera
forma de resolver la prueba ser mediante el estadstico F, y la segunda ser utilizando el P-
Valor.
Mediante el estadstico F
H0 1 = 2 = 0
H1 al menos uno es distinto de cero 1
En la tabla ANOVA se encuentran todos los valores necesarios para realizar la prueba, el
estadstico F, los valores que pueden permitir el clculo del estadstico F, y el P-Valor.
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 26,7514 2 13,3757 170,75 0,0000
Residual 4,77844 61 0,0783351
-----------------------------------------------------------------------------
Total (Corr.) 31,5298 63
Mediante el P-Valor
0 3,147
La prueba para el modelo nos dice si ste podra considerarse adecuado, si hay variables explicativas
en el mismo.
18 MODELOS DE REGRESIN LINEAL
Si se ha realizado la prueba sobre todos los parmetros del modelo, y el resultado ha sido
que al menos uno de ellos es distinto de cero, lgicamente, habra que saber cul o cules de
ellos son distintos de cero. En esta segunda prueba, se trata de contrastar si un parmetro
(cada parmetro), del modelo i es igual a cero o es distinto de cero, si se acepta el valor
estimado por el programa o debe rechazarse.
H0 i = 0
el parmetro vale cero y la variable no es explicativa
-
H1 i 0
=
el parmetro es distinto de cero, se acepta el valor estimado y la
variable es explicativa
Mediante el P-Value:
H0 i =
el parmetro vale -
=
H1 i 6
el parmetro es distinto de
Obviamente podran ser interesantes otras hiptesis, utilizando las pruebas ya conocidas para
la desigualdad:
H0: i
Si
H0 i = 0
el parmetro vale cero y la variable no es explicativa
-
H1 i 0 3
= 3
el parmetro es distinto de cero, se acepta el valor estimado y
la variable es explicativa
,
En las tablas, = 1,99. -1,99 0 1,99
, ,
| | = = 4,0663 = 1,99 por lo que se rechaza H0
,
(P-Valor = 0,0001<<0,05)
, ,
| | = = 14,4072 = 1,99 por lo que se rechaza H0
,
(P-Valor = 0,0000<<0,05)
, ,
| | = = 4,9018 = 1,99 por lo que se rechaza H0
,
(P-Valor = 0,0000<<0,05)
20 MODELOS DE REGRESIN LINEAL
Por ltimo, y como ejemplo, se comprueba si el parmetro 1 puede valer 0,85 (H0 1=0,85),
porque hasta ahora era ese su valor, o es un valor habitual en otro tipo de empresas.
H0 1=0,85
H1 10,85
,
,
,
| | 2,2465 1,99
,
,
Como | | 2,2465 1,99 se rechaza H0 y el parmetro 1 es distinto de 0,85.
Mediante la prueba de cada parmetro podemos determinar si una variable es explicativa o no lo es,
y aceptar el valor estimado por el programa, cuantificacin de su relacin con la variable explicada.
Los rendimientos constantes a escala implican que la suma de exponentes de una funcin
de produccin de Cobb-Douglas debe ser la unidad (1+2=1).
La ausencia de ilusin monetaria, por parte de los consumidores, implica que la suma de
las elasticidades de la renta monetaria y del precio en una funcin de demanda deben ser
cero (1+2=0).
Si el consumo de un producto no se ve afectado por el precio de sus competidores, el
conjunto de parmetros que multiplican a dichos precios deben ser cero (1= 2=...=0).
Para realizar la prueba de hiptesis se debe, en primer lugar, ajustar el modelo sin las
restricciones, el modelo original, y obtener su suma de cuadrados residual (SCRc). En segundo
lugar se ajusta el modelo con las restricciones que se desean comprobar, y se obtiene una
MNIMOS CUADRADOS ORDINARIOS 21
H0 1 = 2 = ... = s =0
H1 al menos un parmetro
1
1
es distinto de cero
Autoevaluacin 13: Qu modelo debe ajustarse para que la hiptesis de rendimientos a escala
constantes est presente en el mismo?
Una vez sustituida la hiptesis en el modelo, 1=1-2, se deja en un lado de la igualdad todo
aquello que est multiplicando a un parmetro (junto con el error) y en el otro lado todo lo
que no est multiplicado por un parmetro. Este modelo no tiene ningn inters como modelo
econmico, es slo un modelo auxiliar, por lo que no nos debemos preocupar mucho por el
aspecto del mismo
Cuadro 7 Tabla ANOVA del modelo de Cobb-Douglas que incluye los rendimientos constantes a escala.
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 46,3553 1 46,3553 567,42 0,0000
Residual 5,06508 62 0,0816949
-----------------------------------------------------------------------------
Total (Corr.) 51,4203 63
Como el ajuste sin restriccin aparece en el Cuadro 5, se buscan las sumas de cuadrados de
residuo con y sin restriccin, con lo que el estadstico Fcalc para la prueba se calcula como:
,
,
,
3,659 3,99 y se acepta H0, esto es, que 1+2=1 y existen
,
rendimientos constantes a escala.
La prueba para un conjunto de parmetros permite comprobar si existen ciertas relaciones entre los
parmetros del modelo, y es que, adems de su significado individual, es posible que varios
parmetros tengan un significado conjunto que nos interese comprobar.
22 MODELOS DE REGRESIN LINEAL
6. PREDICCIN
Uno de los objetivos deseados al realizar el ajuste modelos econmicos es el de poder hacer
predicciones de los valores de la variable estudiada, y el modelo ajustado permite predecir el
valor medio o esperado de dicha variable, y encontrar un intervalo que contenga con una
probabilidad determinada al valor real. Existen, por consiguiente, dos formas de realizar las
predicciones de la variable estudiada, la prediccin puntual y la prediccin por intervalos de
confianza, ambas representadas de forma grfica en la Figura 7.
El intervalo de confianza para Xp, es el intervalo (I.C.) que se encuentra entre las dos curvas
(a trazos) que hay por encima y por debajo de la recta de regresin. Es un intervalo que
contiene con una probabilidad determinada (elevada) al valor verdadero y desconocido de la
variable explicada para los valores que han sido escogidos de las variables explicativas.
) = - + - + - + + -
= 100,974 1,35908
y la tasa de actividad de la mujer es de un 96,897% para una tasa de paro de un 3%, sin ms
que sustituir en la expresin y operar, = 100,974 1,35908 3 = 96,897
Autoevaluacin 14: Obsrvese que cuando la tasa de paro es cero, la tasa de actividad no es
exactamente del 100%. Cmo poda forzarse a que sea el 100%?
MNIMOS CUADRADOS ORDINARIOS 23
!
) = "# ($)
%
log
= 2,17705 + 0,73534 log () + 0,170812 log (
)
log
= 2,17705 + 0,73534 log
85000 + 0,170812 log
1600 = 11,7836
) 81 + ( & )
/
El vector R no es ms que un vector con los valores de las variables explicativas a partir de los
cuales se hace la prediccin, R={1;ln(8500);ln(1600)}. Con este vector y la matriz de datos es
posible obtener el intervalo de confianza al 95% para el logaritmo de INGRESOS, que segn el
programa Statgraphics es [11,2155;12,3518]. El intervalo buscado realmente es para los
INGRESOS, por lo que se deshace la transformacin logartmica y se tiene entonces [74272,79;
231376,15] millones de pesetas.
El modelo de regresin permite realizar la prediccin del valor de la variable estudiada dados unos
valores de las variables explicativas. La prediccin puede ser puntual, si queremos tener un cierto
valor aproximado al real, o por intervalos de confianza, si queremos saber ms o menos el valor real
de la variable estudiada.
El ajuste correcto de un modelo sin trmino constante exige modificar ciertas cuestiones
en la estimacin de parmetros vista en apartados anteriores, motivo por el que se requiere
este nuevo apartado.
MNIMOS CUADRADOS ORDINARIOS 25
Ejemplo 3. Para explicar los INGRESOS (millones de pesetas) de las empresas a travs de su
PLANTILLA (personas) resultar necesario hacer que la recta pase por el origen de forma que
el INGRESO esperado sea cero cuando la PLANTILLA es cero.
=
+
Sin embargo, el modelo de regresin propuesto y utilizado hasta ahora incluye al trmino
independiente. El ajuste de INGRESOS frente a PLANTILLA que aparece en el Cuadro 10
corresponde al ajuste teniendo en cuenta su presencia. Como puede verse, el P-Valor de la
estimacin de 0 es de 0,3168, evidentemente ms grande que 0,05, y por lo tanto debe
admitirse que no existe, tal y como indica la teora econmica.
Cuadro 10 Ajuste de INGRESOS frente a PLANTILLA con un modelo que incluye a la constante.
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 4,38633E11 1 4,38633E11 104,67 0,0000
Residual 3,7714E10 9 4,19044E9
-----------------------------------------------------------------------------
Total (Corr.) 4,76346E11 10
Una vez realizados los clculos, y como se ve en el Cuadro 11, el ajuste ha mejorado
aparentemente. La estimacin del parmetro resulta adecuada, dado que el P-Valor de la
prueba as lo indica, el modelo tambin resulta adecuado, concluido a partir del P-Valor
correspondiente, el coeficiente de determinacin corregido ha aumentado de valor, de
0,91203 a 0,947584, y la explicacin conseguida de la variable INGRESOS es ahora de un
94,7584%. Todos muy buenos resultados.
Sin embargo, tambin puede verse en la tabla que la suma de cuadrados total, es decir, la
variabilidad de los ingresos de las empresas ha cambiado al forzar la eliminacin de la
constante, pasando de valer 4,76346E11 a valer 8,09324E11. Esto es absurdo, dado que la
variable explicada no ha cambiado, y por lo tanto tampoco debera haber cambiado la suma
de cuadrados total. Sin embargo ha cambiado, y siembra serias dudas sobre lo adecuado de
los parmetros estimados y calificados como muy buenos anteriormente.
Cuadro 11 Ajuste de INGRESOS frente a PLANTILLA con un modelo que no incluye a la constante.
Realizar el ajuste del modelo eliminando sin ms el termino constante, en alguna parte del
programa de clculo, no es la solucin al problema de estimar los parmetros del modelo sin
termino constante. Como se ha observado en el ejemplo anterior, cuando se hace de esta
forma, la variabilidad total de la variable estudiada (el numerador en el clculo de la varianza)
cambia sin razn para ello. Y no hay razn pues nada ha cambiado en la variable a estudiar.
Para solucionar esta discrepancia (error) se realiza la regresin de las variables centradas, esto
es, las variables del modelo, explicada y explicativas, menos su valor medio respectivo.
Si se realiza el ajuste con el modelo en diferencias (Cuadro 12), puede comprobarse que la
suma de cuadrados total vuelve a recuperar el valor que le corresponde como medida de la
variabilidad de los INGRESOS.
Adems, hay que destacar que el error estndar en la estimacin del parmetro 1 es menor
ahora que antes. Esto quiere decir que, aunque el valor de la estimacin no ha cambiado
17,9894 millones de pesetas/empleado, el error en su estimacin si lo ha hecho, por lo que
conviene realizar el ajuste en desviaciones respecto a la media cuando el trmino
independiente salga no significativo.
Autoevaluacin 17: Compara los valores del error estndar de 1 de los modelos con constante no
significativa y centrado.
Cuadro 12 Ajuste de INGRESOS frente a PLANTILLA con el modelo centrado. Las diferencias en la suma de cuadrados total es
debida a los redondeos del clculo.
El hecho de que el hiperplano pase por el origen introduce algunos cambios en las expresiones
vistas hasta el momento:
dado que ahora los grados de libertad residuales son n-k. Esto es importante a la hora de
realizar las pruebas de hiptesis sobre parmetros, puesto que las expresiones deben
cambiar para recoger los nuevos grados de libertad residuales.
En el Ejemplo 1, el parmetro 0 debe ser 100, por lo que el modelo sera (forzando su valor):
100
100
queda un modelo sin trmino constante, que debe ajustarse centrando todas las variables del
modelo, en el Cuadro 13. Ahora el modelo ajustado es, aceptando tanto las estimaciones como
el modelo, dado que todos los P-Valor son inferiores a 0,05.
Cuadro 13 Ajuste del modelo de la tasa de actividad de las mujeres forzando el valor del 100%.
Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model 1093,18 1 1093,18 237,58 0,0000
Residual 105,832 23 4,60141
Total 1199,01 24
R-squared = 91,1734 percent R-squared (adjusted for d.f.) = 91,1734 percent
100 1,35037
En ocasiones necesitamos realizar el ajuste de un modelo que pasa por el origen de las variables, y
la variable explicada vale cero cuando todas las explicativas valen cero. La forma correcta de hacerlo
es restar a cada variable, explicada y explicativas, su propio valor medio.
MNIMOS CUADRADOS ORDINARIOS 29
RESUMEN Y CONCLUSIONES
5. La varianza del error o perturbacin, U, tambin debe ser estimada. Su valor mostrar la
adecuacin/utilidad del modelo, utilidad que tambin podr cuantificarse a travs de los
coeficientes de determinacin.
CUESTIONES
P1.- Determinar si los siguientes modelos son lineales en los parmetros, y transformarlos, si
es el caso, para que lo sean y puedan ser ajustados.
= + log
+ = + = + e
log () = + log
+ = = e
= + log
+ = + log ( ) + = + + +
1 1
= + + = + + = + log
+ +
+
(+"%( = + + +
(+"%( = : + : (+ 11111111
+) +
P3.- Se pretende explicar el salario percibido por medio de los aos de experiencia.
Determinar el significado de los parmetros del modelo:
P4.- Proponer un modelo que explique la demanda mensual de discos duros externos
(unidades) a partir de su precio (euros), del nmero de novedades cinematogrficas
mensuales (unidades) y del precio de los DVD de pelculas (euros). Interpretar el significado
de los parmetros del modelo e indicar su signo.
P5.- Interpretar el significado de los parmetros del siguiente modelo de regresin, donde
se explica el consumo de combustible mediante el precio de la energa y la poblacin:
P6.- Completar los datos faltantes en el siguiente ajuste, en el que se trata de explicar la
produccin agraria a travs del volumen de productos fitosanitarios consumidos, la
produccin de maquinaria agrcola y la financiacin de las cosechas.
P8.- Proponer un modelo lineal que explique el consumo de caf a travs de la renta de los
consumidores, del precio del caf, de los precios del azcar, de la leche, del ans, del coac y
del ron. Interpretar el significado de los parmetros del modelo y proponer un signo para los
mismos. As mismo, proponer una prueba de hiptesis que permita aceptar que los precios de
las bebidas alcohlicas no influyen en el consumo de caf, y determinar las elasticidades de la
renta y de los precios considerados en el modelo. (Elasticidad=(dY/dX)(X/Y))
P9.- Proponer un modelo de regresin que permita explicar el consumo de manzanas a travs
del precio de las manzanas, de las peras y de las naranjas. Indicar el signo de los
correspondientes parmetros. Plantear detalladamente una prueba de hiptesis que permita
determinar si el consumo de manzanas no se ve afectado por el precio de las otras dos frutas,
indicando la forma de proceder si se deseara realizarlo.
P10.- El personal contratado por los establecimientos hoteleros espaoles (PERSONAL) puede
explicarse mediante el nmero de establecimientos abiertos (NESTABL) y mediante el nmero
de plazas (NPLAZAS) ofertadas a los turistas. Se ha propuesto y ajustado un modelo de
regresin que incluye a ambas variables explicativas, as como su interaccin (multiplicados
por sus respectivos parmetros).
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 3,82809E8 3 1,27603E8 74,77 0,0000
Residual 2,9011E7 17 1,70653E6
-----------------------------------------------------------------------------
Total 4,1182E8 20
!
= + $< + =16 + '
+
!
= +
+ <
=
+
</
= + =
+ +
= + + + ' +
! = + +
$ = +
! +
+ ' =
+
!
= + =
+
+ ' !
+ ( 3 +
3
= + (
$!
$! ) +
34 MODELOS DE REGRESIN LINEAL
P12.- Plantear una prueba de hiptesis que permita determinar si la distribucin interior de
un tico (nmero de habitaciones y baos) influye o no en su precio. Precio de la vivienda en
la ciudad de valencia (PRECIO) en miles de euros, superficie de la misma (SUPERFICIE), del
nmero de dormitorios y de baos (NDORM, NBAOS).
< = + +
+ ' 1 + ( 2 +
a) 3 = 4 = 0
b) 23 = 4
c) 3 = 4